CN110442747A

CN110442747A - 一种基于关键词的视频摘要生成方法

Info

Publication number: CN110442747A
Application number: CN201910615122.4A
Authority: CN
Inventors: 黄煜博; 王若梅; 林淑金; 周凡; 林格
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2019-07-09
Filing date: 2019-07-09
Publication date: 2019-11-12
Anticipated expiration: 2039-07-09
Also published as: CN110442747B

Abstract

本发明公开了一种基于关键词的视频摘要生成方法，通过对视频进行视觉通道处理，进行基于关键词的视觉内容摘要提取，得到图像摘要；视频语音文本内容预处理，进行基于关键词的语音文本内容摘要提取，得到文本摘要；利用图像摘要和文本摘要，获得最终图文摘要。本发明提供了一种自动生成视频摘要的方法，大大减少了视频上传者手工操作的时间；充分考虑了视频搜索用户的需求，为用户提供了更加贴合自己搜索意图的视频摘要；使用基于人工智能深度学习技术的方法，使生成的视频摘要更能准确的反映视频的内容。

Description

一种基于关键词的视频摘要生成方法

技术领域

本发明涉及人工智能与计算机视觉领域，具体涉及一种基于关键词的视频摘要生成方法。

背景技术

视频摘要技术自20世纪90年代提出来，作为一个研究热点和难点，得到了国内外众多研究团队的持续关注。理论上，视频是由一系列视频帧按事件顺序或空间分布规则组合得到的图像集，可多角度表达语义信息。然而，视频摘要不仅要对原始视频流进行分析，还应该综合考虑伴随着视频的有意义的音频流和文本流等多媒体信息。

视频摘要是指利用计算机技术分析视频结构，理解视频内容，并从原始的多媒体数据中选取具有代表性的、有意义的部分，将它们以某种方式组合并生成紧凑的、用户可读的原始视频的缩略形式。依据最终的呈现形式，视频摘要可分为静态视频摘要和动态视频摘要。而所谓视频摘要，不光只有缩略图一种形式，往往还伴随着文本。

静态视频摘要可分为标题、海报和故事板。标题是对视频内容的一段简短文字描述，是最简单的静态视频摘要。海报又称为视频代表帧，是从视频中抽出的能够代表视频内容的图像帧。而故事板是从视频中抽取的一段图像序列，按照时间顺序或者重要程度进行组合。

动态视频摘要是从原始视频中选取可表达语义内容的视频片段拼接编辑得到。它本身也是一段视频，但比原视频要短的多。动态视频摘要可分为精彩集锦和全局缩略视频。精彩集锦一般由原始视频中最精彩的部分组成。全局缩略视频是通过对整个时间轴上的视频片段进行组合来对整个视频内容进行概括。

每个视频序列由各种局部和全局视觉特征组成，例如颜色，边缘，运动等。因此，已经开发了许多通过测量每个镜头或场景帧内特征的相似度来检测视频镜头(视频序列)以生成视频摘要的技术。

每个帧/图像的最有效、最富有表现力和简单的特征是颜色，因为它对任何方向和大小的变化都不敏感并且十分稳定。许多视频摘要技术都使用了这个特征。颜色直方图如今已被广泛用于通过计算帧之间的相似性来选择代表性关键帧以生成视频摘要的方法中。

仅基于运动特征的视频摘要是一项具有挑战性的任务，并且在摄像机和物体均运动的情况下会变得更加复杂。然而使用这种技术提取关键帧，可以显着提高视频摘要的表现力和信息量。两种常用的运动估计方法是像素到像素的帧差和光流。

现有的一个方法是一种视频摘要的生成方法及系统(201410709377.4)。

具体步骤如下：

分割原始视频中的目标和背景；

将发生过遮挡或粘连的所述目标划分为一组，其他没有发生过粘连或遮挡的所述目标各自为一组；

根据所述原始视频确定待生成视频摘要的总时长；

根据所述原始视频确定各个组在所述待生成视频摘要中的持续时长，所述各个组内部各个目标的时空关系与所述原始视频中的一致；

根据各个组在所述待生成视频摘要中的持续时长以及所述各个组的开始时刻，生成所述视频摘要。

这种方法的缺点在于：

1.首先生成的摘要是以视频的剪切形式所展示的，对于用户来说不够直观，不能一眼理解到视频内容。

2.这种定制的视频摘要往往是静态性的，它忽略了用户真正想要了解的部分。

3.系统自动生成的视频摘要过于随机，不具备代表性。

发明内容

本发明的目的是克服现有方法的不足，提出了一种基于关键词的视频摘要生成方法。本发明所要解决的技术问题在于提供了一种为视频生成直观的图文摘要的技术，并且通过关键词与图像及文本语义的连接与匹配技术，解决了原有摘要生成方法的静态性以及随机性的缺陷，本方法通过与人工智能结合的技术特点，实现了自动化生成，提高了准确性的同时也减少了定制时间。

为了解决上述问题，本发明提出了一种基于关键词的视频摘要生成方法，所述方法包括：

对视频进行视觉通道预处理，获得初步分割镜头；

利用分割镜头，进行视频场景分割并进行视频帧聚类；

利用聚类后的视频帧，进行基于关键词的视觉内容摘要提取，得到图像摘要；

视频语音文本内容预处理，得到视频语音文本数据；

利用视频语音文本数据，对视频语料库主题模型进行训练，得到文本子主题；

利用文本子主题，进行基于关键词的语音文本内容摘要提取，得到文本摘要；

利用图像摘要和文本摘要，获得最终图文摘要。

本发明提出的一种基于关键词的视频摘要生成方法，提供了一种自动生成视频摘要的方法，大大减少了视频上传者手工操作的时间；充分考虑了视频搜索用户的需求，为用户提供了更加贴合自己搜索意图的视频摘要；使用基于人工智能深度学习技术的方法，使生成的视频摘要更能准确的反映视频的内容。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明实施例的视频摘要生成方法总体流程图；

图2是本发明实施例的视频场景分割流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明实施例的视频摘要生成方法总体流程图，如图1所示，该方法包括：

S1，对视频进行视觉通道预处理，获得初步分割镜头；

S2，利用分割镜头，进行视频场景分割并进行视频帧聚类；

S3，利用聚类后的视频帧，进行基于关键词的视觉内容摘要提取，得到图像摘要；

S4，视频语音文本内容预处理，得到视频语音文本数据；

S5，利用视频语音文本数据，对视频语料库主题模型进行训练，得到文本子主题；

S6，利用文本子主题，进行基于关键词的语音文本内容摘要提取，得到文本摘要；

S7，利用图像摘要和文本摘要，获得最终图文摘要。

步骤S1，具体如下：

S1-1：用颜色直方图特征衡量视频帧的视觉特征相似性，计算方法为16*4*4(H:16，S:4，V:4)的256维的归一化HSV颜色直方图。

S1-2：计算相邻两帧颜色直方图特征的欧氏距离。

S1-3：选取同一段关键帧序列中间的图像作为一个视频镜头。

S1-4：采用Matlab 2015b集成的开源Tesseract OCR引擎对视频帧中的文字信息进行提取。

步骤S2，如图2所示，具体如下：

S2-1：提取视频帧序列的颜色特征和运动特征等视觉特征。

S2-2：基于视觉特征对视频进行镜头分割，然后进行谱聚类得到初步结果。

S2-3：将同一个类簇拆分成一系列连续的镜头片段{s1,s2,…,sn},根据视频时间轴定义两镜头片段距离如公式所示：

s_i表示连续的镜头片段，dc(s_i)表示s_i镜头片段在视频时间轴中的中心位置，e为指数函数，w为所有类间欧式距离的平均值。

S2-4：基于镜头片段时间距离，对各个镜头片段进行k-means聚类，聚类后各个类簇构成的视频镜头序列就是视频场景分割的结果。

步骤S3，具体如下：

S3-1：这里利用R-CNN来做视频帧的语义检测，首先训练(或者下载)一个分类模型(比如AlexNet)。

S3-2：对该模型做fine-tuning，fine tuning的过程其实就是用训练好的参数(可以从已训练好的模型中获得)初始化自己的网络，然后用自己的数据接着训练。将分类数从1000改为20，去掉最后一个全连接层。

S3-3：特征提取，提取图像的所有候选框(选择性搜索)，对于每一个区域：修正区域大小以适合CNN的输入，做一次前向运算，将第五个池化层的输出(就是对候选框提取到的特征)存到硬盘。

S3-4：训练一个SVM分类器(二分类)来判断这个候选框里物体的类别，这里将用户输入关键词语义检测相似性对应为一个SVM，来判断关键帧与关键词是否语义上属于同一类别。

S3-5：输出所有与关键词类别相匹配的视频帧，定为视频的基于关键词的图像摘要。

步骤S4，具体如下：

S4-1：利用微软提供的语音识别工具包来将语音信号转化为文本。

S4-2：过滤停用词和语音识别输出的冗余的时间戳信息。

S4-3：使用TextRank算法对文本信息进行提干处理。TextRank算法是一种用于文本的基于图的排序算法。其基本思想来源于谷歌的PageRank算法,通过把文本分割成若干组成单元(单词、句子)并建立图模型,利用投票机制对文本中的重要成分进行排序,仅利用单篇文档本身的信息即可实现关键词提取、文摘。

步骤S5，具体如下：

S5-1：使用获得的视频数据，经前几步处理后获得的语料库进行LDA训练，挖掘视频语音文本内容的潜在主题模型。LDA联合概率公式如公式所示：

θ表示文档级别的变量，每个文档对应一个θ，z是主题的集合、w是单词的集合，z_n为第n个主题，w_n为第n个单词，是狄利克雷分布的参数，用于生成主题向量，表示各个主题对应的单词概率分布矩阵。

S5-2：将视频语音转文本的结果作为改进后的TextTiling算法的输入，算法改用主题包代替词语包表示文本语义，也就是前步用LDA训练后得到的主题。算法以句子为初始块，提取每个文本块的主题包特征后，以余弦相似度度量相邻文本块的语义相似度。

S5-3：计算深度分数，深度分数表示文本块与其上下文关联度分数的差值，反映了文本块两侧的语义变化的相对剧烈程度，以下公式为深度分数计算方法：

其中hl(c)表示从文本块左边找到的第一个关联度分数最高的峰值，右边hr(c)同理。s(c)表示当前文本块和其上下文的关联度。s(c)的计算公式如下所示。

p，c，f是相邻文本块，t表示文本块的语义特征维度，p表示和当前c文本块相邻的前一个文本块，f表示和当前c文本块相邻的后一个文本块，w_t,c表示c文本块第t维度主题包特征的值。

深度分数越高表明文本块关联度变化的趋势越剧烈，越有可能是主题边界。设置一个阈值，深度大于该阈值的文本块即为主题边界。

步骤S6，具体如下：

S6-1：首先，对视频分割好的主题场景中由LDA提取出来的各个主题场景的文本主题运用TextRank算法提炼出每个主题的分数排在前n个的关键词。

S6-2：使用Word2Vec词向量空间的计算方法，利用训练好的模型，分别获取用户输入关键词以及视频主题关键词的词向量。

S6-3：对两者进行余弦相似度计算，选取与用户输入关键词相似度高的视频主题关键词所对应的视频主题作为视频文本摘要输出。计算公式如下：

t代表用户输入关键词，v代表视频主题关键词。

步骤S7，具体如下：

S7-1：将获得的语义相似度结果进行收集并按降序排列。

S7-2：设置一个阈值x，例如x取5，则取排列中前五的结果作为最终图文摘要。

本发明实施例提出的一种基于关键词的视频摘要生成方法，提供了一种自动生成视频摘要的方法，大大减少了视频上传者手工操作的时间；充分考虑了视频搜索用户的需求，为用户提供了更加贴合自己搜索意图的视频摘要；使用基于人工智能深度学习技术的方法，使生成的视频摘要更能准确的反映视频的内容。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取存储器(RAM，RandomAccess Memory)、磁盘或光盘等。

另外，以上对本发明实施例所提供的一种基于关键词的视频摘要生成方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于关键词的视频摘要生成方法，其特征在于，所述方法包括：

对视频进行视觉通道预处理，获得初步分割镜头；

利用分割镜头，进行视频场景分割进行视频帧聚类；

视频语音文本内容预处理，得到视频语音文本数据；

利用图像摘要和文本摘要，获得最终图文摘要。