CN113312503A

CN113312503A - 一种新的教学类视频内容摘要和可视化浏览方法

Info

Publication number: CN113312503A
Application number: CN202110416284.2A
Authority: CN
Inventors: 赵宝全; 汪飞; 王洪斐; 冯嘉浩; 罗笑南
Original assignee: Guilin Xiaowei Hotel Management Co ltd; Guilin University of Electronic Technology
Current assignee: Guilin Xiaowei Hotel Management Co ltd; Guilin University of Electronic Technology
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2021-08-27

Abstract

本发明以视觉通道和语音通道为主要研究对象，综合运用视频分割、图像语义理解、自然语言处理等多种技术，设计了一种新的面向教学类视频的图文内容摘要和可视化浏览方法，以辅助用户对视频进行内容探索和定位，提升其信息获取效率和视频浏览体验。具体地说，本发明首先对视频视觉内容进行分析和处理，通过分割的每一个语义单元提取关键帧并对其进行图像语义理解和显著性区域检测，得到视频的视觉实体；其次，使用语音识别和自然语言处理的技术对音频信息进行处理，提取主题句和关键词等文本实体；最后，为每个主题单元分配权重，将视频的视觉实体和文本实体进行语义关联映射，并将其封装成图文并茂的可视化内容摘要。

Description

一种新的教学类视频内容摘要和可视化浏览方法

技术领域

视频摘要、自然语言处理、图像语义理解，自动化图文布局

背景技术

随着信息技术的发展和互联网的普及，以视频为载体的教育类信息资源呈快速增长的趋势。传统的视频浏览定位方式以基于缩略图的方法为主，即用户通过鼠标在视频进度条上滑动时展示此时刻对应的帧画面。但传统的浏览方式仅利用了视频有限的图像信息，而忽略了视频音频通道中可能包含的丰富的语义线索，而这些线索对于教育类视频的内容查找、浏览和定位至关重要。随着当今信息查找更趋向于精细化、可视化、多元化，传统的视频浏览方式难以满足用户快速浏览和定位视频有效信息的需求。因此，如何从图像通道和语音通道中的多模态信息进行挖掘和可视化呈现，从而提高用户视频浏览和内容查找，实现高效的信息检索，成为多媒体领域亟待解决的一个问题。

本发明介绍了一种新的教育类视频图文内容摘要和可视化浏览方法。教学视频的信息源主要来自两个通道：视觉通道和语音通道。视觉通道中所包含的图像是已有的视频内容摘要和浏览方法重点关注和研究的内容。图像往往包含着直观丰富的视觉线索，可以有效地辅助用户对视频进行浏览和内容定位。然而，对于教学类视频而言，仅仅基于图像信息的视频分析和处理方法会有一定程度的局限性。这是因为对于某些视频图像而言(如讲述者的镜头)，用户无法充分地从中获取讲述者在对应时刻讲述的内容。对于教学类视频而言，其语音通道中同样包含着丰富的语义信息。这些信息是对视频图像内容的重要阐释和补充，对于用户视频内容的浏览和定位同样起着十分关键的作用。然而，现有的视频内容浏览和定位方法则更多关注视频的图像内容，未能充分挖掘和利用这些信息并形成有效的线索来提升用户在浏览教学类视频时的信息获取效率。

本发明以上述的两个信息通道为主要研究对象，综合运用视频分割、图像语义理解、自然语言处理等多种技术，设计了一种新的面向教学类视频的图文内容摘要和可视化浏览方法，以辅助用户对视频进行内容探索和定位，提升其信息获取效率和视频浏览体验。具体地说，本发明首先对视频视觉内容进行分析和处理，将视频分割为一系列语义单元，然后从每一个语义单元提取关键帧并对其进行图像语义理解和显著性区域检测，得到视频的视觉实体；其次，使用语音识别和自然语言处理的技术对视频语音通道中的音频信息进行处理，并从中提取主题句和关键词等文本实体；最后，为每个主题单元分配权重，将视频的视觉实体和文本实体进行语义关联映射，并将其封装成图文并茂的可视化内容摘要，从而帮助用户快速浏览、查找和定位教学类视频内容。

发明内容

针对教学视频的摘要生成过程，本发明的目的是提供一种新的教育类视频图文内容摘要和可视化浏览方法。

实现本发明的技术方案是：

本文所述方案共分为四个部分，分别是视频镜头分割及关键帧提取、图像显著性物体识别及分类、视频语音内容处理(语音识别)及主题句及关键词提取、图文内容摘要生成。不失一般性，在本发明中我们以烹饪类的教学视频为例介绍所提出的方法。

从原始视频图像分割出图像帧，进行边缘性检测提取出镜头，进行图像显著性分析确定关键帧；从音频文件进行语音识别，生成文本文件，或存在字幕文件时可省略该步骤，再根据文本内容进行语义分析提取文本语义单元；结合关键帧和文本语义单元进行语义理解和分析生成视频语义单元。

根据关键帧进行显著对象检测识别出图像对象，根据文本语义单元提取关键步骤语句，最终结合这两种信息生成视频内容摘要。

通过视频内容摘要进行可视化内容摘要的布局，布局方案分为两种。方案一的两个主要步骤为确定初始布局和基于马尔可夫链蒙特卡洛算法进行布局优化；方案二的三个主要步骤为通过利用贝叶斯网络构建一个概率模型来推断面板的属性、并利用二叉树结构递归拆分布局以及采用贝叶斯网络进行面板排序与合成。

(1)视频镜头分割及关键帧提取

视频镜头单元及关键帧提取，将原始视频进行预处理，进行视频镜头边缘检测和镜头内关键帧提取。根据帧图像的灰度值直方图差异进行边缘检测，根据帧之间的差异值确定镜头边缘帧。相邻的两个镜头之间的帧图像个数存在阈值，当高于该阈值时视为两个镜头，且镜头边缘帧的前一帧的差值为所有帧差中最大数。

进行优化处理，出现陡增或陡降的情况，即前面的多个帧与该帧的差值出现近乎90度的陡增或陡降效果则视为镜头边缘帧。

(2)图像显著性性物体识别及分类

根据图像显著性提取出视频关键帧，应用一种逆向烹饪系统处理方法，能够逆向检测出食物的原材料。由于食物及其成分具有很高的组内变异性，在烹饪过程中容易变形。使用该逆向烹饪系统处理方法识别出食物图像的类别。

(3)视频语音内容处理(语音识别)及主题句及关键词提取

如不存在字幕文件，则通过语音识别生成文本文件。根据该文本文件使用Stanford NLP提取烹饪步骤。Stanford法实现烹饪步骤的提取共分为命名实体识别和语义角色标注两部分。命名实体识别是指识别文本中具有特定意义的实体，在本文中包括烹饪时的常见食物、常见厨具以及烹饪动作。语义角色标注指以句子的谓词为中心，分析句子中各成分与谓词之间的关系，即句子的谓词(Predicate)-论元(Argument)结构，并用语义角色来描述这些结构关系。在本文中将谓词作为配方中的一个动作，每个谓词的参数是一个短语，由解析树的一个节点构成，将食物或者厨具标记为接收者或者执行者作为主语。

(4)图文内容摘要生成

参照由字幕文件生成的烹饪步骤设置烹饪视频进行分割的片段，由字幕文件中的时间设置找到字幕对应的视频片段，由步骤中进行操作的配料名称与相应时间片段中所截取帧的图片进行识别生成的食物名称进行匹配，找到对应操作的画面作为分割片段的封面。

(5)关于布局算法的方案

方案一共包括以下两个主要步骤。

1)确定初始布局

2)基于马尔可夫链蒙特卡洛算法进行布局优化

方案二共包括以下三个主要步骤。

1)通过利用贝叶斯网络构建一个概率模型来推断面板的属性：

2)采用二叉树结构递归拆分布局：

3)采用贝叶斯网络进行面板排序与合成

本发明的有益效果是：

(1)根据不同类型的教学视频，进行相关数据源的收集即可生成对应视频类型的数据集，进行数据训练和处理后以有监督的机器学习处理生成相应的视频步骤分解片段；

(2)通过本发明，可实现根据一个视频的主要内容(图形元素以及相关文本描述等)自动产出一份排版友好的图文内容简报，用户无需完整观看整个视频便可通过简报了解视频的中心内容，提高了用户浏览和查找教学类视频内容的效率，节省了观看视频的时间成本；

(3)传统的布局是在相对规矩的区域内放置相关数据，此类布局排版不够紧凑，导致页面空间上的巨大浪费；本发明中产生的布局有着排版高度紧凑的特点，为页面节省大量的空间，且更为美观。

附图说明：

图1是传统的视频内容摘要方式分类

图2是视频摘要生成流程

图3是视频内容摘要生成流程图

图4是提取的视频镜头单元

图5是提取的视频关键帧

图6是通过爬虫提取的菜谱格式

图7是垂直及水平方向的布局划分

具体实施方式：

下面结合附图详细说明本发明的优选实施例。

传统的视频内容摘要方式如图1所示，从原始视频中提取有意义的片段或帧，可分为静态视频摘要和动态视频摘要。静态视频摘要由关键图像帧构成，以直接、分层或缩放的方式进行组合。静态视频摘要又可以分为标题、海报和故事板。动态视频摘要由视频关键视频片段进行拼接形成，又分为精彩集锦和全局缩略视频，精彩集锦由视频的关键图像构成，全局缩略视频是视频内容的概览。

本方案采取的动态视频摘要方式如图2所示，动态视频摘要的步骤为视频段分割、视频段选取和视频段整合，根据视觉、文本等特性分割成独立单元再进行整合。具体生成流程第一步为对视频内部、外部内容进行分析，获取视频语义信息，再根据数据聚类、曲线规划、机器学习等方式生成摘要，最终形成视频摘要，生成的视频镜头单元如图4所示。

接着提取出视频关键帧如图5所示，接着采用的技术手段为一种克服检索系统数据集约束的方法，将图像到配方问题转化为条件生成问题。本文采取的技术方案，配料和烹饪说明直接由图像生成。该方法首先从图像中预测配料，然后对图像和配料进行条件处理以生成烹饪说明。该方案将指令生成问题转化为同时以两种模式(即图像及其预测成分)为条件的序列生成问题。将成分预测问题描述为一个集合预测，利用其基本结构，对成分依赖性进行建模，同时不对预测顺序进行惩罚，从而修正了顺序是否重要的问题。通过该方法实现提取出食物图像进行还原出食材的名称。

进一步进行视频语音内容处理(语音识别)及主题句及关键词提取。通过StanfordNLP方法提取烹饪步骤，烹饪步骤的提取共分为命名实体识别和语义角色标注两部分。

以下为命名实体识别的实现步骤：

1)收集菜谱数据

这里通过爬虫在菜谱网站https://www.feastingathome.com/进行菜谱数据的爬取，包括菜谱的名称、做菜所用时间、菜谱所用到的配料、以及做菜的步骤。总共爬取700多篇菜谱作为原始数据，提取的菜谱格式如图6所示。

2)建立数据集

对数据进行人工标注，根据Stanford创建数据集的规范，数据集格式以tsv格式保存。数据标注分类为：AMOUNT——标注某种成分的数量；UNIT——成分的计量单位或厨具；FOOD——配料表中提到的项目的主要食品词；ACTION——应用于成套食材的主要动作动词；O——除却以上标注词外的其他词汇标注。

按照Stanford创建数据集的规范进行.ser.gz的模型文件创建，生成ser.gz文件。

3)实现命名实体识别

选择NLTK和Stanford作为自然语言处理的工具箱，读取输入字幕文本文件，使用StanfordTokenizer对文本实现分词，使用WordNetLemmatizer实现对文本的词性还原，进行预处理后进行命名实体的识别。使用stanford-ner.jar和预备好的数据集FoodDataset.ser.gz通过Stanford解析器实现对文本的命名实体识别。

以下为语义角色标注和语法树建立实现步骤：

定义了语义角色标签如下，通过命名实体识别进行标记过后，每个烹饪动作作为配方中的一个动作，每个谓词的参数将是一个短语，由解析树中的一个节点组成，如果它是应用该操作的一个成分(或一组成分)如食物，则标记为“接收者”，如果它是执行该操作的工具之一如厨具，则标记为“代理”。

使用NER命名实体识别承担特征学习的大多数任务，SRL使用以下规则(以深度遍历树的方式实现)：

1)对于给定的节点n与所讨论的谓词的距离不如与所有其他谓词的距离，则舍弃该节点及其叶节点(距离定义为节点与节点和另一个节点的最低共同祖先之间的边数)

2)如果该节点跨越的所有叶都有一个标签“O”，舍弃该节点

3)如果节点不是重要标签节点或重要标签节点的父节点，则对节点的所有子节点递归调用此过程

4)如果节点所跨越的所有叶都有NER标签“FOOD”，将节点标记为接收者，不考虑其任何后代

5)如果节点跨越的所有叶都有NER标签“UNIT”，则将节点标记为代理，不考虑其任何后代

6)如果上述两个条件都不满足，则对节点的所有子代重复调用此过程

建立语法树后提取符合条件的语句，在去除停止词后作为烹饪的步骤语句。

结合视频的视觉实体和文本实体进行语义关联映射，并将其封装成图文并茂的可视化内容摘要。然后进行布局：

方案一共包括以下两个主要步骤。

确定初始布局：

初始布局按照以下规则进行划分：①总体划分为三行；②多次发言的同一个人的相关数据放置在同一行；③对于除②情况以外的其他情况，随机地在每一行中放置两到三个面板；④根据此行中要显示的图像帧的显著性与当前页面中所有帧的显著性之比来估计每一行的初始高度与每个面板的宽度；⑤扫描视频关键帧序列以检测是否存在局部循环结构(即两个发言者交替交谈的会话结构)，倘若存在，通过合并面板的方法进行处理。

基于马尔可夫链蒙特卡洛算法进行布局优化：

定义一个如下所示的能量函数，用帧的显著性值定量地测量当前页面中包含的信息。用一个状态变量集统一表示该方案涉及到的变量：布局线段的参数坐标、每个帧的缩放因子以及语义气球的位置表示等。用基于全局对比的显著性检测方法计算每个关键帧的显著性映射，因为面板大小有限，显著性值越大意味着该信息越重要，也就意味着需要为之分配更多的面板空间。最后，使用马尔可夫链蒙特卡洛方法最大化该能量函数，从而得出布局相关参数的最优解。

变量表示量化后的要显示区域中所包含像素的视觉显著性值之和

变量表示面板中被语义气球遮挡的区域中所包含像素的视觉显著性值之和。

变量表示面板中语义气球的信息，由包围框中的点给定的重要性值之和来进行测量。

f(Si)是一个用于防止从原始框架中选择的区域被映射到面板时收缩过多的函数，通过调整这个函数可以影响漫画页面呈现的视觉内容的规模。

方案二共包括以下三个主要步骤：

通过利用贝叶斯网络构建一个概率模型来推断面板的属性：

假设整体布局由多个面板组成，每个面板又包括图形元素以及相关文本描述等内容；假设面板的大小S_p和纵横比r_p有条件地取决于文本比例t_p、图形元素数量n_p和图形元素比例g_p，把一组面板P的联合概率定义为：

该联合概率的最优值便是面板属性的最优解。

采用二叉树结构递归拆分布局：

如图7所示，以步骤一求得的面板布局作为输入，通过计算得出损失(包括面板形状变化的损失以及导致面板布局变化的综合损失)最小的最优划分横纵比，首先进行垂直方向上的划分，再进一步进行水平方向上的划分。

采用贝叶斯网络进行面板排序与合成

通过训练一个新的概率模型推断面板元素的属性，从而以合理的次序与位置进行内容填充与面板合成。我们通过构造一个贝叶斯网络来描述面板属性和相关内容数据之间是如何相互作用的。图形元素的水平位置(hg)依赖于元素所属面板的形状(rp)和元素本身的属性(rg，sg)。确定了每个图形元素的位置后，文本内容可以按顺序填充到面板中。时序较早的数据放置位置更靠近二叉树的根节点，时序较晚的数据更靠近二叉树的叶子节点。

Claims

1.对应教学视频进行命名实体识别的数据集，其特征为经过人工注释的相关教学步骤文本的数据集，经过Stanford解析器处理生成的GZ文件，可以应用于自然语言处理中关于对应教学类别文本的命名实体识别。

2.一种教学类文本步骤提取的方案，其特征在于：对视频所提取出的字幕文件文本，经过自然语言处理中命名实体识别和语义角色解析，从视频的讲解语言中提取出教学的相应步骤。

3.教学视频的分割方案，其特征在于：根据对视频的图像处理和字幕文件的自然语言处理，根据教学步骤，将视频分割成用户易检索的片段，用户根据描述性语言查找相应的执行步骤。

4.教学类视频可视化图文摘要方法，其特征在于：该方法所生成的视频摘要中包含了视频的语义单元、教学步骤、以及与语义单元相关联的标题和显著性视觉内容。

5.使用初始布局确定与基于马尔可夫链蒙特卡洛算法进行布局优化相结合的方法，其特征在于：对视频中的图片、文本等数据进行智能排序、组合与排版，生成一份排版高度紧凑、内容排列次序与视频一致的海报式布局。

6.使用贝叶斯网络构建概率模型推测面板属性与采用二叉树结构递归拆分布局相结合的方法，其特征在于：对视频中的图片、文本等数据进行智能排序、组合与排版，生成一份排版高度紧凑、内容排列次序与视频一致的海报式布局。