CN113343026A

CN113343026A - 在线视频课程内容概要生成方法

Info

Publication number: CN113343026A
Application number: CN202110675318.XA
Authority: CN
Inventors: 张兰; 张忆楠; 李向阳
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2021-06-17
Filing date: 2021-06-17
Publication date: 2021-09-03
Anticipated expiration: 2041-06-17
Also published as: CN113343026B

Abstract

本发明提供了一种在线视频课程内容概要生成方法，通过综合提取分析图像和音频多模态的视频课程信息，克服了多模态资源中主体对象检测和识别困难的问题，在保证准确度和丰富度的前提下，在更丰富的维度上来概括课程类视频的内容，所述方法包括：在线视频课程关键帧抽取，提取文本；分离课程视频的语音信息，转化文本；基于音形码修正对音频文本转化结果，得到修正文本；从所述修正文本中提取出视频的主要内容概要。

Description

在线视频课程内容概要生成方法

技术领域

本发明涉及图像识别、视频分析、自然语言处理领域，尤其涉及一种抽取式内容概要生成的方法。

背景技术

在线视频逐渐成为学生自主学习和学校教学的重要资源。面对大量的在线教学视频，用户快速了解视频课程内容概要的需求日益增长，但是目前普遍存在课程发布者提供的课程简介信息不足等问题。因此，如何高效提取出正确、完善的视频课程摘要是当今在线教育亟需且具有挑战性的课题。

现有的方法集中在单模态信息抽取上，对于特定类型的信息，比如文本信息，能够在保证一定的F1-Score的情况下从原始文本中抽取出基本概括了文本段落大意的多条语句组成的文本。但是现有方法仍存在如下局限性：

1.主体对象检测和识别困难；当前的视频处理和视频摘要方法主要面向人员、动物、物品的易检测、易追踪的对象。而课程视频中的主体更多是ppt内容、字幕、板书等文字和符号类信息，此类信息更难实现检测和追踪，同时老师和学生等人物对象往往成为“干扰”信息；

2.多模态信息融合困难，并且专业术语多：课程视频的主要信息来源不仅包含图像，还包含对应的音频，因此需要充分利用音频信息，并有效融合音视频信息。此外课程视频往往包含大量专业词汇，会导致现有音频识别方法出现大量错误识别(如谐音词)。

3.目前常见的文本摘要方法多面向英文，而如何对视频课程中的中文文本进行有效的摘要提取依然是个具有挑战性的课题。

发明内容

有鉴于此，本发明的主要目的在于提供一种在线视频课程内容概要生成方法，以期部分地解决上述技术问题中的至少之一。

为了实现上述目的，本发明提供了一种在线视频课程内容概要生成方法，通过综合提取分析图像和音频多模态的视频课程信息，克服了多模态资源中主体对象检测和识别困难的问题，在保证准确度和丰富度的前提下，在更丰富的维度上来概括课程类视频的内容，所述方法包括：

在线视频课程关键帧抽取，提取文本；

分离课程视频的语音信息，转化文本；

基于音形码修正对音频文本转化结果，得到修正文本；

从所述修正文本中提取出视频的主要内容概要。

其中，所述在线视频课程关键帧抽取是通过帧间差分法实现的。

其中，通过帧间差分法实现的在线视频课程关键帧抽取具体包括：

逐帧读取视频，对于每一帧进行人像识别，直到检测出人像的第一帧，确定人像所在的坐标矩形框；

对于每一帧，创建与该帧的长度和宽度相同的图像掩码，将掩码中在矩形框中的像素值全部设置为255，其他像素值设置为0；将掩码覆盖到图像帧上；

将当前帧和前序帧两帧做差，取得绝对值，除以像素数量得到平均帧差；

对所有的帧差值进行汉宁窗口平滑；

取平滑后帧差最大的帧作为最终的关键帧。

其中，从语音中提取文本是通过调用讯飞的语音识别API实现的。

其中，所述基于音形码修正对音频文本转化结果，得到修正文本的步骤包括：

将词汇中每个单词发音映射到音形码4位字符位，即第一、二、三、四字符位仍然分别代表韵母位、声母位、韵母辅音位、声调位，将声母按照发音相似进行分类，通过声母所处的类别，计算音形码的相似度，将声母位的相似度平滑为一个在0到1之间的小数，再将每一个字符位相似度逐位加权计算，得到两个词汇的音形码的最终相似度；

将语音识别出的原始文本中的每个词语的音形码与正确词库中的每个词语的音形码比对，替换成正确的词汇。

其中，从所述修正文本中提取出视频的主要内容概要包括：

结合图像中识别出的文本和经过修正后的音频文本，建立抽取式模型生成文本的内容概要；其中，抽取式概要是指在原始文本中抽取出一个语句子集，子集中的每一条语句都来自于原始文本，子集能够最全面的概括原始文本的主要内容。

其中，所述结合图像中识别出的文本和经过修正后的音频文本，建立抽取式模型生成文本的内容概要包括：

微调BERT预训练模型，在BERT特征提取器后接入线性分类器作为摘要层，该层会输出一个向量，向量中的第i个位置的小数表示第i条语句是否被选为摘要的概率；摘要层设置为sigmoid函数；最后选择出概率最高的k条语句作为最终的内容概要。

基于上述技术方案可知，本发明的在线视频课程内容概要生成方法相对于现有技术至少具有如下有益效果的一部分：

本发明克服了多模态资源中主体对象检测和识别的困难，在保证准确度和丰富度的前提下，综合考虑图像和音频等多个因素，在更丰富的维度上来概括课程类视频的内容，生成能很好概括课程视频的内容概要。

附图说明

图1为本发明实施例提供的在线视频课程内容概要生成方法的流程示意图；

图2为本发明实施例提供的人像掩码的帧差平滑曲线图；

图3为本发明实施例提供的改进的音形码结构图；

图4为本发明实施例提供的微调BERT中文文本摘要模型结构图。

具体实施方式

针对现有方法所存在的问题，本发明的目的是提供一种适合抽取在线视频类课程内容概要的方法，能够综合在线视频课程的视频、音频两种模态的信息，抽取出课程内容的概要。

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，并参照附图，对本发明作进一步的详细说明。

如图1所示，本发明实施方式提供一种在线视频课程内容概要生成方法，通过综合提取分析图像和音频等多模态的视频课程信息，克服了多模态资源中主体对象检测和识别困难的问题，在保证准确度和丰富度的前提下，在更丰富的维度上来概括课程类视频的内容，方法包括：

步骤1.1，在线视频课程关键帧抽取，提取文本；

步骤1.2，分离课程视频的语音信息，转化文本；

步骤2，基于音形码修正对音频文本转化结果；

步骤3，从修正文本中提取出视频的主要内容概要。

上述方法步骤1.1中，关键帧抽取的目的是减少处理图像单元的冗余，提升处理视频的效率。因为视频的内容较大，由于视频的动态效果，一个视频往往包含成千上万帧，而这些帧序列里也包含了许多的冗余信息。综合考虑算法在时间和空间上的效率，不可能也没必要对视频进行逐帧处理。所以从视频中抽取出包含信息更多的关键帧序列为后续获取图像中的文本至关重要。主要思路是一般情况下，视频中的同一动作的连续两帧差别不会很大，若出现变化非常大的连续两帧，那么这两帧很大可能作为关键帧。而在课程类视频中，直接的帧间差分法并不适用，因为该场景下关键帧的变化应当主要受背景PPT的变化影响，而视频中如果有人物出现，那么帧差值很容易受到人物动作的影响，所以在抽取关键帧时，要尽可能减小人物动作的影响。

上述方法步骤1.2中，从语音中提取的文本对内容概要的影响最大。这与现实情况符合。例如，在一段课程类视频中，教师所说的话是课程内容中的主体，对这些内容抽取概要可以更好的概括一节课中的内容。

上述方法步骤2中，由于某个课程视频的语料库不足或是一些中英文夹杂的复杂语言场景下，有些在日常生活中使用较少的学科领域专业词汇经常会出现识别出错的情况。所以需要对这些识别出错的地方进行修正。音形码是一组描述词汇发音的字符串编码，通过计算两个词汇的音形码相似度刻画出两个词汇是否相似，进而把可能在语音提取文本时识别错误的词汇找到，并修改为正确的课程专业词汇。

上述方法步骤3中，结合图像中识别出的文本和经过修正后的音频文本，建立抽取式模型生成文本的内容概要。抽取式概要是指在原始文本中抽取出一个语句子集，子集中的每一条语句都来自于原始文本，子集能够最全面的概括原始文本的主要内容。

本发明的方法，通过结合音频和图像两个不同模态的信息对在线视频课程提取内容概要，不但适用于在线课程类的视频，还可以被广泛应用于其他主体变化明显，音频内容丰富和语言采用中文的视频摘要场景。

其中，各步骤具体如下：

步骤1.1，基于帧间差分法实现关键帧抽取。

1)逐帧读取视频，对于每一帧进行人像识别，直到检测出人像的第一帧，确定人像所在的坐标矩形框(X1，X2，Y1，Y2)，其中X1，Y1分别代表掩码矩形框左上角的坐标，X2，Y2分别代表掩码矩形框右下角的坐标。

2)对于每一帧，创建与该帧的长度和宽度相同的图像掩码，将掩码中在矩形框中的像素值全部设置为255，其他像素值设置为0。将掩码覆盖到图像帧上。

3)将当前帧和前序帧两帧做差，取得绝对值，除以像素数量得到平均帧差。

4)对所有的帧查值进行汉宁窗口平滑。减小突变等偶然因素的干扰。如图2所示，为人像掩码的帧差平滑曲线图。

5)取平滑后帧差最大的X帧作为最终的关键帧。(X可指定)

步骤1.2，从语音中提取文本通过调用讯飞的语音识别API实现。

步骤2，通过音形码修正语音识别错误的词汇。

1)将词汇中每个单词发音映射到音形码4位字符位，即第一、二、三、四字符位仍然分别代表韵母位、声母位、韵母辅音位、声调位，将声母按照发音相似进行分类，通过声母所处的类别，计算音形码的相似度，将声母位的相似度平滑为一个在0到1之间的小数，再将每一个字符位相似度逐位加权计算，得到两个词汇的音形码的最终相似度。如图3所示，为改进的音形码结构图。

2)将语音识别出的原始文本中的每个词语的音形码与正确词库中的每个词语的音形码比对，替换成正确的词汇。

步骤3，微调BERT预训练模型，在BERT特征提取器后接入线性分类器作为摘要层，该层会输出一个向量，向量中的第i个位置的小数表示第i条语句是否被选为摘要的概率。摘要层设置为sigmoid函数，即

其中

为第i个句子的预测得分，T_i表示第i个句子经过BERT算后的向量，σ为Sigmoid函数。最后选择出概率最高的k条语句作为最终的内容概要。如图4所示，为微调BERT中文文本摘要模型结构图。

由于利用了信息更丰富的语音信息，本发明提出的方法不但适用于在线课程类的视频，还可以被广泛应用于其他主体变化明显，音频内容丰富和语言采用中文的视频摘要场景。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种在线视频课程内容概要生成方法，其特征在于，通过综合提取分析图像和音频多模态的视频课程信息，克服了多模态资源中主体对象检测和识别困难的问题，在保证准确度和丰富度的前提下，在更丰富的维度上来概括课程类视频的内容，所述方法包括：

在线视频课程关键帧抽取，提取文本；

分离课程视频的语音信息，转化文本；

基于音形码修正对音频文本转化结果，得到修正文本；

从所述修正文本中提取出视频的主要内容概要。

2.根据权利要求1所述的方法，其特征在于，所述在线视频课程关键帧抽取是通过帧间差分法实现的。

3.根据权利要求2所述的方法，其特征在于，通过帧间差分法实现的在线视频课程关键帧抽取具体包括：

逐帧读取视频，对于每一帧进行人像识别，直到检测出入像的第一帧，确定人像所在的坐标矩形框；

对所有的帧差值进行汉宁窗口平滑；

取平滑后帧差最大的帧作为最终的关键帧。

4.根据权利要求1所述的方法，其特征在于，从语音中提取文本是通过调用讯飞的语音识别API实现的。

5.根据权利要求1所述的方法，其特征在于，所述基于音形码修正对音频文本转化结果，得到修正文本的步骤包括：

6.根据权利要求1的方法，其特征在于，从所述修正文本中提取出视频的主要内容概要包括：

7.根据权利要求6的方法，其特征在于，所述结合图像中识别出的文本和经过修正后的音频文本，建立抽取式模型生成文本的内容概要包括：