CN110083741B

CN110083741B - 文本与图像联合建模的面向人物的视频摘要提取方法

Info

Publication number: CN110083741B
Application number: CN201910291983.1A
Authority: CN
Inventors: 徐童; 周培伦; 尹智卓; 刘�东; 吕广奕; 陈恩红
Original assignee: University of Science and Technology of China USTC
Current assignee: University of Science and Technology of China USTC
Priority date: 2019-04-11
Filing date: 2019-04-11
Publication date: 2022-10-28
Anticipated expiration: 2039-04-11
Also published as: CN110083741A

Abstract

本发明公开了一种文本与图像联合建模的面向人物的视频摘要提取方法，包括：对原始视频数据进行预处理，获得等间距的视频帧序列以及与原始视频数据相关的文本信息；利用人物检测的方法逐帧地、无差别地定位出所有的人物区域，并通过一定范围的时间窗口筛选出相关的文本信息；根据选出的人物区域与相关的文本信息，利用重识别的方法将每一人物与目标人物进行匹配，将匹配成功的人物区域及对应文本信息所属的视频帧作为关键帧；根据时间相关性聚合所有关键帧，并补充一些过渡帧以形成流畅的视频片段，从而得到面向人物的视频摘要。该方法可以结合视觉信息以及多源的文本信息，产生更加细粒度的面向视频人物的摘要。

Description

文本与图像联合建模的面向人物的视频摘要提取方法

技术领域

本发明涉及计算机视觉和自然语言处理领域，尤其涉及一种文本与图像联合建模的面向人物的视频摘要提取方法。

背景技术

视频摘要是视频分析的重要问题，它的任务是从一段完整的视频中抽取出包含该视频主要元素的摘要，例如视频中的高亮片段或符合特定主题的摘要等等。在现实场景中，传统的视频摘要方法无法满足用户的更加个性化的需求，尤其对于一些影视爱好者或喜爱特定人物的观众而言，他们可能更乐于做一些特殊的面向人物的摘要，例如特定明星在某部影视作品中出场片段的剪辑等。然而，由于当前的技术所限，单纯基于视频分析的技术往往开支巨大，却很容易造成关键帧的遗漏或误判，从而影响用户体验。

另一方面，注意到，现有的大部分的视频摘要方法都是基于视觉特征来衡量摘要的突出性，却很少利用到视频中富含的文本信息。而事实上，视频中含有大量的不同类型的文本信息，诸如字幕和弹幕等，可以为描述当前帧的内容，尤其是提示当前出场人物的身份特征提供更为直接的语义线索。因此，如能将文本信息和视觉信息有效结合，可以更好地完成面向人物的视频摘要任务。

发明内容

本发明的目的是提供一种文本与图像联合建模的面向人物的视频摘要提取方法，可以结合视觉信息以及多源的文本信息，产生更加细粒度的面向视频人物的摘要。

本发明的目的是通过以下技术方案实现的：

一种文本与图像联合建模的面向人物的视频摘要提取方法，包括：

对原始视频数据进行预处理，获得等间距的视频帧序列以及与原始视频数据相关的文本信息；

利用人物检测的方法逐帧地、无差别地定位出所有的人物区域，并通过一定范围的时间窗口筛选出相关的文本信息；

根据选出的人物区域与相关的文本信息，利用重识别的方法将每一人物与目标人物进行匹配，将匹配成功的人物区域所属的视频帧作为关键帧，并保存相应的文本信息；

根据时间相关性聚合所有关键帧，并补充一些过渡帧以形成流畅的视频片段，再结合对应的文本信息，从而得到面向人物的视频摘要。

由上述本发明提供的技术方案可以看出，相比于传统的视频摘要方法，本发明探究了更加细粒度的面向人物的视频摘要问题。一方面，可以提供更为优良的人物视频摘要，在准确率、召回率和流畅度等主客观指标上都能获得更好的结果；另一方面，通过视频图像与文字的结合，可以充分挖掘并揭示与目标人物相关的语义信息，并为支撑其他相关应用提供了基础。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。

图1为本发明实施例提供的一种文本与图像联合建模的面向人物的视频摘要提取方法的流程图；

图2为本发明实施例提供的人物重识别的示意图；

图3为本发明实施例提供的不同的情境选择文本源的示意图。

具体实施方式

下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。

本发明实施例提供一种文本与图像联合建模的面向人物的视频摘要提取方法，如图1所示，其主要包括如下步骤：

步骤1、对原始视频数据进行预处理，获得等间距的视频帧序列以及与原始视频数据相关的文本信息。

本步骤的优选方式如下：

1)对原始视频数据进行等间距的采样，得到一个由视频帧组成的序列。示例性的，可以设置0.5帧/秒的采样频率进行采样。

2)对与原始视频数据相关的文本进行去噪和时间轴校正。文本信息包括弹幕文本信息与字幕文本信息两种类型。对于弹幕文本信息，为了过滤掉无关的文本，采用正则规则过滤符号字符，并根据打字速度(一般约30字/分钟)对弹幕文本信息的发送时间进行矫正。

步骤2、利用人物检测的方法逐帧地、无差别地定位出所有的人物区域，并通过一定范围的时间窗口筛选出相关的文本信息。

本步骤的优选方式如下：

对于一个视频帧序列，使用基于Faster R-CNN(快速的基于区域的卷积神经网络)的人物检测方法逐帧地、无差别地定位出所有在序列中出现的人物区域；示例性的，对Faster R-CNN人物检测器使用VGG-16网络进行初始化，进而利用Faster R-CNN构建一个简单的二分类器(是否包含人类)，并在只包含人物的图像数据集上重新训练以期得到更精准的检测能力。

根据人物区域所属的视频帧的时刻为基准(例如，0s)，使用不同范围的时间窗口分别筛选出相关的弹幕文本信息与字幕文本信息。示例性的，弹幕文本的时间窗口为当前帧所处时刻的[-10s,15s]范围(即提取前10s，后15s内所有的弹幕文本)，字幕文本的时间窗口为[-45s,45s]。具体时间窗口长度可根据需要进行调整。

同时，采用上述方式从目标视频帧中定位出目标人物区域，并提取相应的文本信息。

步骤3、根据选出的人物区域与相关的文本信息，利用重识别的方法将每一人物与目标人物进行匹配，将匹配成功的人物区域所属的视频帧作为关键帧，并保存相应的文本信息。

本步骤的人物重识别过程可基于图2所示的网络结构来实现，上述步骤2的处理结果为网络的输入。

将定位出的所有人物出现的区域作为候选对象，将目标人物区域作为目标对象，将一对<候选对象,关联文本>作为网络的输入，该输入代表需要通过匹配来识别的不同的人物区域以及与之关联的文本信息，网络的输出为一个二元数组，判断目标对象和候选对象是否属于同一个人物，[1,0]代表是，[0,1]代表否，如果是，则说明匹配成功，将匹配的候选对象所属的视频帧作为关键帧。

如图2所示，人物重识别过程包含两部分结构，主干用于提取目标对象和候选对象的视觉特征差异，分支用于提取出目标对象和候选对象的语义特征差异，优选方式如下：

1)对于每一候选对象，均利用沙漏状的卷积网络结构去提取其与目标对象的多尺度的视觉特征，并计算整体的视觉相异向量。

如图2所示，利用沙漏状的卷积网络结构在不同的尺度上生成目标对象和候选对象的视觉特征图对，并对视觉特征图对进行匹配和包扎操作，从而得到特征差异图；将每一尺度的特征差异图通过全局池化、每个维度的平方化和批量标准化来计算相应的视觉相异向量；最后，将不同尺度对应的视觉相异向量拼接起来作为一个整体的视觉相异向量，通过整体的视觉相异向量来表征目标对象和候选对象在视觉层面上的差异性。

为了便于图形的绘制，图2仅示例性的给出了三种尺度的结构，但是，在实际应用中，用户可以根据需求或者经验来设定具体的尺度数量。

示例性的，主干部分可通过多尺度的克罗内克积匹配(Kronecker-Product-Matching，KPM)模型实现。该模型采用了沙漏状的结构在不同的尺度上生成目标对象和候选对象的特征图对，并基于KPM模块和残差自注意力模块对特征图进行匹配和包扎操作，从而得到特征差异图以用于目标对象和候选对象的相似度估计。

示例性的，首先所有输入图像的分辨率均归一化至256×128，再使用34层的经典残差网络作为特征提取器以得到高层的特征图；在上采样阶段，采用反卷积来得到更大分辨率的特征图；分别采用8×4(分辨率-1),16×8(分辨率-2)，32×16(分辨率-3)和64×32(分辨率-4)共计4个分辨率的特征差异图通过全局池化，每个维度的平方化和批量标准化来计算视觉相异向量，通过视觉相异向量来表征目标对象和候选对象在视觉层面上的差异性。相关的参数均可根据实际应用场景的数据特征进行调整。

2)利用长短期记忆网络和神经主题模型提取相关的文本信息的语义特征向量。

a、弹幕是一类具有较强随意性和缺乏规范性的文本，对于弹幕文本信息从两个个角度进行向量化表示：使用多层的字符级长短期记忆网络建模弹幕中的序列信息，提取弹幕的N维的语义向量(也属于字符向量)；使用基于变分自编码器的神经主题模型作为弹幕语义的提取器，将弹幕文本信息中的字符在P个主题上的分布作为字符向量构成弹幕文本的表征；弹幕文本信息的语义特征向量表示为文本中所有N维的语义向量与字符向量的均值。

b、对于与弹幕不同源的字幕文本，考虑到其具有较强的规范性，对于字幕文本信息，使用基于负采样的Skip-gram模型(滑动窗口模型)对基于结巴分词后的字幕词语进行了S维的向量化表示，字幕文本信息的语义特征向量表示为文本中所有词向量的均值。

本发明实施例中，所述的N、P与S均为设定的整数；示例性的，可以设置：N＝256，P＝50，S＝300。

基于上述方式，分别对候选对象以及目标对象所对应的文本信息进行处理，获得相应的语义特征向量。

3)通过注意力机制实现整体的视觉相异向量与语义特征向量的融合，从而判定候选对象是否与目标对象匹配。

上一过程完成了文本向量的初始化，这些得到初始化的向量本身已然包含一定程度的语义信息，然而，他们和图像之间的关系仍然是未知的，为了能更好地联合文本和图像信息，需要进行基于注意力机制的文本语义嵌入(即向量的融合)。

本发明实施例中，可以分为两种情况来处理，一种是包含单一类型文本信息的情况，另一种是包含两种类型文本信息的情况。

a、包含单一类型文本信息的情况。

也即，候选对象以及目标对象所对应的文本信息均为弹幕文本信息或者字幕文本信息。

在进行语义嵌入时，认为相近时间内的文本更可能表达相似的语义和构成对人物的相似的描述，将时间窗口内的文本划分为k个段落的集合，得到初始的文本特征矩阵H∈R^k×r，文本特征矩阵的每一行都对应一个段落内文本的所有向量的均值，其中r表示文本的联合表征向量的维度。

不同段落的文本描述与人物的相关性可能各有不同，因此，通过注意力机制来计算每个段落的文本向量H_i的重要性得分α_i：

其中，Vis表示由最高尺度的特征图(即图2中的特征图1)通过全局池化和全连接层后压缩得到的语义向量，i,j＝1,...,k；之所以选择使用的特征图1作语义向量的映射，是因为在卷积网络中，越顶层特征图往往越能表达越抽象的语义信息。

之后，根据重要性α_i更新每个段落的文本向量H_i：

基于上述原理，分别对目标对象与候选对象的文本向量进行处理，将目标对象与候选对象更新得到的文本特征矩阵分别记为

与

计算

时，Vis表示由目标对象最高尺度的特征图通过全局池化和全连接层后压缩得到的语义向量；计算

时，Vis表示由候选对象最高尺度的特征图通过全局池化和全连接层后压缩得到的语义向量；

借鉴模型主干部分的KPM模块的思想，对更新的文本特征矩阵对

计算语义相异矩阵Δ_H：

将语义相异矩阵Δ_H压缩成语义相异向量后经过批量标准化和一个全连接层后与整体的视觉相异向量拼接。

b、包含两种类型文本信息的情况。

也即，候选对象以及目标对象所对应的文本信息均包含弹幕文本信息与字幕文本信息。

由于本发明运用到了视频中富含的多源文本信息，而弹幕作为一类主观性很强的文本与作为客观描述的字幕文本在应用场景上迥异，所以根据情境选择合适的文本类型将是很重要的，因此，根据情境进行文本类型的选择，从而更新语义相异矩阵，其原理如图3所示。

拼接目标对象和候选对象的最高尺度的视觉特征图，得到一个联合特征图U_v＝R² ^×w×h×c，其中w、h与c分别代表联合特征图的宽，高与通道数量，将联合特征图U_v经过全局池化层、池化层(例如，步长为2)、全连接层和sigmoid函数激活后，得到因子选择向量S₂∈R²；按照之前介绍的方式，分别计算弹幕和字幕文本信息的语义相异矩阵，记为Δ_H1与Δ_H2，经过与因子选择向量S₂的点乘，得到新的语义相异矩阵：

(Δ′_H1,Δ′_H2)＝(Δ_H1,Δ_H2)×S₂

再将新的语义相异矩阵压缩成语义相异向量后经过批量标准化和一个全连接层后与整体的视觉相异向量拼接。

对于以上两种情况，均通过拼接得到的向量，来判断候选对象与目标对象是否匹配；示例性的，将拼接得到的向量经过2层全连接层和一个sigmoid函数激活后，得到一个2维的向量，作为相同或者不同的判断。

如果判断结果认为候选对象与目标对象匹配，则候选对象所属的视频帧即可作为关键帧，同时还要保存对应的文本信息。

步骤4、根据时间相关性聚合所有关键帧，并补充一些过渡帧以形成流畅的视频片段，再结合对应的文本信息，从而得到面向人物的视频摘要。

根据上一步骤的输出，将获得一系列的关键帧，理论上面向特定人物的视频摘要已经完成了，但是考虑到观看者可能更加偏好于流畅的视频片段，因此需要将一些过渡帧补充至关键帧中以形成流畅的视频片段。

本步骤优选实施方式如下：

将时间相关性，将相邻的关键帧聚集为一个的片段，获得多个片段；

判断两个片段的时间间隔是否小于设定时间(例如，5s)，若是，则将两个片段以及它们的间隙(即两个片段之间的所有视频帧)聚集为一个新的片段；通过这一操作完成片段的聚集；

之后，筛选出片段密度ρ_s大于阈值(例如，0.6)的全部片段，将筛选出的片段按照时间顺序保存，构成面向人物的视频摘要；其中，片段密度ρ_s的计算公式为：

上式中，|s_f|表示关键帧在相应片段中的数量，|s|表示相应片段所包含的总帧数；通过上述方式计算出的ρ_s可以衡量对象人物在片段中的显著性。

本发明实施例中，步骤2所涉及的人物区域提取方案可以通过人物检测模块来实现；步骤3所涉及的人物重识别方案可以通过人物重识别模块来实现，文本源选择方案可以通过文本源选择模块来实现，步骤4所涉及的关键帧处理方案可以通过关键帧聚合模块来实现。为了提高本发明的上述方案的效果，需要对这些模块进行训练，在训练的过程与前文介绍的过程相同，区别在于训练阶段所涉及的视频中的人物区域带有相应标签。训练阶段，使用随机梯度下降算法来优化交叉熵损失函数，使用的优化器是动量优化器(momentumoptimizer)反向传播优化参数。每个批次的大小为50，每个批次中的正负例比为1:4，初始学习率设置为0.05，随着训练轮数指数级下降。在模型训练后期，只对交叉熵损失大于0.05的批次进行反向传播优化参数。相关参数可根据实际数据特征进行调整。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现，也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解，上述实施例的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM，U盘，移动硬盘等)中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将系统的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明披露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求书的保护范围为准。

Claims

1.一种文本与图像联合建模的面向人物的视频摘要提取方法，其特征在于，包括：

2.根据权利要求1所述的一种文本与图像联合建模的面向人物的视频摘要提取方法，其特征在于，所述对原始视频数据进行预处理包括：

对原始视频数据进行等间距的采样，得到一个由视频帧组成的序列；

并对与原始视频数据相关的文本进行去噪和时间轴校正；其中，对于弹幕文本信息，采用正则规则过滤符号字符，并根据打字速度对弹幕文本信息的发送时间进行矫正。

3.根据权利要求1所述的一种文本与图像联合建模的面向人物的视频摘要提取方法，其特征在于，所述利用人物检测的方法逐帧地、无差别地定位出所有的人物区域，并通过一定范围的时间窗口筛选出相关的文本信息包括：

对于一个视频帧序列，使用基于Faster R-CNN的人物检测方法逐帧地、无差别地定位出所有在序列中出现的人物区域；根据人物区域所属的视频帧的时刻为基准，使用不同范围的时间窗口分别筛选出相关的弹幕文本信息与字幕文本信息。

4.根据权利要求1所述的一种文本与图像联合建模的面向人物的视频摘要提取方法，其特征在于，所述根据选出的人物区域与相关的文本信息，利用重识别的方法将每一人物与目标人物进行匹配，将匹配成功的人物区域所属的视频帧作为关键帧包括：

从目标视频帧中定位出目标人物区域作为目标对象，并提取相应的文本信息；

将定位出的所有人物出现的区域作为候选对象；

对于每一候选对象，均利用沙漏状的卷积网络结构去提取其与目标对象的多尺度的视觉特征，并计算整体的视觉相异向量；同时，利用长短期记忆网络和神经主题模型分别提取候选对象以及目标对象所对应的文本信息的语义特征向量，并通过注意力机制实现视觉相异向量与语义特征向量的融合，从而判定候选对象是否与目标对象匹配；

将匹配的候选对象所属的视频帧作为关键帧。

5.根据权利要求4所述的一种文本与图像联合建模的面向人物的视频摘要提取方法，所述对于每一候选对象，均利用沙漏状的卷积网络结构去提取其与目标对象的多尺度的视觉特征，并计算整体的视觉相异向量包括：

利用沙漏状的卷积网络结构在不同的尺度上生成目标对象和候选对象的视觉特征图对，并对视觉特征图对进行匹配和包扎操作，从而得到特征差异图；

将每一尺度的特征差异图通过全局池化、每个维度的平方化和批量标准化来计算相应的视觉相异向量，最后，将不同尺度对应的视觉相异向量拼接起来作为一个整体的视觉相异向量，通过整体的视觉相异向量来表征目标对象和候选对象在视觉层面上的差异性。

6.根据权利要求5所述的一种文本与图像联合建模的面向人物的视频摘要提取方法，所述利用长短期记忆网络和神经主题模型提取相关的文本信息的语义特征向量包括：

对于弹幕文本信息从两个个角度进行向量化表示：使用多层的字符级长短期记忆网络建模弹幕中的序列信息，提取弹幕的N维的语义向量；使用基于变分自编码器的神经主题模型作为弹幕语义的提取器，将弹幕文本信息中的字符在P个主题上的分布作为字符向量构成弹幕文本的表征；弹幕文本信息的向量表示为文本中所有N维的语义向量与字符向量的均值；

对于字幕文本信息，使用基于负采样的Skip-gram模型对基于结巴分词后的字幕词语进行了S维的向量化表示，字幕文本信息的语义特征向量表示为文本中所有词向量的均值；

所述的N、P与S均为设定的整数；

7.根据权利要求5或6所述的一种文本与图像联合建模的面向人物的视频摘要提取方法，所述通过注意力机制实现视觉相异向量与语义特征向量的融合包括：

如果候选对象以及目标对象所对应的文本信息均为弹幕文本信息或者字幕文本信息；

将时间窗口内的文本划分为k个段落的集合，得到初始的文本特征矩阵H∈R^k×r，文本特征矩阵的每一行都对应一个段落内的文本的语义特征向量，其中r表示文本的联合表征向量的维度；

通过注意力机制来计算每个段落的文本向量H_i的重要性得分α_i：

其中，Vis表示由最高尺度的特征图通过全局池化和全连接层后压缩得到的语义向量，i,j＝1,...,k；

根据重要性α_i更新每个段落的文本向量H_i：

与

计算

对更新的文本特征矩阵对

计算语义相异矩阵△_H：

将语义相异矩阵△_H压缩成语义相异向量后经过批量标准化和一个全连接层后与整体的视觉相异向量拼接。

8.根据权利要求7所述的一种文本与图像联合建模的面向人物的视频摘要提取方法，如果候选对象以及目标对象所对应的文本信息均包含弹幕文本信息与字幕文本信息，则根据情境进行文本类型的选择，从而更新语义相异矩阵：拼接目标对象和候选对象的最高尺度的视觉特征图，得到一个联合特征图U_v＝R^2×w×h×c，其中w、h与c分别代表联合特征图的宽，高与通道数量，将联合特征图U_v经过全局池化层、池化层、全连接层和sigmoid函数激活后，得到因子选择向量S₂∈R²；对于弹幕和字幕文本信息的语义相异矩阵△_H1和△_H2，经过与因子选择向量S₂的点乘，得到新的语义相异矩阵：

(△′_H1,△′_H2)＝(△_H1,△_H2)×S₂

9.根据权利要求1所述的一种文本与图像联合建模的面向人物的视频摘要提取方法，所述根据时间相关性聚合所有关键帧，并补充一些过渡帧以形成流畅的视频片段，从而得到面向人物的视频摘要包括：

判断两个片段的时间间隔是否小于设定时间，若是，则将两个片段以及它们的间隙聚集为一个新的片段；通过这一操作完成片段的聚集；

之后，筛选出片段密度ρ_s大于阈值的全部片段，将筛选出的片段按照时间顺序保存，构成面向人物的视频摘要；其中，片段密度ρ_s的计算公式为：

上式中，|s_f|表示关键帧在相应片段中的数量，|s|表示相应片段所包含的总帧数。