CN109344887A

CN109344887A - 基于多模态字典学习的短视频分类方法、系统及介质

Info

Publication number: CN109344887A
Application number: CN201811087839.8A
Authority: CN
Inventors: 刘萌; 聂礼强; 王翔; 宋雪萌; 甘甜; 陈宝权
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2018-09-18
Filing date: 2018-09-18
Publication date: 2019-02-15
Anticipated expiration: 2038-09-18
Also published as: CN109344887B

Abstract

本发明公开了基于多模态字典学习的短视频分类方法、系统及介质，并将其应用到短视频场景预测问题中，包括以下步骤：离线部分：依据少量标记样本，构建树形引导多模态字典学习，得到初始化的多模态字典给以及相应的稀疏表示；基于学习到的多模态稀疏表示，为每一个模态训练一个短视频场景分类器；在线部分：实时的对新来的短视频样本进行场景预测或者强化字典学习模型。对于新来的短视频，如果有场景标记，就用来强化字典学习模型；如果场景没有被标记，就用离线部分训练学习的分类器对场景类别预测。

Description

基于多模态字典学习的短视频分类方法、系统及介质

技术领域

本发明涉及短视频分类技术领域，特别是涉及基于多模态字典学习的短视频分类方法、系统及介质。

背景技术

我们生活在一个不断缩减关注时间的时代，为了满足我们对快速内容的渴求，除了推文和微博等短文本外，拥有“更短-更好”特性的短视频，随着共享服务的兴起而越来越受欢迎。典型的服务包括国外的Vine，Snapchat，Viddy和MixBit，国内的抖音、快手和火山等平台，它们通常将视频长度限制在6,10,15或者16秒。凭借简洁，真实性，可传播性和低成本的价值的特点，短视频正在摇摆并接管内容和社交媒体营销空间。

随着短视频数量以指数速度增长，在短视频的高阶分析(例如搜索、浏览和导航)中，短视频的类别信息起着越来越重要的作用。传统长视频可以很好地被分类为特定的视频类型，从“犯罪”、“纪录片”、“浪漫”到“战争”，如YouTube中的视频分类。与传统的长视频不同，短视频作为一种新兴媒体，没有成熟的分类体系可供遵循。此外，由于短视频记录了生活中的真实事物，而长视频涵盖了更广泛的事物，如奇妙的表演。由于两种视频的侧重点不同，直接将长视频分类体系应用于短视频是不适宜的。值得庆幸的是，短视频经常在一个特定的地方拍摄，而且短视频服务平台也鼓励用户使用GPS去手动标记短视频的拍摄场地信息，如“上海迪士尼乐园”。基于Foursquare API每个场地都可以映射到一个场景类别，例如“游乐场”，并且这些场景类别被组织为树状结构的分类体系。受此启发，我们的目标是通过将短视频归类到树状结构的叶节点来对短视频进行分类。

在对短视频进行分类时，人们必须考虑一个不可或缺的因素，即在线学习。一方面，短视频通常很容易在移动端拍摄并即时分享，因此及时性是它们的亮点之一。鉴于此，高效的在线操作值得人们关注。另一方面，由于隐私保护等方面的考虑，只有极少数的短视频被标记了场景信息，而场景类别的树结构包含821个叶节点。因此，很难获得足够的训练样本来构建一个用于短视频分类的模型。但是，短视频是在线不断上传的，可以通过利用在线上传短视频的知识逐步增强学习模型。

在线短视频分类是一件富有挑战的问题。首先，类似于传统的长视频，就像YouTube中的视频一样，短视频也是文本，视觉和声音模态的统一体，它们从不同角度互补的描述同一个短视频内容。尽管之前的一些方法致力于多模态数据融合，但如何对多模态之间的相关性进行建模并将其有效融合仍然是一个开放的研究问题。除此之外，短视频具有其突出和独特的特点：1)短视频比较短，通常只传达一个或几个高级主题或概念。因此，有必要学习短视频的高层次和稀疏表示。2)树分类结构体系中的场地类别不是独立的，而是层次相关的。特别是，两个场地类别在树中越靠近，与它们相关的短视频就应该传达越相似的概念。从某种意义上说，在学习短视频的特征表示时必须考虑短视频的固有结构。

发明内容

为了解决现有技术的不足，本发明提供了基于多模态字典学习的短视频分类方法、系统及介质，将短视频按照树状结构进行分类。

为了解决上述技术问题，本发明采用如下技术方案：

作为本发明的第一方面，提供了基于多模态字典学习的短视频分类方法；

基于多模态字典学习的短视频分类方法，包括：

离线部分：对带有场景标记的短视频训练样本，构建场景类别树，提取短视频训练样本的多模态特征；对每一模态特征均构建基于场景类别树的当前模态字典；将当前模态特征映射到基于场景类别树的当前模态字典上，得到当前模态特征的稀疏表示；构建当前模态分类器，利用基于当前模态特征的稀疏表示对当前模态分类器进行训练，得到训练好的当前模态分类器；

在线部分：对于无场景标记的短视频测试样本，提取某模态测试特征；

将所述某模态测试特征映射到基于场景类别树的对应模态字典上，得到对应模态测试特征的稀疏表示；将对应模态测试特征的稀疏表示输入到训练好的对应模态分类器中，输出分类结果；将所有模态的分类结果进行融合，得到短视频测试样本的场景。

进一步的，所述离线部分的具体步骤为：

对带有场景标记的短视频训练样本，构建场景类别树，提取短视频训练样本的视觉训练特征、声音训练特征和文本训练特征；

基于所有的视觉训练特征构建基于场景类别树的视觉模态字典；将每一个视觉训练特征映射到基于场景类别树的视觉模态字典上，得到视觉训练特征的稀疏表示；构建视觉模态分类器，利用基于视觉训练特征的稀疏表示对视觉模态分类器进行训练，得到训练好的视觉模态分类器；

基于所有的声音训练特征构建基于场景类别树的声音模态字典；将每一个声音训练特征映射到基于场景类别树的声音模态字典上，得到声音训练特征的稀疏表示；构建声音模态分类器，利用基于声音训练特征的稀疏表示对声音模态分类器进行训练，得到训练好的声音模态分类器；

基于所有的文本训练特征构建基于场景类别树的文本模态字典；将每一个文本训练特征映射到基于场景类别树的文本模态字典上，得到文本训练特征的稀疏表示；构建文本模态分类器，利用基于文本训练特征的稀疏表示对文本模态分类器进行训练，得到训练好的文本模态分类器。

进一步的，所述在线部分的具体步骤为：

对于无场景标记的短视频测试样本，提取视觉测试特征、声音测试特征和文本测试特征，

将视觉测试特征映射到基于场景类别树的视觉模态字典上，得到视觉测试特征的稀疏表示；将视觉测试特征的稀疏表示输入到训练好的视觉模态分类器中，输出第一分类结果；

将声音测试特征映射到基于场景类别树的声音模态字典上，得到声音测试特征的稀疏表示；将声音测试特征的稀疏表示输入到训练好的声音模态分类器中，输出第二分类结果；

将文本测试特征映射到基于场景类别树的文本模态字典上，得到文本测试特征的稀疏表示；将文本测试特征的稀疏表示输入到训练好的文本模态分类器中，输出第三分类结果；

将第一分类结果、第二分类结果和第三分类结果进行融合，得到最终的分类结果，即短视频测试样本的场景类别。

进一步的，所述场景类别树是Foursquare网站生成的，Foursquare API可以将短视频的拍摄场地信息映射到一个场景类别，并且将所有的场景类别组织为树状结构的分类体系。

所述场景类别树，是将短视频的场景类别划分为树形结构假设该树形结构包括T个叶子节点，每个叶子节点表示一种短视频场景类别，树中的节点集合为对每一个中间节点都存在一个场景类别集合该集合包含所有属于中间节点v的叶子结点t_i；给定N个短视频，每一个短视频均有M种模态，并且N个短视频均具有场景标签，每个场景标签属于短视频场景类别树的T个叶子结点中的一个；根据短视频的场景标签，即可得知该短视频所归属的叶子节点。

进一步的，构建基于场景类别树的视觉模态字典、构建基于场景类别树的声音模态字典或构建基于场景类别树的文本模态字典采用的方式为：

步骤(11)：构建模型：

其中，为节点v上的短视频的第m个模态的稀疏表示；K表示稀疏特征表示的维度；表示属于中间节点v的叶子节点数目；为字典第m个模态的字典D^m的第k列，即第k个字典元素；e_v是预先定义的常数值，设置为节点v的子节点的个数；

步骤(12)：采用交替方向迭代法对步骤(11)的模型进行求解得到相应模态的字典D^m以及相应模态的稀疏表示A^m。

进一步的，所述在线部分的具体步骤还包括：

对于有场景标记的短视频测试样本，提取视觉测试特征、声音测试特征和文本测试特征，基于视觉测试特征、声音测试特征和文本测试特征对视觉模态字典、声音模态字典和文本模态字典进行补充更新。

作为本发明的第二方面，提供了基于多模态字典学习的短视频分类系统；

基于多模态字典学习的短视频分类系统，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

作为本发明的第三方面，提供了一种计算机可读存储介质；

一种计算机可读存储介质，其上运行有计算机指令，所述计算机指令被处理器运行时，完成上述任一方法所述的步骤。

与现有技术相比，本发明的有益效果是：

本发明提出了一个结构引导的多模态字典学习模型，它在一个统一的框架内同时规范了层次的平滑性和结构一致性。所提出的模型可以在学习高级稀疏表示时对结构信息进行编码。

本发明涉及一个在线算法来不断优化学习模型，通过逐步加强模型并快速为所有传入未标记样本进行场景预测。

本发明的模型可以用来学习短视频的稀疏表示以推断其场地信息，也可以用来对短视频进行其他方面的分析。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1为本发明的流程图一；

图2为本发明的流程图二。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在初始离线阶段给定一组标记的短视频(规模不需要很大)，本方法能够学习出每种模态的概念级词典，这是对短视频进行多模态稀疏表示的基础。站在传统字典学习框架的肩膀上，通过共同考虑以下两个原则来设计一个基于树结构引导的group lasso来推进它：

1)分层平滑。在层级结构的树中具有临近标签的短视频应具有相似的稀疏表示。

2)结构一致性。树形结构在文本，视觉和声音模态中是不变的。

获取稀疏表示之后，采用softmax分类器来估计短视频的场地类别。此外，本发明开发了一个在线算法来求解模型。即如果传入的短视频未标记，可以有效地推断其场地类别；否则，将收获其知识以加强算法模型。

如图1和图2所示，一种增量树形引导多模态字典学习方法，包括以下步骤：

步骤(1)：离线部分：依据少量标记样本，构建树形引导多模态字典学习，得到初始化的多模态字典以及相应的稀疏表示这里M表示短视频的模态数目，对于短视频而言M＝3，即视觉模态、声音模态以及文本模态；

步骤(2)：基于学习到的为每一个模态训练一个短视频场景分类器；

步骤(3)：在线部分：实时的对新来的短视频样本进行场景预测或者强化字典学习模型。对于新来的短视频，如果有场景标记，就用来强化字典学习模型；如果场景没有被标记，就用步骤(1)训练学习的分类器对场景类别预测；

所述步骤(1)中，树结构引导的多模态字典学习步骤如下：

步骤(101)：由于短视频的场景类别被划分为一种树形结构，我们假设包含T个叶子结点(短视频场景类别)的树形结构为树中的节点集合为并且对每一个节点都存在一个集合包含所有属于节点v的叶子结点，这里t_i表示叶子结点。给定N个短视频，每一个短视频具有M种模态信息，并且这N个短视频具有标签信息，即属于短视频类别树的T个叶子结点中的一个；

步骤(102)：由于知道短视频的类别信息后，可以知道它属于类别树中的哪一个叶子节点。即类别树中的任一节点它包含一组属于它的的叶子结点(场景类别)。因而，属于节点v包含的叶子节点的短视频相较于不属于的叶子节点的短视频应该具有更相似的特征；

步骤(103)：基于上述知识，我们提出一种基于树引导的多模态字典学习，来学习初始化的字典以及特征表示：

其中为节点v上的短视频的第m个模态的稀疏表示；K表示稀疏特征表示的维度；表示节点v的叶子节点数目；为字典第m个模态的字典D^m的第k列，即第k个字典元素；e_v是提前定义好的常数值，设置为节点v的子节点的个数。注意：需要对e_v进行归一化处理。

步骤(104)：采用交替方向迭代法对上述模型进行求解得到相应的D^m以及A^m，我们设置它们为初始的多模态字典以及表示矩阵，符号表示为和

步骤(105)：为每一个模态m，基于稀疏表示训练一个分类器；

所述步骤(3)中，在线实时更新过程的步骤如下：

输入一个新的样本这里t表示在线更新的次数，即在线获得的样本个数的索引。如果x_t带有场景标签y_t，就使用该样本以及标签信息强化学习模型，过程如下：

步骤(301)：根据现有字典以及样本特征x_t，得到该样本对应的稀疏表示

步骤(302)：将新样本的稀疏表示以及之前样本的稀疏表示合并在一起得到

步骤(303)：有了新的样本集合以及可以根据(1-3)中的模型求解新的字典表示用于求解后面新进样本的稀疏表示；

步骤(304)：如果x_t没有场景标签y_t，就使用步骤(2)中学习的分类器对该样本进行场景预测：

其中，q^t是一个T维的二值指示向量，在类别t对应位置是1，其余位置是0。是步骤(2)中第m个模态分类器预测的结果。

以上所述仅为本申请的优选实施例而已，并不用于限制本申请，对于本领域的技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.基于多模态字典学习的短视频分类方法，其特征是，包括：

2.如权利要求1所述的基于多模态字典学习的短视频分类方法，其特征是，所述离线部分的具体步骤为：

3.如权利要求1所述的基于多模态字典学习的短视频分类方法，其特征是，所述在线部分的具体步骤为：

4.如权利要求1所述的基于多模态字典学习的短视频分类方法，其特征是，所述场景类别树是Foursquare网站生成的，Foursquare API可以将短视频的拍摄场地信息映射到一个场景类别，并且将所有的场景类别组织为树状结构的分类体系。

5.如权利要求1所述的基于多模态字典学习的短视频分类方法，其特征是，所述场景类别树，是将短视频的场景类别划分为树形结构假设该树形结构包括T个叶子节点，每个叶子节点表示一种短视频场景类别，树中的节点集合为对每一个中间节点都存在一个场景类别集合该集合包含所有属于中间节点v的叶子结点t_i；给定N个短视频，每一个短视频均有M种模态，并且N个短视频均具有场景标签，每个场景标签属于短视频场景类别树的T个叶子结点中的一个；根据短视频的场景标签，即可得知该短视频所归属的叶子节点。

6.如权利要求2所述的基于多模态字典学习的短视频分类方法，其特征是，构建基于场景类别树的视觉模态字典、构建基于场景类别树的声音模态字典或构建基于场景类别树的文本模态字典采用的方式为：

步骤(11)：构建模型：

7.如权利要求3所述的基于多模态字典学习的短视频分类方法，其特征是，所述在线部分的具体步骤还包括：

8.基于多模态字典学习的短视频分类系统，其特征是，包括：存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成上述权利要求1-7任一项方法所述的步骤。

9.一种计算机可读存储介质，其特征是，其上运行有计算机指令，所述计算机指令被处理器运行时，完成上述权利要求1-7任一项方法所述的步骤。