CN109344887A - 基于多模态字典学习的短视频分类方法、系统及介质 - Google Patents

基于多模态字典学习的短视频分类方法、系统及介质 Download PDF

Info

Publication number
CN109344887A
CN109344887A CN201811087839.8A CN201811087839A CN109344887A CN 109344887 A CN109344887 A CN 109344887A CN 201811087839 A CN201811087839 A CN 201811087839A CN 109344887 A CN109344887 A CN 109344887A
Authority
CN
China
Prior art keywords
short
dictionary
scene
sighted frequency
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811087839.8A
Other languages
English (en)
Other versions
CN109344887B (zh
Inventor
刘萌
聂礼强
王翔
宋雪萌
甘甜
陈宝权
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201811087839.8A priority Critical patent/CN109344887B/zh
Publication of CN109344887A publication Critical patent/CN109344887A/zh
Application granted granted Critical
Publication of CN109344887B publication Critical patent/CN109344887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了基于多模态字典学习的短视频分类方法、系统及介质,并将其应用到短视频场景预测问题中,包括以下步骤:离线部分:依据少量标记样本,构建树形引导多模态字典学习,得到初始化的多模态字典给以及相应的稀疏表示;基于学习到的多模态稀疏表示,为每一个模态训练一个短视频场景分类器;在线部分:实时的对新来的短视频样本进行场景预测或者强化字典学习模型。对于新来的短视频,如果有场景标记,就用来强化字典学习模型;如果场景没有被标记,就用离线部分训练学习的分类器对场景类别预测。

Description

基于多模态字典学习的短视频分类方法、系统及介质
技术领域
本发明涉及短视频分类技术领域,特别是涉及基于多模态字典学习的短视频分类方法、系统及介质。
背景技术
我们生活在一个不断缩减关注时间的时代,为了满足我们对快速内容的渴求,除了推文和微博等短文本外,拥有“更短-更好”特性的短视频,随着共享服务的兴起而越来越受欢迎。典型的服务包括国外的Vine,Snapchat,Viddy和MixBit,国内的抖音、快手和火山等平台,它们通常将视频长度限制在6,10,15或者16秒。凭借简洁,真实性,可传播性和低成本的价值的特点,短视频正在摇摆并接管内容和社交媒体营销空间。
随着短视频数量以指数速度增长,在短视频的高阶分析(例如搜索、浏览和导航)中,短视频的类别信息起着越来越重要的作用。传统长视频可以很好地被分类为特定的视频类型,从“犯罪”、“纪录片”、“浪漫”到“战争”,如YouTube中的视频分类。与传统的长视频不同,短视频作为一种新兴媒体,没有成熟的分类体系可供遵循。此外,由于短视频记录了生活中的真实事物,而长视频涵盖了更广泛的事物,如奇妙的表演。由于两种视频的侧重点不同,直接将长视频分类体系应用于短视频是不适宜的。值得庆幸的是,短视频经常在一个特定的地方拍摄,而且短视频服务平台也鼓励用户使用GPS去手动标记短视频的拍摄场地信息,如“上海迪士尼乐园”。基于Foursquare API每个场地都可以映射到一个场景类别,例如“游乐场”,并且这些场景类别被组织为树状结构的分类体系。受此启发,我们的目标是通过将短视频归类到树状结构的叶节点来对短视频进行分类。
在对短视频进行分类时,人们必须考虑一个不可或缺的因素,即在线学习。一方面,短视频通常很容易在移动端拍摄并即时分享,因此及时性是它们的亮点之一。鉴于此,高效的在线操作值得人们关注。另一方面,由于隐私保护等方面的考虑,只有极少数的短视频被标记了场景信息,而场景类别的树结构包含821个叶节点。因此,很难获得足够的训练样本来构建一个用于短视频分类的模型。但是,短视频是在线不断上传的,可以通过利用在线上传短视频的知识逐步增强学习模型。
在线短视频分类是一件富有挑战的问题。首先,类似于传统的长视频,就像YouTube中的视频一样,短视频也是文本,视觉和声音模态的统一体,它们从不同角度互补的描述同一个短视频内容。尽管之前的一些方法致力于多模态数据融合,但如何对多模态之间的相关性进行建模并将其有效融合仍然是一个开放的研究问题。除此之外,短视频具有其突出和独特的特点:1)短视频比较短,通常只传达一个或几个高级主题或概念。因此,有必要学习短视频的高层次和稀疏表示。2)树分类结构体系中的场地类别不是独立的,而是层次相关的。特别是,两个场地类别在树中越靠近,与它们相关的短视频就应该传达越相似的概念。从某种意义上说,在学习短视频的特征表示时必须考虑短视频的固有结构。
发明内容
为了解决现有技术的不足,本发明提供了基于多模态字典学习的短视频分类方法、系统及介质,将短视频按照树状结构进行分类。
为了解决上述技术问题,本发明采用如下技术方案:
作为本发明的第一方面,提供了基于多模态字典学习的短视频分类方法;
基于多模态字典学习的短视频分类方法,包括:
离线部分:对带有场景标记的短视频训练样本,构建场景类别树,提取短视频训练样本的多模态特征;对每一模态特征均构建基于场景类别树的当前模态字典;将当前模态特征映射到基于场景类别树的当前模态字典上,得到当前模态特征的稀疏表示;构建当前模态分类器,利用基于当前模态特征的稀疏表示对当前模态分类器进行训练,得到训练好的当前模态分类器;
在线部分:对于无场景标记的短视频测试样本,提取某模态测试特征;
将所述某模态测试特征映射到基于场景类别树的对应模态字典上,得到对应模态测试特征的稀疏表示;将对应模态测试特征的稀疏表示输入到训练好的对应模态分类器中,输出分类结果;将所有模态的分类结果进行融合,得到短视频测试样本的场景。
进一步的,所述离线部分的具体步骤为:
对带有场景标记的短视频训练样本,构建场景类别树,提取短视频训练样本的视觉训练特征、声音训练特征和文本训练特征;
基于所有的视觉训练特征构建基于场景类别树的视觉模态字典;将每一个视觉训练特征映射到基于场景类别树的视觉模态字典上,得到视觉训练特征的稀疏表示;构建视觉模态分类器,利用基于视觉训练特征的稀疏表示对视觉模态分类器进行训练,得到训练好的视觉模态分类器;
基于所有的声音训练特征构建基于场景类别树的声音模态字典;将每一个声音训练特征映射到基于场景类别树的声音模态字典上,得到声音训练特征的稀疏表示;构建声音模态分类器,利用基于声音训练特征的稀疏表示对声音模态分类器进行训练,得到训练好的声音模态分类器;
基于所有的文本训练特征构建基于场景类别树的文本模态字典;将每一个文本训练特征映射到基于场景类别树的文本模态字典上,得到文本训练特征的稀疏表示;构建文本模态分类器,利用基于文本训练特征的稀疏表示对文本模态分类器进行训练,得到训练好的文本模态分类器。
进一步的,所述在线部分的具体步骤为:
对于无场景标记的短视频测试样本,提取视觉测试特征、声音测试特征和文本测试特征,
将视觉测试特征映射到基于场景类别树的视觉模态字典上,得到视觉测试特征的稀疏表示;将视觉测试特征的稀疏表示输入到训练好的视觉模态分类器中,输出第一分类结果;
将声音测试特征映射到基于场景类别树的声音模态字典上,得到声音测试特征的稀疏表示;将声音测试特征的稀疏表示输入到训练好的声音模态分类器中,输出第二分类结果;
将文本测试特征映射到基于场景类别树的文本模态字典上,得到文本测试特征的稀疏表示;将文本测试特征的稀疏表示输入到训练好的文本模态分类器中,输出第三分类结果;
将第一分类结果、第二分类结果和第三分类结果进行融合,得到最终的分类结果,即短视频测试样本的场景类别。
进一步的,所述场景类别树是Foursquare网站生成的,Foursquare API可以将短视频的拍摄场地信息映射到一个场景类别,并且将所有的场景类别组织为树状结构的分类体系。
所述场景类别树,是将短视频的场景类别划分为树形结构假设该树形结构包括T个叶子节点,每个叶子节点表示一种短视频场景类别,树中的节点集合为对每一个中间节点都存在一个场景类别集合该集合包含所有属于中间节点v的叶子结点ti;给定N个短视频,每一个短视频均有M种模态,并且N个短视频均具有场景标签,每个场景标签属于短视频场景类别树的T个叶子结点中的一个;根据短视频的场景标签,即可得知该短视频所归属的叶子节点。
进一步的,构建基于场景类别树的视觉模态字典、构建基于场景类别树的声音模态字典或构建基于场景类别树的文本模态字典采用的方式为:
步骤(11):构建模型:
其中, 为节点v上的短视频的第m个模态的稀疏表示;K表示稀疏特征表示的维度;表示属于中间节点v的叶子节点数目;为字典第m个模态的字典Dm的第k列,即第k个字典元素;ev是预先定义的常数值,设置为节点v的子节点的个数;
步骤(12):采用交替方向迭代法对步骤(11)的模型进行求解得到相应模态的字典Dm以及相应模态的稀疏表示Am
进一步的,所述在线部分的具体步骤还包括:
对于有场景标记的短视频测试样本,提取视觉测试特征、声音测试特征和文本测试特征,基于视觉测试特征、声音测试特征和文本测试特征对视觉模态字典、声音模态字典和文本模态字典进行补充更新。
作为本发明的第二方面,提供了基于多模态字典学习的短视频分类系统;
基于多模态字典学习的短视频分类系统,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
作为本发明的第三方面,提供了一种计算机可读存储介质;
一种计算机可读存储介质,其上运行有计算机指令,所述计算机指令被处理器运行时,完成上述任一方法所述的步骤。
与现有技术相比,本发明的有益效果是:
本发明提出了一个结构引导的多模态字典学习模型,它在一个统一的框架内同时规范了层次的平滑性和结构一致性。所提出的模型可以在学习高级稀疏表示时对结构信息进行编码。
本发明涉及一个在线算法来不断优化学习模型,通过逐步加强模型并快速为所有传入未标记样本进行场景预测。
本发明的模型可以用来学习短视频的稀疏表示以推断其场地信息,也可以用来对短视频进行其他方面的分析。
附图说明
构成本申请的一部分的说明书附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。
图1为本发明的流程图一;
图2为本发明的流程图二。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
在初始离线阶段给定一组标记的短视频(规模不需要很大),本方法能够学习出每种模态的概念级词典,这是对短视频进行多模态稀疏表示的基础。站在传统字典学习框架的肩膀上,通过共同考虑以下两个原则来设计一个基于树结构引导的group lasso来推进它:
1)分层平滑。在层级结构的树中具有临近标签的短视频应具有相似的稀疏表示。
2)结构一致性。树形结构在文本,视觉和声音模态中是不变的。
获取稀疏表示之后,采用softmax分类器来估计短视频的场地类别。此外,本发明开发了一个在线算法来求解模型。即如果传入的短视频未标记,可以有效地推断其场地类别;否则,将收获其知识以加强算法模型。
如图1和图2所示,一种增量树形引导多模态字典学习方法,包括以下步骤:
步骤(1):离线部分:依据少量标记样本,构建树形引导多模态字典学习,得到初始化的多模态字典以及相应的稀疏表示这里M表示短视频的模态数目,对于短视频而言M=3,即视觉模态、声音模态以及文本模态;
步骤(2):基于学习到的为每一个模态训练一个短视频场景分类器;
步骤(3):在线部分:实时的对新来的短视频样本进行场景预测或者强化字典学习模型。对于新来的短视频,如果有场景标记,就用来强化字典学习模型;如果场景没有被标记,就用步骤(1)训练学习的分类器对场景类别预测;
所述步骤(1)中,树结构引导的多模态字典学习步骤如下:
步骤(101):由于短视频的场景类别被划分为一种树形结构,我们假设包含T个叶子结点(短视频场景类别)的树形结构为树中的节点集合为并且对每一个节点都存在一个集合包含所有属于节点v的叶子结点,这里ti表示叶子结点。给定N个短视频,每一个短视频具有M种模态信息,并且这N个短视频具有标签信息,即属于短视频类别树的T个叶子结点中的一个;
步骤(102):由于知道短视频的类别信息后,可以知道它属于类别树中的哪一个叶子节点。即类别树中的任一节点它包含一组属于它的的叶子结点(场景类别)。因而,属于节点v包含的叶子节点的短视频相较于不属于的叶子节点的短视频应该具有更相似的特征;
步骤(103):基于上述知识,我们提出一种基于树引导的多模态字典学习,来学习初始化的字典以及特征表示:
其中为节点v上的短视频的第m个模态的稀疏表示;K表示稀疏特征表示的维度;表示节点v的叶子节点数目;为字典第m个模态的字典Dm的第k列,即第k个字典元素;ev是提前定义好的常数值,设置为节点v的子节点的个数。注意:需要对ev进行归一化处理。
步骤(104):采用交替方向迭代法对上述模型进行求解得到相应的Dm以及Am,我们设置它们为初始的多模态字典以及表示矩阵,符号表示为
步骤(105):为每一个模态m,基于稀疏表示训练一个分类器;
所述步骤(3)中,在线实时更新过程的步骤如下:
输入一个新的样本这里t表示在线更新的次数,即在线获得的样本个数的索引。如果xt带有场景标签yt,就使用该样本以及标签信息强化学习模型,过程如下:
步骤(301):根据现有字典以及样本特征xt,得到该样本对应的稀疏表示
步骤(302):将新样本的稀疏表示以及之前样本的稀疏表示合并在一起得到
步骤(303):有了新的样本集合以及可以根据(1-3)中的模型求解新的字典表示用于求解后面新进样本的稀疏表示;
步骤(304):如果xt没有场景标签yt,就使用步骤(2)中学习的分类器对该样本进行场景预测:
其中,qt是一个T维的二值指示向量,在类别t对应位置是1,其余位置是0。是步骤(2)中第m个模态分类器预测的结果。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (9)

1.基于多模态字典学习的短视频分类方法,其特征是,包括:
离线部分:对带有场景标记的短视频训练样本,构建场景类别树,提取短视频训练样本的多模态特征;对每一模态特征均构建基于场景类别树的当前模态字典;将当前模态特征映射到基于场景类别树的当前模态字典上,得到当前模态特征的稀疏表示;构建当前模态分类器,利用基于当前模态特征的稀疏表示对当前模态分类器进行训练,得到训练好的当前模态分类器;
在线部分:对于无场景标记的短视频测试样本,提取某模态测试特征;
将所述某模态测试特征映射到基于场景类别树的对应模态字典上,得到对应模态测试特征的稀疏表示;将对应模态测试特征的稀疏表示输入到训练好的对应模态分类器中,输出分类结果;将所有模态的分类结果进行融合,得到短视频测试样本的场景。
2.如权利要求1所述的基于多模态字典学习的短视频分类方法,其特征是,所述离线部分的具体步骤为:
对带有场景标记的短视频训练样本,构建场景类别树,提取短视频训练样本的视觉训练特征、声音训练特征和文本训练特征;
基于所有的视觉训练特征构建基于场景类别树的视觉模态字典;将每一个视觉训练特征映射到基于场景类别树的视觉模态字典上,得到视觉训练特征的稀疏表示;构建视觉模态分类器,利用基于视觉训练特征的稀疏表示对视觉模态分类器进行训练,得到训练好的视觉模态分类器;
基于所有的声音训练特征构建基于场景类别树的声音模态字典;将每一个声音训练特征映射到基于场景类别树的声音模态字典上,得到声音训练特征的稀疏表示;构建声音模态分类器,利用基于声音训练特征的稀疏表示对声音模态分类器进行训练,得到训练好的声音模态分类器;
基于所有的文本训练特征构建基于场景类别树的文本模态字典;将每一个文本训练特征映射到基于场景类别树的文本模态字典上,得到文本训练特征的稀疏表示;构建文本模态分类器,利用基于文本训练特征的稀疏表示对文本模态分类器进行训练,得到训练好的文本模态分类器。
3.如权利要求1所述的基于多模态字典学习的短视频分类方法,其特征是,所述在线部分的具体步骤为:
对于无场景标记的短视频测试样本,提取视觉测试特征、声音测试特征和文本测试特征,
将视觉测试特征映射到基于场景类别树的视觉模态字典上,得到视觉测试特征的稀疏表示;将视觉测试特征的稀疏表示输入到训练好的视觉模态分类器中,输出第一分类结果;
将声音测试特征映射到基于场景类别树的声音模态字典上,得到声音测试特征的稀疏表示;将声音测试特征的稀疏表示输入到训练好的声音模态分类器中,输出第二分类结果;
将文本测试特征映射到基于场景类别树的文本模态字典上,得到文本测试特征的稀疏表示;将文本测试特征的稀疏表示输入到训练好的文本模态分类器中,输出第三分类结果;
将第一分类结果、第二分类结果和第三分类结果进行融合,得到最终的分类结果,即短视频测试样本的场景类别。
4.如权利要求1所述的基于多模态字典学习的短视频分类方法,其特征是,所述场景类别树是Foursquare网站生成的,Foursquare API可以将短视频的拍摄场地信息映射到一个场景类别,并且将所有的场景类别组织为树状结构的分类体系。
5.如权利要求1所述的基于多模态字典学习的短视频分类方法,其特征是,所述场景类别树,是将短视频的场景类别划分为树形结构假设该树形结构包括T个叶子节点,每个叶子节点表示一种短视频场景类别,树中的节点集合为对每一个中间节点都存在一个场景类别集合该集合包含所有属于中间节点v的叶子结点ti;给定N个短视频,每一个短视频均有M种模态,并且N个短视频均具有场景标签,每个场景标签属于短视频场景类别树的T个叶子结点中的一个;根据短视频的场景标签,即可得知该短视频所归属的叶子节点。
6.如权利要求2所述的基于多模态字典学习的短视频分类方法,其特征是,构建基于场景类别树的视觉模态字典、构建基于场景类别树的声音模态字典或构建基于场景类别树的文本模态字典采用的方式为:
步骤(11):构建模型:
其中, 为节点v上的短视频的第m个模态的稀疏表示;K表示稀疏特征表示的维度;表示属于中间节点v的叶子节点数目;为字典第m个模态的字典Dm的第k列,即第k个字典元素;ev是预先定义的常数值,设置为节点v的子节点的个数;
步骤(12):采用交替方向迭代法对步骤(11)的模型进行求解得到相应模态的字典Dm以及相应模态的稀疏表示Am
7.如权利要求3所述的基于多模态字典学习的短视频分类方法,其特征是,所述在线部分的具体步骤还包括:
对于有场景标记的短视频测试样本,提取视觉测试特征、声音测试特征和文本测试特征,基于视觉测试特征、声音测试特征和文本测试特征对视觉模态字典、声音模态字典和文本模态字典进行补充更新。
8.基于多模态字典学习的短视频分类系统,其特征是,包括:存储器、处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-7任一项方法所述的步骤。
9.一种计算机可读存储介质,其特征是,其上运行有计算机指令,所述计算机指令被处理器运行时,完成上述权利要求1-7任一项方法所述的步骤。
CN201811087839.8A 2018-09-18 2018-09-18 基于多模态字典学习的短视频分类方法、系统及介质 Active CN109344887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811087839.8A CN109344887B (zh) 2018-09-18 2018-09-18 基于多模态字典学习的短视频分类方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811087839.8A CN109344887B (zh) 2018-09-18 2018-09-18 基于多模态字典学习的短视频分类方法、系统及介质

Publications (2)

Publication Number Publication Date
CN109344887A true CN109344887A (zh) 2019-02-15
CN109344887B CN109344887B (zh) 2020-07-07

Family

ID=65305492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811087839.8A Active CN109344887B (zh) 2018-09-18 2018-09-18 基于多模态字典学习的短视频分类方法、系统及介质

Country Status (1)

Country Link
CN (1) CN109344887B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110213610A (zh) * 2019-06-13 2019-09-06 北京奇艺世纪科技有限公司 一种直播场景识别方法及装置
CN110263979A (zh) * 2019-05-29 2019-09-20 阿里巴巴集团控股有限公司 基于强化学习模型预测样本标签的方法及装置
CN110399934A (zh) * 2019-07-31 2019-11-01 北京达佳互联信息技术有限公司 一种视频分类方法、装置及电子设备
CN111723649A (zh) * 2020-05-08 2020-09-29 天津大学 一种基于语义分解的短视频事件检测方法
CN113115054A (zh) * 2021-03-31 2021-07-13 杭州海康威视数字技术股份有限公司 视频流编码方法、装置、系统、电子设备及存储介质
CN113657272A (zh) * 2021-08-17 2021-11-16 山东建筑大学 一种基于缺失数据补全的微视频分类方法及系统
CN114970955A (zh) * 2022-04-15 2022-08-30 黑龙江省网络空间研究中心 基于多模态预训练模型的短视频热度预测方法及装置
CN116363686A (zh) * 2023-06-02 2023-06-30 深圳大学 一种在线社交网络视频平台来源检测方法、及其相关设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060095442A1 (en) * 2004-10-29 2006-05-04 Letourneau Jack J Method and/or system for manipulating tree expressions
CN104036023A (zh) * 2014-06-26 2014-09-10 福州大学 一种融合上下文的树形视频语义索引建立方法
CN106485271A (zh) * 2016-09-30 2017-03-08 天津大学 一种基于多模态字典学习的零样本分类方法
CN108521587A (zh) * 2018-04-03 2018-09-11 优视科技有限公司 短视频处理方法、装置及移动终端

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060095442A1 (en) * 2004-10-29 2006-05-04 Letourneau Jack J Method and/or system for manipulating tree expressions
CN104036023A (zh) * 2014-06-26 2014-09-10 福州大学 一种融合上下文的树形视频语义索引建立方法
CN106485271A (zh) * 2016-09-30 2017-03-08 天津大学 一种基于多模态字典学习的零样本分类方法
CN108521587A (zh) * 2018-04-03 2018-09-11 优视科技有限公司 短视频处理方法、装置及移动终端

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
刘萌 等.: "Towards Micro-video Understanding by Joint Sequential-Sparse Modeling", 《ACM INTERNATIONAL CONFERENCE ON MULTIMEDIA 2017》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110263979B (zh) * 2019-05-29 2024-02-06 创新先进技术有限公司 基于强化学习模型预测样本标签的方法及装置
CN110263979A (zh) * 2019-05-29 2019-09-20 阿里巴巴集团控股有限公司 基于强化学习模型预测样本标签的方法及装置
CN110213610B (zh) * 2019-06-13 2021-05-28 北京奇艺世纪科技有限公司 一种直播场景识别方法及装置
CN110213610A (zh) * 2019-06-13 2019-09-06 北京奇艺世纪科技有限公司 一种直播场景识别方法及装置
CN110399934A (zh) * 2019-07-31 2019-11-01 北京达佳互联信息技术有限公司 一种视频分类方法、装置及电子设备
CN111723649A (zh) * 2020-05-08 2020-09-29 天津大学 一种基于语义分解的短视频事件检测方法
CN113115054A (zh) * 2021-03-31 2021-07-13 杭州海康威视数字技术股份有限公司 视频流编码方法、装置、系统、电子设备及存储介质
CN113115054B (zh) * 2021-03-31 2022-05-06 杭州海康威视数字技术股份有限公司 视频流编码方法、装置、系统、电子设备及存储介质
CN113657272A (zh) * 2021-08-17 2021-11-16 山东建筑大学 一种基于缺失数据补全的微视频分类方法及系统
CN114970955B (zh) * 2022-04-15 2023-12-15 黑龙江省网络空间研究中心 基于多模态预训练模型的短视频热度预测方法及装置
CN114970955A (zh) * 2022-04-15 2022-08-30 黑龙江省网络空间研究中心 基于多模态预训练模型的短视频热度预测方法及装置
CN116363686A (zh) * 2023-06-02 2023-06-30 深圳大学 一种在线社交网络视频平台来源检测方法、及其相关设备
CN116363686B (zh) * 2023-06-02 2023-08-11 深圳大学 一种在线社交网络视频平台来源检测方法及其相关设备

Also Published As

Publication number Publication date
CN109344887B (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
CN109344887A (zh) 基于多模态字典学习的短视频分类方法、系统及介质
CN108984724B (zh) 利用高维表示提高特定属性情感分类准确率方法
CN107102989B (zh) 一种基于词向量、卷积神经网络的实体消歧方法
CN110852368A (zh) 全局与局部特征嵌入及图文融合的情感分析方法与系统
CN111488734A (zh) 基于全局交互和句法依赖的情感特征表示学习系统及方法
CN109299341A (zh) 一种基于字典学习的对抗跨模态检索方法和系统
CN110826335B (zh) 一种命名实体识别的方法和装置
CN106649434A (zh) 一种跨领域知识迁移的标签嵌入方法和装置
CN108038183A (zh) 结构化实体收录方法、装置、服务器和存储介质
CN111061843A (zh) 一种知识图谱引导的假新闻检测方法
CN107301227A (zh) 基于人工智能的搜索信息解析方法及装置
CN113569001A (zh) 文本处理方法、装置、计算机设备及计算机可读存储介质
CN111783903B (zh) 文本处理方法、文本模型的处理方法及装置、计算机设备
CN111291556A (zh) 基于实体义项的字和词特征融合的中文实体关系抽取方法
CN111475622A (zh) 一种文本分类方法、装置、终端及存储介质
CN113051914A (zh) 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN109992784A (zh) 一种融合多模态信息的异构网络构建和距离度量方法
CN113590874B (zh) 一种视频定位方法及装置、模型训练方法及设备
CN111985520A (zh) 一种基于图卷积神经网络的多模态分类方法
CN112528658B (zh) 层次化分类方法、装置、电子设备和存储介质
CN112257452A (zh) 情感识别模型的训练方法、装置、设备和存储介质
CN109815500A (zh) 非结构化公文的管理方法、装置、计算机设备及存储介质
CN110019653A (zh) 一种融合文本和标签网络的社交内容表征方法和系统
CN109710842A (zh) 业务信息的推送方法、装置及可读存储介质
Zhang et al. Automatic latent street type discovery from web open data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Liu Meng

Inventor after: Nie Liqiang

Inventor after: Zheng Xiaoyun

Inventor after: Luo Wang

Inventor after: Wang Xiang

Inventor after: Song Xuemeng

Inventor after: Gan Tian

Inventor after: Chen Baoquan

Inventor before: Liu Meng

Inventor before: Nie Liqiang

Inventor before: Wang Xiang

Inventor before: Song Xuemeng

Inventor before: Gan Tian

Inventor before: Chen Baoquan

CB03 Change of inventor or designer information
GR01 Patent grant
GR01 Patent grant