CN111737521A - 一种视频分类方法和装置 - Google Patents

一种视频分类方法和装置 Download PDF

Info

Publication number
CN111737521A
CN111737521A CN202010770567.2A CN202010770567A CN111737521A CN 111737521 A CN111737521 A CN 111737521A CN 202010770567 A CN202010770567 A CN 202010770567A CN 111737521 A CN111737521 A CN 111737521A
Authority
CN
China
Prior art keywords
layer
global
expression
classification
obtaining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010770567.2A
Other languages
English (en)
Other versions
CN111737521B (zh
Inventor
耿焕
邓积杰
林星
白兴安
徐扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Weiboyi Technology Co ltd
Original Assignee
Beijing Weiboyi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Weiboyi Technology Co ltd filed Critical Beijing Weiboyi Technology Co ltd
Priority to CN202010770567.2A priority Critical patent/CN111737521B/zh
Publication of CN111737521A publication Critical patent/CN111737521A/zh
Application granted granted Critical
Publication of CN111737521B publication Critical patent/CN111737521B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种视频分类方法和装置,涉及数据处理领域。为解决现有技术提供的分类方法的效率较低的问题而发明。本发明实施例提供的技术方案包括:获取待分类视频对应的多模态特征向量;将所述多模态特征向量输入预先训练的多层级多标签分类模型,得到所述待分类视频的层次分类;所述多层级多标签分类模型包括通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的过程、通过特征反馈的方式获取各层局部分类概率的过程、以及通过叠加卷积神经网络的方式获取层次分类概率的过程中一个或多个过程。该方案可以应用在短视频分类领域。

Description

一种视频分类方法和装置
技术领域
本发明涉及数据处理领域,特别是涉及一种视频分类方法和装置。
背景技术
近年来,短视频领域发展迅速,各个短视频平台每天都会产生大量的短视频数据,但要有效使用这些数据,必须要对短视频分类、打标签。为了改善传统人工标注方法中存在的时效和堆积的问题,自动化分类成为各大内容领域机构都非常关注的关键技术。
现有技术中,一般采用局部方法,将层次多标签分类问题根据类别标签的层次结构转化为对多个单一标签的预测问题,通过对预测输出空间的每个分类建立模型,然后组合各个模型以获得整体预测的模型,进而根据整体预测的模型实现自动化分类。
然而,由于采用局部方法时,需要对预测输出空间的每个分类建立模型,当标签层次结构比较庞大时,通过该方法分类的效率较低。
发明内容
有鉴于此,本发明的主要目的在于解决现有的分类方法效率较低的问题。
一方面,本发明实施例提供一种视频分类方法,包括:获取待分类视频对应的多模态特征向量;将所述多模态特征向量输入预先训练的多层级多标签分类模型,得到所述待分类视频的层次分类;所述多层级多标签分类模型包括通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的过程、通过特征反馈的方式获取各层局部分类概率的过程、以及通过叠加卷积神经网络的方式获取层次分类概率的过程中一个或多个过程。
另一方面,本发明实施例提供一种视频分类装置,包括:
向量获取单元,用于获取待分类视频对应的多模态特征向量;
分类单元,与所述向量获取单元和预先训练的多层级多标签分类模型相连,用于将所述多模态特征向量输入预先训练的多层级多标签分类模型,得到所述待分类视频的层次分类;
所述预先训练的多层级多标签分类模型,包括:
通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的全局概率获取模块;
通过特征反馈的方式获取各层局部分类概率的局部概率获取模块;
通过叠加卷积神经网络的方式获取层次分类概率的分类概率获取模块。
综上所述,本发明提供的视频分类方法和装置,通过预先训练的多层级多标签分类模型对待分类视频对应的多模态特征向量进行处理,即可得到待分类视频的层次分类。本发明实施例提供的技术方案,由于直接通过多层级多标签分类模型进行处理,解决了现有技术中由于采用局部方法时,需要对预测输出空间的每个分类建立模型,当标签层次结构比较庞大时,通过该方法分类的效率较低的问题。另外,由于多层级多标签分类模型包括通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的过程、通过特征反馈的方式获取各层局部分类概率的过程、以及通过叠加卷积神经网络的方式获取层次分类概率的过程中一个或多个过程,能够进一步提高分类的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例1提供的视频分类方法的流程图;
图2为本发明实施例2提供的视频分类装置的结构示意图;
图3为本发明实施例2提供的视频分类装置装置中全局概率获取模块的结构示意图;
图4为本发明实施例2提供的视频分类装置中局部概率获取模块的结构示意图;
图5为本发明实施例2提供的视频分类装置中分类概率获取模块的结构示意图。
具体实施方式
下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
如图1所示,本发明提供一种视频分类方法,包括:
步骤101,获取待分类视频对应的多模态特征向量。
在本实施例中,通过步骤101获取多模态特征向量的过程,包括:获取待分类视频的图像特征;获取待分类视频的文本特征;将图像特征和文本特征进行融合,得到待分类视频对应的多模态特征向量。
其中,获取待分类视频的图像特征的方式,既可以为特征抽取,也可以为微调FineTune与特征抽取结合的方式,还可以采用I3D/P3D/TSN网络等分类模型的方式,在此不再一一赘述。
获取待分类视频的文本特征的方式,可以为Bag Of Words(BOW)/CNN/RNN/Attention等建模方式,也可以为CNN+Attention建模方式,在此不再一一赘述。
将图像特征和文本特征进行融合,可以采用Concatenate、CentralNet、LMF等算法,在此不作限制。
步骤102,将多模态特征向量输入预先训练的多层级多标签分类模型,得到待分类视频的层次分类。
在本实施例中,步骤102中多层级多标签分类模型包括通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的过程、通过特征反馈的方式获取各层局部分类概率的过程、以及通过叠加卷积神经网络的方式获取层次分类概率的过程中一个或多个过程。该多层级多标签分类模型的具体层级结构,与层级标签的层数有关,在此不再一一赘述。
其中,通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的过程包括:根据多模态特征向量和多层级多标签分类模型预设的第1层全局全连接层参数,获取第1层的全局隐层表达;对于第2层以上的任意一层,根据多模态特征向量、多层级多标签分类模型预设的该层全局全连接层参数以及该层之前所有层的全局隐层表达,获取该层的全局隐层表达;根据多模态特征向量、多层级多标签分类模型所有层的全局隐层表达和预设的全局输出全连接层参数,获取全局分类概率。
根据多模态特征向量和多层级多标签分类模型预设的第1层全局全连接层参数, 获取第1层的全局隐层表达,包括:根据多模态特征向量和多层级多标签分类模型预设的第 1层全局全连接层参数,获取第1层的全局全连接特征;根据第1层的全局全连接特征获取第 1层的全局隐层表达。根据第1层的全局全连接特征获取第1层的全局隐层表达的具体过程 可以为通过非线性激活函数对该第1层的全局全连接特征进行处理,得到第1层的全局隐层 表达。具体的,以多模态特征向量为X,预设的第1层全局全连接参数为
Figure 591219DEST_PATH_IMAGE001
,G表示全 局全连接层;第1层的全局隐层表达为为例。第1层的全局隐层表达,其中为非线性激活函数。
以预设的第h层全局全连接参数为
Figure DEST_PATH_IMAGE005
,G表示全局全连接层(下同,本实施例提供的技术方案中,下角标仅作为区分使用,无具体含义),h为大于或等于2的正整数,最大值为分类体系的层数;第h层的全局隐层表达为
Figure 611335DEST_PATH_IMAGE006
为例。对于第2层以上的任意第h层,根据多模态特征向量、多层级多标签分类模型预设的该层全局全连接层参数以及该层之前所有层的全局隐层表达,获取该层的全局隐层表达,包括:将多模态特征向量与多层级多标签分类模型第1层到第h-1层的全局隐层表达由低层到高层依次拼接,获取第h层的全局融合特征,此时该融合特征为
Figure DEST_PATH_IMAGE007
,
Figure 165945DEST_PATH_IMAGE008
为拼接;根据第h层的全局融合特征和多层级多标签分类模型预设的第h层全局全连接层参数,获取第h层的全局隐层表达。此时,获取隐层表达的具体方式可以为首先根据第h层的全局融合特征和多层级多标签分类模型预设的第h层全局全连接层参数,获取第h层的全局全连接特征,此时该全局全连接特征为
Figure DEST_PATH_IMAGE009
;然后根据第h层的全局全连接特征获取第h层的全局隐层表达,此时该全局隐层表达可以通过非线性激活函数对第h层的全局全连接特征进行处理得到,具体的
Figure 174221DEST_PATH_IMAGE010
根据多模态特征向量、多层级多标签分类模型所有层的全局隐层表达和预设的全局输出全连接层参数,获取全局分类概率,包括:将多模态特征向量与多层级多标签分类模型由低层到高层所有层的全局隐层表达依次拼接,获取模型全局融合特征;根据模型全局融合特征和预设的全局输出全连接层参数,获取全局分类概率。其中,获取全局分类概率的过程,可以为首先根据模型全局融合特征和预设的全局输出全连接层参数,获取模型全局全连接特征;然后根据模型全局全连接特征获取全局分类概率。以层级标签的层数为n、
Figure 382348DEST_PATH_IMAGE011
为例,该模型全局融合特征为
Figure 85862DEST_PATH_IMAGE012
;此时,模型全局全连接特征为
Figure 913004DEST_PATH_IMAGE013
,其中
Figure 651153DEST_PATH_IMAGE014
为全局输出全连接层参数;获取全局分类概率的方式可以为采用Sigmoid激活函数
Figure 30181DEST_PATH_IMAGE015
对模型全局全连接特征进行处理,此时,全局分类概率
Figure 220991DEST_PATH_IMAGE016
在本实施例中,对于任意一层,通过特征反馈的方式获取各层局部分类概率的过程,包括:根据多层级多标签分类模型该层的全局隐层表达、该层之后各层的全局隐层表达和预设的该层转换全连接层参数,获取该层的局部隐层表达;根据该层的局部隐层表达和预设的该层局部全连接层参数,获取该层的局部分类概率。其中,获取局部隐层表达的过程包括:将该层的全局隐层表达与该层之后各层的全局隐层表达由低层到高层依次拼接,获取该层的局部融合特征;根据该层的局部融合特征和预设的该层转换全连接层参数,获取该层的局部隐层表达。该获取局部隐层表达的过程可以进一步细分为首先根据该层的局部融合特征和预设的该层转换全连接层参数,获取该层的局部转换全连接特征;然后根据该层的局部转换全连接特征获取该层的局部隐层表达。
以第h层,第h层的局部隐层表达为
Figure DEST_PATH_IMAGE017
,第h层的转换全连接参数为
Figure 101091DEST_PATH_IMAGE018
为例。通过上述过程获取的第h层的局部融合特征为
Figure DEST_PATH_IMAGE019
;获取的第h层的局部转换全连接特征为
Figure 693747DEST_PATH_IMAGE020
;根据局部转换全连接特征获取局部隐层表达的方式可以具体为通过非线性激活函数对局部转换全连接特征进行处理,此时,获取的第h层的局部隐层表达为
Figure DEST_PATH_IMAGE021
根据该层的局部隐层表达和预设的该层局部全连接层参数,获取该层的局部分类概率的过程,可以为首先根据该层的局部隐层表达和预设的该层局部全连接层参数,获取该层的局部全连接特征;然后根据该层的局部全连接特征获取该层的局部分类概率。以上述参数为例,局部分类概率
Figure 119043DEST_PATH_IMAGE022
Figure 62728DEST_PATH_IMAGE023
为第h层局部全连接层参数。
在本实施例中,通过叠加卷积神经网络的方式获取层次分类概率的过程包括:根据多模态特征向量和预设的特征全连接层获取特征向量权重表达;由低层到高层,将各层局部分类概率依次拼接,得到局部概率表达;根据特征向量权重表达、局部概率表达、全局分类概率和预设卷积层参数,获取层次分类概率。其中,获取层次分类概率的具体方式可以为首先将特征向量权重表达、局部概率表达、全局分类概率在维度方向上拼接,得到拼接概率;然后将拼接概率输入预设卷积层参数,得到层次分类概率。
综上,本发明提供的视频分类方法,通过预先训练的多层级多标签分类模型对待分类视频对应的多模态特征向量进行处理,即可得到待分类视频的层次分类。本发明实施例提供的技术方案,由于直接通过多层级多标签分类模型进行处理,解决了现有技术中由于采用局部方法时,需要对预测输出空间的每个分类建立模型,当标签层次结构比较庞大时,通过该方法分类的效率较低的问题。另外,由于多层级多标签分类模型包括通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的过程、通过特征反馈的方式获取各层局部分类概率的过程、以及通过叠加卷积神经网络的方式获取层次分类概率的过程中一个或多个过程,能够进一步提高分类的准确率。
实施例2
如图2所示,本发明实施例提供一种视频分类装置,包括:
向量获取单元201,用于获取待分类视频对应的多模态特征向量;
分类单元202,与向量获取单元和预先训练的多层级多标签分类模型相连,用于将多模态特征向量输入预先训练的多层级多标签分类模型,得到待分类视频的层次分类;
预先训练的多层级多标签分类模型203,包括:
通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的全局概率获取模块;
通过特征反馈的方式获取各层局部分类概率的局部概率获取模块;
通过叠加卷积神经网络的方式获取层次分类概率的分类概率获取模块。
在本实施例中,通过向量获取单元201和分类单元202实现视频分类的过程,与本发明实施例1提供的相似,在此不再一一赘述。
进一步的,如图3所示,本实施例提供的视频分类装置中,全局概率获取模块,包括:第1层全局表达获取子模块20311、第2层全局表达获取子模块20312···第n层全局表达获取子模块20313和全局概率获取子模块20314;n为预设的层级标签的层数,为大于或等于2的正整数;
第1层全局表达获取子模块,与向量获取单元相连,用于根据多模态特征向量和预设的第1层全局全连接层参数,获取第1层的全局隐层表达;
第2层全局表达获取子模块···第n层全局表达获取子模块中任意第h层全局表达获取子模块,分别与向量获取单元、第1层全局表达获取子模块至第h-1层全局表达子模块相连,用于根据多模态特征向量、预设的第h层全局全连接层参数以及第h层之前所有层的全局隐层表达,获取第h层的全局隐层表达;
Figure 356306DEST_PATH_IMAGE024
,h为正整数;
全局概率获取子模块,分别与向量获取单元、第1层全局表达获取子模块至第n层全局表达获取子模块相连,用于根据多模态特征向量、所有层的全局隐层表达和预设的全局输出全连接层参数,获取全局分类概率。
其中,第h层全局表达获取子模块,包括:
第h层特征获取结构,用于将多模态特征向量与第1层到第h-1层的全局隐层表达由低层到高层依次拼接,获取第h层的全局融合特征;
第h层表达获取结构,与第h层特征获取结构相连,用于根据第h层的全局融合特征和预设的第h层全局全连接层参数,获取第h层的全局隐层表达。
全局概率获取子模块,包括:
全局特征获取结构,用于将多模态特征向量与由低层到高层所有层的全局隐层表达依次拼接,获取模型全局融合特征;
全局概率获取结构,与全局特征获取结构相连,用于根据模型全局融合特征和预设的全局输出全连接层参数,获取全局分类概率。
在本实施例中,通过上述子模块及各个结构获取全局分类概率的过程,与本发明实施例1提供的过程相似,在此不再一一赘述。
进一步的,如图4所示,本实施例提供的视频分类装置中局部概率获取模块,包括:第1层局部表达获取子模块···第n层局部表达获取子模块;第1层局部概率获取子模块···第n层局部概率获取子模块;n为预设的层级标签的层数,为大于或等于2的正整数;
对于第1层局部表达获取子模块···第n层局部表达获取子模块中任意第m层局部表达获取子模块20321,分别与第m层全局表达获取子模块至第n层全局表达子获取模块相连,用于根据第m层全局隐层表达至第n层全局隐层表达和预设的该层转换全连接层参数,获取第m层的局部隐层表达;
Figure 865785DEST_PATH_IMAGE025
,m为正整数;
第1层局部概率获取子模块···第n层局部概率获取子模块中任意第m层局部概率获取子模块20322,与第m层局部表达获取子模块相连,用于根据第m层的局部隐层表达和预设的该层局部全连接层参数,获取第m层的局部分类概率。
在本实施例中,图4以第m层局部表达获取子模块20321和第m层局部概率获取子模块20322为例进行说明,对于其他层的连接关系,与第m层类似,在此不再一一赘述。
此时,第m层局部表达获取子模块,包括:
第m层特征获取结构,用于将第m层全局隐层表达至第n层全局隐层表达由低层到高层依次拼接,获取第m层的局部融合特征;
第m层表达获取结构,与第m层特征获取结构相连,用于根据第m层的局部融合特征和预设的该层转换全连接层参数,获取第m层的局部隐层表达。
在本实施例中,通过上述子模块和结构获取局部分类概率的过程,与本发明实施例1提供的相似,在此不再一一赘述。
进一步的,如图5所示,本实施例提供的视频分类装置中分类概率获取模块,包括:
权重表达子模块20331,与向量获取单元相连,用于根据多模态特征向量和预设的特征全连接层获取特征向量权重表达;
概率表达子模块20332,与局部概率获取模块相连,用于由低层到高层,将各层局部分类概率依次拼接,得到局部概率表达;
概率获取子模块20333,分别与权重表达子模块、概率表达子模块和全局概率获取模块相连,用于根据特征向量权重表达、局部概率表达、全局分类概率和预设卷积层参数,获取层次分类概率。
在本实施例中,通过上述子模块获取层次分类概率的过程,与本发明实施例1提供的相似,在此不再一一赘述。
综上,本发明提供的视频分类装置,通过预先训练的多层级多标签分类模型对待分类视频对应的多模态特征向量进行处理,即可得到待分类视频的层次分类。本发明实施例提供的技术方案,由于直接通过多层级多标签分类模型进行处理,解决了现有技术中由于采用局部方法时,需要对预测输出空间的每个分类建立模型,当标签层次结构比较庞大时,通过该方法分类的效率较低的问题。另外,由于多层级多标签分类模型包括通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的过程、通过特征反馈的方式获取各层局部分类概率的过程、以及通过叠加卷积神经网络的方式获取层次分类概率的过程中一个或多个过程,能够进一步提高分类的准确率。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (15)

1.一种视频分类方法,其特征在于,包括:
获取待分类视频对应的多模态特征向量;
将所述多模态特征向量输入预先训练的多层级多标签分类模型,得到所述待分类视频的层次分类;所述多层级多标签分类模型包括通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的过程、通过特征反馈的方式获取各层局部分类概率的过程、以及通过叠加卷积神经网络的方式获取层次分类概率的过程中一个或多个过程。
2.根据权利要求1所述的视频分类方法,其特征在于,所述通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的过程包括:
根据所述多模态特征向量和所述多层级多标签分类模型预设的第1层全局全连接层参数,获取第1层的全局隐层表达;
对于第2层以上的任意一层,根据所述多模态特征向量、所述多层级多标签分类模型预设的该层全局全连接层参数以及该层之前所有层的全局隐层表达,获取该层的全局隐层表达;
根据所述多模态特征向量、所述多层级多标签分类模型所有层的全局隐层表达和预设的全局输出全连接层参数,获取所述全局分类概率。
3.根据权利要求2所述的视频分类方法,其特征在于,对于第2层以上的任意第h层,根据所述多模态特征向量、所述多层级多标签分类模型预设的该层全局全连接层参数以及该层之前所有层的全局隐层表达,获取该层的全局隐层表达,包括:
将所述多模态特征向量与所述多层级多标签分类模型第1层到第h-1层的全局隐层表达由低层到高层依次拼接,获取第h层的全局融合特征;所述h为大于或等于2的正整数,所述h的最大值为预设的层级标签的层数;
根据所述第h层的全局融合特征和所述多层级多标签分类模型预设的第h层全局全连接层参数,获取第h层的全局隐层表达。
4.根据权利要求2所述的视频分类方法,其特征在于,所述根据所述多模态特征向量、所述多层级多标签分类模型所有层的全局隐层表达和预设的全局输出全连接层参数,获取所述全局分类概率,包括:
将所述多模态特征向量与所述多层级多标签分类模型由低层到高层所有层的全局隐层表达依次拼接,获取模型全局融合特征;
根据所述模型全局融合特征和预设的全局输出全连接层参数,获取所述全局分类概率。
5.根据权利要求1所述的视频分类方法,其特征在于,对于任意一层,所述通过特征反馈的方式获取各层局部分类概率的过程,包括:
根据所述多层级多标签分类模型该层的全局隐层表达、该层之后各层的全局隐层表达和预设的该层转换全连接层参数,获取该层的局部隐层表达;
根据该层的局部隐层表达和预设的该层局部全连接层参数,获取该层的局部分类概率。
6.根据权利要求5所述的视频分类方法,其特征在于,所述根据所述多层级多标签分类模型该层的全局隐层表达、该层之后各层的全局隐层表达和预设的该层转换全连接层参数,获取该层的局部隐层表达,包括:
将所述多层级多标签分类模型该层的全局隐层表达与该层之后各层的全局隐层表达由低层到高层依次拼接,获取该层的局部融合特征;
根据该层的局部融合特征和预设的该层转换全连接层参数,获取该层的局部隐层表达。
7.根据权利要求1所述的视频分类方法,其特征在于,通过叠加卷积神经网络的方式获取层次分类概率的过程包括:
根据所述多模态特征向量和预设的特征全连接层获取特征向量权重表达;
由低层到高层,将各层局部分类概率依次拼接,得到局部概率表达;
根据所述特征向量权重表达、局部概率表达、全局分类概率和预设卷积层参数,获取层次分类概率。
8.根据权利要求1所述的视频分类方法,其特征在于,所述获取待分类视频对应的多模态特征向量,包括:
获取所述待分类视频的图像特征;
获取所述待分类视频的文本特征;
将所述图像特征和文本特征进行融合,得到所述待分类视频对应的多模态特征向量。
9.一种视频分类装置,其特征在于,包括:
向量获取单元,用于获取待分类视频对应的多模态特征向量;
分类单元,与所述向量获取单元和预先训练的多层级多标签分类模型相连,用于将所述多模态特征向量输入预先训练的多层级多标签分类模型,得到所述待分类视频的层次分类;
所述预先训练的多层级多标签分类模型,包括:
通过密集连接的卷积神经网络与多层感知机相结合的方式获取全局分类概率的全局概率获取模块;
通过特征反馈的方式获取各层局部分类概率的局部概率获取模块;
通过叠加卷积神经网络的方式获取层次分类概率的分类概率获取模块。
10.根据权利要求9所述的视频分类装置,其特征在于,所述全局概率获取模块,包括:第1层全局表达获取子模块、第2层全局表达获取子模块···第n层全局表达获取子模块和全局概率获取子模块;所述n为预设的层级标签的层数,为大于或等于2的正整数;
所述第1层全局表达获取子模块,与所述向量获取单元相连,用于根据所述多模态特征向量和预设的第1层全局全连接层参数,获取第1层的全局隐层表达;
所述第2层全局表达获取子模块···第n层全局表达获取子模块中任意第h层全局表达获取子模块,分别与所述向量获取单元、第1层全局表达获取子模块至第h-1层全局表达子模块相连,用于根据所述多模态特征向量、预设的第h层全局全连接层参数以及第h层之前所有层的全局隐层表达,获取第h层的全局隐层表达;所述
Figure 232037DEST_PATH_IMAGE001
,所述h为正整数;
所述全局概率获取子模块,分别与所述向量获取单元、第1层全局表达获取子模块至第n层全局表达获取子模块相连,用于根据所述多模态特征向量、所有层的全局隐层表达和预设的全局输出全连接层参数,获取所述全局分类概率。
11.根据权利要求10所述的视频分类装置,其特征在于,所述第h层全局表达获取子模块,包括:
第h层特征获取结构,用于将所述多模态特征向量与第1层到第h-1层的全局隐层表达由低层到高层依次拼接,获取第h层的全局融合特征;
第h层表达获取结构,与所述第h层特征获取结构相连,用于根据所述第h层的全局融合特征和预设的第h层全局全连接层参数,获取第h层的全局隐层表达。
12.根据权利要求10所述的视频分类装置,其特征在于,所述全局概率获取子模块,包括:
全局特征获取结构,用于将所述多模态特征向量与由低层到高层所有层的全局隐层表达依次拼接,获取模型全局融合特征;
全局概率获取结构,与所述全局特征获取结构相连,用于根据所述模型全局融合特征和预设的全局输出全连接层参数,获取所述全局分类概率。
13.根据权利要求9所述的视频分类装置,其特征在于,所述局部概率获取模块,包括:第1层局部表达获取子模块···第n层局部表达获取子模块;第1层局部概率获取子模块···第n层局部概率获取子模块;所述n为预设的层级标签的层数,为大于或等于2的正整数;
对于第1层局部表达获取子模块···第n层局部表达获取子模块中任意第m层局部表达获取子模块,分别与第m层全局表达获取子模块至第n层全局表达获取子模块相连,用于根据第m层全局隐层表达至第n层全局隐层表达和预设的该层转换全连接层参数,获取第m层的局部隐层表达;所述
Figure 414756DEST_PATH_IMAGE002
,所述m为正整数;
第1层局部概率获取子模块···第n层局部概率获取子模块中任意第m层局部概率获取子模块,与所述第m层局部表达获取子模块相连,用于根据第m层的局部隐层表达和预设的该层局部全连接层参数,获取第m层的局部分类概率。
14.根据权利要求13所述的视频分类装置,其特征在于,所述第m层局部表达获取子模块,包括:
第m层特征获取结构,用于将第m层全局隐层表达至第n层全局隐层表达由低层到高层依次拼接,获取第m层的局部融合特征;
第m层表达获取结构,与所述第m层特征获取结构相连,用于根据第m层的局部融合特征和预设的该层转换全连接层参数,获取第m层的局部隐层表达。
15.根据权利要求9所述的视频分类装置,其特征在于,所述分类概率获取模块,包括:
权重表达子模块,与所述向量获取单元相连,用于根据所述多模态特征向量和预设的特征全连接层获取特征向量权重表达;
概率表达子模块,与所述局部概率获取模块相连,用于由低层到高层,将各层局部分类概率依次拼接,得到局部概率表达;
概率获取子模块,分别与所述权重表达子模块、概率表达子模块和全局概率获取模块相连,用于根据所述特征向量权重表达、局部概率表达、全局分类概率和预设卷积层参数,获取层次分类概率。
CN202010770567.2A 2020-08-04 2020-08-04 一种视频分类方法和装置 Active CN111737521B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010770567.2A CN111737521B (zh) 2020-08-04 2020-08-04 一种视频分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010770567.2A CN111737521B (zh) 2020-08-04 2020-08-04 一种视频分类方法和装置

Publications (2)

Publication Number Publication Date
CN111737521A true CN111737521A (zh) 2020-10-02
CN111737521B CN111737521B (zh) 2020-11-24

Family

ID=72657097

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010770567.2A Active CN111737521B (zh) 2020-08-04 2020-08-04 一种视频分类方法和装置

Country Status (1)

Country Link
CN (1) CN111737521B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633404A (zh) * 2020-12-30 2021-04-09 复旦大学 基于DenseNet的COVID-19患者的CT影像分类方法及装置
CN112732976A (zh) * 2021-01-13 2021-04-30 天津大学 一种基于深度哈希编码的短视频多标签快速分类方法
CN113592031A (zh) * 2021-08-17 2021-11-02 全球能源互联网研究院有限公司 一种图像分类系统、违章工具识别方法及装置
CN113688232A (zh) * 2021-07-09 2021-11-23 杭州未名信科科技有限公司 招标文本分类方法、装置、存储介质及终端
CN113837216A (zh) * 2021-06-01 2021-12-24 腾讯科技(深圳)有限公司 数据分类方法、训练方法、装置、介质及电子设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170228618A1 (en) * 2014-10-24 2017-08-10 Huawei Technologies Co., Ltd. Video classification method and apparatus
CN107862329A (zh) * 2017-10-31 2018-03-30 电子科技大学 一种基于深度置信网络的雷达一维距离像真假目标识别方法
CN108960073A (zh) * 2018-06-05 2018-12-07 大连理工大学 面向生物医学文献的跨模态图像模式识别方法
CN109325547A (zh) * 2018-10-23 2019-02-12 苏州科达科技股份有限公司 非机动车图像多标签分类方法、系统、设备及存储介质
CN109508584A (zh) * 2017-09-15 2019-03-22 腾讯科技(深圳)有限公司 视频分类的方法、信息处理的方法以及服务器
CN110298383A (zh) * 2019-05-28 2019-10-01 中国科学院计算技术研究所 基于多模态深度学习的病理分类方法及系统
CN110737801A (zh) * 2019-10-14 2020-01-31 腾讯科技(深圳)有限公司 内容分类方法、装置、计算机设备和存储介质
CN110853680A (zh) * 2019-11-05 2020-02-28 河南工业大学 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构
CN111046949A (zh) * 2019-12-10 2020-04-21 东软集团股份有限公司 一种图像分类方法、装置及设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170228618A1 (en) * 2014-10-24 2017-08-10 Huawei Technologies Co., Ltd. Video classification method and apparatus
CN109508584A (zh) * 2017-09-15 2019-03-22 腾讯科技(深圳)有限公司 视频分类的方法、信息处理的方法以及服务器
CN107862329A (zh) * 2017-10-31 2018-03-30 电子科技大学 一种基于深度置信网络的雷达一维距离像真假目标识别方法
CN108960073A (zh) * 2018-06-05 2018-12-07 大连理工大学 面向生物医学文献的跨模态图像模式识别方法
CN109325547A (zh) * 2018-10-23 2019-02-12 苏州科达科技股份有限公司 非机动车图像多标签分类方法、系统、设备及存储介质
CN110298383A (zh) * 2019-05-28 2019-10-01 中国科学院计算技术研究所 基于多模态深度学习的病理分类方法及系统
CN110737801A (zh) * 2019-10-14 2020-01-31 腾讯科技(深圳)有限公司 内容分类方法、装置、计算机设备和存储介质
CN110853680A (zh) * 2019-11-05 2020-02-28 河南工业大学 一种用于语音情感识别的具有多输入多融合策略的双BiLSTM结构
CN111046949A (zh) * 2019-12-10 2020-04-21 东软集团股份有限公司 一种图像分类方法、装置及设备

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112633404A (zh) * 2020-12-30 2021-04-09 复旦大学 基于DenseNet的COVID-19患者的CT影像分类方法及装置
CN112732976A (zh) * 2021-01-13 2021-04-30 天津大学 一种基于深度哈希编码的短视频多标签快速分类方法
CN112732976B (zh) * 2021-01-13 2021-11-09 天津大学 一种基于深度哈希编码的短视频多标签快速分类方法
CN113837216A (zh) * 2021-06-01 2021-12-24 腾讯科技(深圳)有限公司 数据分类方法、训练方法、装置、介质及电子设备
CN113837216B (zh) * 2021-06-01 2024-05-10 腾讯科技(深圳)有限公司 数据分类方法、训练方法、装置、介质及电子设备
CN113688232A (zh) * 2021-07-09 2021-11-23 杭州未名信科科技有限公司 招标文本分类方法、装置、存储介质及终端
CN113688232B (zh) * 2021-07-09 2023-10-27 杭州未名信科科技有限公司 招标文本分类方法、装置、存储介质及终端
CN113592031A (zh) * 2021-08-17 2021-11-02 全球能源互联网研究院有限公司 一种图像分类系统、违章工具识别方法及装置
CN113592031B (zh) * 2021-08-17 2023-11-28 全球能源互联网研究院有限公司 一种图像分类系统、违章工具识别方法及装置

Also Published As

Publication number Publication date
CN111737521B (zh) 2020-11-24

Similar Documents

Publication Publication Date Title
CN111737521B (zh) 一种视频分类方法和装置
CN110245655B (zh) 一种基于轻量级图像金字塔网络的单阶段物体检测方法
Zhang et al. Canet: Class-agnostic segmentation networks with iterative refinement and attentive few-shot learning
CN111462282B (zh) 一种场景图生成方法
KR101803471B1 (ko) 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템 및 이를 이용한 영상 학습방법
US20200242451A1 (en) Method, system and apparatus for pattern recognition
CN109977872B (zh) 动作检测方法、装置、电子设备及计算机可读存储介质
CN112200266A (zh) 基于图结构数据的网络训练方法、装置以及节点分类方法
CN109766918B (zh) 基于多层次上下文信息融合的显著性物体检测方法
CN115131281A (zh) 变化检测模型训练和图像变化检测方法、装置及设备
CN115578570A (zh) 图像处理方法、装置、可读介质及电子设备
CN114863407A (zh) 一种基于视觉语言深度融合的多任务冷启动目标检测方法
JP2020038574A (ja) 画像学習プログラム、画像学習方法、画像認識プログラム、画像認識方法、及び画像認識装置
CN115203409A (zh) 一种基于门控融合和多任务学习的视频情感分类方法
CN114611617A (zh) 基于原型网络的深度领域自适应图像分类方法
CN111178363B (zh) 文字识别方法、装置、电子设备以及可读存储介质
Park et al. Pyramid attention upsampling module for object detection
WO2020227968A1 (en) Adversarial multi-binary neural network for multi-class classification
He et al. Td-road: top-down road network extraction with holistic graph construction
CN113240586A (zh) 一种可自适应调节放大倍数的螺栓图像超分辨率处理方法
Wozniak et al. Towards a robust sensor fusion step for 3d object detection on corrupted data
CN116524261A (zh) 一种基于多模态小样本持续学习的图像分类方法及产品
CN110647917A (zh) 一种模型复用方法与系统
CN116468979A (zh) 一种双向特征融合网络、回归预测网络、训练方法及装置
CN114758283A (zh) 一种视频标签分类方法、系统及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant