CN113010735B - 一种视频分类方法、装置、电子设备及存储介质 - Google Patents
一种视频分类方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113010735B CN113010735B CN201911324612.5A CN201911324612A CN113010735B CN 113010735 B CN113010735 B CN 113010735B CN 201911324612 A CN201911324612 A CN 201911324612A CN 113010735 B CN113010735 B CN 113010735B
- Authority
- CN
- China
- Prior art keywords
- video
- video frame
- feature vector
- module
- classified
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 53
- 239000013598 vector Substances 0.000 claims abstract description 309
- 230000009467 reduction Effects 0.000 claims description 101
- 238000004364 calculation method Methods 0.000 claims description 92
- 238000000605 extraction Methods 0.000 claims description 72
- 238000004590 computer program Methods 0.000 claims description 9
- 238000004891 communication Methods 0.000 description 9
- 238000011176 pooling Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000010187 selection method Methods 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供的一种分类方法、装置、电子设备及存储介质,包括:获取待分类视频;提取待分类视频的第一视频帧特征向量和第二视频帧特征向量;将第一视频帧特征向量和第二视频帧特征向量相加,得到输出向量;对输出向量进行分析,得到待分类视频的预测类型。实现了通过提取待分类视频帧的像素点之间的关联和待分类视频中多个视频帧的通道之间的关联,并基于该关联关系进行视频的分类,从而可以提高视频分类的精度。
Description
技术领域
本申请涉及信息技术领域,特别是涉及一种视频分类方法、装置、电子设备及存储介质。
背景技术
随着信息技术的发展,基于神经网络进行信息分类的技术越来越多的被应用到实际任务当中。尤其是图片分裂、视频分类、场景分裂等,已经能通过神经网络模型进行实现。
目前,进行数据分类过程中,一般通过非局部连接网络Non-Local Network或双线性汇合Bilinear Pooling算法进行分类。然而,Bilinear Pooling虽然能够捕捉像素点之间依赖,从而进行数据分类,但未考虑通道间的相似性,分类精度较低,而Non-LocalNetwork确只关注于计算特征中对应通道之间的相似性进行数据分类,分类效果较差。
发明内容
本申请实施例的目的在于提供一种视频分类方法、装置、电子设备及存储介质,以实现提高数据分类精度的效果。具体技术方案如下:
第一方面,本申请提供了一种视频分类方法,包括:
获取待分类视频,其中,待分类视频包括多个视频帧;
提取待分类视频的第一视频帧特征向量和第二视频帧特征向量,其中,第一视频帧特征向量表示待分类视频中多个视频帧的像素点之间的关联,第二视频帧特征向量表示待分类视频中多个视频帧的通道之间的关联;
将第一视频帧特征向量和第二视频帧特征向量相加,得到输出向量;
对输出向量进行分析,得到待分类视频的预测类型。
可选的,提取待分类视频的第一特征向量和第二特征向量,包括:
通过预先训练的网络模型中的第一特征提取网络,对待分类视频进行特征提取,得到第一视频帧特征向量;
通过预先训练的网络模型中的第二特征提取网络,对待分类视频进行特征提取,得到第二视频帧特征向量。
可选的,对输出向量进行分析,得到待分类视频的预测类型,
将输出向量与预设的多个标准分类向量进行对比,得到待分类视频的预测类型,其中,多个标准分类对应多个预测类型。
可选的,在获取待分类视频之后,上述方法还包括:
在待分类视频中提取预设数量的视频帧,得到目标视频帧组;
通过预先训练的网络模型中的第一特征提取网络,对待分类视频进行特征提取,得到第一视频帧特征向量;通过预先训练的网络模型中的第二特征提取网络,对待分类视频进行特征提取,得到第二视频帧特征向量,包括:
通过预先训练的网络模型中的第一特征提取网络,对目标视频帧组进行特征提取,得到第一视频帧特征向量;通过预先训练的网络模型中的第二特征提取网络,对目标视频帧组进行特征提取,得到第二视频帧特征向量。
可选的,第一特征提取网络包括第一降维模块、第二降维模块、第三降维模块、第一乘积模块、第二乘积模块、第一升维模块及第一回归模块;通过预先训练的网络模型中的第一特征提取网络,对目标视频帧组进行特征提取,得到第一视频帧特征向量,包括:
通过第一降维模块对目标视频帧组的特征向量进行降维得到第一特征向量,通过第二降维模块对目标视频帧组的特征向量进行降维得到第二特征向量,通过第三降维模块对目标视频帧组的特征向量进行降维得到第三特征向量;
将第二特征向量变形,并将第一特征向量与变形后第二特征向量输入第一乘积模块进行叉乘,得到第一计算结果,其中,第一计算结果表示目标视频帧组中各视频帧的像素点之间的关联;
利用回归模块对第一计算结果进行回归,得到第二计算结果;
将第二计算结果输入第二乘积模块与第三特征向量进行叉乘,得到第三计算结果;
将第三计算结果输入第一升维模块,对第三计算结果进行升维,得到第一视频帧特征向量。
可选的,第二特征提取网络包括第四降维模块、第五降维模块、第六降维模块、第三乘积模块、第四乘积模块、第二升维模块及第二回归模块;通过预先训练的网络模型中的第二特征提取网络,对目标视频帧组进行特征提取,得到第二视频帧特征向量,包括:
通过第四降维模块对目标视频帧组的特征向量进行降维得到第四特征向量,通过第五降维模块对目标视频帧组的特征向量进行降维得到第五特征向量,通过第六降维模块对目标视频帧组的特征向量进行降维得到第六特征向量;
将第五特征向量变形,并将变形后第五特征向量与第六特征输入第三乘积模块进行叉乘,得到第四计算结果,其中,第四计算结果表示所述目标视频帧组中各视频帧的通道之间的关联;
利用回归模块对第四计算结果进行回归,得到第五计算结果;
将第四特征向量输入第四乘积模块与第五计算结果进行叉乘,得到第六计算结果;
将第六计算结果输入第二升维模块,对第六计算结果进行升维,得到第二视频帧特征向量。
第二方面,本申请提供了一种视频分类装置,包括:
视频获取模块,用于获取待分类视频,其中,待分类视频包括多个视频帧;
特征获取模块,用于提取待分类视频的第一视频帧特征向量和第二视频帧特征向量,其中,第一视频帧特征向量表示待分类视频中多个视频帧的像素点之间的关联,第二视频帧特征向量表示待分类视频中多个视频帧的通道之间的关联;
向量输出模块,用于将第一视频帧特征向量和第二视频帧特征向量相加,得到输出向量;
视频分类模块,用于对输出向量进行分析,得到待分类视频的预测类型。
可选的,特征获取模块,包括:
第一视频帧子模块,用于通过预先训练的网络模型中的第一特征提取网络,对待分类视频进行特征提取,得到第一视频帧特征向量;
第二视频帧子模块,用于通过预先训练的网络模型中的第二特征提取网络,对待分类视频进行特征提取,得到第二视频帧特征向量。
可选的,视频分类模块,包括:
标准对比子模块,用于将输出向量与预设的多个标准分类向量进行对比,得到待分类视频的预测类型,其中,多个标准分类对应多个预测类型。
可选的,上述装置还包括:
视频帧模块,用于在待分类视频中提取预设数量的视频帧,得到目标视频帧组;
特征获取模块,包括:
视频帧特征子模块,用于通过预先训练的网络模型中的第一特征提取网络,对目标视频帧组进行特征提取,得到第一视频帧特征向量;通过预先训练的网络模型中的第二特征提取网络,对目标视频帧组进行特征提取,得到第二视频帧特征向量。
可选的,第一特征提取网络包括第一降维模块、第二降维模块、第三降维模块、第一乘积模块、第二乘积模块、第一升维模块及第一回归模块;视频帧特征子模块具体还用于:
通过第一降维模块对目标视频帧组的特征向量进行降维得到第一特征向量,通过第二降维模块对目标视频帧组的特征向量进行降维得到第二特征向量,通过第三降维模块对目标视频帧组的特征向量进行降维得到第三特征向量;
将第二特征向量变形,并将第一特征向量与变形后第二特征向量输入第一乘积模块进行叉乘,得到第一计算结果,其中,第一计算结果表示目标视频帧组中各视频帧的像素点之间的关联;
利用回归模块对第一计算结果进行回归,得到第二计算结果;
将第二计算结果输入第二乘积模块与第三特征向量进行叉乘,得到第三计算结果;
将第三计算结果输入第一升维模块,对第三计算结果进行升维,得到第一视频帧特征向量。
可选的,第二特征提取网络包括第四降维模块、第五降维模块、第六降维模块、第三乘积模块、第四乘积模块、第二升维模块及第二回归模块;视频帧特征子模块具体还用于:
通过第四降维模块对目标视频帧组的特征向量进行降维得到第四特征向量,通过第五降维模块对目标视频帧组的特征向量进行降维得到第五特征向量,通过第六降维模块对目标视频帧组的特征向量进行降维得到第六特征向量;
将第五特征向量变形,并将变形后第五特征向量与第六特征输入第三乘积模块进行叉乘,得到第四计算结果,其中,第四计算结果表示所述目标视频帧组中各视频帧的通道之间的关联;
利用回归模块对第四计算结果进行回归,得到第五计算结果;
将第四特征向量输入第四乘积模块与第五计算结果进行叉乘,得到第六计算结果;
将第六计算结果输入第二升维模块,对第六计算结果进行升维,得到第二视频帧特征向量。
根据本公开实施例的第三方面,提供一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,处理器被配置为执行指令,以实现上述任一视频分类方法。
根据本公开实施例的第四方面,提供一种存储介质,
当存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行上述任一视频分类方法。
本申请实施例提供的一种分类方法、装置、电子设备及存储介质,包括:获取待分类视频;提取待分类视频的第一视频帧特征向量和第二视频帧特征向量;将第一视频帧特征向量和第二视频帧特征向量相加,得到输出向量;对输出向量进行分析,得到待分类视频的预测类型。实现了通过提取待分类视频帧的像素点之间的关联和待分类视频中多个视频帧的通道之间的关联,并基于该关联关系进行视频的分类,从而可以提高视频分类的精度。当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例的一种视频分类方法的一种流程图;
图2为本申请实施例的一种网络模型的示意图;
图3为本申请实施例的一种特征向量提取方法的流程图;
图4为本申请实施例的一种视频分类方法的流程图;
图5为本申请实施例的一种视频分类方法的另一种流程图;
图6为本申请实施例的一种第一视频帧特征向量获取方法的流程图;
图7为本申请实施例的一种第二视频帧特征向量获取方法的流程图;
图8为本申请实施例的一种视频分类装置的一种结构图;
图9为本申请实施例的电子设备的一种示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
图1为本申请实施例的一种视频分类方法的一种流程图,如图1所示,视频分类方法,包括以下步骤:
在步骤S11中,获取待分类视频。
其中,待分类视频包括多个视频帧。上述待分类视频可以是多种格式的视频,例如AVI(Audio Video Interleaved,音频视频交错格式)、MP4(Moving Picture ExpertsGroup 4,动态图像专家组)等,本申请对此不进行限定。
本申请实施例的视频分类方法针对的是智能终端设备中的视频,因此可以通过智能终端设备执行,具体的,该智能终端设备可以为电脑、智能手机或服务器等。
在步骤S12中,提取待分类视频的第一视频帧特征向量和第二视频帧特征向量。
其中,第一视频帧特征向量表示待分类视频中多个视频帧的像素点之间的关联,第二视频帧特征向量表示待分类视频中多个视频帧的通道之间的关联。
其中,第一视频帧特征向量表示待分类视频中多个视频帧的像素点之间的关联,参见图2,图2为本申请实施例的一种网络模型的示意图,可以通过Non-Local Network类型的网络模型,可以通过将上述Non-Local Network的网络模型嵌入到上述第一网络中,对待分类视频进行特征提取,得到第二视频帧特征向量,其中上述第一网络可以为Resnet类型的网络模型。
在步骤S13中,将第一视频帧特征向量和第二视频帧特征向量相加,得到输出向量。
其中,上述第一视频帧特征向量表示待分类视频中多个视频帧的像素点之间的关联,第二视频帧特征向量表示待分类视频中多个视频帧的通道之间的关联。通过将上述第一视频帧特征向量和第二视频帧特征向量相加,得到的输出向量可以对上述像素点之间的关联与上述通道之间的关联进行表示。
在步骤S14中,对输出向量进行分析,得到待分类视频的预测类型。
上述输出向量可以对上述像素点之间的关联与上述通道之间的关联进行表示,因此,通过上述输出向量进行分析,得到待分类视频的预测类型,即可以考虑视频帧中像素点之间的关联又可以表示待分类视频中多个视频帧的通道之间的关联。
可见,通过本申请实施例的视频分类方法,获取待分类视频;提取待分类视频的第一视频帧特征向量和第二视频帧特征向量;将第一视频帧特征向量和第二视频帧特征向量相加,得到输出向量;对输出向量进行分析,得到待分类视频的预测类型。实现了通过提取待分类视频帧的像素点之间的关联和待分类视频中多个视频帧的通道之间的关联,并基于该关联关系进行视频的分类,从而可以提高视频分类的精度。
可选的,参见图3,提取待分类视频的第一特征向量和第二特征向量,包括:
在步骤S121中,通过预先训练的网络模型中的第一特征提取网络,对待分类视频进行特征提取,得到第一视频帧特征向量;
在步骤S122中,通过预先训练的网络模型中的第二特征提取网络,对待分类视频进行特征提取,得到第二视频帧特征向量。
可见,通过本申请实施例的方法,可以通过预先训练的网络模型中的第一特征提取网络,对待分类视频进行特征提取,得到第一视频帧特征向量;通过预先训练的网络模型中的第二特征提取网络,对待分类视频进行特征提取,得到第二视频帧特征向量,从通过网络模型进行第一视频帧特征向量和第二视频帧特征向量的提取。
可选的,参见图4,对输出向量进行分析,得到待分类视频的预测类型,包括:
在步骤S141中,将输出向量与预设的多个标准分类向量进行对比,得到待分类视频的预测类型。
其中,多个标准分类对应多个预测类型。上述对比可以通过网络模型实现,可见通过将输出向量与预设的多个标准分类向量进行对比,可到得到待分类视频的预测类型,从而对视频进行分类。
参见图5,图5为本申请实施例的一种视频分类方法的另一种流程图,包括以下步骤:
在步骤S11中,获取待分类视频。
其中,待分类视频包括多个视频帧。
在步骤S21中,在待分类视频中提取预设数量的视频帧,得到目标视频帧组。
其中,上述预设数量的视频帧可以为上述待分类视频中的一组连续的视频帧,也可以为上述待分类视频中的某几个间隔的视频帧。例如,从上述待分类视频中选取某一视频帧作为起始视频帧,并从上述起始视频帧开始选取一组连续的视频帧,或通过预设选取方法讯取某几个视频帧作为目标视频帧。具体的选取方法可以为多种类型的方法,此处不再赘述。
在步骤S12中,提取待分类视频的第一视频帧特征向量和第二视频帧特征向量。
其中,第一视频帧特征向量表示待分类视频中多个视频帧的像素点之间的关联,第二视频帧特征向量表示待分类视频中多个视频帧的通道之间的关联。
其中,上述可以为通过预先训练的网络模型获取目标视频帧组的特征向量,通过预先训练的网络模型中的第一特征提取网络,对目标视频帧组进行特征提取,得到第一视频帧特征向量;通过预先训练的网络模型中的第二特征提取网络,对目标视频帧组进行特征提取,得到第二视频帧特征向量,可以为通过Non-Local Network类型的网络,获取第一视频帧特征向量,通过基于Bilinear Pooling结构的网络获取第二视频帧特征向量。
在步骤S13中,将第一视频帧特征向量和第二视频帧特征向量相加,得到输出向量。
在步骤S14中,对输出向量进行分析,得到待分类视频的预测类型。
可见,通过本申请实施例的视频分类方法,获取待分类视频;提取待分类视频的第一视频帧特征向量和第二视频帧特征向量;将第一视频帧特征向量和第二视频帧特征向量相加,得到输出向量;对输出向量进行分析,得到待分类视频的预测类型。实现了通过提取待分类视频帧的像素点之间的关联和待分类视频中多个视频帧的通道之间的关联,并基于该关联关系进行视频的分类,从而可以提高视频分类的精度。
例如图2所示,第一特征提取网络可以包括第一降维模块、第二降维模块、第三降维模块、第一乘积模块、第二乘积模块、第一升维模块及第一回归模块;通过预先训练的网络模型中的第一特征提取网络,对目标视频帧组进行特征提取,得到第一视频帧特征向量,在一种可能的实施方式中,如图6所示,上述通过预先训练的网络模型中的第一特征提取网络,对目标视频帧组进行特征提取,得到第一视频帧特征向量,包括以下步骤:
在步骤S1211中,通过第一降维模块对目标视频帧组的特征向量进行降维得到第一特征向量,通过第二降维模块对目标视频帧组的特征向量进行降维得到第二特征向量,通过第三降维模块对目标视频帧组的特征向量进行降维得到第三特征向量。
参见图2,图2为本申请实施例的一种网络模型的示意图,其中,可以通过预先训练的网络模型获取目标视频帧组的特征向量,其中上述特征向量可以为THWC1类型的向量,其中T为网络输入连续视频帧,比如T=8表示输入有8帧图像,H和W为视频帧的高和宽,C1为通道数。其中,对目标视频帧组的特征向量进行降维,可以通过上述特征向量进行降维。例如,C1为1024,通过第一降维模块进行降维后第一特征向量为TxHxWx512,即C2降维后为512,第二降维模块与第三降维模块与上述第一降维模块相同,此处不再赘述。
在步骤S1212中,将第二特征向量变形,并将第一特征向量与变形后第二特征向量输入第一乘积模块进行叉乘,得到第一计算结果。
其中,第一计算结果表示目标视频帧组中各视频帧的像素点之间的关联。
其中,上述将第一特征向量的变形可以为多种类型的变形,例如,第二特征向量为THWC2变形后为C2THW,将第一特征向量与变形后第二特征向量输入第一乘积模块进行叉乘,可以为THWC2与C2THW进行叉乘,得到第一计算结果。
在步骤S1213中,利用回归模块对第一计算结果进行回归,得到第二计算结果。
其中,利用回归模块对第一计算结果进行回归,得到第二计算结果,可以为通过softmax函数对上述第一计算结果进行回归,得到第二计算结果。
在步骤S1214中,将第二计算结果输入第二乘积模块与第三特征向量进行叉乘,得到第三计算结果。
将第二计算结果输入第二乘积模块与第三特征向量进行叉乘,为基于注意力机制的方法,通过将第二计算结果输入第二乘积模块与第三特征向量进行叉乘可以将模型的计算集中与上述第三特征向量。
在步骤S1215中,将第三计算结果输入第一升维模块,对第三计算结果进行升维,得到第一视频帧特征向量。
其中,对第三计算结果进行升维,得到第一视频帧特征向量,可以为将上述第三计算结果与上述通过预先训练的网络模型获取目标视频帧组的特征向量相加,进行升维。其中通过卷积将通道升维后与原始特征向量相加,即基于Non-Local Network的计算方式可以建立不同帧之间任意两点之间的联系,比如第1帧跟第8帧中任意两点的联系,因此可以很好的提取时序特征。
例如图2所示,第二特征提取网络可以包括第四降维模块、第五降维模块、第六降维模块、第三乘积模块、第四乘积模块、第二升维模块及第二回归模块;通过预先训练的网络模型中的第二特征提取网络,对目标视频帧组进行特征提取,得到第二视频帧特征向量,在一种可能的实施方式中,如图7所示,通过预先训练的网络模型中的第二特征提取网络,对目标视频帧组进行特征提取,得到第二视频帧特征向量,包括以下步骤:
在步骤S1221中,通过第四降维模块对目标视频帧组的特征向量进行降维得到第四特征向量,通过第五降维模块对目标视频帧组的特征向量进行降维得到第五特征向量,通过第六降维模块对目标视频帧组的特征向量进行降维得到第六特征向量。
其中,第四降维模块、第五降维模块、第六降维模块与上述第一降维模块相同,参见图2,图2为本申请实施例的一种网络模型的示意图,第四降维模块、第五降维模块、第六降维模块分别与上述第一降维模块、第二降维模块、第三降维模块的作用相似或相同,此处不再赘述。
在步骤S1222中,将第五特征向量变形,并将变形后第五特征向量与第六特征输入第三乘积模块进行叉乘,得到第四计算结果。
其中,第四计算结果表示所述目标视频帧组中各视频帧的通道之间的关联。
其中,将变形后第五特征向量与第六特征输入第三乘积模块进行叉乘,即基于Bilinear Pooling类型的网络结构。
其中,上述将第五特征向量的变形可以为多种类型的变形,例如,第五特征向量为THWC2变形后为C2THW,将第六特征向量与变形后第五特征向量输入第三乘积模块进行叉乘,可以为C2THW与THWC2进行叉乘,得到第四计算结果C2xC2。
在步骤S1223中,利用回归模块对第四计算结果进行回归,得到第五计算结果。
在步骤S1224中,将第四特征向量输入第四乘积模块与第五计算结果进行叉乘,得到第六计算结果。
通过基于Bilinear Pooling类型的网络结构,将第五特征向量变形,并将变形后第五特征向量与第六特征输入第三乘积模块进行叉乘,从而利用注意力机制将BilinearPooling计算出来的通道与通道之间的关系作用在第四降维模块的输出上。
在步骤S1225中,将第六计算结果输入第二升维模块,对第六计算结果进行升维,得到第二视频帧特征向量。
通过基于Bilinear Pooling类型的网络结构,将第五特征向量变形,并将变形后第五特征向量与第六特征输入第三乘积模块进行叉乘,从而利用注意力机制将BilinearPooling计算出来的通道与通道之间的关系作用在第四降维模块的输出上,可以使得网络能够捕捉通道与通道之间的关系。
图8为本申请实施例的一种视频分类装置的一种结构图,如图8所示,包括:
视频获取模块801,用于获取待分类视频,其中,待分类视频包括多个视频帧;
特征获取模块802,用于提取待分类视频的第一视频帧特征向量和第二视频帧特征向量,其中,第一视频帧特征向量表示待分类视频中多个视频帧的像素点之间的关联,第二视频帧特征向量表示待分类视频中多个视频帧的通道之间的关联;
向量输出模块803,用于将第一视频帧特征向量和第二视频帧特征向量相加,得到输出向量;
视频分类模块804,用于对输出向量进行分析,得到待分类视频的预测类型。
可选的,特征获取模块802,包括:
第一视频帧子模块,用于通过预先训练的网络模型中的第一特征提取网络,对待分类视频进行特征提取,得到第一视频帧特征向量;
第二视频帧子模块,用于通过预先训练的网络模型中的第二特征提取网络,对待分类视频进行特征提取,得到第二视频帧特征向量
可选的,视频分类模块804,包括:
标准对比子模块,用于将输出向量与预设的多个标准分类向量进行对比,得到待分类视频的预测类型,其中,多个标准分类对应多个预测类型。
可选的,上述装置还包括:
视频帧模块,用于在待分类视频中提取预设数量的视频帧,得到目标视频帧组;
特征获取模块,包括:
视频帧特征子模块,用于通过预先训练的网络模型中的第一特征提取网络,对目标视频帧组进行特征提取,得到第一视频帧特征向量;通过预先训练的网络模型中的第二特征提取网络,对目标视频帧组进行特征提取,得到第二视频帧特征向量。
可选的,第一特征提取网络包括第一降维模块、第二降维模块、第三降维模块、第一乘积模块、第二乘积模块、第一升维模块及第一回归模块;视频帧特征子模块具体还用于:
通过第一降维模块对目标视频帧组的特征向量进行降维得到第一特征向量,通过第二降维模块对目标视频帧组的特征向量进行降维得到第二特征向量,通过第三降维模块对目标视频帧组的特征向量进行降维得到第三特征向量;
将第二特征向量变形,并将第一特征向量与变形后第二特征向量输入第一乘积模块进行叉乘,得到第一计算结果,其中,第一计算结果表示目标视频帧组中各视频帧的像素点之间的关联;
利用回归模块对第一计算结果进行回归,得到第二计算结果;
将第二计算结果输入第二乘积模块与第三特征向量进行叉乘,得到第三计算结果;
将第三计算结果输入第一升维模块,对第三计算结果进行升维,得到第一视频帧特征向量。
可选的,第二特征提取网络包括第四降维模块、第五降维模块、第六降维模块、第三乘积模块、第四乘积模块、第二升维模块及第二回归模块;视频帧特征子模块具体还用于:
通过第四降维模块对目标视频帧组的特征向量进行降维得到第四特征向量,通过第五降维模块对目标视频帧组的特征向量进行降维得到第五特征向量,通过第六降维模块对目标视频帧组的特征向量进行降维得到第六特征向量;
将第五特征向量变形,并将变形后第五特征向量与第六特征输入第三乘积模块进行叉乘,得到第四计算结果,其中,第四计算结果表示所述目标视频帧组中各视频帧的通道之间的关联;
利用回归模块对第四计算结果进行回归,得到第五计算结果;
将第四特征向量输入第四乘积模块与第五计算结果进行叉乘,得到第六计算结果;
将第六计算结果输入第二升维模块,对第六计算结果进行升维,得到第二视频帧特征向量。
可见,通过本申请实施例的视频分类装置,获取待分类视频;提取待分类视频的第一视频帧特征向量和第二视频帧特征向量;将第一视频帧特征向量和第二视频帧特征向量相加,得到输出向量;对输出向量进行分析,得到待分类视频的预测类型。实现了通过提取待分类视频帧的像素点之间的关联和待分类视频中多个视频帧的通道之间的关联,并基于该关联关系进行视频的分类,从而可以提高视频分类的精度。
本申请实施例还提供了一种电子设备,包括:处理器及存储器;
上述存储器,用于存放计算机程序。
上述处理器用于执行上述存储器存放的计算机程序时,实现如下步骤:
获取待分类视频,其中,待分类视频包括多个视频帧;
提取待分类视频的第一视频帧特征向量和第二视频帧特征向量,其中,第一视频帧特征向量表示待分类视频中多个视频帧的像素点之间的关联,第二视频帧特征向量表示待分类视频中多个视频帧的通道之间的关联;
将第一视频帧特征向量和第二视频帧特征向量相加,得到输出向量;
对输出向量进行分析,得到待分类视频的预测类型。
可选的,参见图9,本申请实施例的电子设备还包括通信接口902和通信总线904,其中,处理器901,通信接口902,存储器903通过通信总线904完成相互间的通信。
可选的,上述处理器用于执行上述存储器存放的计算机程序时,还能够实现上述任一视频分类方法。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本申请实施例还提供了一种计算机可读存储介质,上述计算机可读存储介质内存储有计算机程序,上述计算机程序被处理器执行时实现如下步骤:
获取待分类视频,其中,待分类视频包括多个视频帧;
提取待分类视频的第一视频帧特征向量和第二视频帧特征向量,其中,第一视频帧特征向量表示待分类视频中多个视频帧的像素点之间的关联,第二视频帧特征向量表示待分类视频中多个视频帧的通道之间的关联;
将第一视频帧特征向量和第二视频帧特征向量相加,得到输出向量;
对输出向量进行分析,得到待分类视频的预测类型。
可选的,上述计算机程序被处理器执行时,还能够实现上述视频分类方法。
需要说明的是,在本文中,各个可选方案中的技术特征只要不矛盾均可组合来形成方案,这些方案均在本申请公开的范围内。诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置、电子设备及存储介质的实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。
Claims (7)
1.一种视频分类方法,其特征在于,包括:
获取待分类视频,其中,所述待分类视频包括多个视频帧;
提取所述待分类视频的第一视频帧特征向量和第二视频帧特征向量,其中,所述第一视频帧特征向量表示所述待分类视频中多个视频帧的像素点之间的关联,所述第二视频帧特征向量表示所述待分类视频中多个视频帧的通道之间的关联;
将所述第一视频帧特征向量和第二视频帧特征向量相加,得到输出向量;
对所述输出向量进行分析,得到所述待分类视频的预测类型;
所述提取所述待分类视频的第一特征向量和第二特征向量,包括:通过预先训练的网络模型中的第一特征提取网络,对所述待分类视频进行特征提取,得到第一视频帧特征向量;通过预先训练的网络模型中的第二特征提取网络,对所述待分类视频进行特征提取,得到第二视频帧特征向量;
在所述获取待分类视频之后,所述方法还包括:在所述待分类视频中提取预设数量的视频帧,得到目标视频帧组;所述通过预先训练的网络模型中的第一特征提取网络,对所述待分类视频进行特征提取,得到第一视频帧特征向量;通过预先训练的网络模型中的第二特征提取网络,对所述待分类视频进行特征提取,得到第二视频帧特征向量,包括:通过预先训练的网络模型中的第一特征提取网络,对所述目标视频帧组进行特征提取,得到第一视频帧特征向量;通过预先训练的网络模型中的第二特征提取网络,对所述目标视频帧组进行特征提取,得到第二视频帧特征向量。
2.根据权利要求1所述的方法,其特征在于,所述对所述输出向量进行分析,得到所述待分类视频的预测类型,所述
将所述输出向量与预设的多个标准分类向量进行对比,得到所述待分类视频的预测类型,其中,所述多个标准分类对应多个预测类型。
3.根据权利要求1所述的方法,其特征在于,所述第一特征提取网络包括第一降维模块、第二降维模块、第三降维模块、第一乘积模块、第二乘积模块、第一升维模块及第一回归模块;所述通过预先训练的网络模型中的第一特征提取网络,对所述目标视频帧组进行特征提取,得到第一视频帧特征向量,包括:
通过所述第一降维模块对所述目标视频帧组的特征向量进行降维得到第一特征向量,通过所述第二降维模块对所述目标视频帧组的特征向量进行降维得到第二特征向量,通过所述第三降维模块对所述目标视频帧组的特征向量进行降维得到第三特征向量;
将所述第二特征向量变形,并将所述第一特征向量与变形后第二特征向量输入第一乘积模块进行叉乘,得到第一计算结果,其中,所述第一计算结果表示所述目标视频帧组中各视频帧的像素点之间的关联;
利用所述回归模块对所述第一计算结果进行回归,得到第二计算结果;
将所述第二计算结果输入所述第二乘积模块与所述第三特征向量进行叉乘,得到第三计算结果;
将所述第三计算结果输入所述第一升维模块,对所述第三计算结果进行升维,得到第一视频帧特征向量。
4.根据权利要求1所述的方法,其特征在于,所述第二特征提取网络包括第四降维模块、第五降维模块、第六降维模块、第三乘积模块、第四乘积模块、第二升维模块及第二回归模块;所述通过预先训练的网络模型中的第二特征提取网络,对所述目标视频帧组进行特征提取,得到第二视频帧特征向量,包括:
通过所述第四降维模块对所述目标视频帧组的特征向量进行降维得到第四特征向量,通过所述第五降维模块对所述目标视频帧组的特征向量进行降维得到第五特征向量,通过所述第六降维模块对所述目标视频帧组的特征向量进行降维得到第六特征向量;
将所述第五特征向量变形,并将变形后第五特征向量与所述第六特征输入第三乘积模块进行叉乘,得到第四计算结果,其中,所述第四计算结果表示所述目标视频帧组中各视频帧的通道之间的关联;
利用所述回归模块对所述第四计算结果进行回归,得到第五计算结果;
将所述第四特征向量输入所述第四乘积模块与所述第五计算结果进行叉乘,得到第六计算结果;
将所述第六计算结果输入所述第二升维模块,对所述第六计算结果进行升维,得到第二视频帧特征向量。
5.一种视频分类装置,其特征在于,包括:
视频获取模块,用于获取待分类视频,其中,所述待分类视频包括多个视频帧;
特征获取模块,用于提取所述待分类视频的第一视频帧特征向量和第二视频帧特征向量,其中,所述第一视频帧特征向量表示所述待分类视频中多个视频帧的像素点之间的关联,所述第二视频帧特征向量表示所述待分类视频中多个视频帧的通道之间的关联;
向量输出模块,用于将所述第一视频帧特征向量和第二视频帧特征向量相加,得到输出向量;
视频分类模块,用于对所述输出向量进行分析,得到所述待分类视频的预测类型;
所述特征获取模块,包括:第一视频帧子模块,用于通过预先训练的网络模型中的第一特征提取网络,对所述待分类视频进行特征提取,得到第一视频帧特征向量;第二视频帧子模块,用于通过预先训练的网络模型中的第二特征提取网络,对所述待分类视频进行特征提取,得到第二视频帧特征向量;
所述装置还包括:
视频帧模块,用于在所述待分类视频中提取预设数量的视频帧,得到目标视频帧组;
特征获取模块,包括:
视频帧特征子模块,用于通过预先训练的网络模型中的第一特征提取网络,对所述目标视频帧组进行特征提取,得到所述第一视频帧特征向量;通过预先训练的网络模型中的第二特征提取网络,对所述目标视频帧组进行特征提取,得到所述第二视频帧特征向量。
6.一种电子设备,其特征在于,包括处理器及存储器;
所述存储器,用于存放计算机程序;
所述处理器,用于执行所述存储器上所存放的计算机程序时,实现权利要求1-4任一所述的视频分类方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述的视频分类方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911324612.5A CN113010735B (zh) | 2019-12-20 | 2019-12-20 | 一种视频分类方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911324612.5A CN113010735B (zh) | 2019-12-20 | 2019-12-20 | 一种视频分类方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113010735A CN113010735A (zh) | 2021-06-22 |
CN113010735B true CN113010735B (zh) | 2024-03-08 |
Family
ID=76382679
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911324612.5A Active CN113010735B (zh) | 2019-12-20 | 2019-12-20 | 一种视频分类方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113010735B (zh) |
Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105844239A (zh) * | 2016-03-23 | 2016-08-10 | 北京邮电大学 | 一种基于cnn和lstm的暴恐视频检测方法 |
WO2017107188A1 (zh) * | 2015-12-25 | 2017-06-29 | 中国科学院深圳先进技术研究院 | 视频分类快速识别的方法及装置 |
CN108205685A (zh) * | 2017-11-22 | 2018-06-26 | 深圳市商汤科技有限公司 | 视频分类方法、视频分类装置及电子设备 |
CN108664902A (zh) * | 2018-04-23 | 2018-10-16 | 中国科学院自动化研究所 | 基于深度学习的端到端的视频拷贝检测方法及装置 |
CN109359592A (zh) * | 2018-10-16 | 2019-02-19 | 北京达佳互联信息技术有限公司 | 视频帧的处理方法、装置、电子设备及存储介质 |
WO2019052301A1 (zh) * | 2017-09-15 | 2019-03-21 | 腾讯科技(深圳)有限公司 | 视频分类的方法、信息处理的方法以及服务器 |
CN109522450A (zh) * | 2018-11-29 | 2019-03-26 | 腾讯科技(深圳)有限公司 | 一种视频分类的方法以及服务器 |
CN109740419A (zh) * | 2018-11-22 | 2019-05-10 | 东南大学 | 一种基于Attention-LSTM网络的视频行为识别方法 |
CN109862391A (zh) * | 2019-03-18 | 2019-06-07 | 网易(杭州)网络有限公司 | 视频分类方法、介质、装置和计算设备 |
CN110059728A (zh) * | 2019-03-26 | 2019-07-26 | 浙江科技学院 | 基于注意力模型的rgb-d图像视觉显著性检测方法 |
CN110084151A (zh) * | 2019-04-10 | 2019-08-02 | 东南大学 | 基于非局部网络深度学习的视频异常行为判别方法 |
CN110110812A (zh) * | 2019-05-20 | 2019-08-09 | 江西理工大学 | 一种用于视频动作识别的串流深度网络模型 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070255755A1 (en) * | 2006-05-01 | 2007-11-01 | Yahoo! Inc. | Video search engine using joint categorization of video clips and queries based on multiple modalities |
US9767363B2 (en) * | 2015-10-30 | 2017-09-19 | Google Inc. | System and method for automatic detection of spherical video content |
-
2019
- 2019-12-20 CN CN201911324612.5A patent/CN113010735B/zh active Active
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017107188A1 (zh) * | 2015-12-25 | 2017-06-29 | 中国科学院深圳先进技术研究院 | 视频分类快速识别的方法及装置 |
CN105844239A (zh) * | 2016-03-23 | 2016-08-10 | 北京邮电大学 | 一种基于cnn和lstm的暴恐视频检测方法 |
WO2019052301A1 (zh) * | 2017-09-15 | 2019-03-21 | 腾讯科技(深圳)有限公司 | 视频分类的方法、信息处理的方法以及服务器 |
CN108205685A (zh) * | 2017-11-22 | 2018-06-26 | 深圳市商汤科技有限公司 | 视频分类方法、视频分类装置及电子设备 |
CN108664902A (zh) * | 2018-04-23 | 2018-10-16 | 中国科学院自动化研究所 | 基于深度学习的端到端的视频拷贝检测方法及装置 |
CN109359592A (zh) * | 2018-10-16 | 2019-02-19 | 北京达佳互联信息技术有限公司 | 视频帧的处理方法、装置、电子设备及存储介质 |
CN109740419A (zh) * | 2018-11-22 | 2019-05-10 | 东南大学 | 一种基于Attention-LSTM网络的视频行为识别方法 |
CN109522450A (zh) * | 2018-11-29 | 2019-03-26 | 腾讯科技(深圳)有限公司 | 一种视频分类的方法以及服务器 |
CN109862391A (zh) * | 2019-03-18 | 2019-06-07 | 网易(杭州)网络有限公司 | 视频分类方法、介质、装置和计算设备 |
CN110059728A (zh) * | 2019-03-26 | 2019-07-26 | 浙江科技学院 | 基于注意力模型的rgb-d图像视觉显著性检测方法 |
CN110084151A (zh) * | 2019-04-10 | 2019-08-02 | 东南大学 | 基于非局部网络深度学习的视频异常行为判别方法 |
CN110110812A (zh) * | 2019-05-20 | 2019-08-09 | 江西理工大学 | 一种用于视频动作识别的串流深度网络模型 |
Non-Patent Citations (2)
Title |
---|
Hierarchical Bilinear Pooling for Fine-Grained Visual Recognition;Chaojian Yu;arXiv;第1-16页 * |
基于多特征的视频场景分类研究;杨丽娜;中国优秀硕士学位论文全文数据库;第I138-4010页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113010735A (zh) | 2021-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109190482B (zh) | 多标签视频分类方法及系统、系统训练方法及装置 | |
CN117152584A (zh) | 用于分析卷积神经网络中的图像的方法和系统 | |
CN111629262A (zh) | 视频图像处理方法和装置、电子设备及存储介质 | |
CN114494981B (zh) | 一种基于多层次运动建模的动作视频分类方法及系统 | |
CN110096617B (zh) | 视频分类方法、装置、电子设备及计算机可读存储介质 | |
CN113556442B (zh) | 视频去噪方法、装置、电子设备及计算机可读存储介质 | |
CN113496208B (zh) | 视频的场景分类方法及装置、存储介质、终端 | |
CN112884147B (zh) | 神经网络训练方法、图像处理方法、装置及电子设备 | |
WO2022242122A1 (zh) | 一种视频优化方法、装置、终端设备及存储介质 | |
CN109447023B (zh) | 确定图像相似度的方法、视频场景切换识别方法及装置 | |
CN114529456A (zh) | 一种视频的超分辨率处理方法、装置、设备及介质 | |
CN113160042B (zh) | 一种图像风格迁移模型训练方法、装置及电子设备 | |
CN113010735B (zh) | 一种视频分类方法、装置、电子设备及存储介质 | |
CN113221922B (zh) | 图像处理方法及相关装置 | |
CN115204366A (zh) | 模型生成方法、装置、计算机设备和存储介质 | |
CN113298102B (zh) | 一种目标分类模型的训练方法及装置 | |
CN112016571A (zh) | 一种基于注意力机制的特征提取方法、装置及电子设备 | |
CN113705314A (zh) | 视频处理方法、设备、可读存储介质及程序产品 | |
CN112084371A (zh) | 一种电影多标签分类方法、装置、电子设备以及存储介质 | |
CN112329925B (zh) | 模型生成方法、特征提取方法、装置及电子设备 | |
CN114758265A (zh) | 一种扶梯运行状态识别方法、装置、电子设备及存储介质 | |
US20230060988A1 (en) | Image processing device and method | |
CN112330711B (zh) | 模型生成方法、信息提取方法、装置及电子设备 | |
CN116778951A (zh) | 一种基于图增强的音频分类方法、装置、设备及介质 | |
CN110866431B (zh) | 人脸识别模型的训练方法、人脸识别的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |