CN115953722B - 一种用于视频分类任务的处理方法、装置 - Google Patents

一种用于视频分类任务的处理方法、装置 Download PDF

Info

Publication number
CN115953722B
CN115953722B CN202310224052.6A CN202310224052A CN115953722B CN 115953722 B CN115953722 B CN 115953722B CN 202310224052 A CN202310224052 A CN 202310224052A CN 115953722 B CN115953722 B CN 115953722B
Authority
CN
China
Prior art keywords
video
video classification
classified
motion speed
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310224052.6A
Other languages
English (en)
Other versions
CN115953722A (zh
Inventor
张帆
齐春宇
刘亚东
宋卓然
梁晓峣
孙宪超
金争争
刘旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202310224052.6A priority Critical patent/CN115953722B/zh
Publication of CN115953722A publication Critical patent/CN115953722A/zh
Application granted granted Critical
Publication of CN115953722B publication Critical patent/CN115953722B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Image Analysis (AREA)

Abstract

本申请公开一种用于视频分类任务的处理方法、装置、电子设备以及计算机存储介质,所述用于视频分类任务的处理方法包括:确定待分类视频的运动速度,其中,所述运动速度是用于衡量视频运动快慢的指标;获得用于视频分类的视频分类模型集;根据所述运动速度所处的阈值区间,从所述视频分类模型集中确定该阈值区间相对应的视频分类模型;利用所述视频分类模型对所述待分类视频进行分类处理,获得视频分类结果。所述用于视频分类任务的处理方法,不改变模型本身结构,可以在保证准确率的情况下降低视频分类模型的计算量和内存访问,提升视频分类速度。

Description

一种用于视频分类任务的处理方法、装置
技术领域
本申请涉及视频技术领域,具体涉及一种用于视频分类任务的处理方法、装置、电子设备以及计算机存储介质、一种用于确定待处理视频的运动速度的方法、装置、一种用于视频处理结果的精度控制补偿方法、装置。
背景技术
随着人工智能技术的发展,涌现了各种视频平台,并且视频平台中视频数量巨大,视频种类繁多,为了使用户能够从大量的视频中选择自己感兴趣的内容,通常会对视频进行分类,因此,视频分类的需求也越来越广泛。
近年来,神经网络(Neural Network,简称NN)飞速发展,目前,神经网络在图像识别、自然语言处理和生物医学等领域都有着广泛的应用,并且创造出了巨大的社会价值。神经网络一般包括感知机、卷积神经网络、循环神经网络、transformer等。由于transformer可以有效提取序列化数据中的依赖关系,因此,如何利用transformer对视频进行高效快速视频分类是目前亟需解决的问题。
发明内容
本申请实施例提供一种用于视频分类任务的处理方法、装置、电子设备以及计算机存储介质、一种用于确定待处理视频的运动速度的方法、装置、一种用于视频处理结果的精度控制补偿方法、装置,所述用于视频分类任务的处理方法,不改变模型本身结构,能够减少视频中相邻视频帧之间的冗余信息,可以在保证准确率的情况下降低视频分类模型的计算量和内存访问,提升视频分类速度。
本申请实施例提供一种用于视频分类任务的处理方法,包括:确定待分类视频的运动速度,其中,所述运动速度是用于衡量视频运动快慢的指标;获得用于视频分类的视频分类模型集;根据所述运动速度所处的阈值区间,从所述视频分类模型集中确定该阈值区间相对应的视频分类模型;利用所述视频分类模型对所述待分类视频进行分类处理,获得视频分类结果。
可选的,所述确定待分类视频的运动速度,包括:
从所述待分类视频中抽取设定数量的视频帧;
将每一视频帧划分为设定数量的不重叠的区域块;
计算每一区域块与前一帧相似区域块的哈密顿距离;
将计算获得的所有哈密顿距离相加,作为该待分类视频的运动速度。
可选的,从所述待分类视频中抽取设定数量的视频帧具体为从所述待分类视频中在时序上均匀抽取或者按照设定的时间间隔抽取设定数量的视频帧。
可选的,所述计算每一区域块与前一帧相似区域块的哈密顿距离,包括:
针对每一区域块,确定视频帧中区域块的坐标;
根据所述视频帧中区域块的坐标,在前一视频帧中获取预设坐标范围内的所有区域块;
计算所述视频帧中区域块与所述预设坐标范围内的所有区域块之间的哈密顿距离;
获取与所述视频帧中区域块哈密顿距离最小的区域块,作为所述视频帧中区域块的相似区域块,并计算哈密顿距离。
可选的,所述根据所述运动速度所处的阈值区间,从所述视频分类模型集中确定该阈值区间相对应的视频分类模型,包括:
根据所述运动速度所处的阈值区间,从所述待分类视频中抽取对应所述阈值区间的视频帧数;
根据所述视频帧数,从视频分类模型集中选择与所述视频帧数对应的视频分类模型。
可选的,所述根据所述运动速度所处的阈值区间,从所述待分类视频中抽取对应所述阈值区间的视频帧数,包括:
将所述运动速度与预设的阈值区间进行比较,获得第一比较结果;
根据所述第一比较结果,从所述待分类视频中抽取对应所述阈值区间的视频帧数。
可选的,获得视频分类结果后,还包括:
针对所述视频分类结果进行精度校准,获得校准后的视频分类结果。
可选的,所述针对所述视频分类结果进行精度校准,获得校准后的视频分类结果,包括:
确定视频分类结果的置信度分数;
根据所述视频分类结果的置信度分数对所述视频分类结果进行精度校准,获得校准后的视频分类结果。
可选的,所述获得视频分类结果的置信度分数,包括:
针对所述视频分类结果进行排序,获得概率最大的两个视频类别对应的第一概率值和第二概率值;
获得所述第一概率值和所述第二概率值的差异值,作为视频分类结果的置信度分数。
可选的,所述根据所述视频分类结果的置信度分数对所述视频分类结果进行精度校准,获得校准后的视频分类结果,包括:
将所述视频分类结果的置信度分数与预设的精度阈值进行比较;
若所述视频分类结果的置信度分数大于预设的精度阈值,则将当前视频分类结果作为校准后的视频分类结果;
若所述视频分类结果的置信度分数小于等于预设的精度阈值,则重新抽取未使用的设定数量的视频帧再次进行视频分类,将前后两次视频分类结果相加作为校准后的视频分类结果。
本申请实施例同时提供一种用于确定待处理视频的运动速度的方法,包括:从所述待处理视频中抽取设定数量的视频帧,其中,所述抽取包括在时序上均匀抽取或在时序上等间隔抽取并分批次计算;将每一视频帧划分为设定数量的不重叠的区域块;计算每一区域块与前一帧相似区域块的哈密顿距离;将计算获得的所有哈密顿距离相加,作为该待处理视频的运动速度。
本申请实施例同时提供一种用于视频处理结果的精度控制补偿方法,包括:确定视频处理结果的置信度分数;将所述置信度分数与预设的精度阈值进行比较,获得第二比较结果;根据所述第二比较结果,获得校准后的视频处理结果,其中,所述获得校准后的视频处理结果,包括:若所述置信度分数大于预设的精度阈值,则将当前视频处理结果作为校准后的视频处理结果;若所述置信度分数小于预设的精度阈值,则重新抽取未使用的设定数量的视频帧再次进行视频处理,将前后两次视频处理结果相加作为校准后的视频处理结果。
本申请实施例同时提供一种用于视频分类任务的处理方法,应用于云端,所述方法包括:接收客户端发送的用于获取针对待分类视频的视频分类结果的获取请求消息;根据所述获取请求消息,获得所述待分类视频;利用视频分类模型对所述待分类视频进行分类处理,获得视频分类结果;将所述视频分类结果返回给所述客户端;其中,所述视频分类模型是从视频分类模型集中确定的与所述待分类视频的运动速度所处的阈值区间相对应的视频分类模型。
本申请实施例同时提供一种用于确定待处理视频的运动速度的方法,应用于云端,所述方法包括:接收客户端发送的用于获取待分类视频运动速度的获取请求消息;根据所述获取请求消息,计算所述待分类视频每一视频帧中每一区域块与前一帧相似区域块的哈密顿距离;将计算获得的所有哈密顿距离相加,作为该待处理视频的运动速度;将所述待处理视频的运动速度返回给所述客户端;其中,所述区域块是由每一视频帧按照设定数量划分后获得的,所述视频帧是从所述待处理视频中按照设定数量抽取的,所述抽取包括在时序上均匀抽取或在时序上等间隔抽取并分批次计算。
本申请实施例同时提供一种用于视频处理结果的精度控制补偿方法,应用于云端,所述方法包括:接受客户端发送的用于获取校准后视频处理结果的获取请求消息;根据所述获取请求消息,获得视频处理结果的置信度分数;将所述置信度分数与预设的精度阈值进行比较,获得第二比较结果;根据所述第二比较结果,获得校准后的视频处理结果;将所述校准后的视频处理结果返回给所述客户端;其中,所述获得校准后的视频处理结果,包括:若所述置信度分数大于预设的精度阈值,则将当前视频处理结果作为校准后的视频处理结果;若所述置信度分数小于预设的精度阈值,则重新抽取未使用的设定数量的视频帧再次进行视频处理,将前后两次视频处理结果相加作为校准后的视频处理结果。
本申请实施例同时提供一种用于视频分类任务的处理装置,包括:运动速度确定单元,用于确定待分类视频的运动速度,其中,所述运动速度是用于衡量视频运动快慢的指标;视频分类模型集获得单元,用于获得用于视频分类的视频分类模型集;第一确定单元,用于根据所述运动速度所处的阈值区间,从所述视频分类模型集中确定该阈值区间相对应的视频分类模型;视频分类结果获得单元,用于利用所述视频分类模型对所述待分类视频进行分类处理,获得视频分类结果。
本申请实施例同时提供一种用于确定待处理视频的运动速度的装置,包括:抽取单元,用于从所述待处理视频中抽取设定数量的视频帧,其中,所述抽取包括在时序上均匀抽取或在时序上等间隔抽取并分批次计算;划分单元,用于将每一视频帧划分为设定数量的不重叠的区域块;第一计算单元,用于计算每一区域块与前一帧相似区域块的哈密顿距离;第一相加单元,用于将计算获得的所有哈密顿距离相加,作为该待处理视频的运动速度。
本申请实施例同时提供一种用于视频处理结果的精度控制补偿装置,包括:第二确定单元,用于确定视频处理结果的置信度分数;第一比较单元,用于将所述置信度分数与预设的精度阈值进行比较,获得第二比较结果;第一获得单元,用于根据所述第二比较结果,获得校准后的视频处理结果,其中,所述获得校准后的视频处理结果,包括:若所述置信度分数大于预设的精度阈值,则将当前视频处理结果作为校准后的视频处理结果;若所述置信度分数小于预设的精度阈值,则重新抽取未使用的设定数量的视频帧再次进行视频处理,将前后两次视频处理结果相加作为校准后的视频处理结果。
本申请实施例同时提供一种用于视频分类任务的处理装置,应用于云端,所述装置包括:第一接收单元,用于接收客户端发送的用于获取针对待分类视频的视频分类结果的获取请求消息;第二获得单元,用于根据所述获取请求消息,获得所述待分类视频;第三获得单元,用于利用视频分类模型对所述待分类视频进行分类处理,获得视频分类结果;第一返回单元,用于将所述视频分类结果返回给所述客户端;其中,所述视频分类模型是从视频分类模型集中确定的与所述待分类视频的运动速度所处的阈值区间相对应的视频分类模型。
本申请实施例同时提供一种用于确定待处理视频的运动速度的装置,应用于云端,所述装置包括:第二接收单元,用于接收客户端发送的用于获取待分类视频运动速度的获取请求消息;第二计算单元,用于根据所述获取请求消息,计算所述待分类视频每一视频帧中每一区域块与前一帧相似区域块的哈密顿距离;第二相加单元,用于将计算获得的所有哈密顿距离相加,作为该待处理视频的运动速度;第二返回单元,用于将所述待处理视频的运动速度返回给所述客户端;其中,所述区域块是由每一视频帧按照设定数量划分后获得的,所述视频帧是从所述待处理视频中按照设定数量抽取的,所述抽取包括在时序上均匀抽取或在时序上等间隔抽取并分批次计算。
本申请实施例同时提供一种用于视频处理结果的精度控制补偿装置,应用于云端,所述装置包括:第三接收单元,用于接受客户端发送的用于获取校准后视频处理结果的获取请求消息;第四获得单元,用于根据所述获取请求消息,获得视频处理结果的置信度分数;第二比较单元,用于将所述置信度分数与预设的精度阈值进行比较,获得第二比较结果;第五获得单元,用于根据所述第二比较结果,获得校准后的视频处理结果;第三返回单元,用于将所述校准后的视频处理结果返回给所述客户端;其中,所述获得校准后的视频处理结果,包括:若所述置信度分数大于预设的精度阈值,则将当前视频处理结果作为校准后的视频处理结果;若所述置信度分数小于预设的精度阈值,则重新抽取未使用的设定数量的视频帧再次进行视频处理,将前后两次视频处理结果相加作为校准后的视频处理结果。
本申请实施例同时提供一种电子设备,所述电子设备包括处理器和存储器;所述存储器中存储有计算机程序,所述处理器运行所述计算机程序后,执行上述方法。
本申请实施例同时提供一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器运行后,执行上述方法。
与现有技术相比,本申请实施例具有以下优点:
本申请实施例提供一种用于视频分类任务的处理方法,包括:确定待分类视频的运动速度,其中,所述运动速度是用于衡量视频运动快慢的指标;获得用于视频分类的视频分类模型集;根据所述运动速度所处的阈值区间,从所述视频分类模型集中确定该阈值区间相对应的视频分类模型;利用所述视频分类模型对所述待分类视频进行分类处理,获得视频分类结果。本申请实施例所述用于视频分类任务的处理方法,能够根据待分类视频的运动速度所处的阈值区间,从视频分类模型集中确定该阈值区间相对应的视频分类模型,进而利用视频分类模型对待分类视频进行分类处理,最终获得视频分类结果。
本申请优选实施例中,所述用于视频分类任务的处理方法能够根据运动速度所处的阈值区间,从待分类视频中抽取对应阈值区间的视频帧数,然后根据视频帧数,从视频分类模型集中选择与视频帧数对应的视频分类模型。
因此,本申请实施例所述用于视频分类任务的处理方法,不改变模型本身结构,对视频分类任务的输入数据分批次计算,能够减少视频中相邻视频帧之间的冗余信息,可以在保证准确率的情况下降低视频分类模型的计算量和内存访问,提升视频分类速度。
附图说明
图1是本申请第一实施例提供的一种用于视频分类任务的处理方法的应用场景示意图。
图2是本申请第一实施例提供的一种用于视频分类任务的处理方法的流程图。
图3是本申请第一实施例中视频帧中区域块与前一视频帧中预设坐标范围内的区域块之间的哈密顿距离计算方法示意图。
图4是本申请第二实施例提供的一种用于确定待处理视频的运动速度的方法流程图。
图5是本申请第三实施例提供的一种用于视频处理结果的精度控制补偿方法的流程图。
图6是本申请第四实施例提供的一种用于视频分类任务的处理装置的示意图。
图7是本申请第五实施例提供的一种用于确定待处理视频的运动速度的装置示意图。
图8是本申请第六实施例提供的一种用于视频处理结果的精度控制补偿装置的示意图。
图9是本申请第七实施例提供的一种用于视频分类任务的处理方法的流程图。
图10是本申请第八实施例提供的一种用于确定待处理视频的运动速度的方法流程图。
图11是本申请第九实施例提供的一种用于视频处理结果的精度控制补偿方法的流程图。
图12是本申请第十实施例提供的一种用于视频分类任务的处理装置的示意图。
图13是本申请第十一实施例提供的一种用于确定待处理视频的运动速度的装置示意图。
图14是本申请第十二实施例提供的一种用于视频处理结果的精度控制补偿装置的示意图。
图15是本申请第十三实施例提供的一种电子设备示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
首先,为了使本领域的技术人员更好的理解本申请方案,下面基于本申请提供的一种用于视频分类任务的处理方法,对其实施例的具体应用场景进行详细描述。如图1所示,其为本申请第一实施例提供的一种用于视频分类任务的处理方法的应用场景示意图。
在介绍用于视频分类任务的处理方法的应用场景之前,首先对所述用于视频分类任务的处理方法的背景技术进行简单介绍。目前,随着人工智能技术的发展,涌现了各种视频平台,并且视频平台中视频数量巨大,视频种类繁多,为了使用户能够从大量的视频中选择自己感兴趣的内容,通常会对视频进行分类,因此,视频分类的需求也越来越广泛。
近年来,神经网络(Neural Network,简称NN)飞速发展,目前,神经网络在图像识别、自然语言处理和生物医学等领域都有着广泛的应用,并且创造出了巨大的社会价值。神经网络一般包括感知机、卷积神经网络、循环神经网络、transformer等。Transformer 模型是一种神经网络,它通过跟踪序列数据中的关系来学习上下文并因此学习含义。Transformer 模型应用了一组不断发展的数学技术,称为注意力或自我注意力,以检测甚至是系列中遥远的数据元素相互影响和相互依赖的微妙方式。由于transformer可以有效提取序列化数据中的依赖关系,因此,transformer首先在自然语言处理领域应用广泛。随着研究的深入,研究人员发现transformer也可以有效提取视觉领域中数据的时空依赖关系,提出了用于图像分类的Vision Transformer,用于视频分类的TimeSformer等多个基于transformer的视觉模型。面对transformer对计算能力和存储带宽的巨大需求,减少模型中的冗余数据是当前transformer模型工程化研究的主流思想。视频中相邻帧之间存在大量冗余信息,适当减少用于模型推理的视频帧数,可以在保证准确率的情况下降低模型的计算量和内存访问。因此,如何利用transformer对视频进行高效快速视频分类是目前需要解决的问题。
基于此,我们提出了一种用于视频分类任务的处理方法,具体是一种基于动态抽帧的视频分类任务算法加速方法,所述用于视频分类任务的处理方法能够根据每个视频整体运动快慢情况,动态决定模型推理过程中所需要的视频帧数,从而实现对模型推理过程的加速。
然而,所述基于动态抽帧的视频分类任务加速方法在实施过程中,存在如下问题:第一、如何衡量一个视频的整体运动快慢情况,这一数据指标的计算必须简单且有效,不能引入太多的计算量和内存访问。第二、如何高效执行transformer推理过程,使其能够支持不同帧数的输入数据。现有transformer模型在处理视频分类问题时都是抽取固定数量的视频帧,我们需要对现有模型进行调整,使其能支持不同尺寸的输入数据。第三、如何在减少计算量的同时保证模型准确率。
为了解决上述问题,本申请实施例提供了一种衡量视频整体运动快慢情况的数据指标——运动速度(movement,简称mv),并给出了确定方法。同时,本申请实施例引入了模型池(或称为模型集)的概念,将支持不同输入尺寸的模型提前准备好,每当计算出一个视频的运动速度后,便根据运动速度选择相应的模型对视频进行处理。最后,本申请实施例提出了一种补偿机制以保证模型准确率。当推理结束后,计算分类结果的置信度分数。如果当前结果的置信度分数很低,说明模型本身对分类结果并不自信,则从视频中再选取若干未使用的视频帧重新计算一遍,然后根据前后两次的结果确定最终分类;否则说明模型对当前分类结果非常自信,则直接使用当前分类结果作为最终结果。
本申请实施例提供一种用于视频分类任务的处理方法,包括:确定待分类视频的运动速度,其中,所述运动速度是用于衡量视频运动快慢的指标;获得用于视频分类的视频分类模型集;根据所述运动速度所处的阈值区间,从所述视频分类模型集中确定该阈值区间相对应的视频分类模型;利用所述视频分类模型对所述待分类视频进行分类处理,获得视频分类结果。
本申请实施例所述用于视频分类任务的处理方法,能够根据待分类视频的运动速度所处的阈值区间,从视频分类模型集中确定该阈值区间相对应的视频分类模型,进而利用视频分类模型对待分类视频进行分类处理,最终获得视频分类结果。
本申请优选实施例中,所述用于视频分类任务的处理方法能够根据运动速度所处的阈值区间,从待分类视频中抽取对应阈值区间的视频帧数,然后根据视频帧数,从视频分类模型集中选择与视频帧数对应的视频分类模型。
因此,本申请实施例所述用于视频分类任务的处理方法,不改变模型本身结构,对视频分类任务的输入数据分批次计算,能够减少视频中相邻视频帧之间的冗余信息,可以在保证准确率的情况下降低视频分类模型的计算量和内存访问,提升视频分类速度;同时本申请实施例所述方法能够针对多批次输入数据的输出结果进行精度校准,能够应对多批次任务准确率计算置信度不足的情况,对精度进行了校准和提升。
接下来对用于视频分类任务的处理方法的整体过程进行详细介绍。
首先,获取待分类视频,其中,所述待分类视频可以是用户通过终端拍摄的视频,也可以是用户存储在本地的视频,还可以是用户从互联网平台获取的视频。获取待分类视频后,进一步确定待分类视频的运动速度,本申请实施例中,所述运动速度是用于衡量视频运动快慢的指标,所述待分类视频的运动速度可以用mv(movement,简称mv)表示。确定待分类视频的运动速度后,需要进一步获得用于视频分类的视频分类模型集,所述视频分类模型是指基于transformer的视频分类模型。确定待分类视频的运动速度以及获得用于视频分类的视频分类模型集后,根据所述运动速度所处的阈值区间,从所述视频分类模型集中确定该阈值区间相对应的视频分类模型。这里需要说明的是,所述视频分类模型集,也可以称为模型池,该模型池中具有能够支持不同输入尺寸的多个模型。
在确定待分类视频的运动速度mv后,根据预先设置的阈值,在准备好的模型池中(如支持4帧的模型,支持6帧的模型,支持8帧的模型等)选择对应的模型进行视频分类。比如,预先设置的阈值为τ1、τ2,模型池中包括支持4帧的视频分类模型1,支持6帧的视频分类模型2和支持8帧的视频分类模型3,当运动速度所处的阈值区间为mv ≤ τ1时,选择从待分类视频中抽取4帧并输入支持4帧的视频分类模型1;当运动速度所处的阈值区间为 τ1 <mv ≤ τ2时,选择从待分类视频中抽取6帧并输入支持6帧的视频分类模型2;当运动速度所处的阈值区间为mv > τ2时,选择从待分类视频中抽取8帧并输入支持8帧的视频分类模型3。
这里需要说明的是,上述运动速度的阈值τ是通过算法计算出来的一系列数值,在其中选取两个值作为阈值τ1、τ2,通过算法计算视频的运动速度时,如果视频画面静止,则运动速度的数值为0,如果视频的运动速度很大,则运动速度的数值会超过100,其中,算法不同,运动速度的最值也可能不同。本申请实施例中,阈值τ1、τ2是在0-100之间选取的两个阈值。
根据待分类视频的运动速度所处的阈值区间,从视频分类模型集中确定该阈值区间相对应的视频分类模型后,再利用视频分类模型对所述待分类视频进行分类处理,获得视频分类结果,其中,视频分类的结果最终以不同类别标签的置信度数值体现,具体可以以视频类别的概率值进行体现,比如,获得的视频分类结果中包括:视频类别1概率值,视频类别2概率值,视频类别3概率值,视频类别4概率值。
然后,采取准确率补偿的方式,即对所述视频分类结果进行精度校准,具体为:对视频分类结果中的视频类别的概率值进行排序,得到概率最大的两个视频类别的对应概率top1和top2,用top1-top2的值作为当前分类结果的置信度分数。将置信度分数与预设的精度阈值λ作比较,这里需要说明的是,算法中一般精度阈值λ取0.5,高于此值的结果认为计算正确,低于此值的认为计算错误,因此,如果置信度分数大于预先设置的精度阈值λ,则认为模型对视频的分类非常自信,则将当前视频分类结果作为最终的视频分类结果;如果置信度分数小于等于精度阈值λ,则说明概率最大的两个类别之间的概率差距很小,模型对当前分类结果不自信,则从视频中重新抽取出未使用的设定数量的视频帧输入模型中再次进行计算,将前后两次的视频分类结果相加作为最终的视频分类结果。此外,还可以用多层神经感知机MLP(Multilayer Perceptron)对不同批次视频帧计算出来的最后特征进行感知推理来计算分数是否达到阈值,在此不再展开论述。
下面针对上述准确率补偿的方式进行举例说明,比如视频分类结果中,视频类别1概率值为0.8,视频类别2概率值0.1,视频类别3概率值0.2,视频类别4概率值0.05。概率最大的两个视频类别的对应概率为0.8和0.2,那么top1-top2的值为0.8-0.2=0.6,也就是置信度分数为0.6。当预设的精度阈值λ为0.5时,说明置信度分数大于预先设置的精度阈值λ,因此,模型对视频的分类非常自信,则将概率值0.8和0.2对应的视频类别确定为待分类视频的所属类别,即,待分类视频属于视频类别1和视频类别3。
以上便是对用于视频分类任务的处理方法的全过程分析,在确定待分类视频的运动速度以及获得用于视频分类的视频分类模型集后,根据待分类视频的运动速度所处的阈值区间,从视频分类模型集中确定该阈值区间相对应的视频分类模型,再利用视频分类模型对所述待分类视频进行分类处理,最终获得视频分类结果。
本申请优选实施例中,所述用于视频分类任务的处理方法能够根据运动速度所处的阈值区间,从待分类视频中抽取对应阈值区间的视频帧数,然后根据视频帧数,从视频分类模型集中选择与视频帧数对应的视频分类模型。
因此,本申请实施例所述用于视频分类任务的处理方法,不改变模型本身结构,对视频分类任务的输入数据分批次计算,能够减少视频中相邻视频帧之间的冗余信息,可以在保证准确率的情况下降低视频分类模型的计算量和内存访问,提升视频分类速度;同时本申请实施例所述方法能够针对多批次输入数据的输出结果进行精度校准,能够应对多批次任务准确率计算置信度不足的情况,对精度进行了校准和提升。
以下通过多个实施例和附图对本申请进行详细说明。
第一实施例
本申请第一实施例提供一种用于视频分类任务的处理方法,以下结合图2对该用于视频分类任务的处理方法进行详细说明。
步骤S201:确定待分类视频的运动速度;
本步骤用于确定待分类视频的运动速度。在确定待分类视频的运动速度之前,首先需要获取待分类视频,所述待分类视频可以是用户通过终端拍摄的视频,也可以是用户存储在本地的视频,还可以是用户从互联网平台获取的视频。获取待分类视频后,进一步确定待分类视频的运动速度。其中,视频的运动速度(movement,简称mv)是指图像在给定秒内在屏幕上闪烁的次数,所述运动速度是用于衡量视频运动快慢的指标,因此,所述视频的运动速度可以用于衡量视频的整体运动快慢情况。
所述确定待分类视频的运动速度,包括:从所述待分类视频中抽取设定数量的视频帧;将每一视频帧划分为设定数量的不重叠的区域块,该区域块的大小可以为固定大小或者根据视频帧的分辨率大小以及计算能力大小以及计算速度的平衡而确定;计算每一区域块与前一帧相似区域块的哈密顿距离;将计算获得的所有哈密顿距离相加,作为该待分类视频的运动速度。所述计算每一区域块与前一帧相似区域块的哈密顿距离,包括:针对每一区域块,确定视频帧中区域块的坐标;根据所述视频帧中区域块的坐标,在前一视频帧中获取预设坐标范围内的所有区域块;计算所述视频帧中区域块与所述预设坐标范围内的所有区域块之间的哈密顿距离;获取与所述视频帧中区域块哈密顿距离最小的区域块,作为所述视频帧中区域块的相似区域块,并计算哈密顿距离。
这里需要说明的是,从所述待分类视频中抽取设定数量的视频帧具体为从所述待分类视频中在时序上均匀抽取或者按照设定的时间间隔抽取设定数量的视频帧,还可以根据不同的任务类型在时序上等间隔地先后抽出一定数量的帧分批进行精度计算。例如,对于直播类视频或体育比赛类视频,其视频帧运动速度相对比较稳定,故可以选择在视频持续时间内均匀抽取(例如,对于10秒的视频,每2秒抽取一帧)。也可先抽取前半部分,例如选择前5秒,抽取每2秒抽取一帧直接进行后续分类计算,根据计算后精确度补偿机制来确定是否需要再次抽帧,若达到设定精度,则分段抽取的方式显著减少了计算量。
从待分类视频中抽取设定数量的视频帧之后,将每一视频帧划分为设定数量的不重叠的区域块,所述区域块大小相等,计算每一区域块与前一帧相似区域块的哈密顿距离,将计算获得的所有哈密顿距离相加,作为该待分类视频的运动速度。
具体实施时,计算每一区域块与前一帧相似区域块的哈密顿距离的过程,包括:首先,针对每一区域块,确定视频帧中区域块的坐标,每个区域块左上角像素点的坐标(x, y)表示该区域块的坐标,根据所述视频帧中区域块的坐标,在前一视频帧中获取预设坐标范围内的所有区域块,计算所述视频帧中区域块与所述预设坐标范围内的所有区域块之间的哈密顿距离;获取与所述视频帧中区域块哈密顿距离最小的区域块,将与所述视频帧中区域块哈密顿距离最小的区域块作为所述视频帧中区域块的相似区域块,并计算哈密顿距离。
接下来对待分类视频的运动速度的确定方式进行详细介绍。
首先,获取待分类视频,对于大小为h×w的待分类视频,在时序上均匀抽取或者按照预先设定采样时间间隔,从待分类视频中均匀抽取k个视频帧,这里需要说明的是,常用的抽帧算法中k一般取4,8,16,32,本申请实施例中以抽取8帧为例进行说明。从待分类视频中均匀抽取8个视频帧之后,将每个视频帧划分成n个同等大小且互不重叠的区域块(或称为数据块),比如划分成若干m×m的区域块,每个区域块左上角像素点(或者其它边角或中心的像素点,本实施例对此不做限制)的坐标(x, y)表示该区域块的坐标,共得到 (h×w)/(m×m) 个区域块。然后,获取视频帧中每个区域块在前一视频帧中的相似区域块,具体可以是先获取视频帧中的区域块的坐标,根据所述视频帧中区域块的坐标,在前一视频帧中获取预设坐标范围内的所有区域块,计算所述视频帧中区域块与所述预设坐标范围内的所有区域块之间的哈密顿距离,获取与所述视频帧中区域块哈密顿距离最小的区域块,作为所述视频帧中区域块的相似数据块,并计算哈密顿距离。
这里需要说明的是,因为抽取的相邻两个视频帧之间的时间间隔可能很短,因此,可以认为区域块在两视频帧之间的运动是局部的。如图3所示,第i帧(i = 1,2,…,k)的区域块(x,y)只需在第i-1帧中寻找坐标在预设坐标(x–α~x +α,y–α~y+α)范围内的所有区域块计算比较,其中,α根据区域块大小的变化而变化。计算所述视频帧中区域块与所述预设坐标范围内的所有区域块之间的哈密顿距离,获取与所述视频帧中区域块哈密顿距离最小的区域块,作为所述视频帧中区域块的相似数据块。其中,α代表着区域块相似寻找的偏移,寻找当前位置区域块周围α距离内的所有区域块的相似度。该α参数一般是经验参数,根据实际数据大量计算,寻找出来的一个合适的数值。本申请实施例中,通过计算哈密顿距离L1来比较两个区域块的相似性。L1距离越小表示两个区域块越相似。其中,哈密顿距离L1的计算方式参考图3,假设第i帧中区域块像素点的像素值为2315,第i-1帧中区域块像素点的像素值为4175,则L1距离=|2-4|+|3-1|+1-7|+5-3|=12。找到L1距离最小的那个区域(x’, y’),计算|x - x’|+|y–y’|得到两区域块之间的哈密顿距离。将第i帧中所有区域的哈密顿距离累加得到第i帧的哈密顿距离,将所有帧的哈密顿距离累加得到视频的哈密顿距离,作为该待分类视频的运动速度。
以上为待分类视频运动速度的确定方式,确定待分类视频的运动速度后,还需要获取用于视频分类的视频分类模型集,然后根据所述运动速度所处的阈值区间,从所述视频分类模型集中确定该阈值区间相对应的视频分类模型,最后,利用所述视频分类模型对所述待分类视频进行分类处理,获得视频分类结果。接下来介绍获得视频分类结果的过程。
步骤S202:获得用于视频分类的视频分类模型集;
本步骤用于获得视频分类的视频分类模型集,也可以称为模型池。本申请实施例中,所述视频分类模型是指基于transformer的视频分类模型,transformer 模型是一种神经网络,它通过跟踪序列数据中的关系来学习上下文并因此学习含义,transformer可以有效提取视觉领域中数据的时空依赖关系。所述视频分类模型集中包括了多个能够支持不同输入尺寸的多个模型(如支持4帧的模型,支持6帧的模型,支持8帧的模型等)。
步骤S203:根据所述运动速度所处的阈值区间,从所述视频分类模型集中确定该阈值区间相对应的视频分类模型;
本步骤用于根据所述运动速度所处的阈值区间,从所述视频分类模型集中确定该阈值区间相对应的视频分类模型。所述根据所述运动速度所处的阈值区间,从所述视频分类模型集中确定该阈值区间相对应的视频分类模型,包括:根据所述运动速度所处的阈值区间,从所述待分类视频中抽取对应所述所处的阈值区间的视频帧数;根据所述视频帧数,从视频分类模型集中选择与所述视频帧数对应的视频分类模型。所述根据所述运动速度所处的阈值区间,从所述待分类视频中抽取对应所述阈值区间的视频帧数,包括:将所述运动速度与预设阈值区间进行比较,获得第一比较结果;根据所述第一比较结果,从所述待分类视频中抽取对应所述阈值区间的视频帧数。
这里需要说明的是,本申请实施例中,采用基于transformer的视频分类模型进行视频分类时,之所以根据待分类视频的运动速度所处的阈值区间确定对应的视频分类模型,是因为运动速度不同,代表着画面信息变化量不同。如果运动速度较少代表着画面信息变化较小,此时如果连续的抽取多张同样的画面,计算出来的结果和计算一张是一样的,但是更多的视频帧会消耗更多的计算时间。因此,我们通过待分类视频的运动速度所处的阈值区间,从待分类视频中抽取对应阈值区间的帧数,进而再输入对应的模型中,不改变模型本身结构,能够在保证准确率的情况下降低视频分类模型的计算量和内存访问,提升视频分类速度。
本申请实施例中,首先根据所述运动速度所处的阈值区间,从所述待分类视频中抽取对应所述阈值区间的视频帧数,然后根据所述视频帧数,从视频分类模型集中选择与所述视频帧数对应的视频分类模型。根据所述运动速度所处的阈值区间,从所述待分类视频中抽取对应所述阈值区间的视频帧数,具体为:将所述运动速度与预设的阈值区间进行比较,获得第一比较结果;根据所述第一比较结果,从所述待分类视频中抽取对应所述阈值区间的视频帧数。具体实施时,在确定待分类视频的运动速度mv后,根据预先设置的阈值,在准备好的模型池中(如支持4帧的模型,支持6帧的模型,支持8帧的模型等)选择对应的模型进行视频分类。比如,预先设置的第一阈值为τ1、第二阈值为τ2,模型池中包括支持4帧的视频分类模型1,支持6帧的视频分类模型2和支持8帧的视频分类模型3,当运动速度所处的阈值区间为mv ≤ τ1时,选择从待分类视频中抽取4帧并输入支持4帧的视频分类模型1;当运动速度所处的阈值区间为 τ1 < mv ≤ τ2时,选择从待分类视频中抽取6帧并输入支持6帧的视频分类模型2;当运动速度所处的阈值区间为mv > τ2时,选择从待分类视频中抽取8帧并输入支持8帧的视频分类模型3。
步骤S204:利用所述视频分类模型对所述待分类视频进行分类处理,获得视频分类结果。
本步骤用于获得视频分类结果,根据待分类视频的运动速度所处的阈值区间,从视频分类模型集中选择对应阈值区间的视频分类模型后,再利用视频分类模型对所述待分类视频进行分类处理,进而获得视频分类结果。这里需要说明的是,本申请实施例所述用于视频分类任务的处理方法,不改变模型本身结构,对时序任务的输入数据分批次计算,可以最大化利用模型本身特征表达能力的情况下,减少推理过程的计算量和资源消耗,可以应用于所有时序任务的模型。同时,所述方法不需要对模型进行数据上的finetune(模型微调,指将在别的数据集上训练好的预训练模型在自己的数据集上进行小批次的重新训练),可以直接利用已经训练好的SOTA (state of the art,指在此类任务中,目前最好模型的性能表现)模型来加速。
本申请实施例中,获得视频分类结果后,还包括:针对所述视频分类结果进行精度校准,获得校准后的视频分类结果。所述针对所述视频分类结果进行精度校准,获得校准后的视频分类结果,包括:确定视频分类结果的置信度分数;根据所述视频分类结果的置信度分数对所述视频分类结果进行精度校准,获得校准后的视频分类结果。所述获得视频分类结果的置信度分数,包括:针对所述视频分类结果进行排序,获得概率最大的两个视频类别对应的第一概率值和第二概率值;获得所述第一概率值和所述第二概率值的差异值,作为视频分类结果的置信度分数。
这里需要说明的是,所述视频分类结果为待分类视频属于每个预设类别的置信度数值,具体可以以视频类别的概率值进行体现。比如,获得的视频分类结果中包括:视频类别1概率值,视频类别2概率值,视频类别3概率值,视频类别4概率值。然后,采取准确率补偿的方式,即对所述视频分类结果进行精度校准,具体为:对视频分类结果中的视频类别的概率值进行排序,得到概率最大的两个视频类别的对应概率第一概率值top1和第二概率值top2,用top1-top2的值作为当前分类结果的置信度分数。
所述根据所述视频分类结果的置信度分数对所述视频分类结果进行精度校准,获得校准后的视频分类结果,包括:将所述视频分类结果的置信度分数与预设的精度阈值进行比较;若所述视频分类结果的置信度分数大于预设的精度阈值,则将当前视频分类结果作为校准后的视频分类结果;若所述视频分类结果的置信度分数小于等于预设的精度阈值,则重新抽取未使用的设定数量的视频帧再次进行视频分类,将前后两次视频分类结果相加作为校准后的视频分类结果。
还是以上述例子为例,根据第一概率值top1和第二概率值top2的差异值,获得当前视频分类结果的置信度分数后,还需要根据所述视频分类结果的置信度分数对所述视频分类结果进行精度校准。具体为,将所述视频分类结果的置信度分数与预设的精度阈值λ进行比较;若所述视频分类结果的置信度分数大于预设的精度阈值λ,则认为模型对视频的分类非常自信,则将当前视频分类结果作为校准后的视频分类结果;若所述视频分类结果的置信度分数小于等于预设的精度阈值λ,则说明概率最大的两个类别之间的概率差距很小,模型对当前分类结果不自信,则从视频中重新抽取出未使用的设定数量的视频帧输入模型中再次进行计算,将前后两次的视频分类结果相加作为最终的视频分类结果。
下面举例说明,比如视频分类结果中,视频类别1概率值为0.8,视频类别2概率值0.1,视频类别3概率值0.2,视频类别4概率值0.05。概率最大的两个视频类别的对应概率为0.8和0.2,那么top1-top2的值为0.8-0.2=0.6,也就是置信度分数为0.6。当预设精度阈值λ为0.5,说明置信度分数大于预先设置的精度阈值λ,因此,模型对视频的分类非常自信,则将概率值0.8和0.2对应的视频类别确定为待分类视频的所属类别,即,待分类视频属于视频类别1和视频类别3。若所述视频分类结果的置信度分数小于等于预设的精度阈值λ,则需要从视频中重新抽取未使用的设定数量的视频帧再次输入模型中,按照上述步骤进行重新计算,再次获得视频分类结果,将前后两次的视频分类结果相加作为校准后的视频分类结果,即最终的视频分类结果。
本申请实施例提供一种用于视频分类任务的处理方法,包括:确定待分类视频的运动速度,其中,所述运动速度是用于衡量视频运动快慢的指标;获得用于视频分类的视频分类模型集;根据所述运动速度所处的阈值区间,从所述视频分类模型集中确定该阈值区间相对应的视频分类模型;利用所述视频分类模型对所述待分类视频进行分类处理,获得视频分类结果。
本申请实施例所述用于视频分类任务的处理方法,能够根据待分类视频的运动速度所处的阈值区间,从视频分类模型集中确定该阈值区间相对应的视频分类模型,进而利用视频分类模型对待分类视频进行分类处理,最终获得视频分类结果。
本申请优选实施例中,所述用于视频分类任务的处理方法能够根据运动速度所处的阈值区间,从待分类视频中抽取对应阈值区间的视频帧数,然后根据视频帧数,从视频分类模型集中选择与视频帧数对应的视频分类模型。
因此,本申请实施例所述用于视频分类任务的处理方法,不改变模型本身结构,对视频分类任务的输入数据分批次计算,能够减少视频中相邻视频帧之间的冗余信息,可以在保证准确率的情况下降低视频分类模型的计算量和内存访问,提升视频分类速度;同时本申请实施例所述方法能够针对多批次输入数据的输出结果进行精度校准,能够应对多批次任务准确率计算置信度不足的情况,对精度进行了校准和提升。
本申请实施例所述用于视频分类任务的处理方法,不改变模型本身结构,对时序任务的输入数据分批次计算,可以最大化利用模型本身特征表达能力的情况下,减少推理过程的计算量和资源消耗。同时,所述方法不需要对模型进行数据上的finetune(模型微调,指将在别的数据集上训练好的预训练模型在自己的数据集上进行小批次的重新训练),可以直接利用已经训练好的SOTA (state of the art,指在此类任务中,目前最好模型的性能表现)模型来加速。另外,对于多批次输入数据的输出结果,本方法提出了进行最后的精度校准方法,能够应对多批次任务准确率计算置信度不足的情况,对精度进行校准和提升。经实验所述方法可以实现整体计算节约 30%,模型内存资源节约 50%,精度损失在0.3% 以内的效果。
此外,本申请实施例所述方法为用于视频分类任务的处理方法提出了一个对最后分数差值计算的准确率判断和补偿机制,还可以用多层神经感知机mlp对不同批次视频帧计算出来的最后特征进行感知推理来计算分数是否达到阈值。
第二实施例
在上述第一实施例中,提供了一种用于视频分类任务的处理方法,与之相对应的,本申请第二实施例提供一种用于确定待处理视频的运动速度的方法,本实施例与第一实施例内容相同的部分不再赘述,请参见第一实施例中的相应部分。
请参照图4,其为本申请第二实施例提供的一种用于确定待处理视频的运动速度的方法流程图。
在介绍本申请第二实施例提供的一种用于确定待处理视频的运动速度的方法之前,首先介绍下方案背景,本申请第一实施例采用的抽帧方法是在时序上对于视频帧均匀地抽出一定数量的帧,逐步的进行精度计算和比较。目前视频任务包括很多不仅是视频分类,还包括动作识别,内容理解。通过这一系列的任务来对视频进行精细化的理解,然后推送给消费者感兴趣的视频,同时可以指导视频创作者创作更好的视频。此时,可以根据不同的任务类型在时序上等间隔地先后抽出一定数量的帧分批进行精度计算。因此,本申请第二实施例提供了一种用于确定待处理视频的运动速度的方法。所述待处理视频包括待分类视频、待动作识别视频以及待内容理解视频等,都在本申请实施例的保护范围之内。
所述用于确定待处理视频的运动速度的方法包括如下步骤:
步骤S401:从所述待处理视频中抽取设定数量的视频帧,其中,所述抽取包括在时序上均匀抽取或在时序上等间隔抽取并分批次计算;
本步骤用于从所述待处理视频中抽取设定数量的视频帧,这里需要说明的是,针对不同的视频处理任务,从所述待处理视频中抽取设定数量的视频帧的方式也不同,具体为:对于待分类视频,在时序上,可以从所述待处理视频中均匀抽取设定数量的视频帧并分批次计算;对于待动作识别视频以及待内容理解视频,在时序上,可以从所述待处理视频中等间隔抽取设定数量的视频帧并分批次计算。
步骤S402:将每一视频帧划分为设定数量的不重叠的区域块;
步骤S403:计算每一区域块与前一帧相似区域块的哈密顿距离;
步骤S404:将计算获得的所有哈密顿距离相加,作为该待处理视频的运动速度。
视频处理中会有各种各样的任务,有些任务与前述视频分类任务类似,都是需要通过对视频图像或视频帧的处理来实现,本申请实施例视频的运动速度的确定方法可以用于该情形中,根据确定的运行速度来对该视频进行分类处理,本实施例不再展开阐述。
第三实施例
在上述第一实施例中,提供了一种用于视频分类任务的处理方法,与之相对应的,本申请第三实施例提供一种用于视频处理结果的精度控制补偿方法,本实施例与第一实施例内容相同的部分不再赘述,请参见第一实施例中的相应部分。
请参照图5,其为本申请第三实施例提供的一种用于视频处理结果的精度控制补偿方法的流程图。
步骤S501:确定视频处理结果的置信度分数;
步骤S502:将所述置信度分数与预设的精度阈值进行比较,获得第二比较结果;
步骤S503:根据所述第二比较结果,获得校准后的视频处理结果,其中,所述获得校准后的视频处理结果,包括:若所述置信度分数大于预设的精度阈值,则将当前视频处理结果作为校准后的视频处理结果;若所述置信度分数小于预设的精度阈值,则重新抽取未使用的设定数量的视频帧再次进行视频处理,将前后两次视频处理结果相加作为校准后的视频处理结果。
这里需要说明的是,所述视频处理包括视频分类、动作识别、以及内容理解等,上述第一实施例具体介绍了针对视频分类结果的精度控制补偿方法,由于目前视频任务不仅包括视频分类,还包括动作识别,内容理解等。因此,本申请实施例提供一种用于视频处理结果的精度控制补偿方法,用于满足不同视频处理需求对应的视频处理结果的精度校准。
第四实施例
在上述第一实施例中,提供了一种用于视频分类任务的处理方法,与之相对应的,本申请第四实施例提供了一种用于视频分类任务的处理装置。由于装置实施例基本相似于方法第一实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
请参照图6,其为本申请第四实施例提供的一种用于视频分类任务的处理装置的示意图。
该用于视频分类任务的处理装置600包括:
运动速度确定单元601,用于确定待分类视频的运动速度,其中,所述运动速度是用于衡量视频运动快慢的指标;
视频分类模型集获得单元602,用于获得用于视频分类的视频分类模型集;
第一确定单元603,用于根据所述运动速度所处的阈值区间,从所述视频分类模型集中确定该阈值区间相对应的视频分类模型;
视频分类结果获得单元604,用于利用所述视频分类模型对所述待分类视频进行分类处理,获得视频分类结果。
第五实施例
在上述第二实施例中,提供了一种用于确定待处理视频的运动速度的方法,与之相对应的,本申请第五实施例提供了一种用于确定待处理视频的运动速度的装置。由于装置实施例基本相似于方法第二实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
请参照图7,其为本申请第五实施例提供的一种用于确定待处理视频的运动速度的装置示意图。
该用于确定待处理视频的运动速度的装置700包括:
抽取单元701,用于从所述待处理视频中抽取设定数量的视频帧,其中,所述抽取包括在时序上均匀抽取或在时序上等间隔抽取并分批次计算;
划分单元702,用于将每一视频帧划分为设定数量的不重叠的区域块;
第一计算单元703,用于计算每一区域块与前一帧相似区域块的哈密顿距离;
第一相加单元704,用于将计算获得的所有哈密顿距离相加,作为该待处理视频的运动速度。
第六实施例
在上述第三实施例中,提供了一种用于视频处理结果的精度控制补偿的方法,与之相对应的,本申请第六实施例提供了一种用于视频处理结果的精度控制补偿的装置。由于装置实施例基本相似于方法第三实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
请参照图8,其为本申请第六实施例提供的一种用于视频处理结果的精度控制补偿装置的示意图。
该用于视频处理结果的精度控制补偿的装置800包括:
第二确定单801元,用于确定视频处理结果的置信度分数;
第一比较单元802,用于将所述置信度分数与预设的精度阈值进行比较,获得第二比较结果;
第一获得单元803,用于根据所述第二比较结果,获得校准后的视频处理结果,其中,所述获得校准后的视频处理结果,包括:若所述置信度分数大于预设的精度阈值,则将当前视频处理结果作为校准后的视频处理结果;若所述置信度分数小于预设的精度阈值,则重新抽取未使用的设定数量的视频帧再次进行视频处理,将前后两次视频处理结果相加作为校准后的视频处理结果。
第七实施例
在上述第一实施例中,提供了一种用于视频分类任务的处理方法,与之相对应的,本申请第七实施例提供一种用于视频分类任务的处理方法,应用于云端,本实施例与第一实施例内容相同的部分不再赘述,请参见第一实施例中的相应部分。
请参照图9,其为本申请第七实施例提供的一种用于视频分类任务的处理方法流程图。
步骤S901:接收客户端发送的用于获取针对待分类视频的视频分类结果的获取请求消息;
步骤S902:根据所述获取请求消息,获得所述待分类视频;
步骤S903:利用视频分类模型对所述待分类视频进行分类处理,获得视频分类结果;
步骤S904:将所述视频分类结果返回给所述客户端;
其中,所述视频分类模型是从视频分类模型集中确定的与所述待分类视频的运动速度所处的阈值区间相对应的视频分类模型。
第八实施例
在上述第二实施例中,提供了一种用于确定待处理视频的运动速度的方法,与之相对应的,本申请第八实施例提供一种用于确定待处理视频的运动速度的方法,应用于云端,本实施例与第二实施例内容相同的部分不再赘述,请参见第二实施例中的相应部分。
请参照图10,其为本申请第八实施例提供的一种用于确定待处理视频的运动速度的方法流程图。
步骤S1001:接收客户端发送的用于获取待分类视频运动速度的获取请求消息;
步骤S1002:根据所述获取请求消息,计算所述待分类视频每一视频帧中每一区域块与前一帧相似区域块的哈密顿距离;
步骤S1003:将计算获得的所有哈密顿距离相加,作为该待处理视频的运动速度;
步骤S1004:将所述待处理视频的运动速度返回给所述客户端;
其中,所述区域块是由每一视频帧按照设定数量划分后获得的,所述视频帧是从所述待处理视频中按照设定数量抽取的,所述抽取包括在时序上均匀抽取或在时序上等间隔抽取并分批次计算。
第九实施例
在上述第三实施例中,提供了一种用于视频处理结果的精度控制补偿方法,与之相对应的,本申请第九实施例提供一种用于视频处理结果的精度控制补偿方法,应用于云端,本实施例与第三实施例内容相同的部分不再赘述,请参见第三实施例中的相应部分。
请参照图11,其为本申请第九实施例提供的一种用于视频处理结果的精度控制补偿方法的流程图。
步骤S1101:接受客户端发送的用于获取校准后视频处理结果的获取请求消息;
步骤S1102:根据所述获取请求消息,获得视频处理结果的置信度分数;
步骤S1103:将所述置信度分数与预设的精度阈值进行比较,获得第二比较结果;
步骤S1104:根据所述第二比较结果,获得校准后的视频处理结果;
步骤S1105:将所述校准后的视频处理结果返回给所述客户端;
其中,所述获得校准后的视频处理结果,包括:若所述置信度分数大于预设的精度阈值,则将当前视频处理结果作为校准后的视频处理结果;若所述置信度分数小于预设的精度阈值,则重新抽取未使用的设定数量的视频帧再次进行视频处理,将前后两次视频处理结果相加作为校准后的视频处理结果。
第十实施例
在上述第七实施例中,提供了一种用于视频分类任务的处理方法,应用于云端,与之相对应的,本申请第十实施例提供了一种用于视频分类任务的处理装置,应用于云端。由于装置实施例基本相似于方法第七实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
请参照图12,其为本申请第十实施例提供的一种用于视频分类任务的处理装置的示意图。
该用于视频分类任务的处理装置1200包括:
第一接收单元1201,用于接收客户端发送的用于获取针对待分类视频的视频分类结果的获取请求消息;
第二获得单元1202,用于根据所述获取请求消息,获得所述待分类视频;
第三获得单元1203,用于利用视频分类模型对所述待分类视频进行分类处理,获得视频分类结果;
第一返回单元1204,用于将所述视频分类结果返回给所述客户端;其中,所述视频分类模型是从视频分类模型集中确定的与所述待分类视频的运动速度所处的阈值区间相对应的视频分类模型。
第十一实施例
在上述第八实施例中,提供了一种用于确定待处理视频的运动速度的方法,应用于云端,与之相对应的,本申请第十一实施例提供了一种用于确定待处理视频的运动速度的装置,应用于云端。由于装置实施例基本相似于方法第八实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
请参照图13,其为本申请第十一实施例提供的一种用于确定待处理视频的运动速度的装置示意图。
该用于确定待处理视频的运动速度的装置1300包括:
第二接收单元1301,用于接收客户端发送的用于获取待分类视频运动速度的获取请求消息;
第二计算单元1302,用于根据所述获取请求消息,计算所述待分类视频每一视频帧中每一区域块与前一帧相似区域块的哈密顿距离;
第二相加单元1303,用于将计算获得的所有哈密顿距离相加,作为该待处理视频的运动速度;
第二返回单元1304,用于将所述待处理视频的运动速度返回给所述客户端;其中,所述区域块是由每一视频帧按照设定数量划分后获得的,所述视频帧是从所述待处理视频中按照设定数量抽取的,所述抽取包括在时序上均匀抽取或在时序上等间隔抽取并分批次计算。
第十二实施例
在上述第九实施例中,提供了一种用于视频处理结果的精度控制补偿的方法,应用于云端,与之相对应的,本申请第十二实施例提供了一种用于视频处理结果的精度控制补偿的装置,应用于云端。由于装置实施例基本相似于方法第九实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。
请参照图14,其为本申请第十二实施例提供的一种用于视频处理结果的精度控制补偿装置的示意图。
该用于视频处理结果的精度控制补偿的装置1400包括:
第三接收单元1401,用于接受客户端发送的用于获取校准后视频处理结果的获取请求消息;
第四获得单元1402,用于根据所述获取请求消息,获得视频处理结果的置信度分数;
第二比较单元1403,用于将所述置信度分数与预设的精度阈值进行比较,获得第二比较结果;
第五获得单元1404,用于根据所述第二比较结果,获得校准后的视频处理结果;
第三返回单元1405,用于将所述校准后的视频处理结果返回给所述客户端;
其中,所述获得校准后的视频处理结果,包括:若所述置信度分数大于预设的精度阈值,则将当前视频处理结果作为校准后的视频处理结果;若所述置信度分数小于预设的精度阈值,则重新抽取未使用的设定数量的视频帧再次进行视频处理,将前后两次视频处理结果相加作为校准后的视频处理结果。
第十三实施例
与本申请上述方法实施例相对应的,本申请第十三实施例还提供一种电子设备。如图15所示,图15为本申请第十三实施例中提供的一种电子设备的示意图。该电子设备,包括:至少一个处理器1501,至少一个通信接口1502,至少一个存储器1503和至少一个通信总线1504;可选的,通信接口1502可以为通信模块的接口,如GSM模块的接口;处理器1501可能是处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。存储器1503可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。其中,存储器1503存储有程序,处理器1501调用存储器1503所存储的程序,以执行本申请上述实施例中提供的方法。
第十四实施例
与本申请上述方法相对应的,本申请第十四实施例还提供一种计算机存储介质。所述计算机存储介质存储有计算机程序,该计算机程序被处理器运行,以执行本申请上述实施例中提供的方法。
本申请虽然以较佳实施例公开如上,但其并不是用来限定本申请,任何本领域技术人员在不脱离本申请的精神和范围内,都可以做出可能的变动和修改,因此本申请的保护范围应当以本申请权利要求所界定的范围为准。
在一个典型的配置中,计算设备包括一个或多个处理器 (CPU)、 输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器 (RAM) 和/或非易失性内存等形式,如只读存储器 (ROM) 或闪存(flash RAM)。内存是计算机可读介质的示例。
1、计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、 程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存 (PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器 (DRAM)、 其他类型的随机存取存储器 (RAM)、只读存储器(ROM)、电可擦除可编程只读存储器 (EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器 (CD-ROM)、数字多功能光盘 (DVD) 或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体 (transitory media),如调制的数据信号和载波。
2、本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
需要说明的是,本申请实施例中可能会涉及到对用户数据的使用,在实际应用中,可以在符合所在国的适用法律法规要求的情况下(例如,用户明确同意,对用户切实通知,等),在适用法律法规允许的范围内在本文描述的方案中使用用户特定的个人数据。

Claims (11)

1.一种用于视频分类任务的处理方法,其特征在于,包括:
确定待分类视频的运动速度,其中,所述运动速度是用于衡量视频运动快慢的指标;
获得用于视频分类的视频分类模型集;
根据所述运动速度所处的阈值区间,从所述视频分类模型集中确定该阈值区间相对应的视频分类模型;
利用所述视频分类模型对所述待分类视频进行分类处理,获得视频分类结果;
其中,所述确定待分类视频的运动速度,包括:从所述待分类视频中抽取设定数量的视频帧,将每一视频帧划分为设定数量的不重叠的区域块,针对每一区域块,确定视频帧中区域块的坐标,根据所述视频帧中区域块的坐标,在前一视频帧中获取预设坐标范围内的所有区域块,计算所述视频帧中区域块与所述预设坐标范围内的所有区域块之间的哈密顿距离,获取与所述视频帧中区域块哈密顿距离最小的区域块,作为所述视频帧中区域块的相似区域块,并计算哈密顿距离,将计算获得的所有哈密顿距离相加,作为该待分类视频的运动速度。
2.根据权利要求1所述的用于视频分类任务的处理方法,其特征在于,从所述待分类视频中抽取设定数量的视频帧具体为从所述待分类视频中在时序上均匀抽取或者按照设定的时间间隔抽取设定数量的视频帧。
3.根据权利要求1所述的用于视频分类任务的处理方法,其特征在于,所述根据所述运动速度所处的阈值区间,从所述视频分类模型集中确定该阈值区间相对应的视频分类模型,包括:
根据所述运动速度所处的阈值区间,从所述待分类视频中抽取对应所述阈值区间的视频帧数;
根据所述视频帧数,从视频分类模型集中选择与所述视频帧数对应的视频分类模型。
4.根据权利要求3所述的用于视频分类任务的处理方法,其特征在于,所述根据所述运动速度所处的阈值区间,从所述待分类视频中抽取对应所述阈值区间的视频帧数,包括:
将所述运动速度与预设的阈值区间进行比较,获得第一比较结果;
根据所述第一比较结果,从所述待分类视频中抽取对应所述阈值区间的视频帧数。
5.根据权利要求1所述的用于视频分类任务的处理方法,其特征在于,获得视频分类结果后,还包括:
针对所述视频分类结果进行精度校准,获得校准后的视频分类结果。
6.根据权利要求5所述的用于视频分类任务的处理方法,其特征在于,所述针对所述视频分类结果进行精度校准,获得校准后的视频分类结果,包括:
确定视频分类结果的置信度分数;
根据所述视频分类结果的置信度分数对所述视频分类结果进行精度校准,获得校准后的视频分类结果。
7.根据权利要求6所述的用于视频分类任务的处理方法,其特征在于,所述获得视频分类结果的置信度分数,包括:
针对所述视频分类结果进行排序,获得概率最大的两个视频类别对应的第一概率值和第二概率值;
获得所述第一概率值和所述第二概率值的差异值,作为视频分类结果的置信度分数。
8.根据权利要求6所述的用于视频分类任务的处理方法,其特征在于,所述根据所述视频分类结果的置信度分数对所述视频分类结果进行精度校准,获得校准后的视频分类结果,包括:
将所述视频分类结果的置信度分数与预设的精度阈值进行比较;
若所述视频分类结果的置信度分数大于预设的精度阈值,则将当前视频分类结果作为校准后的视频分类结果;
若所述视频分类结果的置信度分数小于等于预设的精度阈值,则重新抽取未使用的设定数量的视频帧再次进行视频分类,将前后两次视频分类结果相加作为校准后的视频分类结果。
9.一种用于视频分类任务的处理方法,其特征在于,应用于云端,所述方法包括:
接收客户端发送的用于获取针对待分类视频的视频分类结果的第一获取请求消息;
根据所述第一获取请求消息,获得所述待分类视频;
利用视频分类模型对所述待分类视频进行分类处理,获得视频分类结果;
将所述视频分类结果返回给所述客户端;
其中,所述视频分类模型是从视频分类模型集中确定的与所述待分类视频的运动速度所处的阈值区间相对应的视频分类模型;
所述待分类视频的运动速度通过如下方式确定:从所述待分类视频中抽取设定数量的视频帧,将每一视频帧划分为设定数量的不重叠的区域块,针对每一区域块,确定视频帧中区域块的坐标,根据所述视频帧中区域块的坐标,在前一视频帧中获取预设坐标范围内的所有区域块,计算所述视频帧中区域块与所述预设坐标范围内的所有区域块之间的哈密顿距离,获取与所述视频帧中区域块哈密顿距离最小的区域块,作为所述视频帧中区域块的相似区域块,并计算哈密顿距离,将计算获得的所有哈密顿距离相加,作为该待分类视频的运动速度。
10.一种电子设备,其特征在于,所述电子设备包括处理器和存储器;
所述存储器中存储有计算机程序,所述处理器运行所述计算机程序后,执行权利要求1-9任意一项所述的方法。
11.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器运行后,执行权利要求1-9任意一项所述的方法。
CN202310224052.6A 2023-03-03 2023-03-03 一种用于视频分类任务的处理方法、装置 Active CN115953722B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310224052.6A CN115953722B (zh) 2023-03-03 2023-03-03 一种用于视频分类任务的处理方法、装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310224052.6A CN115953722B (zh) 2023-03-03 2023-03-03 一种用于视频分类任务的处理方法、装置

Publications (2)

Publication Number Publication Date
CN115953722A CN115953722A (zh) 2023-04-11
CN115953722B true CN115953722B (zh) 2023-07-04

Family

ID=85896207

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310224052.6A Active CN115953722B (zh) 2023-03-03 2023-03-03 一种用于视频分类任务的处理方法、装置

Country Status (1)

Country Link
CN (1) CN115953722B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113850221A (zh) * 2021-09-30 2021-12-28 北京航空航天大学 一种基于关键点筛选的姿态跟踪方法

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9443205B2 (en) * 2011-10-24 2016-09-13 President And Fellows Of Harvard College Enhancing diagnosis of disorder through artificial intelligence and mobile health technologies without compromising accuracy
CN110163115B (zh) * 2019-04-26 2023-10-13 腾讯科技(深圳)有限公司 一种视频处理方法、装置和计算机可读存储介质
CN111008280B (zh) * 2019-12-04 2023-09-05 北京百度网讯科技有限公司 一种视频分类方法、装置、设备和存储介质
CN114648713A (zh) * 2020-12-18 2022-06-21 北京字节跳动网络技术有限公司 视频分类方法、装置、电子设备及计算机可读存储介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113850221A (zh) * 2021-09-30 2021-12-28 北京航空航天大学 一种基于关键点筛选的姿态跟踪方法

Also Published As

Publication number Publication date
CN115953722A (zh) 2023-04-11

Similar Documents

Publication Publication Date Title
CN110176027B (zh) 视频目标跟踪方法、装置、设备及存储介质
US20220230420A1 (en) Artificial intelligence-based object detection method and apparatus, device, and storage medium
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
CN114332578A (zh) 图像异常检测模型训练方法、图像异常检测方法和装置
JP2022540101A (ja) ポジショニング方法及び装置、電子機器、コンピュータ読み取り可能な記憶媒体
CN112101344B (zh) 一种视频文本跟踪方法及装置
CN112330684A (zh) 对象分割方法、装置、计算机设备及存储介质
CN113065379B (zh) 融合图像质量的图像检测方法、装置、电子设备
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
CN113128526B (zh) 图像识别方法、装置、电子设备和计算机可读存储介质
CN113011320B (zh) 视频处理方法、装置、电子设备及存储介质
CN111274985B (zh) 视频文本识别系统、视频文本识别装置与电子设备
CN115953722B (zh) 一种用于视频分类任务的处理方法、装置
CN115115552B (zh) 图像矫正模型训练及图像矫正方法、装置和计算机设备
CN113824989B (zh) 一种视频处理方法、装置和计算机可读存储介质
CN115578614A (zh) 图像处理模型的训练方法、图像处理方法和装置
CN113920291A (zh) 基于图片识别结果的纠错方法、装置、电子设备及介质
CN114064972A (zh) 视频类型确定方法及相关装置
CN115731588B (zh) 模型处理方法及装置
CN113643348B (zh) 一种人脸属性分析方法及装置
CN112801082B (zh) 图像的采样方法、装置及电子设备
CN115278303B (zh) 视频处理方法、装置、设备以及介质
CN115240068A (zh) Slam过程中的闭环检测方法、装置、设备及存储介质
CN117392391A (zh) 道路图像语义分割方法、装置、电子设备及存储介质
CN115205777A (zh) 基于密度级别的人群计数方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant