CN116580054A - 视频数据处理方法、装置、设备以及介质 - Google Patents
视频数据处理方法、装置、设备以及介质 Download PDFInfo
- Publication number
- CN116580054A CN116580054A CN202210111577.4A CN202210111577A CN116580054A CN 116580054 A CN116580054 A CN 116580054A CN 202210111577 A CN202210111577 A CN 202210111577A CN 116580054 A CN116580054 A CN 116580054A
- Authority
- CN
- China
- Prior art keywords
- video frame
- target
- video
- region
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000003672 processing method Methods 0.000 title abstract description 16
- 238000011156 evaluation Methods 0.000 claims abstract description 75
- 238000000034 method Methods 0.000 claims abstract description 54
- 238000000605 extraction Methods 0.000 claims description 68
- 238000012545 processing Methods 0.000 claims description 38
- 238000005070 sampling Methods 0.000 claims description 26
- 238000004590 computer program Methods 0.000 claims description 21
- 230000008921 facial expression Effects 0.000 claims description 17
- 230000002123 temporal effect Effects 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 11
- 238000009432 framing Methods 0.000 claims description 9
- 230000001815 facial effect Effects 0.000 claims description 6
- 230000001105 regulatory effect Effects 0.000 claims 1
- 238000013473 artificial intelligence Methods 0.000 abstract description 4
- 238000012549 training Methods 0.000 description 40
- 238000001514 detection method Methods 0.000 description 37
- 238000004422 calculation algorithm Methods 0.000 description 27
- 230000000007 visual effect Effects 0.000 description 25
- 238000013527 convolutional neural network Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 15
- 230000008569 process Effects 0.000 description 14
- 230000033001 locomotion Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 9
- 230000009471 action Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 7
- 230000004807 localization Effects 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 230000004927 fusion Effects 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000007499 fusion processing Methods 0.000 description 4
- 238000012216 screening Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 241001465754 Metazoa Species 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/248—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
- G06T7/74—Determining position or orientation of objects or cameras using feature-based methods involving reference images or patches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供了一种视频数据处理方法、装置、设备以及介质,本申请可以应用于人工智能、自动驾驶等领域,该方法包括:获取参考视频帧中的参考区域的对象参考特征;根据目标视频的第i个视频帧中的目标对象所属的第一对象区域,在目标视频的第i+1个视频帧中获取候选区域图像,获取候选区域图像的对象候选特征;将对象候选特征和对象参考特征融合为对象组合特征,根据对象组合特征确定候选区域图像对应的对象评估值,获取第一对象区域在第i+1个视频帧中的对角偏移量;基于对象评估值、第一对象区域以及对角偏移量,在第i+1个视频帧中确定用于表征目标对象的位置的第二对象区域。采用本申请实施例,可以提高视频中的对象定位效率。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种视频数据处理方法、装置、设备以及介质。
背景技术
视觉物体定位可以对视频中的连续视频帧进行处理分析,从而自动地定位视频中感兴趣物体的位置,从而分析该物体在一段时间内的运动情况;该视觉物体定位可以广泛应用于各类视觉场景中,如通过视觉物体定位获取到视频中感兴趣物体的位置区域后,可以基于该位置区域进行后续业务处理,如动作识别、手势识别等。
目前的视觉物体定位方法中,在视频的初始帧中检测到感兴趣物体,并获取到感兴趣物体在初始帧中的位置区域后,可以在视频的后续视频帧中,通过传统类相关滤波算法,定位后续视频帧中的感兴趣物体所处的位置区域。若视频中的感兴趣物体在某时刻被部分或全部遮挡,那么在后续视频帧中很难定位到该感兴趣物体,造成物体定位失败;或者在感兴趣物体与类似物体的位置相近时,很容易在后续视频帧中将感兴趣物体替换成了其余物体,造成定位结果出错,可能需要对视频进行多次重复的视觉物体定位,进而造成视频中的物体定位效率过低。
发明内容
本申请实施例提供一种视频数据处理方法、装置、设备以及介质,可以提高视频中的对象定位效率。
本申请实施例一方面提供了一种视频数据处理方法,包括:
获取参考视频帧中的参考区域对应的对象参考特征;参考视频帧属于目标视频,目标视频包括目标对象,参考区域用于表征目标对象在参考视频帧中的位置;
根据目标视频的第i个视频帧中的目标对象所属的第一对象区域,在目标视频的第i+1个视频帧中获取候选区域图像,获取候选区域图像对应的对象候选特征;第i个视频帧在目标视频中的时间顺序晚于或等于参考视频帧在目标视频中的时间顺序,第i个视频帧在目标视频中的时间顺序早于第i+1个视频帧在目标视频中的时间顺序,i为正整数;
将对象候选特征和对象参考特征融合为对象组合特征,根据对象组合特征确定候选区域图像对应的对象评估值,根据对象组合特征,获取第一对象区域在第i+1个视频帧中的对角偏移量;
基于对象评估值、第一对象区域以及对角偏移量,在第i+1个视频帧中确定用于表征目标对象的位置的第二对象区域。
本申请实施例一方面提供了一种视频数据处理装置,包括:
第一获取模块,用于获取参考视频帧中的参考区域对应的对象参考特征;参考视频帧属于目标视频,目标视频包括目标对象,参考区域用于表征目标对象在参考视频帧中的位置;
第二获取模块,用于根据目标视频的第i个视频帧中的目标对象所属的第一对象区域,在目标视频的第i+1个视频帧中获取候选区域图像,获取候选区域图像对应的对象候选特征;第i个视频帧在目标视频中的时间顺序晚于或等于参考视频帧在目标视频中的时间顺序,第i个视频帧在目标视频中的时间顺序早于第i+1个视频帧在目标视频中的时间顺序,i为正整数;
结果输出模块,用于将对象候选特征和对象参考特征融合为对象组合特征,根据对象组合特征确定候选区域图像对应的对象评估值,根据对象组合特征,获取第一对象区域在第i+1个视频帧中的对角偏移量;
区域确定模块,用于基于对象评估值、第一对象区域以及对角偏移量,在第i+1个视频帧中确定用于表征目标对象的位置的第二对象区域。
其中,第一获取模块包括:
视频分帧处理单元,用于获取目标视频,对目标视频进行分帧处理,得到目标视频帧序列,获取目标视频帧序列中的第一个视频帧;
参考区域确定单元,用于若检测到第一个视频帧中包含目标对象,则将第一个视频帧确定为目标视频中的参考视频帧,将目标对象在参考视频帧中的位置区域确定为参考区域;
参考特征提取单元,用于将参考区域在参考视频帧中所覆盖的像素点,确定为参考区域图像,获取参考区域图像对应的对象参考特征。
其中,该装置还包括:
区域分类模块,用于在第一个视频帧中获取M个初始区域,获取M个初始区域分别对应的区域描述特征,对区域描述特征进行分类识别,得到M个初始区域分别对应的分类结果;M为正整数;
对象检测模块,用于当M个初始区域分别对应的分类结果中存在与目标对象相关联的分类结果时,确定第一视频帧中包含目标对象。
其中,参考区域确定单元包括:
区块筛选子单元,用于在M个初始区域中,将与目标对象相关联的分类结果所对应的初始区域确定为待处理区域集合;
区域合并子单元,用于根据待处理区域集合中的初始区域之间的交并比,对待处理区域集合中的初始区域进行合并,得到待调整区域;
区域修正子单元,用于对待调整区域进行边框回归处理,在参考视频帧中得到包含目标对象的参考区域。
其中,第二获取模块包括:
第一候选区域确定单元,用于获取目标对象在目标视频的第i个视频帧中的第一对象区域,根据第一对象区域对应的顶点坐标信息,在目标视频的第i+1个视频帧中确定第一候选区域;
区域采样单元,用于基于第一候选区域,在第i+1个视频帧中进行区域采样,得到一个或多个采样区域,通过滤波器输出一个或多个采样区域分别对应的响应值;
第二候选区域确定单元,用于将最大的响应值所对应的采样区域确定为第二候选区域,将第二候选区域在第i+1个视频帧中所覆盖的像素点,确定为候选区域图像;
候选特征提取单元,用于将候选区域图像输入至目标定位模型中的特征提取组件,通过目标定位模型中的特征提取组件输出候选区域图像对应的对象候选特征。
其中,结果输出模块包括:
第一卷积运算单元,用于将对象候选特征输入至第一卷积层,通过第一卷积层输出第一卷积特征;第一卷积特征的通道数与对象候选特征的通道数保持一致;
第二卷积运算单元,用于将对象参考特征输入至第二卷积层,通过第二卷积层输出第二卷积特征;第二卷积特征的通道数与对象参考特征的通道数不相同;
第三卷积运算单元,用于将第一卷积特征和第二卷积特征进行卷积运算,得到对象组合特征。
其中,结果输出模块包括:
特征分类单元,用于对对象组合特征进行分类识别,得到候选区域图像针对目标对象的对象评估值;
回归处理单元,用于根据对象组合特征,对第i+1个视频帧中由第一对象区域所确定的候选区域进行回归处理,得到第一对象区域在第i+1个视频帧中的对角偏移量。
其中,对角偏移量包括第一偏移量和第二偏移量,第一偏移量和第二偏移量用于表征第一对象区域的同一条对角线上的顶点在第i+1个视频帧中的位置偏移;
区域确定模块包括:
对象判断单元,用于若对象评估值大于评估阈值,则确定候选区域图像中包含目标对象;
区域位置获取单元,用于根据第一对象区域对应的顶点坐标信息、第一偏移量以及第二偏移量,得到目标对象在第i+1个视频帧中的区域位置信息,基于区域位置信息,在第i+1个视频帧中确定第二对象区域。
其中,该装置还包括:
目标对象判断模块,用于若对象评估值小于或等于评估阈值,则确定候选区域图像中不包含目标对象,获取目标视频中的第i+2个视频帧;第i+2个视频帧在目标视频中的时间顺序晚于第i+1个视频帧在目标视频中的时间顺序;
参考帧更新模块,用于若检测到第i+2个视频帧中包含目标对象,则将目标视频中的参考视频帧更新为第i+2个视频帧,将参考视频帧中的参考区域更新为目标对象在第i+2个视频帧中的位置区域。
其中,目标对象包括脸部;
该装置还包括:
表情特征提取模块,用于根据第二对象区域,对第i+1个视频帧进行剪裁,得到待识别脸部图像,获取待识别脸部图像对应的脸部表情特征;
表情识别模块,用于将脸部表情特征输入至分类器,通过分类器输出脸部表情特征与至少两个表情属性特征之间的匹配度,将最大的匹配度对应的表情属性特征所属的表情类别,确定为待识别脸部图像的表情识别结果。
其中,该装置还包括:
样本获取模块,用于获取包含样本对象的样本视频,在样本视频中获取样本参考帧和样本视频帧集合;样本参考帧在样本视频中的时间顺序早于样本视频帧集合中的每个样本视频帧分别在样本视频中的时间顺序;
样本特征提取模块,用于根据样本参考帧所携带的标签信息,确定样本参考帧中的样本对象所属的样本参考区域,通过初始定位模型中的特征提取组件,获取样本参考区域在样本参考帧中的样本参考特征,以及样本参考区域在每个样本视频帧中的样本候选特征;
样本特征预测模块,用于将样本候选特征和样本参考特征融合为样本组合特征,通过初始定位模型中的对象预测组件,输出每个样本视频帧分别对应的预测结果;
模型训练模块,用于根据样本参考帧所携带的标签信息、每个样本视频帧分别携带的标签信息,以及预测结果,对初始定位模型的网络参数进行修正,将包含修正后的网络参数的初始定位模型确定为目标定位模型;目标定位模型用于确定目标对象在目标视频所包含的视频帧中的位置。
其中,对象预测组件包括分类组件和回归组件,预测结果包括分类组件输出的样本评估值和回归组件输出的预测偏移量,预测偏移量用于表征样本参考区域的同一条对角线上的顶点在每个样本视频帧中的位置偏移;
模型训练模块包括:
目标偏移量确定单元,用于根据样本参考帧所携带的标签信息中的对象位置标签,以及每个样本视频帧分别携带的标签信息中的对象位置标签,确定样本参考区域在每个样本视频帧中的目标偏移量;
回归损失确定单元,用于基于目标偏移量与预测偏移量之间的差值,确定回归组件对应的回归损失结果;
分类损失确定单元,用于基于样本评估值与每个样本视频帧分别携带的标签信息中的对象类别标签,确定分类组件对应的分类损失结果;
网络参数修正单元,用于根据回归损失结果和分类损失结果,对初始定位模型的网络参数进行修正,将包含修正后的网络参数的初始定位模型确定为目标定位模型。
本申请实施例一方面提供了一种计算机设备,包括存储器和处理器,存储器与处理器相连,存储器用于存储计算机程序,处理器用于调用计算机程序,以使得该计算机设备执行本申请实施例中上述一方面提供的方法。
本申请实施例一方面提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序适于由处理器加载并执行,以使得具有处理器的计算机设备执行本申请实施例中上述一方面提供的方法。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述一方面提供的方法。
本申请实施例中,可以将目标视频的参考视频帧中检测到对象确定为目标对象,并确定该目标对象在参考视频帧中的参考区域,通过该参考区域可以在目标视频的后续视频帧(目标视频中时间顺序晚于参考视频帧的其余视频帧)中定位目标对象;对于目标视频中的后续视频帧,在获取到前一个视频帧中的目标对象所属的第一对象区域后,只需获取后一个视频帧针对目标对象的对象评估值,以及第一对象区域在后一个视频帧中的对角偏移量,即只需计算第一对象区域的一条对角线上的顶点的位置偏移,就可以获取目标对象在后一个视频帧中的第二对象区域,不仅可以提升目标对象的定位准确性,还可以提高目标对象的定位速度,进而可以提高目标对象的定位效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的一种网络架构的结构示意图;
图2是本申请实施例提供的一种视频中的定位场景示意图;
图3是本申请实施例提供的一种视频数据处理方法的流程示意图;
图4是本申请实施例提供的一种特征融合过程的示意图;
图5是本申请实施例提供的另一种视频数据处理方法的流程示意图;
图6是本申请实施例提供的一种目标视频中的目标对象的视觉定位示意图;
图7是本申请实施例提供的一种动作识别场景示意图;
图8是本申请实施例提供的一种模型训练方法的流程示意图;
图9是本申请实施例提供的一种初始定位模型的训练示意图;
图10是本申请实施例提供的一种视频数据处理装置的结构示意图;
图11是本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请涉及计算机视觉技术(Computer Vision,CV)。计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。
本申请涉及计算机视觉技术下属的视觉物体定位,视觉物体定位是计算机视觉中的一个重要任务,也是计算机理解视频中的物体动作、姿态等必不可少的一步;通过对视频中的第一个视频帧进行物体检测,获取第一个视频帧中所包含的物体,并将该物体确定为目标对象,在第一个视频帧中可以标记出目标对象所属的位置区域,此时的第一个视频帧可以称为视频中的参考视频帧,目标对象在第一个视频帧中的位置区域可以称为参考区域,进而可以通过参考区域在视频的后续视频帧中自动定位该目标对象。其中,目标对象可以包括但不限于:行驶车辆、飞行器、特定人物、动物、植物以及各个人体部位(例如,脸部、手部等),本申请对目标对象的类型不做限定。
请参见图1,图1是本申请实施例提供的一种网络架构的结构示意图。如图1所示,该网络架构可以包括服务器10d和用户终端集群,该用户终端集群可以包括一个或者多个用户终端,这里不对用户终端的数量进行限制。如图1所示,该用户终端集群可以具体包括用户终端10a、用户终端10b以及用户终端10c等。其中,服务器10d可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。用户终端10a、用户终端10b以及用户终端10c等均可以包括:智能手机、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备(例如智能手表、智能手环等)、智能语音交互设备、智能家电(例如智能电视等)、车载设备、飞行器等具有视觉物体定位功能的电子设备。如图1所示,用户终端10a、用户终端10b以及用户终端10c等可以分别与服务器10d进行网络连接,以便于每个用户终端可以通过该网络连接与服务器10d之间进行数据交互。
如图1所示的用户终端10a中集成有具备视觉物体定位功能的应用客户端,该应用客户端可以包括但不限于:地图客户端、多媒体客户端(例如,短视频客户端、视频直播客户端、视频客户端)、娱乐客户端(例如,游戏客户端)。用户终端10a中的应用客户端可以获取目标视频,通过对目标视频中的第一个视频帧进行物体检测,在第一个视频帧中检测到目标对象后,可以将该第一个视频帧作为目标视频中的参考视频帧,并在参考视频帧中确定目标对象所属的位置区域,该位置区域可以称为参考区域,即参考区域可以用于表征目标视频中的目标对象在参考视频帧中的位置;进而可以从参考视频帧中剪裁出参考区域所覆盖的像素点,得到参考区域图像,通过特征提取算法获取参考区域图像对应的对象参考特征。其中,特征提取算法可以是指用于提取图像特征的各类算法,如尺度不变特征变换(Scale-invariant features transform,SIFT)算法、方向梯度直方图(Histogram ofOriented Gradient,HOG)算法、加速稳健特征(Speeded Up Robust Features,SURF)、深度学习模型(例如,卷积神经网络)等,本申请对实际所使用的特征提取算法不做限定。
进一步地,可以按照时间顺序从目标视频中参考视频帧的下一个视频帧(可以称为目标视频中的第二个视频帧),基于参考视频帧中的参考区域,在第二个视频帧中确定一个候选区域,如将参考视频帧和第二个视频帧进行对齐后,参考视频帧中的参考区域在第二个视频帧中所覆盖的区域;从第二个视频帧中剪裁出候选区域所覆盖的像素点,得到候选区域图像,通过特征提取算法获取候选区域图像对应的对象候选特征。对于目标视频中的后续任意一个视频帧,都可以通过上述操作获取其对应的对象候选特征,如目标视频中的第i+1个视频帧(i为正整数,如i可以取值为1,2,……),可以基于目标视频帧的第i个视频帧(第i+1个视频帧的前一个视频帧)中的目标对象所属的第一对象区域(当i为1时,此时的第一对象区域为上述参考视频帧中的参考区域),在目标视频的第i+1个视频帧中获取候选区域图像,进而可以获取候选区域图像对应的对象候选特征。在得到第i+1个视频帧中的候选区域图像对应的对象候选特征之后,可以将对象参考特征和对象候选特征融合为对象组合特征(例如,对对象参考特征和对象候选特征进行特征拼接),通过该对象组合特征确定候选区域图像对应的对象评估值,以及第一对象区域在第i+1个视频帧中的对角偏移量,进而可以通过对象评估值、第一对象区域以及对角偏移量,确定第i+1个视频帧中的目标对象所属的第二对象区域。换言之,在定位目标视频中的目标对象时,在获取到参考视频帧中的参考区域以及该参考区域对应的对象参考特征的基础上,对于后续每一个视频帧,都只需获取对角偏移量可以确定目标对象在后续各个视频帧中的位置区域,可以降低定位复杂度,进而提高目标视频中的目标对象的定位速度。
需要说明的是,候选区域图像对应的特征提取算法与前述参考区域图像对应的特征提取算法是一样的,且在获取到参考区域图像所对应的对象参考特征后,可以保存该对象参考特征,在后续视频帧的对象定位过程中,只需计算各个视频帧中的候选区域图像对应的对象候选特征,并调用前述保存的对象参考特征;当然,若目标视频中的参考视频帧进行了更新,那么需要重新确定更新后的参考视频帧中的参考区域,以及新的参考区域对应的对象参考特征。
请参见图2,图2是本申请实施例提供的一种视频中的定位场景示意图。以图1所示的用户终端10a为例,对目标视频中的对象定位过程进行描述。如图2所示,用户终端10a可以获取目标视频20a,该目标视频20a可以是通过用户终端10a中集成的相机所拍摄的视频,或者为其余设备传输至用户终端10a的视频等;通过对目标视频20a进行分帧处理,得到N个视频帧,N为正整数,如N可以取值为1,2,……。可以按照时间顺序从N个视频帧中获取第一个视频帧(即视频帧T1),并将该视频帧T1输入至检测模型20b,通过该检测模型20b对视频帧T1进行物体检测,得到该视频帧T1对应的检测结果,该检测结果可以包括目标对象在视频帧T1中的位置区域和目标对象的分类结果,如视频帧T1中的目标对象的分类结果为人物P,该人物A在视频帧T1中的位置区域为区域20c,此时可以将视频帧T1称为目标视频20a中的参考视频帧,将视频帧T1中的区域20c称为参考区域。其中,检测模型20b可以为预先训练完成的网络模型,具备针对视频/图像的物体检测功能,如该检测模型20b可以为Faster R-CNN(Fast Regions with Convolutional Neural Network features,基于卷积神经网络特征的快速区域建议算法)模型、R-FCN(基于区域的全卷积网络模型)等模型,本申请实施例对检测模型20b的类型不做限定。
进一步地,在确定了目标视频20a中的参考视频帧(视频帧T1)以及人物P在参考视频帧中的参考区域(区域20c)后,可以将区域20c在视频帧T1中所覆盖的像素点,确定为参考区域图像20d,将参考区域图像20d输入至特征提取组件20e,通过该特征提取组件20e可以输出该参考区域图像20d对应的对象参考特征20f;其中,特征提取组件20e可以是指用于提取图像特征的各类算法。按照时间顺序可以继续获取N个视频帧中的下一个视频帧(视频帧T2),基于前一个视频帧(视频帧T1)中的人物P所处的区域20c,将区域20c在视频帧T2中所覆盖的像素点确定为候选区域图像20g,将候选区域图像20g输入至特征提取组件20e,通过该特征提取组件20e可以输出该候选区域图像20g对应的对象候选特征20h。
其中,上述对象参考特征20f和对象候选特征20h可以一同输入至主干网络20i,该主干网络20i可以包括回归组件和分类组件,该主干网络20i也可以称为对象预测组件,主干网络20i(对象预测组件)与特征提取组件20e可以组成目标定位模型,该目标定位模型可以用于对目标视频20a中的人物P进行视觉定位。在该主干网络20i中,可以将对象参考特征20f和对象候选特征20h进行特征融合,得到对象组合特征,该对象组合特征可以同时输入回归组件和分类组件,通过分类组件可以输出候选区域图像20g对应的对象评估值20j,通过回归组件可以输出人物P在视频帧T2中的对角偏移量20k,该对角偏移量20k可以包括区域20c中的同一条对角线上的顶点在视频帧T2中的位置偏移。基于对象评估值20j可以判断候选区域图像20g中是否包含人物P,如对象评估值20j大于评估阈值(例如,该评估阈值可以取值为0.5),可以确定候选区域图像20g中包含人物P,进而可以根据对角偏移量20k和区域20c在视频帧T1中的顶点坐标信息,确定视频帧T2中的区域位置信息,进而可以通过该区域位置信息在视频帧T2中标记出区域20m,该区域20m可以用于表征人物P在视频帧T2中的位置。
同理,在获取到视频帧T2中的区域20m后,可以将区域20m在视频帧T3中所覆盖的像素点,确定为视频帧T3中的候选区域图像,将视频帧T3中的候选区域图像输入至特征提取组件20e,通过该特征提取组件20e可以输出视频帧T3中的候选区域图像所对应的对象候选特征;进而可以将对象参考特征20f与视频帧T3中的候选区域图像所对应的对象候选特征一同输入至主干网络20i,通过该主干网络20i的输出结果(包括对象评估值和对角偏移量)可以确定人物P在视频帧T3中的位置区域。N个视频帧中的剩余视频帧同样可以执行上述操作,以确定人物P在各个视频帧中的位置区域,通过获取人物P在各个视频帧中的对角偏移量就可以确定人物P在各个视频帧中的位置区域,可以降低定位复杂度,进而提高目标视频中的人物P的定位速度。
请参见图3,图3是本申请实施例提供的一种视频数据处理方法的流程示意图。可以理解地,视频数据处理方法可以由计算机设备执行,该计算机设备可以为服务器(例如,图1所对应实施例中的服务器10d)、或者为用户终端(例如,图1所示用户终端集群中的任一个用户终端)、或者为计算机程序(包括程序代码);如图3所示,该视频数据处理方法可以包括以下步骤S101-步骤S104:
步骤S101,获取参考视频帧中的参考区域对应的对象参考特征;参考视频帧属于目标视频,目标视频包括目标对象,参考区域用于表征目标对象在参考视频帧中的位置。
具体的,计算机设备可以获取包含目标对象的目标视频(如图2所对应实施例中的视频20a),在目标视频中确定参考视频帧,该参考视频帧是指目标视频中所包含的包含目标对象且标记出该目标对象所处的区域位置的视频帧,目标对象在参考视频帧中所处的区域位置可以称为参考区域(例如,图2所对应实施例中的区域20c)。该参考视频帧可以为目标视频中第一个检测到目标对象的视频帧,如参考视频帧可以为目标视频中的第一个视频帧(例如,图2所对应实施例中的视频帧T1);该目标对象可以是指参考视频帧中所包含的物体,如车辆、飞行器、人物、动物、植物以及人体的各个部位等,目标视频中所包含的目标对象可以为一个,也可以为多个,本申请对目标对象的类型以及目标对象的数量不做限定。当目标对象为一个时,表示对目标视频中的单个目标对象进行视觉定位;当目标对象为多个,表示同时对目标视频中的多个目标对象进行视觉定位。
计算机设备可以将参考区域在参考视频帧中所覆盖的像素点确定为参考区域图像(例如,图2所对应实施例中的参考区域图像20d),将参考区域图像输入至目标定位模型中的特征提取组件(例如,图2所对应实施例中的特征提取组件20e),通过该目标定位模型中的特征提取组件可以提取参考区域图像中的对象参考特征,其中,目标定位模型中的特征提取组件可以为特征描述子算法(例如,SIFT、HOG、SURF等),或者为网络模型算法(例如,卷积神经网络、全卷积神经网络等),本申请对特征提取组件的类型不做限定。需要说明的是,本申请中所涉及的特征提取组件可以为具有简单网络结构的网络模型,在对目标视频中的目标对象的视觉定位过程中可以通过降低特征提取组件的复杂性,进而提高目标对象的视觉定位速度。
步骤S102,根据目标视频的第i个视频帧中的目标对象所属的第一对象区域,在目标视频的第i+1个视频帧中获取候选区域图像,获取候选区域图像对应的对象候选特征;第i个视频帧在目标视频中的时间顺序晚于或等于参考视频帧在目标视频中的时间顺序,第i个视频帧在目标视频中的时间顺序早于第i+1个视频帧在目标视频中的时间顺序,i为正整数。
具体的,计算机设备可以基于第i个视频帧中确定的第一对象区域,在目标视频中的第i+1个视频帧中获取候选区域图像,该第一对象区域可以用于表征第i个视频帧中的目标对象所处的区域位置;进而可以将第一对象区域在第i+1个视频帧中所覆盖的像素点,确定为第i+1个视频帧中的候选区域图像,i为正整数,如i可以取值为1,2,……。其中,在目标视频中,第i个视频帧为第i+1个视频帧的前一个视频帧,参考视频帧在目标视频中的时间顺序早于或等于第i个视频帧在目标视频中的时间顺序,当i取值为1时,第i个视频帧可以为目标视频中的参考视频帧,第i个视频帧中的第一对象区域可以为参考视频帧中的参考区域。在确定了目标视频中的参考视频帧后,可以将前一个视频帧中的第一对象区域在后一个视频帧中所覆盖的像素点,确定为后一个视频帧中的候选区域图像,通过目标定位模型中的特征提取组件可以获取候选区域图像对应的对象候选特征,该对象候选特征的提取过程与上述对象参考特征的提取过程相同,即参考区域图像与候选区域图像共享同一个特征提取组件。
步骤S103,将对象候选特征和对象参考特征融合为对象组合特征,根据对象组合特征确定候选区域图像对应的对象评估值,根据对象组合特征,获取第一对象区域在第i+1个视频帧中的对角偏移量。
具体的,可以对第i+1个视频帧对应的对象候选特征和对象参考特征进行特征融合,得到对象组合特征,该对象组合特征可以同时进入两个分支,该两个分支可以为回归组件和分类组件。通过该分类组件可以输出对象组合特征属于目标对象的对象评估值,通过回归组件可以输出目标对象在第i+1个视频帧中的对角偏移量,该对角偏移量可以包括目标对象所在的对象区域(例如,第一对象区域)中的任意一条对角线上的顶点在第i+1个视频帧中的位置偏移,如目标对象在目标视频的第i个视频帧中所处的第一对象区域可以为矩形或正方形,该第一对象区域可以包括四个顶点,上述回归组件所输出的对角偏移量可以为四个顶点中的对角顶点对应的位置偏移量。
其中,对象组合特征可以是对上述对象参考特征和对象候选特征进行拼接(concat)之后所得到的特征,对象组合特征对应的通道数为对象参考特征的通道数与对象候选特征的通道数之和。可选地,还可以通过depthwise correlation(一种特征融合方式)融合对象参考特征和对象候选特征,如可以将对象候选特征输入至目标定位模型中的对象预测组件(例如,图2所对应实施例中的主干网络20i)中的第一卷积层,通过第一卷积层可以输出第一卷积特征,对象候选特征在经过第一卷积层后可以保持通道数不变,即第一卷积特征的通道数与对象候选特征的通道数保持一致;与此同时,可以将对象参考特征输入至对象预测组件中的第二卷积层,通过第二卷积层可以输出第二卷积特征,对象参考特征在经过第二卷积层后可以改变通道数,即第二卷积特征的通道数与对象参考特征的通道数不相同;进而可以将第一卷积特征和第二卷积特征进行卷积运算,得到对象组合特征。
步骤S104,基于对象评估值、第一对象区域以及对角偏移量,在第i+1个视频帧中确定用于表征目标对象的位置的第二对象区域。
具体的,通过对象评估值可以判断第i+1个视频帧的候选区域图像中是否包含目标对象,如当对象评估值大于评估阈值(该评估阈值可以根据实际需求进行设置,如该评估阈值可以取值为0.5)时,可以确定第i+1个视频帧的候选区域图像中包含目标对象,进而可以基于第一对象区域对应的顶点坐标信息和对角偏移量,确定目标对象在第i+1个视频帧中的区域位置信息,通过该区域位置信息可以在第i+1个视频帧中标记出目标对象所处的第二对象区域。当对象评估值小于或等于评估阈值时,可以确定第i+1个视频帧的候选区域图像中不包含目标对象,如目标对象在第i+1个视频帧中被遮挡时,由分类组件输出的对象评估值小于或等于评估阈值,表示目标对象暂时定位失败,需要对下一个视频帧(如第i+2视频帧)进行物体检测,重新确定目标视频中的参考视频帧。
请参见图4,图4是本申请实施例提供的一种特征融合过程的示意图。如图4所示,计算机设备在获取到参考视频帧中的参考区域对应的对象参考特征30a,以及视频帧30p(即上述目标视频中的第i+1个视频帧)中的候选区域图像对应的对象候选特征30b之后,可以将对象参考特征30a和对象候选特征30b一同输入目标定位模型中的对象预测组件30c,该对象预测组件30c可以包括分类组件30d和回归组件30e,该分类组件30d可以包括卷积层1和卷积层2,该回归组件30e可以包括卷积层3和卷积层4。通过分类组件30d中的卷积层1,可以对上述对象参考特征30a进行卷积运算,得到卷积特征30f;通过分类组件30d中的卷积层2,可以对上述对象候选特征30b进行卷积运算,得到卷积特征30g,对卷积特征30f和卷积特征30g进行卷积操作,可以得到组合特征30h,通过该组合特征30h所得到的对象评估值大于评估阈值时,可以确定视频帧30p中包含目标对象。与此同时,通过回归组件30e中的卷积层3,可以对上述对象参考特征30a进行卷积运算,得到卷积特征30i;通过回归组件30e中的卷积层4,可以对上述对象候选特征30b进行卷积运算,得到卷积特征30j,对卷积特征30i和卷积特征30j进行卷积操作,可以得到组合特征30k,通过该组合特征30k可以得到第一对象区域在视频帧30p中的对角偏移量(dx1,dy1;dx2,dy2)。
其中,上述卷积层1和卷积层3可以为具有相同网络参数的卷积层,也可以为具有不同网络参数的卷积层,卷积层1和卷积层3可以称为第二卷积层,卷积特征30f的通道数与对象参考特征30a的通道数不相同,卷积特征30i的通道数与对象参考特征30a的通道数也不相同,卷积特征30f和卷积特征30i可以称为第二卷积特征。上述卷积层2和卷积层4可以为具有相同网络参数的卷积层,也可以为具有不同网络参数的卷积层,卷积层2和卷积层4可以称为第一卷积层,卷积特征30g的通道数与对象候选特征30b的通道数保持一致,卷积特征30j的通道数与对象候选特征30b的通道数保持一致,卷积特征30g和卷积特征30j可以称之为第一卷积特征。上述组合特征30h和组合特征30k可以称为对象组合特征。
进一步地,通过对象评估值确定视频帧30p中包含目标对象后,可以根据视频帧30m(即目标视频中的第i个视频帧)中的第一对象区域30n的顶点坐标信息,如顶点A、顶点B、顶点C以及顶点D的坐标顶点信息,而回归组件30e所输出的对角偏移量可以包括第一对象区域30n的顶点A在视频帧30p中的位置偏移,以及第一对象区域30n的顶点C在视频帧30p中的位置偏移。如图4所示,第一对象区域30n为矩形,假设第一对象区域30n的顶点A的坐标信息为(x1,y1),顶点B的坐标信息为(x2,y1),顶点C的坐标信息为(x2,y2),顶点D的坐标信息为(x1,y2),通过对角偏移量(dx1,dy1;dx2,dy2),可以确定视频帧30p中的区域位置信息包括:顶点A'的坐标信息为(x1+dx1,y1+dy1),顶点B'的坐标信息为(x2+dx2,y1+dy1),顶点C'的坐标信息为(x2+dx2,y2+dy2),顶点D'的坐标信息为(x1+dx1,y2+dy2);根据顶点A',顶点B',顶点C'以及顶点D',可以在视频帧30p中标记出目标对象所处的第二对象区域30q。
本申请实施例中,可以将目标视频的参考视频帧中检测到对象确定为目标对象,并确定该目标对象在参考视频帧中的参考区域;对于目标视频中的后续视频帧(目标视频中时间顺序晚于参考视频帧的其余视频帧),在获取到前一个视频帧中的目标对象所属的第一对象区域后,只需获取后一个视频帧针对目标对象的对象评估值,以及第一对象区域在后一个视频帧中的对角偏移量,即只需计算第一对象区域的一条对角线上的顶点的位置偏移,就可以获取目标对象在后一个视频帧中的第二对象区域,不仅可以提升目标对象的定位准确性,还可以提高目标对象的定位速度,进而可以提高目标对象的定位效率。
请参见图5,图5是本申请实施例提供的另一种视频数据处理方法的流程示意图。可以理解地,视频数据处理方法可以由计算机设备执行,该计算机设备可以为服务器(例如,图1所对应实施例中的服务器10d)、或者为用户终端(例如,图1所示用户终端集群中的任一个用户终端)、或者为计算机程序(包括程序代码);如图5所示,该视频数据处理方法可以包括以下步骤S201-步骤S210:
步骤S201,获取目标视频,对目标视频进行分帧处理,得到目标视频帧序列,获取目标视频帧序列中的第一个视频帧。
具体的,计算机设备可以获取包含目标对象的目标视频,通过对该目标对象进行分帧处理,可以得到N个视频帧,按照时间顺序对N(N为正整数)个视频帧进行排序,得到目标视频帧序列,进而可以从目标视频帧序列中获取第一个视频帧。
步骤S202,在第一个视频帧中获取M个初始区域,获取M个初始区域分别对应的区域描述特征,对区域描述特征进行分类识别,得到M个初始区域分别对应的分类结果;M为正整数。
具体的,计算机设备可以对第一个视频帧进行物体检测,如对第一个视频帧中的目标对象进行定位,并识别该目标对象的类别,得到目标对象在第一个视频帧中的位置区域,以及该目标对象对应的分类结果。其中,物体检测方法可以用于检测目标视频的视频帧中的目标对象,只有在目标视频中的前一个视频帧中未定位到目标对象时,才会采用物体检测方法对当前视频帧进行物体检测;例如,当目标视频的第五个视频帧中未定位到目标对象(例如,第五个视频帧中的目标对象被遮挡)时,可以采用物体检测方法对目标视频中的第六个视频帧进行物体检测,或者可以采用物体检测方法对目标视频中的第一个视频帧进行物体检测。该物体检测方法可以包括但不限于:R-CNN(Regions with ConvolutionalNeural Network features,基于卷积神经网络特征的区域建议算法)、Fast R-CNN、FasterR-CNN(一种基于区域建议的算法,采用RPN(Region proposal Network)生成建议框)、YOLO(基于目标回归的检测算法)、SSD(Single Shot MultiBox Detector,多分类单杆检测器),本申请对物体检测算法的类型不做限定。
下面以基于区域建议的算法(如R-CNN算法)为例,对目标视频中的第一个视频帧的物体检测过程进行描述。计算机设备可以通过选择性搜索(Selective Search)从第一个视频帧中获取M个初始区域(也可以称为M个区域建议框),M为正整数,如M可以取值为1,2,……;M个初始区域之间的区域大小可以相同,也可以不同,且不同的初始区域之间可以存在重叠,也可以互不相交。对于M个初始区域中的每个初始区域,都可以使用卷积神经网络(CNN)提取特征,以获取每个初始区域分别对应的区域描述特征;进而可以将区域描述特征输入至第一分类器(例如,支持向量机),通过该第一分类器对区域描述特征进行分类识别,得到每个初始区域分别对应的分类结果。
步骤S203,当M个初始区域分别对应的分类结果中存在与目标对象相关联的分类结果时,将第一个视频帧确定为目标视频中的参考视频帧,将目标对象在参考视频帧中的位置区域确定为参考区域。
具体的,当M个初始区域分别对应的分类结果中存在于目标对象相关联的分类结果时,表示第一个视频帧中包含目标对象,如M个初始区域中的第j个初始区域对应的分类结果指示第j个初始区域中的对象类别为目标对象时,可以确定第一个视频帧中包含目标对象,并将第一个视频帧确定为目标视频帧中的参考视频帧,j为小于或等于M的正整数;计算机设备还可以根据分类结果与目标对象相关联的初始区域,在参考视频帧中确定目标对象所处的位置区域,并将该位置区域确定为参考视频帧中的参考区域。
其中,参考视频帧中的参考区域的确定过程可以包括:计算机设备可以在M个初始区域中,将与目标对象相关联的分类结果所对应的初始区域确定为待处理区域集合,该待处理区域集合中的初始区域对应的分类结果均指向目标对象。根据待处理区域集合中的初始区域之间的交并比(Intersection-over-Union,IoU),对待处理区域集合中的初始区域进行合并,得到待调整区域。
需要说明的是,假设上述第一分类器可以用于识别K个物体类别,该K个物体类别包括目标对象,K为正整数,那么对于待处理区域集合中的每个初始区域,初始区域对应的分类结果可以包括该初始区域分别属于K个物体类别的概率值,即K个概率值,且该初始区域属于目标对象的概率值为K个概率值中的最大概率值,为方便描述,下面将初始区域属于目标对象的概率值称为目标概率值。计算机设备可以在待处理区域集合中,将最大的目标概率值所对应的初始区域称为标记区域,获取标记区域分别与待处理区域集合中的剩余初始区域之间的交并比,并删除交并比超过重叠阈值(该重叠阈值可以根据实际需求进行设置,如重叠阈值可以取值为0.4)的初始区域,此时的标记区域被保留下来;进而可以对待处理区域集合中除标记区域和已删除的初始区域之外的剩余初始区域执行上述相同的操作,可以找到待处理区域集合中被保留下来的标记区域,进而可以通过保留下来的标记区域进行合并处理,得到待调整区域;进而可以对待调整区域进行边框回归(bounding-boxregression)处理,在参考视频帧中得到包含目标对象的参考区域。
步骤S204,将参考区域在参考视频帧中所覆盖的像素点,确定为参考区域图像,获取参考区域图像对应的对象参考特征。
具体的,计算机设备可以从参考视频帧中获取参考区域所覆盖的像素点,并将获取到的像素点组成参考区域图像,即从参考视频帧中剪裁出参考区域所覆盖的参考区域图像;进而可以通过目标定位模型中的特征提取组件,对参考区域图像进行特征提取,以获取参考区域图像对应的对象参考特征。
步骤S205,获取目标对象在目标视频的第i个视频帧中的第一对象区域,根据第一对象区域对应的顶点坐标信息,在目标视频的第i+1个视频帧中确定第一候选区域。
具体的,计算机设备可以获取目标视频的第i个视频帧中的目标对象所处的第一对象区域,根据第一对象区域对应的顶点坐标信息,在目标视频的第i+1个视频帧中确定第一候选区域。其中,由于第i个视频帧和第i+1个视频帧均属于目标视频,因此第i个视频帧和第i+1个视频帧具有相同的尺寸,可以将第i个视频帧中的第一对象区域,转移到第i+1个视频帧中,并将转移至第i+1个视频帧中的第一对象区域确定为第一候选区域,其中i为小于或等于N的正整数。
步骤S206,基于第一候选区域,在第i+1个视频帧中进行区域采样,得到一个或多个采样区域,通过滤波器输出一个或多个采样区域分别对应的响应值;将最大的响应值所对应的采样区域确定为第二候选区域,将第二候选区域在第i+1个视频帧中所覆盖的像素点,确定为候选区域图像。
具体的,基于第i+1个视频帧中的第一候选区域,可以在第i+1个视频帧中进行区域采样,得到一个或多个采样区域,此处的一个或多个采样区域都可以是第i+1个视频帧中,与第一候选区域相邻近的区域;采用相关滤波算法(Kernel Correlation Filter,KCN)可以输出一个或多个采样区域分别对应的响应值;响应值越大,表示该采样区域为第i+1个视频帧中的目标对象所处的位置区域的可能性越大,因此可以将最大的响应值所对应的采样区域确定为第二候选区域,进而可以将第二候选区域在第i+1个视频帧中所覆盖的像素点,确定为候选区域图像。
需要说明的是,由于第i个视频帧中的目标对象所处的第一对象区域,对于第i+1个视频帧中的目标对象所处的位置区域而言是滞后的,为了更准确地定位第i+1个视频帧中的目标对象所处的位置区域,可以基于相关滤波算法对第一对象区域进行扩大,在第i+1个视频帧中确定第二候选区域。基于第二候选区域对第i+1个视频帧进行剪裁,得到第二候选区域所对应的候选区域图像。
步骤S207,将候选区域图像输入至目标定位模型中的特征提取组件,通过目标定位模型中的特征提取组件输出候选区域图像对应的对象候选特征。
具体的,计算机设备可以通过目标定位模型中的特征提取组件,对候选区域图像进行特征提取,以获取候选区域图像对应的对象候选特征,此处的特征提取组件与前述参考区域图像所使用的特征提取组件相同。当特征提取组件为特征提取模型(例如,轻量级网络MobileNet、卷积神经网络等)时,可以将候选区域图像输入至目标定位模型中的特征提取组件,通过该特征提取组件中的网络层(例如,卷积层),可以输出候选区域图像对应的对象候选特征。
步骤S208,将对象候选特征和对象参考特征融合为对象组合特征,对对象组合特征进行分类识别,得到候选区域图像针对目标对象的对象评估值。
具体的,计算机设备可以将对象候选特征和对象参考特征一同输入至目标定位模型,在该目标定位模型所包含的对象预测组件中,对上述对象候选特征和对象参考特征进行特征融合,得到对象组合特征;其中,上述特征融合过程可以参见上述图3所实施例中的步骤S103,此处不再进行赘述。上述对象预测组件可以包括分类组件和回归组件,该分类组件可以用于输出第i+1个视频帧包含目标对象的评估值,回归组件可以用于输出第一对象区域在第i+1个视频帧中的对角偏移量。换言之,可以在对象预测组件的分类组件中,识别对象组合特征对应的对象类别,得到候选区域图像对应的对象评估值;该分类组件可以认为是一个二分类任务(第i+1个视频帧中包含目标对象、第i+1个视频帧中不包含目标对象)。
步骤S209,根据对象组合特征,对第i+1个视频帧中由第一对象区域所确定的候选区域进行回归处理,得到第一对象区域在第i+1个视频帧中的对角偏移量;对角偏移量包括第一偏移量和第二偏移量。
具体的,若基于第一对象区域在第i+1个视频帧中所确定的候选区域为第一候选区域,则可以在目标定位模型的回归组件中,基于对象组合特征对第一候选区域进行回归处理,得到第一对象区域在第i+1个视频帧中的对角偏移量。可选地,若基于第一对象区域在第i+1个视频帧中所确定的候选区域为第二候选区域,则可以在目标定位模型的回归组件中,基于对象组合特征对第二候选区域进行回归处理,得到第一对象区域在第i+1个视频帧中的对角偏移量。其中,上述对角偏移量可以第一偏移量和第二偏移量,第一偏移量和第二偏移量用于表征第一对象区域的同一条对角线上的顶点在第i+1个视频帧中的位置偏移。
如图4所示,假设视频帧30m为目标视频中的第i个视频帧,对角偏移量中的第一偏移量可以为第一对象区域30n的顶点A在第i+1个视频帧中的位置偏移,对角偏移量中的第二偏移量可以为第一对象区域30n的顶点C在第i+1个视频帧中的位置偏移,顶点A和顶点C为第一对象区域30n的同一条对角线上的顶点。可选地,对角偏移量中的第一偏移量可以为第一对象区域30n的顶点B在第i+1个视频帧中的位置偏移,对角偏移量中的第二偏移量可以为第一对象区域30n的顶点D在第i+1个视频帧中的位置偏移,顶点B和顶点D同样为第一对象区域30n的同一条对角线上的顶点。
步骤S210,若对象评估值大于评估阈值,则确定候选区域图像中包含目标对象;根据第一对象区域对应的顶点坐标信息、第一偏移量以及第二偏移量,得到目标对象在第i+1个视频帧中的区域位置信息,基于区域位置信息,在第i+1个视频帧中确定第二对象区域。
具体的,第一偏移量可以包括第一横坐标偏移量dx1和第一纵坐标偏移量dy1,第二偏移量可以包括第二横坐标偏移量dx2和第二纵坐标偏移量dy2。若分类组件输出的对象评估值大于评估阈值,则可以在第一对象区域对应的顶点坐标信息(假设每个顶点坐标信息包括横坐标信息和纵坐标信息)的基础上,第一对象区域中横坐标信息相同的顶点可以增加相同的横坐标偏移量以及不同的纵坐标偏移量,第一对象区域中纵坐标信息相同的顶点可以增加相同的纵坐标偏移量以及不同的横坐标偏移量,进而得到第i+1个视频帧中的目标对象对应的区域位置信息;通过区域位置信息可以在第i+1个视频帧中确定第二对象区域,该第二对象区域用于表征第i+1个视频帧中的目标对象所处的位置区域。
可选地,对于目标视频中除参考视频帧之外的视频帧,在基于参考视频帧中的参考区域对视频帧中的目标对象进行定位之前,可以对该目标视频中的目标对象进行初步筛选,当目标视频中的目标对象在某个时间范围内处于静止状态时,可以获取该时间范围内的任意一个视频帧,仅对该视频帧中的目标对象进行视觉定位,而无需该时间范围内的每个视频帧中的目标对象都进行视觉定位。例如,目标视频中的目标对象在a1时刻至a2时刻都处于静止状态时,可以认为目标视频中的目标对象在a1时刻至a2时刻之间未发生位置移动;若在目标视频的a1时刻至a2时刻一共包含5个视频帧,则可以从这5个视频帧中任意选择一个进行视觉定位,而无需对5个视频帧都进行视觉定位,这样可以减少数据处理量,进而提高目标视频中的对象定位效率。
可选地,若对象评估值小于或等于评估阈值,则确定候选区域图像中不包含目标对象,也就是说,目标定位模型的回归组件所输出的对角偏移量为无效值,进而可以获取目标视频中的第i+2个视频帧;第i+2个视频帧在目标视频中的时间顺序晚于第i+1个视频帧在目标视频中的时间顺序,即第i+2个视频帧为第i+1个视频帧的后一个视频帧。若检测到第i+2个视频帧中包含目标对象,则将目标视频中的参考视频帧更新为第i+2个视频帧,将参考视频帧中的参考区域更新为目标对象在第i+2个视频帧中的位置区域,进而可以基于第i+2个视频帧中的目标对象所处的位置区域,定位第i+2个视频帧之后的视频帧中的目标对象所处的对象区域。
请参见图6,图6是本申请实施例提供的一种目标视频中的目标对象的视觉定位示意图。如图6所示,计算机设备可以获取目标视频40a,对目标视频40a进行分帧处理,可以得到N个视频帧,此处的N个视频帧可以构成目标视频帧序列。从N个视频帧中获取第一个视频帧,将其记为视频帧T1,并采用检测方法40c对视频帧T1进行物体检测,若在视频帧T1中定位到目标对象所处的位置区域40b,且该目标对象对应的分类结果为人物W,则可以将视频帧T1确定为目标视频40a中的参考视频帧,将视频帧T1中的位置区域40b确定为参考区域,进而可以获取视频帧T1中的位置区域40b所对应的对象参考特征。
在确定了目标视频40a中的参考视频帧后,可以基于视频帧T1中的位置区域40b,在视频帧T1的后续视频帧中定位人物W所处的位置区域,如对于N个视频帧中的任意一个视频帧(如第i+1个视频帧,记为视频帧Ti+1,i为小于或等于N的正整数),可以对N个视频帧进行帧间控制,若视频帧Ti+1的前一个视频帧(记为视频帧Ti)中包含人物W(即目标对象),即在视频帧Ti中定位到人物W,则可以基于视频帧Ti中定位到的第一对象区域40f,获取第一对象区域40f在视频帧Ti+1中所覆盖的像素点,并将第一对象区域40f所覆盖的像素点确定为候选区域图像,进而可以获取候选区域图像对应的对象候选特征。将视频帧T1中的位置区域40b对应的对象参考特征,以及视频帧Ti+1中的候选区域图像对应的对象候选特征一同输入至目标定位模型40d,通过该目标定位模型40d可以定位到视频帧Ti+1中的人物W所处的位置区域40e(即上述第二对象区域)。
可选地,若视频帧Ti+1的前一个视频帧(记为视频帧Ti)中不包含人物W,即在视频帧Ti中未定位到人物W,则可以采用检测方法40c对视频帧Ti+1进行物体检测,若在视频帧Ti+1中定位到目标对象所处的位置区域40e,且标对象对应的分类结果为人物W,则可以将目标视频40a中的参考视频帧由视频帧T1更新为视频帧Ti+1,将参考视频帧中的参考区域由位置区域40b更新为视频帧Ti+1中的位置区域40e。根据视频帧Ti+1中检测到的位置区域40e可以重置目标定位模型40d,此处目标定位模型40d的重置过程可以是指更改输入至目标定位模型40d的对象参考特征。
进一步地,在视频帧Ti+1中定位到位置区域40e之后,可以将视频帧Ti+1应用在下游业务场景中,如采用下游业务算法对视频帧Ti+1中的位置区域40e进行处理分析。其中,下游业务算法可以包括但不限于:手势识别、动作识别、人体关键点检测、车辆行驶路径分析、人脸关键点检测、表情识别等各种算法。当然,也可以将上述下游业务算法所输出的结果重置目标定位模型40d。
可选地,在定位到目标视频的各个视频帧中的目标对象所处的对象区域之后,可以将其应用在多种业务场景中,如选择合适的下游业务算法对视频帧中定位得到的对象区域进行处理分析;当目标对象包括手部时,标记了目标对象所处的对象区域的视频帧可以应用在手势识别等场景中;当目标对象包括行人时,标记了目标对象所处的对象区域的视频帧可以应用在动作识别、人体关键点检测等场景中;当目标对象包括车辆时,标记了目标对象所处的对象区域的视频帧可以应用在车辆行驶路径分析等场景中;当目标对象包括脸部时,标记了目标对象所处的对象区域的视频帧可以应用在人脸关键点检测、表情识别等场景中。例如,当目标对象包括脸部时,可以将标记了目标对象所处的对象区域的视频帧应用在表情识别场景中,如计算机设备可以根据第二对象区域,对第i+1个视频帧进行剪裁,得到待识别脸部图像,获取待识别脸部图像对应的脸部表情特征;进而可以将脸部表情特征输入至分类器(此处的分类器也可以称为第二分类器,该第二分类器可以用于输出表情识别结果),通过分类器输出脸部表情特征与至少两个表情属性特征之间的匹配度,将最大的匹配度对应的表情属性特征所属的表情类别,确定为待识别脸部图像的表情识别结果。
请参见图7,图7是本申请实施例提供的一种动作识别场景示意图。如图7所示,标记了对象区域的视频帧可以应用在动作识别场景中,计算机设备可以获取目标视频50a,该目标视频50a可以是指通过采集设备所采集到的人体动作,或者是指从互联网上直接下载的行为视频,其中采集设备可以是指不同类型的摄像机或相机等,目标视频50a中所包含的目标对象可以为人体。
计算机设备可以对目标视频50a进行分帧处理,得到多帧图片数据,如视频帧50b、视频帧50d以及视频帧50f等。假设视频帧50b为目标视频50a中的参考视频帧,视频帧50b中的区域50c是通过检测方法所确定的目标对象所处的位置区域,那么可以基于视频帧50b中的区域50c,对目标视频50a中的后续视频帧(例如,视频帧50d和视频帧50f)中的目标对象进行视觉定位,后续视频帧中的目标对象的视觉定位过程可以参见图5所对应实施例中的描述,此处不再进行赘述。如图7所示,基于视频帧50b中的区域50c,可以确定视频帧50d中的目标对象所处的位置区域为:区域50e;基于视频帧50b中的区域50c,可以确定视频帧50f中的目标对象所处的位置区域为:区域50g。
进一步地,计算机设备可以获取图像识别模型50h,该图像识别模型50h可以是指预先训练完成的动作识别模型,图像识别模型50h可以用于预测目标视频50a的各个视频帧中的目标对象的关键点检测结果。该图像识别模型50h可以为卷积神经网络模型,本申请对图像识别模型50h的类型不做限定。可以依次从视频帧50b中剪裁得到区域50c对应的第一区域图像(如上述参考区域图像),从视频帧50d中剪裁得到区域50e对应的第二区域图像,从视频帧50f中剪裁得到区域50g对应的第三区域图像;进而可以将上述第一区域图像、第二区域图像以及第三区域图像依次输入至图像识别模型50h,通过该图像识别模型50h可以获取第一区域图像对应的姿态特征1、第二区域图像对应的姿态特征2、第三区域图像对应的姿态特征3。上述姿态特征1、姿态特征2、以及姿态特征3都可以依次输入至图像识别模型50h关联的分类器50i,通过该分类器50i可以输出姿态特征1对应的关键点识别结果1、姿态特征2对应的关键点识别结果2,以及姿态特征3对应的关键点识别结果3。
通过关键点识别结果1可以确定第一区域图像中的目标对象的动作预测结果1;同理,通过关键点识别结果2可以确定第二区域图像中的目标对象的动作预测结果2,通过关键点识别结果3可以确定第二区域图像中的目标对象的动作预测结果3。计算机设备可以根据动作预测结果1、动作预测结果2以及动作预测结果3可以确定目标视频50a对应的动作识别结果为:跑步。
本申请实施例中,在对目标视频中的目标对象进行视觉定位的过程中,可以简化视觉定位过程中所涉及的特征提取组件(如候选区域图像对应的特征提取组价),并在定位目标对象在各个视频帧中的位置区域时,只需获取前一个视频帧中的目标对象所处的第一对象区域在后一个视频帧中的对角偏移量,而不是对整个第一对象区域进行边框回归,这样使得本申请中的视觉定位方案既可以应用在高端机器上,也可以应用在低端机器上,可以提高目标定位模型的适用范围;且在低端机器中的耗时可以压缩在很短的时间内(例如,1ms),在确保目标对象的视觉定位的准确性的基础上,可以减少目标视频中的目标对象的视觉定位耗时,进而可以加快目标对象的视觉定位速度。
可以理解的是,在使用前述目标定位模型对目标视频中的目标对象进行视觉定位之前,需要对模型进行训练,在训练过程中可以将该模型称为初始定位模型,训练完成后,可以将该模型称为目标定位模型。其中,目标定位模型可以包括特征提取组件和对象预测组件,该对象预测组件可以包括回归组件和分类组件,训练模型其实质上是训练特征提取组件和对象预测组件中的网络参数。下面结合附图8和图9,对模型训练过程进行详细描述。
请参见图8,图8是本申请实施例提供的一种模型训练方法的流程示意图。可以理解地,模型训练方法可以由计算机设备执行,该计算机设备可以为服务器(例如,图1所对应实施例中的服务器10d)、或者为用户终端(例如,图1所示用户终端集群中的任一个用户终端)、或者为计算机程序(包括程序代码);如图8所示,该模型训练方法可以包括以下步骤S301-步骤S304:
步骤S301,获取包含样本对象的样本视频,在样本视频中获取样本参考帧和样本视频帧集合;样本参考帧在样本视频中的时间顺序早于样本视频帧集合中的每个样本视频帧分别在样本视频中的时间顺序。
具体的,计算机设备可以获取包含样本对象的样本视频,从该样本视频的前几个视频帧中确定样本参考帧,如样本参考帧可以为样本视频中的第一个视频帧,将样本视频中时间顺序位于样本参考帧之后的其余视频帧,均添加在样本视频帧集合中。换言之,对于一个样本视频,样本参考帧在样本视频中的时间顺序越靠前,样本视频帧集合中所包含的样本视频帧数据就越多。其中,样本视频中的每个视频帧都可以携带标签信息,如样本参考帧所携带的标签信息包括样本对象在该样本参考帧中的对象位置标签和对象类别标签,样本视频帧集合中的每个样本视频帧所携带的标签信息包括样本对象分别在各个样本视频帧中的对象位置标签和对象类别标签。
可选地,可以在样本参考帧的基础上做一个微小的扰动,可以用于模拟检测方法对于物体检测不是很准确的情况。在模型训练阶段,可以从样本视频帧集合中随机选择一个样本视频帧作为样本数据进行训练,即通过一个携带标签信息的样本视频可以快速构建多个用于训练模型的样本数据,以增加样本数据的数量,并提高模型的鲁棒性。
步骤S302,根据样本参考帧所携带的标签信息,确定样本参考帧中的样本对象所属的样本参考区域,通过初始定位模型中的特征提取组件,获取样本参考区域在样本参考帧中的样本参考特征,以及样本参考区域在每个样本视频帧中的样本候选特征。
具体的,计算机设备可以根据样本参考帧所携带的标签信息中的对象位置标签,确定样本参考帧中的样本对象所属的样本参考区域,如通过样本参考帧所携带的对象位置标签,可以在样本参考帧中标记出样本参考对象,该样本参考区域用于表征样本参考帧中的样本对象的位置。将样本参考区域在样本参考帧中所覆盖的像素点确定为样本参考区域图像,将样本参考区域分别在每个样本视频帧中所覆盖的像素点确定为样本候选区域图像。
将样本参考区域图像输入至初始定位模型中的特征提取组件,通过初始定位模型中的特征提取组件,可以获取样本参考区域图像对应的样本参考特征,即通过初始定位模型中的特征提取组件,可以提取样本参考区域在样本参考帧中的样本参考特征;同理,可以将样本候选区域图像输入至初始定位模型中的特征提取组件,通过初始定位模型中的特征提取组件,可以获取样本候选区域图像对应的样本候选特征,即通过初始定位模型中的特征提取组件,可以提取样本参考区域分别在每个样本视频帧中的样本候选特征。
步骤S303,将样本候选特征和样本参考特征融合为样本组合特征,通过初始定位模型中的对象预测组件,输出每个样本视频帧分别对应的预测结果。
具体的,计算机设备可以将样本候选特征和样本参考特征一同输入至初始定位模型中的对象预测组件,在该对象预测组件中对样本候选特征和样本参考特征进行特征融合,得到样本组合特征,基于上述对象预测组件,可以输出每个样本视频帧分别对应的预测结果。其中样本候选特征和样本参考特征之间的特征融合过程,可以参见图3所对应实施例的步骤S103中所描述的对象组合特征的生成过程,此处不再进行赘述。
可选地,初始定位模型中的对象预测组件可以包括分类组件和回归组件,上述预测结果可以包括分类组件输出的样本评估值和回归组件输出的预测偏移量,预测偏移量用于表征样本参考区域的同一条对角线上的顶点在每个样本视频帧中的位置偏移。
步骤S304,根据样本参考帧所携带的标签信息、每个样本视频帧分别携带的标签信息,以及预测结果,对初始定位模型的网络参数进行修正,将包含修正后的网络参数的初始定位模型确定为目标定位模型;目标定位模型用于确定目标对象在目标视频所包含的视频帧中的位置。
具体的,根据样本视频中的各个视频帧所携带的标签信息和初始定位模型所输出的预测结果,可以对初始定位模型的网络参数进行修正,当初始定位模型的训练达到收敛,或训练迭代次数满足预先设定的最大迭代次数时,可以保存初始定位模型中的当前网络参数,表示该初始定位模型训练完成,此时具有当前网络参数的初始定位模型可以确定为目标定位模型,该目标定位模型用于确定目标对象在目标视频所包含的视频帧中的位置。
在训练初始定位模型的过程中,计算机设备可以根据样本参考帧所携带的标签信息中的对象位置标签,以及每个样本视频帧分别携带的标签信息中的对象位置标签,确定样本参考区域在每个样本视频帧中的目标偏移量,即基于标签信息直接计算得到的期望值。基于目标偏移量与预测偏移量之间的差值,确定回归组件对应的回归损失结果,回归损失结果越小,表示初始定位模型所输出的预测偏移量越接近目标偏移量,初始定位模型的视觉定位效果就越好。基于样本评估值与每个样本视频帧分别携带的标签信息中的对象类别标签,确定分类组件对应的分类损失结果,分类损失结果越小,表示初始定位模型所输出的对象评估值越准确,初始定位模型中的分类组件的分类效果就越好;根据回归损失结果和分类损失结果,对初始定位模型的网络参数进行不断迭代更新,将完成训练后的初始定位模型确定为目标定位模型,如对回归损失结果和分类损失结果进行最小化优化,不断调整初始定位模型中的网络参数。其中,回归损失结果可以是指采用L1范数损失回归得到的对角偏移量。
请参见图9,图9是本申请实施例提供的一种初始定位模型的训练示意图。如图9所示,样本视频帧60a可以为用于训练初始定位模型60c的样本数据,区域60b是通过样本参考帧所携带的对象位置标签确定的样本参考区域。在初始定位模型60c的训练阶段,可以将区域60c在样本视频帧60a中所覆盖的像素点确定为图像60d(样本候选区域图像),进而可以将图像60d输入至初始定位模型60c;通过初始定位模型60c中的特征提取组件和对象预测组件,可以输出区域60a在样本视频帧60a中的预测偏移量,通过该预测偏移量以及样本参考区域对应的坐标信息(样本参考帧所携带的对象位置标签),可以在图像60d中确定区域60e;其中,上述预测偏移量可以包括区域60e中的顶点A对应的预测偏移量,以及区域60e中的顶点B对应的预测偏移量。
其中,基于样本视频帧60a所携带的对象位置标签,可以确定样本视频帧60a中的样本对象(手)在图像60d中的位置如区域60f所示,基于样本参考帧所携带的对象位置标签以及样本视频帧60a所携带的对象位置标签,可以计算得到区域60f中的顶点E对应的目标偏移量,以及区域60f中的顶点F对应的目标偏移量,通过计算区域60f中的顶点E所对应的目标偏移量与区域60e中的顶点A对应的预测偏移量之间的差值,以及区域60f中的顶点F所对应的目标偏移量与区域60e中的顶点B对应的预测偏移量之间的差值,构建回归损失结果。当然,通过初始定位模型60c输出的样本评估值以及样本视频帧60a所携带的对象类别标签,可以构建分类损失结果(本申请不对分类损失的类型进行限定),通过同时最小化回归损失结果和分类损失结果,可以对初始定位模型60c中的网络参数进行不断调整,直至训练完成。
本申请实施例中,在初始定位模型的训练阶段,可以直接回归对角线上的顶点的偏移量,且在回归对角线上的顶点的偏移量时采用L1范数损失作为回归损失结果,使用L1范数损失可以加快初始定位模型的收敛性,并提高目标定位模型的稳定性。由于仅需回归对角线上的顶点的偏移量,可以简化初始定位模型的训练复杂度,减少计算量,进而加快初定位模型的训练速度。
可选地,在初始定位模型的训练阶段,可以采用无监督方法进行模型训练,可以获取大量未携带标签信息的图片数据作为训练初始定位模型的样本数据,样本数据的多样性可以提高初始定位模型的训练效果。
可以理解的是,在本申请的具体实施方式中,可能涉及到用户的视频采集(例如,用户人脸视频采集、用户视频采集等),当本申请以上实施例运用到具体产品或技术中时,需要获得用户等对象的许可或同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
请参见图10,图10是本申请实施例提供的一种视频数据处理装置的结构示意图。如图10所示,该视频数据处理装置1包括:第一获取模块11,第二获取模块12,结果输出模块13,区域确定模块14;
第一获取模块11,用于获取参考视频帧中的参考区域对应的对象参考特征;参考视频帧属于目标视频,目标视频包括目标对象,参考区域用于表征目标对象在参考视频帧中的位置;
第二获取模块12,用于根据目标视频的第i个视频帧中的目标对象所属的第一对象区域,在目标视频的第i+1个视频帧中获取候选区域图像,获取候选区域图像对应的对象候选特征;第i个视频帧在目标视频中的时间顺序晚于或等于参考视频帧在目标视频中的时间顺序,第i个视频帧在目标视频中的时间顺序早于第i+1个视频帧在目标视频中的时间顺序,i为正整数;
结果输出模块13,用于将对象候选特征和对象参考特征融合为对象组合特征,根据对象组合特征确定候选区域图像对应的对象评估值,根据对象组合特征,获取第一对象区域在第i+1个视频帧中的对角偏移量;
区域确定模块14,用于基于对象评估值、第一对象区域以及对角偏移量,在第i+1个视频帧中确定用于表征目标对象的位置的第二对象区域。
其中,第一获取模块11,第二获取模块12,结果输出模块13,区域确定模块14的具体功能实现方式可以参见图3所对应实施例中的步骤S101-步骤S104,这里不再进行赘述。
在一个或多个实施例中,第一获取模块11包括:视频分帧处理单元111,参考区域确定单元112,参考特征提取单元113;
视频分帧处理单元111,用于获取目标视频,对目标视频进行分帧处理,得到目标视频帧序列,获取目标视频帧序列中的第一个视频帧;
参考区域确定单元112,用于若检测到第一个视频帧中包含目标对象,则将第一个视频帧确定为目标视频中的参考视频帧,将目标对象在参考视频帧中的位置区域确定为参考区域;
参考特征提取单元113,用于将参考区域在参考视频帧中所覆盖的像素点,确定为参考区域图像,获取参考区域图像对应的对象参考特征。
在一个或多个实施例中,该视频处理装置还包括:区域分类模块15,对象检测模块16;
区域分类模块15,用于在第一个视频帧中获取M个初始区域,获取M个初始区域分别对应的区域描述特征,对区域描述特征进行分类识别,得到M个初始区域分别对应的分类结果;M为正整数;
对象检测模块16,用于当M个初始区域分别对应的分类结果中存在与目标对象相关联的分类结果时,确定第一视频帧中包含目标对象。
可选地,参考区域确定单元112可以包括:区块筛选子单元1121,区域合并子单元1122,区域修正子单元1123;
区块筛选子单元1121,用于在M个初始区域中,将与目标对象相关联的分类结果所对应的初始区域确定为待处理区域集合;
区域合并子单元1122,用于根据待处理区域集合中的初始区域之间的交并比,对待处理区域集合中的初始区域进行合并,得到待调整区域;
区域修正子单元1123,用于对待调整区域进行边框回归处理,在参考视频帧中得到包含目标对象的参考区域。
其中,视频分帧处理单元111,参考区域确定单元112,参考特征提取单元113,区域分类模块15,对象检测模块16,以及该参考区域确定单元112所包含的区块筛选子单元1121,区域合并子单元1122,区域修正子单元1123的具体功能实现方式可以参见图5所对应实施例中的步骤S201-步骤S204,这里不再进行赘述。
在一个或多个实施例中,第二获取模块12包括:第一候选区域确定单元121,区域采样单元122,第二候选区域确定单元123,候选特征提取单元124;
第一候选区域确定单元121,用于获取目标对象在目标视频的第i个视频帧中的第一对象区域,根据第一对象区域对应的顶点坐标信息,在目标视频的第i+1个视频帧中确定第一候选区域;
区域采样单元122,用于基于第一候选区域,在第i+1个视频帧中进行区域采样,得到一个或多个采样区域,通过滤波器输出一个或多个采样区域分别对应的响应值;
第二候选区域确定单元123,用于将最大的响应值所对应的采样区域确定为第二候选区域,将第二候选区域在第i+1个视频帧中所覆盖的像素点,确定为候选区域图像;
候选特征提取单元124,用于将候选区域图像输入至目标定位模型中的特征提取组件,通过目标定位模型中的特征提取组件输出候选区域图像对应的对象候选特征。
其中,第一候选区域确定单元121,区域采样单元122,第二候选区域确定单元123,候选特征提取单元124的具体功能实现方式可以参见图5所对应实施例中的步骤S205-步骤S207,这里不再进行赘述。
在一个或多个实施例中,结果输出模块13包括:第一卷积运算单元131,第二卷积运算单元132,第三卷积运算单元133,特征分类单元134,回归处理单元135;
第一卷积运算单元131,用于将对象候选特征输入至第一卷积层,通过第一卷积层输出第一卷积特征;第一卷积特征的通道数与对象候选特征的通道数保持一致;
第二卷积运算单元132,用于将对象参考特征输入至第二卷积层,通过第二卷积层输出第二卷积特征;第二卷积特征的通道数与对象参考特征的通道数不相同;
第三卷积运算单元133,用于将第一卷积特征和第二卷积特征进行卷积运算,得到对象组合特征。
特征分类单元134,用于对对象组合特征进行分类识别,得到候选区域图像针对目标对象的对象评估值;
回归处理单元135,用于根据对象组合特征,对第i+1个视频帧中由第一对象区域所确定的候选区域进行回归处理,得到第一对象区域在第i+1个视频帧中的对角偏移量。
其中,第一卷积运算单元131,第二卷积运算单元132,第三卷积运算单元133,特征分类单元134,回归处理单元135的具体功能实现方式可以参见图5所对应实施例中的步骤S208和步骤S209,这里不再进行赘述。
在一种或多种实施例中,对角偏移量包括第一偏移量和第二偏移量,第一偏移量和第二偏移量用于表征第一对象区域的同一条对角线上的顶点在第i+1个视频帧中的位置偏移;
区域确定模块14包括:对象判断单元141,区域位置获取单元142;
对象判断单元141,用于若对象评估值大于评估阈值,则确定候选区域图像中包含目标对象;
区域位置获取单元142,用于根据第一对象区域对应的顶点坐标信息、第一偏移量以及第二偏移量,得到目标对象在第i+1个视频帧中的区域位置信息,基于区域位置信息,在第i+1个视频帧中确定第二对象区域。
其中,对象判断单元141,区域位置获取单元142的具体功能实现方式可以参见图5所对应实施例中的步骤S210,这里不再进行赘述。
在一个或多个实施例中,该视频数据处理装置1还包括:目标对象判断模块17,参考帧更新模块18;
目标对象判断模块17,用于若对象评估值小于或等于评估阈值,则确定候选区域图像中不包含目标对象,获取目标视频中的第i+2个视频帧;第i+2个视频帧在目标视频中的时间顺序晚于第i+1个视频帧在目标视频中的时间顺序;
参考帧更新模块18,用于若检测到第i+2个视频帧中包含目标对象,则将目标视频中的参考视频帧更新为第i+2个视频帧,将参考视频帧中的参考区域更新为目标对象在第i+2个视频帧中的位置区域。
在一个或多个实施例中,目标对象包括脸部;
该视频数据处理装置1还包括:表情特征提取模块19,表情识别模块20;
表情特征提取模块19,用于根据第二对象区域,对第i+1个视频帧进行剪裁,得到待识别脸部图像,获取待识别脸部图像对应的脸部表情特征;
表情识别模块20,用于将脸部表情特征输入至分类器,通过分类器输出脸部表情特征与至少两个表情属性特征之间的匹配度,将最大的匹配度对应的表情属性特征所属的表情类别,确定为待识别脸部图像的表情识别结果。
其中,目标对象判断模块17,参考帧更新模块18,表情特征提取模块19,表情识别模块20的具体功能实现方式可以参见图5所对应实施例中的步骤S210,这里不再进行赘述。
在一个或多个实施例中,该视频数据处理装置1还包括:样本获取模块21,样本特征提取模块22,样本特征预测模块23,模型训练模块24;
样本获取模块21,用于获取包含样本对象的样本视频,在样本视频中获取样本参考帧和样本视频帧集合;样本参考帧在样本视频中的时间顺序早于样本视频帧集合中的每个样本视频帧分别在样本视频中的时间顺序;
样本特征提取模块22,用于根据样本参考帧所携带的标签信息,确定样本参考帧中的样本对象所属的样本参考区域,通过初始定位模型中的特征提取组件,获取样本参考区域在样本参考帧中的样本参考特征,以及样本参考区域在每个样本视频帧中的样本候选特征;
样本特征预测模块23,用于将样本候选特征和样本参考特征融合为样本组合特征,通过初始定位模型中的对象预测组件,输出每个样本视频帧分别对应的预测结果;
模型训练模块24,用于根据样本参考帧所携带的标签信息、每个样本视频帧分别携带的标签信息,以及预测结果,对初始定位模型的网络参数进行修正,将包含修正后的网络参数的初始定位模型确定为目标定位模型;目标定位模型用于确定目标对象在目标视频所包含的视频帧中的位置。
可选地,对象预测组件包括分类组件和回归组件,预测结果包括分类组件输出的样本评估值和回归组件输出的预测偏移量,预测偏移量用于表征样本参考区域的同一条对角线上的顶点在每个样本视频帧中的位置偏移;
模型训练模块24包括:目标偏移量确定单元241,回归损失确定单元242,分类损失确定单元243,网络参数修正单元244;
目标偏移量确定单元241,用于根据样本参考帧所携带的标签信息中的对象位置标签,以及每个样本视频帧分别携带的标签信息中的对象位置标签,确定样本参考区域在每个样本视频帧中的目标偏移量;
回归损失确定单元242,用于基于目标偏移量与预测偏移量之间的差值,确定回归组件对应的回归损失结果;
分类损失确定单元243,用于基于样本评估值与每个样本视频帧分别携带的标签信息中的对象类别标签,确定分类组件对应的分类损失结果;
网络参数修正单元244,用于根据回归损失结果和分类损失结果,对初始定位模型的网络参数进行修正,将包含修正后的网络参数的初始定位模型确定为目标定位模型。
其中,样本获取模块21,样本特征提取模块22,样本特征预测模块23,模型训练模块24,以及模型训练模块24所包含的目标偏移量确定单元241,回归损失确定单元242,分类损失确定单元243,网络参数修正单元244的具体功能实现方式可以参见图8所对应实施例中的步骤S301-步骤S304,这里不再进行赘述。
在本申请实施例中,可以将目标视频的参考视频帧中检测到对象确定为目标对象,并确定该目标对象在参考视频帧中的参考区域,通过该参考区域可以在目标视频的后续视频帧(目标视频中时间顺序晚于参考视频帧的其余视频帧)中定位目标对象;对于目标视频中的后续视频帧,在获取到前一个视频帧中的目标对象所属的第一对象区域后,只需获取后一个视频帧针对目标对象的对象评估值,以及第一对象区域在后一个视频帧中的对角偏移量,即只需计算第一对象区域的一条对角线上的顶点的位置偏移,就可以获取目标对象在后一个视频帧中的第二对象区域,不仅可以提升目标对象的定位准确性,还可以提高目标对象的定位速度,进而可以提高目标对象的定位效率;在初始定位模型的训练过程中,可以从样本视频中随机选择样本视频帧进行模型训练,且模型训练中只需回归前一个样本对象区域中的一条对角线上的两个顶点在后一个视频帧中的位置偏移,可以简化初始定位模型的训练复杂度,进而加快初始定位模型的训练速度。
进一步地,请参见图11,图11是本申请实施例提供的一种计算机设备的结构示意图。如图11所示,该计算机设备1000可以为用户终端,例如,上述图1所对应实施例中的用户终端10a,还可以为服务器,例如,上述图1所对应实施例中的服务器10d,这里将不对其进行限制。为便于理解,本申请以计算机设备为用户终端为例,该计算机设备1000可以包括:处理器1001,网络接口1004和存储器1005,此外,该计算机设备1000还可以包括:用户接口1003,和至少一个通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。其中,用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图11所示,作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。
其中,该计算机设备1000中的网络接口1004还可以提供网络通讯功能,且可选用户接口1003还可以包括显示屏(Display)、键盘(Keyboard)。在图11所示的计算机设备1000中,网络接口1004可提供网络通讯功能;而用户接口1003主要用于为用户提供输入的接口;而处理器1001可以用于调用存储器1005中存储的设备控制应用程序,以实现:
获取参考视频帧中的参考区域对应的对象参考特征;参考视频帧属于目标视频,目标视频包括目标对象,参考区域用于表征目标对象在参考视频帧中的位置;
根据目标视频的第i个视频帧中的目标对象所属的第一对象区域,在目标视频的第i+1个视频帧中获取候选区域图像,获取候选区域图像对应的对象候选特征;第i个视频帧在目标视频中的时间顺序晚于或等于参考视频帧在目标视频中的时间顺序,第i个视频帧在目标视频中的时间顺序早于第i+1个视频帧在目标视频中的时间顺序,i为正整数;
将对象候选特征和对象参考特征融合为对象组合特征,根据对象组合特征确定候选区域图像对应的对象评估值,根据对象组合特征,获取第一对象区域在第i+1个视频帧中的对角偏移量;
基于对象评估值、第一对象区域以及对角偏移量,在第i+1个视频帧中确定用于表征目标对象的位置的第二对象区域。
应当理解,本申请实施例中所描述的计算机设备1000可执行前文图3、图5以及图8中任一个实施例中对视频数据处理方法的描述,也可执行前文图10所对应实施例中对视频数据处理装置1的描述,在此不再赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。
此外,这里需要指出的是:本申请实施例还提供了一种计算机可读存储介质,且计算机可读存储介质中存储有前文提及的视频数据处理装置1所执行的计算机程序,且计算机程序包括程序指令,当处理器执行程序指令时,能够执行前文图3、图5以及图8中任一个实施例中对视频数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机可读存储介质实施例中未披露的技术细节,请参照本申请方法实施例的描述。作为示例,程序指令可被部署在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行,分布在多个地点且通过通信网络互连的多个计算设备可以组成区块链系统。
此外,需要说明的是:本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或者计算机程序可以包括计算机指令,该计算机指令可以存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器可以执行该计算机指令,使得该计算机设备执行前文图3、图5以及图8中任一个实施例中对视频数据处理方法的描述,因此,这里将不再进行赘述。另外,对采用相同方法的有益效果描述,也不再进行赘述。对于本申请所涉及的计算机程序产品或者计算机程序实施例中未披露的技术细节,请参照本申请方法实施例的描述。
需要说明的是,对于前述的各个方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某一些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。
本申请实施例装置中的模块可以根据实际需要进行合并、划分和删减。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储器(Read-Only Memory,ROM)或随机存储器(Random Access Memory,RAM)等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围,因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (16)
1.一种视频数据处理方法,其特征在于,包括:
获取参考视频帧中的参考区域对应的对象参考特征;所述参考视频帧属于目标视频,所述目标视频包括目标对象,所述参考区域用于表征所述目标对象在所述参考视频帧中的位置;
根据所述目标视频的第i个视频帧中的目标对象所属的第一对象区域,在所述目标视频的第i+1个视频帧中获取候选区域图像,获取所述候选区域图像对应的对象候选特征;所述第i个视频帧在所述目标视频中的时间顺序晚于或等于所述参考视频帧在所述目标视频中的时间顺序,所述第i个视频帧在所述目标视频中的时间顺序早于所述第i+1个视频帧在所述目标视频中的时间顺序,i为正整数;
将所述对象候选特征和所述对象参考特征融合为对象组合特征,根据所述对象组合特征确定所述候选区域图像对应的对象评估值,根据所述对象组合特征,获取所述第一对象区域在所述第i+1个视频帧中的对角偏移量;
基于所述对象评估值、所述第一对象区域以及所述对角偏移量,在所述第i+1个视频帧中确定用于表征所述目标对象的位置的第二对象区域。
2.根据权利要求1所述的方法,其特征在于,所述获取参考视频帧中的参考区域对应的对象参考特征,包括:
获取所述目标视频,对所述目标视频进行分帧处理,得到目标视频帧序列,获取所述目标视频帧序列中的第一个视频帧;
若检测到所述第一个视频帧中包含所述目标对象,则将所述第一个视频帧确定为所述目标视频中的参考视频帧,将所述目标对象在所述参考视频帧中的位置区域确定为参考区域;
将所述参考区域在所述参考视频帧中所覆盖的像素点,确定为参考区域图像,获取所述参考区域图像对应的对象参考特征。
3.根据权利要求2所述的方法,其特征在于,还包括:
在所述第一个视频帧中获取M个初始区域,获取所述M个初始区域分别对应的区域描述特征,对所述区域描述特征进行分类识别,得到所述M个初始区域分别对应的分类结果;M为正整数;
当所述M个初始区域分别对应的分类结果中存在与所述目标对象相关联的分类结果时,确定所述第一视频帧中包含所述目标对象。
4.根据权利要求3所述的方法,其特征在于,所述将所述目标对象在所述参考视频帧中的位置区域确定为参考区域,包括:
在所述M个初始区域中,将与所述目标对象相关联的分类结果所对应的初始区域确定为待处理区域集合;
根据所述待处理区域集合中的初始区域之间的交并比,对所述待处理区域集合中的初始区域进行合并,得到待调整区域;
对所述待调整区域进行边框回归处理,在所述参考视频帧中得到包含所述目标对象的参考区域。
5.根据权利要求1所述的方法,其特征在于,所述根据所述目标视频的第i个视频帧中的目标对象所属的第一对象区域,在所述目标视频的第i+1个视频帧中获取候选区域图像,获取所述候选区域图像对应的对象候选特征,包括:
获取所述目标对象在所述目标视频的第i个视频帧中的第一对象区域,根据所述第一对象区域对应的顶点坐标信息,在所述目标视频的第i+1个视频帧中确定第一候选区域;
基于所述第一候选区域,在所述第i+1个视频帧中进行区域采样,得到一个或多个采样区域,通过滤波器输出所述一个或多个采样区域分别对应的响应值;
将最大的响应值所对应的采样区域确定为第二候选区域,将所述第二候选区域在所述第i+1个视频帧中所覆盖的像素点,确定为所述候选区域图像;
将所述候选区域图像输入至目标定位模型中的特征提取组件,通过所述目标定位模型中的特征提取组件输出所述候选区域图像对应的对象候选特征。
6.根据权利要求1所述的方法,其特征在于,所述将所述对象候选特征和所述对象参考特征融合为对象组合特征,包括:
将所述对象候选特征输入至第一卷积层,通过所述第一卷积层输出第一卷积特征;所述第一卷积特征的通道数与所述对象候选特征的通道数保持一致;
将所述对象参考特征输入至第二卷积层,通过所述第二卷积层输出第二卷积特征;所述第二卷积特征的通道数与所述对象参考特征的通道数不相同;
将所述第一卷积特征和所述第二卷积特征进行卷积运算,得到所述对象组合特征。
7.根据权利要求1所述的方法,其特征在于,所述根据所述对象组合特征确定所述候选区域图像对应的对象评估值,根据所述对象组合特征,获取所述第一对象区域在所述第i+1个视频帧中的对角偏移量,包括:
对所述对象组合特征进行分类识别,得到所述候选区域图像针对所述目标对象的对象评估值;
根据所述对象组合特征,对所述第i+1个视频帧中由所述第一对象区域所确定的候选区域进行回归处理,得到所述第一对象区域在所述第i+1个视频帧中的对角偏移量。
8.根据权利要求1所述的方法,其特征在于,所述对角偏移量包括第一偏移量和第二偏移量,所述第一偏移量和第二偏移量用于表征所述第一对象区域的同一条对角线上的顶点在所述第i+1个视频帧中的位置偏移;
所述基于所述对象评估值、所述第一对象区域以及所述对角偏移量,在所述第i+1个视频帧中确定用于表征所述目标对象的位置的第二对象区域,包括:
若所述对象评估值大于评估阈值,则确定所述候选区域图像中包含所述目标对象;
根据所述第一对象区域对应的顶点坐标信息、所述第一偏移量以及所述第二偏移量,得到所述目标对象在所述第i+1个视频帧中的区域位置信息,基于所述区域位置信息,在所述第i+1个视频帧中确定所述第二对象区域。
9.根据权利要求8所述的方法,其特征在于,还包括:
若所述对象评估值小于或等于所述评估阈值,则确定所述候选区域图像中不包含所述目标对象,获取所述目标视频中的第i+2个视频帧;所述第i+2个视频帧在所述目标视频中的时间顺序晚于所述第i+1个视频帧在所述目标视频中的时间顺序;
若检测到所述第i+2个视频帧中包含所述目标对象,则将所述目标视频中的参考视频帧更新为所述第i+2个视频帧,将所述参考视频帧中的参考区域更新为所述目标对象在所述第i+2个视频帧中的位置区域。
10.根据权利要求1所述的方法,其特征在于,所述目标对象包括脸部;
所述方法还包括:
根据所述第二对象区域,对所述第i+1个视频帧进行剪裁,得到待识别脸部图像,获取所述待识别脸部图像对应的脸部表情特征;
将所述脸部表情特征输入至分类器,通过所述分类器输出所述脸部表情特征与至少两个表情属性特征之间的匹配度,将最大的匹配度对应的表情属性特征所属的表情类别,确定为所述待识别脸部图像的表情识别结果。
11.根据权利要求1所述的方法,其特征在于,还包括:
获取包含样本对象的样本视频,在所述样本视频中获取样本参考帧和样本视频帧集合;所述样本参考帧在所述样本视频中的时间顺序早于所述样本视频帧集合中的每个样本视频帧分别在所述样本视频中的时间顺序;
根据所述样本参考帧所携带的标签信息,确定所述样本参考帧中的样本对象所属的样本参考区域,通过初始定位模型中的特征提取组件,获取所述样本参考区域在所述样本参考帧中的样本参考特征,以及所述样本参考区域在所述每个样本视频帧中的样本候选特征;
将所述样本候选特征和所述样本参考特征融合为样本组合特征,通过所述初始定位模型中的对象预测组件,输出所述每个样本视频帧分别对应的预测结果;
根据所述样本参考帧所携带的标签信息、所述每个样本视频帧分别携带的标签信息,以及所述预测结果,对所述初始定位模型的网络参数进行修正,将包含修正后的网络参数的初始定位模型确定为目标定位模型;所述目标定位模型用于确定所述目标对象在所述目标视频所包含的视频帧中的位置。
12.根据权利要求11所述的方法,其特征在于,所述对象预测组件包括分类组件和回归组件,所述预测结果包括所述分类组件输出的样本评估值和所述回归组件输出的预测偏移量,所述预测偏移量用于表征所述样本参考区域的同一条对角线上的顶点在所述每个样本视频帧中的位置偏移;
所述根据所述样本参考帧所携带的标签信息、所述每个样本视频帧分别携带的标签信息,以及所述预测结果,对所述初始定位模型的网络参数进行修正,将包含修正后的网络参数的初始定位模型确定为目标定位模型,包括:
根据所述样本参考帧所携带的标签信息中的对象位置标签,以及所述每个样本视频帧分别携带的标签信息中的对象位置标签,确定所述样本参考区域在所述每个样本视频帧中的目标偏移量;
基于所述目标偏移量与所述预测偏移量之间的差值,确定所述回归组件对应的回归损失结果;
基于所述样本评估值与所述每个样本视频帧分别携带的标签信息中的对象类别标签,确定所述分类组件对应的分类损失结果;
根据所述回归损失结果和所述分类损失结果,对所述初始定位模型的网络参数进行修正,将包含修正后的网络参数的初始定位模型确定为目标定位模型。
13.一种视频数据处理装置,其特征在于,包括:
第一获取模块,用于获取参考视频帧中的参考区域对应的对象参考特征;所述参考视频帧属于目标视频,所述目标视频包括目标对象,所述参考区域用于表征所述目标对象在所述参考视频帧中的位置;
第二获取模块,用于根据所述目标视频的第i个视频帧中的目标对象所属的第一对象区域,在所述目标视频的第i+1个视频帧中获取候选区域图像,获取所述候选区域图像对应的对象候选特征;所述第i个视频帧在所述目标视频中的时间顺序晚于或等于所述参考视频帧在所述目标视频中的时间顺序,所述第i个视频帧在所述目标视频中的时间顺序早于所述第i+1个视频帧在所述目标视频中的时间顺序,i为正整数;
结果输出模块,用于将所述对象候选特征和所述对象参考特征融合为对象组合特征,根据所述对象组合特征确定所述候选区域图像对应的对象评估值,根据所述对象组合特征,获取所述第一对象区域在所述第i+1个视频帧中的对角偏移量;
区域确定模块,用于基于所述对象评估值、所述第一对象区域以及所述对角偏移量,在所述第i+1个视频帧中确定用于表征所述目标对象的位置的第二对象区域。
14.一种计算机设备,其特征在于,包括存储器和处理器;
所述存储器与所述处理器相连,所述存储器用于存储计算机程序,所述处理器用于调用所述计算机程序,以使得所述计算机设备执行权利要求1-12任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机程序,所述计算机程序适于由处理器加载并执行,以使得具有所述处理器的计算机设备执行权利要求1-12任一项所述的方法。
16.一种计算程序产品,其特征在于,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现权利要求1-12任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210111577.4A CN116580054B (zh) | 2022-01-29 | 2022-01-29 | 视频数据处理方法、装置、设备以及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210111577.4A CN116580054B (zh) | 2022-01-29 | 2022-01-29 | 视频数据处理方法、装置、设备以及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116580054A true CN116580054A (zh) | 2023-08-11 |
CN116580054B CN116580054B (zh) | 2024-08-20 |
Family
ID=87532787
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210111577.4A Active CN116580054B (zh) | 2022-01-29 | 2022-01-29 | 视频数据处理方法、装置、设备以及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116580054B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116958915A (zh) * | 2023-09-21 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 目标检测方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582170A (zh) * | 2020-05-08 | 2020-08-25 | 浙江大学 | 利用对象感知多分支关系网络完成视频中指定对象定位任务的方法和定位系统 |
CN113129360A (zh) * | 2019-12-31 | 2021-07-16 | 北京字节跳动网络技术有限公司 | 视频内对象的定位方法、装置、可读介质及电子设备 |
US20210326627A1 (en) * | 2019-08-01 | 2021-10-21 | Nvidia Corporation | Focusing regions of interest using dynamic object detection for textual information retrieval |
CN113706555A (zh) * | 2021-08-12 | 2021-11-26 | 北京达佳互联信息技术有限公司 | 一种视频帧处理方法、装置、电子设备及存储介质 |
CN113836993A (zh) * | 2021-06-30 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 定位识别方法、装置、设备及计算机可读存储介质 |
-
2022
- 2022-01-29 CN CN202210111577.4A patent/CN116580054B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210326627A1 (en) * | 2019-08-01 | 2021-10-21 | Nvidia Corporation | Focusing regions of interest using dynamic object detection for textual information retrieval |
CN113129360A (zh) * | 2019-12-31 | 2021-07-16 | 北京字节跳动网络技术有限公司 | 视频内对象的定位方法、装置、可读介质及电子设备 |
CN111582170A (zh) * | 2020-05-08 | 2020-08-25 | 浙江大学 | 利用对象感知多分支关系网络完成视频中指定对象定位任务的方法和定位系统 |
CN113836993A (zh) * | 2021-06-30 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 定位识别方法、装置、设备及计算机可读存储介质 |
CN113706555A (zh) * | 2021-08-12 | 2021-11-26 | 北京达佳互联信息技术有限公司 | 一种视频帧处理方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
乔大路: "基于监控视频的特定目标跟踪算法研究", CNKI, 31 May 2021 (2021-05-31), pages 21 - 42 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116958915A (zh) * | 2023-09-21 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 目标检测方法、装置、电子设备及存储介质 |
CN116958915B (zh) * | 2023-09-21 | 2024-05-14 | 腾讯科技(深圳)有限公司 | 目标检测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN116580054B (zh) | 2024-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232293B (zh) | 图像处理模型训练、图像处理方法及相关设备 | |
CN112734775B (zh) | 图像标注、图像语义分割、模型训练方法及装置 | |
CN111950424B (zh) | 一种视频数据处理方法、装置、计算机及可读存储介质 | |
CN110472516B (zh) | 一种人物图像识别系统的构建方法、装置、设备及系统 | |
CN112381104B (zh) | 一种图像识别方法、装置、计算机设备及存储介质 | |
CN111783749A (zh) | 一种人脸检测方法、装置、电子设备及存储介质 | |
CN111739027B (zh) | 一种图像处理方法、装置、设备及可读存储介质 | |
CN111652181B (zh) | 目标跟踪方法、装置及电子设备 | |
CN113516113A (zh) | 一种图像内容识别方法、装置、设备及存储介质 | |
CN115115552B (zh) | 图像矫正模型训练及图像矫正方法、装置和计算机设备 | |
CN111444850A (zh) | 一种图片检测的方法和相关装置 | |
WO2023279799A1 (zh) | 对象识别方法、装置和电子系统 | |
CN113903063A (zh) | 基于深度时空网络决策融合的人脸表情识别方法及系统 | |
CN112580750A (zh) | 图像识别方法、装置、电子设备及存储介质 | |
CN116580054B (zh) | 视频数据处理方法、装置、设备以及介质 | |
CN111353429A (zh) | 基于眼球转向的感兴趣度方法与系统 | |
CN114677611B (zh) | 数据识别方法、存储介质及设备 | |
CN113706550A (zh) | 图像场景识别和模型训练方法、装置和计算机设备 | |
CN113570615A (zh) | 一种基于深度学习的图像处理方法、电子设备及存储介质 | |
CN117351192A (zh) | 一种对象检索模型训练、对象检索方法、装置及电子设备 | |
CN116958729A (zh) | 对象分类模型的训练、对象分类方法、装置及存储介质 | |
CN115862054A (zh) | 图像数据处理方法、装置、设备以及介质 | |
CN114511877A (zh) | 一种行为识别方法、装置、存储介质及终端 | |
Benito-Picazo et al. | Deep learning-based security system powered by low cost hardware and panoramic cameras | |
CN114429669B (zh) | 身份识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40091114 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |