CN114863249A - 基于运动特征和外观特征的视频目标检测及域适应方法 - Google Patents

基于运动特征和外观特征的视频目标检测及域适应方法 Download PDF

Info

Publication number
CN114863249A
CN114863249A CN202210347649.5A CN202210347649A CN114863249A CN 114863249 A CN114863249 A CN 114863249A CN 202210347649 A CN202210347649 A CN 202210347649A CN 114863249 A CN114863249 A CN 114863249A
Authority
CN
China
Prior art keywords
video
motion
target
appearance
frame
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210347649.5A
Other languages
English (en)
Inventor
张昊卓
于慧敏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202210347649.5A priority Critical patent/CN114863249A/zh
Publication of CN114863249A publication Critical patent/CN114863249A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于运动特征和外观特征的视频目标检测及域适应方法。该方法首先基于目标帧的多帧图像提取运动特征和增强的外观特征,随后融合外观与运动两种特征获得聚合特征并用于感兴趣目标的检测,并以此从视频中自动抓取存在感兴趣目标的视频帧并确定其所处位置。本发明还包括了视频目标检测的域适应方法,该域适应方法首先以运动特征预测运动空间注意力,使聚合特征更加关注与场景关联性较弱的运动前景区域,随后通过对聚合特征进行对抗训练、基于实例特征进行原型构建与特征对齐来削弱特征中所包含的特定场景信息,从而提升视频目标检测模型在缺失目标域正样本训练数据的场景下的性能表现。

Description

基于运动特征和外观特征的视频目标检测及域适应方法
技术领域
本发明属于计算机视觉、模式识别技术领域,特别地涉及到一种基于运动特征和外观特征的视频目标检测及域适应方法。
背景技术
在多媒体技术应用愈发普遍的今天,得益于计算机视觉技术以及深度学习技术的飞速发展,基于视频信号智能化地完成一些任务成为可能。对视频进行智能的分析处理不但可以大大减轻人力负担节省成本,还可能在一些任务上获得比人工处理更加稳定可靠的效果。
目前一些针对视频输入信号完成感兴趣目标检测定位的方法首先基于背景差分方法预先提取可能存在目标前景的区域,并通过后续分类实现单张视频帧中感兴趣目标的检测。这种前景区域提取方法对于复杂多变的视频场景鲁棒性较差,容易出现低质量的区域提取或漏检。此外,绝大多数现有方法集中视频中外观特征的提取,这些方法没有充分提取视频中包含的运动变化信息,该问题会导致检测框架不适用于异常行为检测、汽车尾气检测这类仅凭外观特征难以有效完成的任务。另一方面,一些情况下感兴趣目标在视频中出现概率很可能比较低,然而现有的绝大多数框架仅利用非常有限的含有感兴趣目标的视频(正样本数据)训练模型,并且这种做法很可能导致实际应用中模型非常容易错误地检测出非感兴趣目标。
此外,实际检测模型应用部署中容易遇到部分视频场景在一段时间内无法提供拍摄到感兴趣目标的视频作为正样本数据参与检测模型训练这一情况。由于不同视频通常会在场景、视频质量等方面存在较大的差异性,该情况下训练所得模型会在正样本训练数据缺失场景下表现出严重的性能劣化。这一问题与计算机视觉中的域适应问题较为类似,目前视频目标检测方面对这一问题的关注较少。
发明内容
针对视频目标检测算法的问题,本发明提供了一种基于运动特征和外观特征的视频目标检测方法,其能够充分提取视频蕴含的外观与运动信息并完成对于任意一张视频帧中感兴趣目标的检测定位。
为实现上述目的,本发明中的基于运动特征和外观特征的视频目标测方法采用如下技术方案:
本发明实施例的第一方面提供了一种基于运动特征和外观特征的视频目标检测方法,具体包括如下步骤:
(1)将输入的任意视频转化为视频帧构成的图片集合,对其中任意一张目标视频帧I进行感兴趣目标的检测,抽取目标视频帧I与其相邻的2p张视频帧,合计2p+1张视频帧,并进行视频帧I的目标检测;
(2)使用骨干网络提取各帧的外观特征,获得2p+1个外观特征;
(3)将每一张相邻帧In的外观特征An与目标视频帧I的外观特征A输入运动特征提取网络Em以提取对应的运动特征Mn,同时运动特征提取网络Em输出相应的预测运动的像素级运动信息图fn
(4)所述像素级运动信息图fn用于将每一张相邻帧In的外观特征An向目标视频帧I的外观特征A对齐以获得空间对齐的外观特征A’n
(5)使用外观特征聚合网络Eaa对外观特征进行融合获得外观特征Fa,将外观特征Fa输入外观特征精炼网络Ra进行哈达玛积,获得精炼后的外观特征F’a
(6)使用运动特征聚合网络Eam对运动特征Mn进行融合获取运动特征Fm,将运动特征Mn输入运动特征精炼网络Rm进行哈达玛积,获得精炼后的运动特征F’m
(7)将步骤(5)获得的精炼后的外观特征F’a与步骤(6)获得的精炼后的运动特征F’m输入特征聚合网络Eagg,获取一个与输入的两个特征尺寸一致的聚合特征Fagg
(8)将聚合特征Fagg输入目标检测网络H获得目标的边框预测结果B及其相应的分类置信度C;
(9)对视频目标检测网络进行训练;对训练好的视频目标检测网络进行测试,若分类置信度C的最大值Cmax若大于预设阈值则判定目标视频帧I中存在感兴趣目标并输出目标的边框预测结果B,否则判定该帧中无感兴趣目标存在。
进一步的,所述骨干网络为ResNet-50、ResNet-101或VGG-16网络。
进一步的,所述的步骤(3)中的运动特征提取网络Em可以是当前任何能够实现如下映射的神经网络:
Mn,fn=Em(A,An)
其中运动信息图fn可被用于如下的某相邻帧外观特征An向需要进行目标检测的目标帧外观特征A的空间对齐:
A′n=Align(An,fn)
其中空间对齐操作Align(·)可以是当前任何能够完成特征像素空间位置调整操作的映射。
进一步的,对视频目标检测网络进行训练的过程具体为:
计算置信度损失
Figure BDA0003577518940000021
与边框回归损失
Figure BDA0003577518940000022
将置信度预测结果C输入协同分类网络S,获得目标帧I是否含有感兴趣目标的预测可能性P:
根据目标帧I是否真实存在感兴趣目标的标签y*并结合协同分类网络输出的预测可能性P计算协同分类损失LCLS
利用上述计算得到的置信度损失
Figure BDA0003577518940000031
边框回归损失
Figure BDA0003577518940000032
以及协同分类损失LCLS优化视频目标检测网络。
进一步的,所述协同分类损失LCLS为一种二分类损失。
本发明实施例的第二方面提供了一种基于运动特征和外观特征的视频目标检测的域适应方法,具体包括如下步骤:
(1)将运动特征精炼网络Rm输出的运动空间注意力Attm与聚合特征Fagg进行哈达玛积获得优化后的聚合特征F’agg
(2)将视频目标检测网络中的聚合特征Fagg替换为优化后的聚合特征F’agg;对调整优化后的视频目标检测网络进行训练;再对训练好的视频目标检测网络进行测试。
优选的,对调整优化后的视频目标检测网络进行训练的过程具体为:
对聚合特征F’agg进行对抗方式的域适应,计算获得对抗学习损失Ladv
利用置信度损失
Figure BDA0003577518940000033
边框回归损失
Figure BDA0003577518940000034
协同分类损失LCLS以及对抗学习损失Ladv训练调整优化后的视频目标检测网络,获得初步训练的视频目标检测网络;
将用于预测分类置信度C的特征在空间维度上完全拆解为实例级别特征,并根据是否对应感兴趣目标区域、分类置信度细分为包括分类置信度较高且对应感兴趣目标tp,分类置信度较高但对应背景fp,分类置信度较低且对应背景tn,分类置信度较低但对应感兴趣目标fn在内的类别;
以属于分类置信度较高且对应感兴趣目标tp和分类置信度较低且对应背景tn的实例特征分别构建有代表性的正原型特征Pp和负原型特征Pn
计算损失函数Lp,该函数是目前任意可拉近Pp与fn中实例特征距离并推远Pp与fp中实例特征距离的函数;
计算损失函数Ln,该函数是目前任意可拉近Pn与fp中实例特征距离并推远Pn与fn中实例特征距离的函数;
在初步训练的视频目标检测网络的基础上,通过置信度损失
Figure BDA0003577518940000035
边框回归损失
Figure BDA0003577518940000036
协同分类损失LCLS、对抗学习损失Ladv、损失函数Lp和损失函数Ln,对该模型进行进一步调优训练以获得最终的视频目标检测网络。
优选的,所述对抗方式的域适应为一种基于梯度反转层GRL以及域分类任务的域适应方法。
本发明实施例的第三方面提供了一种电子设备,包括存储器和处理器,其中,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述的基于运动特征和外观特征的视频目标检测方法和基于运动特征和外观特征的视频目标检测的域适应方法。
本发明实施例的第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现上述的基于运动特征和外观特征的视频目标检测方法和基于运动特征和外观特征的视频目标检测的域适应方法。
本发明公开的适配于前述视频目标检测的域适应方法的有益效果是:利用运动空间注意力使模型提取的特征更加关注与场景关联性较弱的前景区域,且利用对抗方式的隐式特征对齐与新颖的基于正负原型特征的显式实例特征对齐进一步缩小了模型提取特征的跨场景差异,能够提升视频目标检测网络的泛化表现。
附图说明
图1为本发明中基于运动特征和外观特征的视频目标检测方法流程图;
图2为本发明中基于运动特征和外观特征的视频目标检测方法的模型结构示意图;
图3为本发明中适配于基于运动特征和外观特征的视频目标检测方法的域适应方法流程图;
图4为本发明装置的示意图。
具体实施方式
为了使本发明的技术方案表述更加清楚,以下结合附图及实施例对本发明中的基于运动特征和外观特征的视频目标检测及域适应方法进行详细说明。
参考图1,所示为本发明公开的基于运动特征和外观特征的视频目标检测方法流程图。参考图2,所示为本发明公开的基于运动特征和外观特征的视频目标检测方法的模型结构示意图。
输入一段视频(可能不包含感兴趣目标)转化所得的n张视频帧构成的图片集合{I1,I2,...,In},利用本发明公开的基于运动特征和外观特征的视频目标检测方法针对其中一张目标视频帧Ii进行感兴趣目标的检测需要进行以下步骤处理:
步骤1.1:抽取目标视频帧Ii及与其相邻的2p张视频帧,本发明实施例中所述相邻的2p张视频帧为前p张相邻帧与后p张相邻帧,其中p为自定义的正整数,合计为2p+1张视频帧{Ii-p,...,Ii-1,Ii,Ii+1,...,Ii+p};,并进行视频帧I的目标检测;
步骤1.2:将步骤1.1中所得的视频帧逐一输入骨干网络Eb提取各帧的外观特征,获得2p+1个外观特征{Ai-p,...,Ai-1,Ai,Ai+1,...,Ai+p},本发明实施例中骨干网络Eb可以采用深度学习中常用的ResNet-50 ResNet-101或VGG-16等网络;
步骤1.3:将每个相邻帧外观特征Aj与目标帧外观特征Ai在通道维度连接并输入由卷积层与激活层构成的运动特征提取网络Em,获得2p个运动特征{Mi-p,...,Mi-1,Mi+1,...,Mi+p}以及相应的2p个类光流的像素级运动信息图{fi-p,...,fi-1,fi+1,...,fi+p},其中运动信息图由对应的运动特征通过单层卷积预测获得;。对于一张目标视频帧I的目标检测,会获取到2p个对齐后的相邻帧外观特征、2p个运动特征。
优选的,所述的步骤1.3中的运动特征提取网络Em可以是当前任何能够实现如下映射的神经网络:
Mn,fn=Em(A,An)
其中运动信息图fn可被用于如下的某相邻帧外观特征An向需要进行目标检测的目标帧外观特征A的空间对齐:
An=Align(An,fn)
其中空间对齐操作Align(·)可以是当前任何能够完成特征像素空间位置调整操作的映射。
步骤1.4:利用每张类光流的运动信息图fj将对应的相邻帧外观特征Aj向目标帧外观特征Ai进行投影,获得在空间上向目标帧进行了一定程度对齐的2p个相邻帧外观特征{A’i-p,...,A′i-1,A’i+1,...,A′i+p};
步骤1.5:将步骤1.4获得的空间对齐的2p个相邻帧外观特征以及一张目标帧外观特征全部在通道维度连接并输入由卷积层以及激活层构成的外观特征聚合网络Eaa获得目标帧唯一的外观特征Fa,将2p个运动特征全部在通道维度连接并输入由卷积层以及激活层构成的运动特征聚合网络Eam获得目标帧唯一的运动特征Fm;其中Eam可以是目前任何能够输入2p个同等尺寸特征并输出一个相同尺寸特征的神经网络。其中Eaa可以是目前任何能够输入2p+1个同等尺寸特征并输出一个相同尺寸特征的神经网络。
步骤1.6:将目标帧唯一的外观特征Fa与运动特征Fm分别输入外观特征精炼网络Ra与运动特征精炼网络Rm,分别获得精炼的外观特征F’a与精炼的运动特征F’m。两种特征精炼的方式是一致的,具体的特征精炼方式为首先分别生成外观空间注意力Atta与运动空间注意力Attm,随后通过空间注意力与对应特征进行哈达玛积(Hadamard积)获得精炼后的外观特征F’a与运动特征F’m
优选的,运动空间注意力Attm可以由目前任意一种空间注意力模块输入运动特征Fm后预测获得。外观空间注意力Atta可以由目前任意一种空间注意力模块输入Fa后预测获得。
步骤1.7:将精炼的外观特征F’a与精炼的运动特征F’m在通道维度连接并输入由卷积层与激活层构成的特征聚合网络Eagg,获得目标帧唯一的且与输入的两个特征尺寸一致的聚合特征Fagg;特征聚合网络Eagg可以是任何能够实现这种映射的神经网络。
步骤1.8:将聚合特征Fagg输入目标检测网络H获得目标检测边框预测结果B及其相应的分类置信度C。目标检测网络H可以是目前任意一种目标检测网络,例如FCOS、RetinaNet等网络。图1中,本发明实施例选用的目标检测网络H为基于锚框的一阶段目标检测网络,其包围框回归部分与分类置信度预测部分皆为卷积层与激活层构成的网络。
步骤1.9对视频目标检测网络进行训练;对训练好的视频目标检测网络进行测试,若分类置信度C的最大值Cmax若大于预设阈值则判定目标视频帧I中存在感兴趣目标并输出目标的边框预测结果B,否则判定该帧中无感兴趣目标存在。本发明实施例中,预设阈值th=0.75。
对视频目标检测网络进行训练的过程具体为:
步骤(a):将目标帧表示为I,利用其感兴趣目标包围框标注信息并结合检测网络输出,可参考现有目标检测方法计算如下的置信度损失
Figure BDA0003577518940000061
(以单一类别感兴趣目标为实施例进行举例)与边框回归损失
Figure BDA0003577518940000062
其中Apos与Aneg分别代表目标帧I中有匹配感兴趣目标的正样本锚框索引集合和没有匹配目标的负样本锚框索引集合,wpos=0.999与wneg=0.001分别代表预设的正负样本损失权重,pi与pj分别表示模型输出的相应正负锚框的分类置信度,γ=3.0为控制训练更加关注分类效果较差样本的参数(γ越大则训练越关注分类较差的样本)。y*为目标帧I是否含有感兴趣目标的标签,y*为1代表该目标帧含有含有感兴趣目标,且指示函数I(y*==1)输出值将为1,否则指示函数输出值为0。g∈{w,h,x,y}表示包围框参数的四种类型,w、h、x、y分别对应宽、高、中心点横坐标与中心点纵坐标。bi,g
Figure BDA0003577518940000063
分别表示索引为i对应的正样本锚框的g类型参数预测值和真实标签值。
Figure BDA0003577518940000064
Figure BDA0003577518940000065
Figure BDA0003577518940000066
步骤(b):将置信度预测结果C输入协同分类网络S,获得单张目标帧是否含有感兴趣目标的预测可能性P。协同分类网络S可由卷积层、激活层与全连接层构成,对一张视频帧输出的结果P为一个标量。
步骤(c):根据目标帧I是否真实存在感兴趣目标的标签y*并结合协同分类网络输出P,计算如下的协同分类损失LCLS
LCLS(I)=-y*log(y)-(1-y*)log(1-y)
优选的,所述协同分类损失LCLS可以是目前任何一种二分类损失。
步骤(d):利用上述计算得到的置信度损失
Figure BDA0003577518940000071
边框回归损失
Figure BDA0003577518940000072
以及协同分类损失LCLS优化视频目标检测网络。
参考图3,所示为本发明中适配于前述视频目标检测方法的域适应方法示意图。
本发明所公开的适配于前述视频目标检测的域适应方法可更加详细地描述为以下步骤:
步骤2.1:使用运动特征精炼网络Rm中间步骤产生的运动空间注意力Attm与目标帧唯一的聚合特征Fagg进行Hadamard积,促使优化后的聚合特征F’agg更加关注与场景关联性较弱的运动前景区域。
步骤2.2:将视频目标检测网络中的聚合特征Fagg替换为优化后的聚合特征F’agg;对调整优化后的视频目标检测网络进行训练;再对训练好的视频目标检测网络进行测试。
对调整优化后的视频目标检测网络进行训练的过程具体为:。
对步骤2.1中所得目标帧I的更优聚合特征F’agg进行基于梯度反转层GRL的对抗方式跨场景特征对齐。聚合特征F’agg将被GRL反转梯度后输入全连接层构成的判别器D预测所有特征像素所属场景的类别,并依据真实场景类别计算如下的对抗学习损失Ladv。其中片,W分别为F’agg的高与宽,q代表训练数据无缺失的源域场景数量(源域场景类别编码为1至g,数据有所缺失的场景类别编码为0),
Figure BDA0003577518940000073
表示目标帧所属的场景的分类标签(若目标帧属于编码j的场景,则T(j)=1且T中其他值均为0);
Figure BDA0003577518940000074
利用对抗学习损失Ladv以及置信度损失
Figure BDA0003577518940000075
边框回归损失
Figure BDA0003577518940000076
协同分类损失LCLS训练步骤2.1调整后的视频目标检测网络;
此步骤目标在于使用训练数据进一步调优训练上述初步训练所得的视频目标检测框架。第t轮调优训练具体由以下步骤构成:
首先将框架的目标检测网络H中用于预测分类置信度C的目标帧对应特征Fc在空间维度完全拆解为H×W个局部区域实例级别向量特征{Vk|k∈{1,2,...,H×W}};
根据各个实例特征对应的检测置信度ck以及是否对应感兴趣目标区域的真实标签y′k(1对应含有感兴趣目标,0对应背景)确定每个实例特征是否正确分类为前景或背景。ck>0.5则该实例被预测为含有感兴趣目标,否则该实例被预测为背景类别;
分别使用分类正确的感兴趣目标对应的实例特征与背景区域对应的实例特征构建第t轮的正、负原型特征。构建方法可以是目前任意可行的原型构建方法。可以采用滑动平均的方式获得第t轮的正、负原型特征。具体而言,通过分类正确的正负实例特征做平均的方式获得第t轮的临时正负原型
Figure BDA0003577518940000077
Figure BDA0003577518940000078
随后第t轮正负原型由前一轮原型
Figure BDA0003577518940000079
与当前轮临时原型
Figure BDA0003577518940000081
通过如下方式计算获得,其中α为同类别前一轮原型与当前轮临时原型之间的调整后的余弦相似度;
Figure BDA0003577518940000082
Figure BDA0003577518940000083
通过计算如下的正样本原型损失Lp来显式地缩小错误分类的感兴趣目标区域对应的实例特征与正原型特征之间的距离,并显式地扩大错误分类的感兴趣目标区域对应的实例特征与负原型特征之间的距离。其中fp与fn分别表示错误分类的实例特征索引集合,|fp|和|fn|分别表示两种实例特征的数量,k为实例特征的索引,λn=0.1为错误分类的背景区域对应实例特征计算所得损失函数的权重;
Figure BDA0003577518940000084
通过计算如下的负样本原型损失Ln来显式地缩小错误分类的背景区域对应的实例特征与负原型特征之间的距离,并显式地扩大错误分类的背景区域对应的实例特征与正原型特征之间的距离;
Figure BDA0003577518940000085
计算前述的对抗学习损失Ladv以及置信度损失
Figure BDA0003577518940000086
边框回归损失
Figure BDA0003577518940000087
协同分类损失LCLS,配合原型损失Lp与Ln实现对于初步训练所得的所得的视频目标检测网络的进一步调优训练,获得在正样本训练数据缺失的场景下表现得到改善的视频目标检测框架。
本发明公开的运动特征和外观特征的视频目标检测方法应用于自建的多场景汽车尾气检测任务可获得如表1所示的实验测试数据。
表1
Figure BDA0003577518940000088
将以上实验中的场景5设定目标域(训练中缺失有汽车尾气这一感兴趣目标的正样本训练数据),其他4个场景设定为源域(训练数据完整)。则如下表2所示,本发明公开的运动特征和外观特征的视频目标检测方法在目标域场景5下的目标检测指标将严重衰减,而本发明公开的域适应方法可显著提升基于运动特征和外观特征的视频目标检测方法在目标域场景5下的表现。
表2
Figure BDA0003577518940000091
与前述基于运动特征和外观特征的视频目标检测及域适应方法的实施例相对应,本发明还提供了基于运动特征和外观特征的视频目标检测及域适应装置的实施例。
参见图4,本发明实施例提供的一种基于运动特征和外观特征的视频目标检测及域适应装置,包括一个或多个处理器,用于实现上述实施例中的基于运动特征和外观特征的视频目标检测及域适应方法。
本发明基于运动特征和外观特征的视频目标检测及域适应装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明基于运动特征和外观特征的视频目标检测及域适应装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于运动特征和外观特征的视频目标检测及域适应方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于运动特征和外观特征的视频目标检测方法,其特征在于,具体包括如下步骤:
(1)将输入的任意视频转化为视频帧构成的图片集合,对其中任意一张目标视频帧I进行感兴趣目标的检测,抽取目标视频帧I与其相邻的2p张视频帧,合计2p+1张视频帧,并进行视频帧I的目标检测;
(2)使用骨干网络提取各帧的外观特征,获得2p+1个外观特征;
(3)将每一张相邻帧In的外观特征An与目标视频帧I的外观特征A输入运动特征提取网络Em以提取对应的运动特征Mn,同时运动特征提取网络Em输出相应的预测运动的像素级运动信息图fn
(4)所述像素级运动信息图fn用于将每一张相邻帧In的外观特征An向目标视频帧I的外观特征A对齐以获得空间对齐的外观特征A’n
(5)使用外观特征聚合网络Eaa对外观特征进行融合获得外观特征Fa,将外观特征Fa输入外观特征精炼网络Ra进行哈达玛积,获得精炼后的外观特征F’a
(6)使用运动特征聚合网络Eam对运动特征Mn进行融合获取运动特征Fm,将运动特征Mn输入运动特征精炼网络Rm进行哈达玛积,获得精炼后的运动特征F’m
(7)将步骤(5)获得的精炼后的外观特征F’a与步骤(6)获得的精炼后的运动特征F’m输入特征聚合网络Eagg,获取一个与输入的两个特征尺寸一致的聚合特征Fagg
(8)将聚合特征Fagg输入目标检测网络H获得目标的边框预测结果B及其相应的分类置信度C;
(9)对视频目标检测网络进行训练;对训练好的视频目标检测网络进行测试,若分类置信度C的最大值Cmax若大于预设阈值则判定目标视频帧I中存在感兴趣目标并输出目标的边框预测结果B,否则判定该帧中无感兴趣目标存在。
2.根据权利要求1所述的基于运动特征和外观特征的视频目标检测方法,其特征在于,所述骨干网络为ResNet-50、ResNet-101或VGG-16网络。
3.根据权利要求1所述的基于运动特征和外观特征的视频目标检测方法,其特征在于,所述的步骤(3)中的运动特征提取网络Em可以是当前任何能够实现如下映射的神经网络:
Mn,fn=Em(A,An)
其中运动信息图fn可被用于如下的某相邻帧外观特征An向需要进行目标检测的目标帧外观特征A的空间对齐:
A′n=Align(An,fn)
其中空间对齐操作Align(·)可以是当前任何能够完成特征像素空间位置调整操作的映射。
4.根据权利要求1所述的基于运动特征和外观特征的视频目标检测方法,其特征在于,对视频目标检测网络进行训练的过程具体为:
计算置信度损失
Figure FDA0003577518930000021
与边框回归损失
Figure FDA0003577518930000022
将置信度预测结果C输入协同分类网络S,获得目标帧I是否含有感兴趣目标的预测可能性P;
根据目标帧I是否真实存在感兴趣目标的标签y*并结合协同分类网络输出的预测可能性P计算协同分类损失LCLS
利用上述计算得到的置信度损失
Figure FDA0003577518930000023
边框回归损失
Figure FDA0003577518930000024
以及协同分类损失LCLS优化视频目标检测网络。
5.根据权利要求4所述的基于运动特征和外观特征的视频目标检测方法,其特征在于,所述协同分类损失LCLS为一种二分类损失。
6.一种适用于权利要求1~5任一项所述的基于运动特征和外观特征的视频目标检测的域适应方法,其特征在于,具体包括如下步骤:
(1)将运动特征精炼网络Rm输出的运动空间注意力Attm与聚合特征Fagg进行哈达玛积获得优化后的聚合特征F’agg
(2)将视频目标检测网络中的聚合特征Fagg替换为优化后的聚合特征F’agg;对调整优化后的视频目标检测网络进行训练;再对训练好的视频目标检测网络进行测试。
7.根据权利要求6所述的基于运动特征和外观特征的视频目标检测的域适应方法,其特征在于,对调整优化后的视频目标检测网络进行训练的过程具体为:
对聚合特征F’agg进行对抗方式的域适应,计算获得对抗学习损失Ladv
利用置信度损失
Figure FDA0003577518930000025
边框回归损失
Figure FDA0003577518930000026
协同分类损失LCLS以及对抗学习损失Ladv训练调整优化后的视频目标检测网络,获得初步训练的视频目标检测网络;
将用于预测分类置信度C的特征在空间维度上完全拆解为实例级别特征,并根据是否对应感兴趣目标区域、分类置信度细分为包括分类置信度较高且对应感兴趣目标tp,分类置信度较高但对应背景fp,分类置信度较低且对应背景tn,分类置信度较低但对应感兴趣目标fn在内的类别;
以属于分类置信度较高且对应感兴趣目标tp和分类置信度较低且对应背景tn的实例特征分别构建有代表性的正原型特征Pp和负原型特征Pn
计算损失函数Lp,该函数是目前任意可拉近Pp与fn中实例特征距离并推远Pp与fp中实例特征距离的函数;
计算损失函数Ln,该函数是目前任意可拉近Pn与fp中实例特征距离并推远Pn与fn中实例特征距离的函数;
在初步训练的视频目标检测网络的基础上,通过置信度损失
Figure FDA0003577518930000031
边框回归损失
Figure FDA0003577518930000032
协同分类损失LCLS、对抗学习损失Ladv、损失函数Lp和损失函数Ln,对该模型进行进一步调优训练以获得最终的视频目标检测网络。
8.根据权利要求7所述的基于运动特征和外观特征的视频目标检测的域适应方法,其特征在于,所述对抗方式的域适应为一种基于梯度反转层GRL以及域分类任务的域适应方法。
9.一种电子设备,包括存储器和处理器,其中,所述存储器与所述处理器耦接;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现上述权利要求1-5任一项所述的基于运动特征和外观特征的视频目标检测方法和权利要求6-8任一项所述的基于运动特征和外观特征的视频目标检测的域适应方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-5任一项所述的基于运动特征和外观特征的视频目标检测方法和权利要求6-8任一项所述的基于运动特征和外观特征的视频目标检测的域适应方法。
CN202210347649.5A 2022-04-01 2022-04-01 基于运动特征和外观特征的视频目标检测及域适应方法 Pending CN114863249A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210347649.5A CN114863249A (zh) 2022-04-01 2022-04-01 基于运动特征和外观特征的视频目标检测及域适应方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210347649.5A CN114863249A (zh) 2022-04-01 2022-04-01 基于运动特征和外观特征的视频目标检测及域适应方法

Publications (1)

Publication Number Publication Date
CN114863249A true CN114863249A (zh) 2022-08-05

Family

ID=82630087

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210347649.5A Pending CN114863249A (zh) 2022-04-01 2022-04-01 基于运动特征和外观特征的视频目标检测及域适应方法

Country Status (1)

Country Link
CN (1) CN114863249A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116883907A (zh) * 2023-07-26 2023-10-13 中国信息通信研究院 基于帧间相关性的人工智能检测方法和系统

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116883907A (zh) * 2023-07-26 2023-10-13 中国信息通信研究院 基于帧间相关性的人工智能检测方法和系统

Similar Documents

Publication Publication Date Title
US11176381B2 (en) Video object segmentation by reference-guided mask propagation
Luo et al. Fire smoke detection algorithm based on motion characteristic and convolutional neural networks
CN110717411A (zh) 一种基于深层特征融合的行人重识别方法
CN111046821B (zh) 一种视频行为识别方法、系统及电子设备
CN111639564B (zh) 一种基于多注意力异构网络的视频行人重识别方法
CN112446342B (zh) 关键帧识别模型训练方法、识别方法及装置
CN110705412A (zh) 一种基于运动历史图像的视频目标检测方法
EP3249610B1 (en) A method, an apparatus and a computer program product for video object segmentation
CN113553954A (zh) 行为识别模型的训练方法及装置、设备、介质和程序产品
US9866894B2 (en) Method for annotating an object in a multimedia asset
CN112084887A (zh) 一种基于注意力机制的自适应视频分类方法及系统
Xi et al. Implicit motion-compensated network for unsupervised video object segmentation
CN114863249A (zh) 基于运动特征和外观特征的视频目标检测及域适应方法
Yang et al. Robust visual tracking using adaptive local appearance model for smart transportation
Qi et al. Dgrnet: A dual-level graph relation network for video object detection
CN117437426A (zh) 一种高密度代表性原型指引的半监督语义分割方法
CN112488072A (zh) 一种人脸样本集获取方法、系统及设备
CN117058595A (zh) 视频语义特征和可扩展粒度感知时序动作检测方法及装置
CN111242114A (zh) 文字识别方法及装置
CN113807218B (zh) 版面分析方法、装置、计算机设备和存储介质
CN115410131A (zh) 一种用于短视频智能分类的方法
CN113378598A (zh) 一种基于深度学习的动态条码检测方法
Peng et al. Pedestrian motion recognition via Conv‐VLAD integrated spatial‐temporal‐relational network
CN112668504A (zh) 动作识别方法、装置及电子设备
Gao et al. YOLO-TLA: An Efficient and Lightweight Small Object Detection Model based on YOLOv5

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination