CN114399697A - 一种基于运动前景的场景自适应目标检测方法 - Google Patents

一种基于运动前景的场景自适应目标检测方法 Download PDF

Info

Publication number
CN114399697A
CN114399697A CN202111416174.2A CN202111416174A CN114399697A CN 114399697 A CN114399697 A CN 114399697A CN 202111416174 A CN202111416174 A CN 202111416174A CN 114399697 A CN114399697 A CN 114399697A
Authority
CN
China
Prior art keywords
target
domain
source domain
frame
features
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111416174.2A
Other languages
English (en)
Other versions
CN114399697B (zh
Inventor
胡海苗
李明竹
张译丹
姜宏旭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beihang University
Original Assignee
Beihang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beihang University filed Critical Beihang University
Priority to CN202111416174.2A priority Critical patent/CN114399697B/zh
Priority claimed from CN202111416174.2A external-priority patent/CN114399697B/zh
Priority to PCT/CN2021/134085 priority patent/WO2023092582A1/en
Publication of CN114399697A publication Critical patent/CN114399697A/zh
Application granted granted Critical
Publication of CN114399697B publication Critical patent/CN114399697B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

随着深度学习技术的日益发展,真实环境下对模型泛化性能的要求日益提升,光照、背景等等差异对模型泛化性能的影响已经引起了广泛关注。本发明公开了一种基于运动前景的场景自适应目标检测方法。该方法通过利用运动前景与全局目标数据分布一致性的先验,有效利用了运动前景目标框,同时通过解码器进行实例特征相似度计算,极大程度了提升了模型在目标域的效果。实验结果表明,本发明所提供的方法在真实环境下目标检测效果得到大幅度提升。

Description

一种基于运动前景的场景自适应目标检测方法
技术领域
本发明涉及一种基于运动前景的场景自适应目标检测方法。
背景技术
在计算机视觉领域,目标检测是一个重要课题,他的任务是找到图像视频中的感兴趣区域,并确定其类别与位置。目前,众多基于深度学习的方法能够在基准数据集上取得良好效果,然而由于域差异的存在,即目标大小、摄像机角度、光照、背景环境发生改变时,该模型的效果均有不同程度的下降。在相同域上训练模型时解决此问题最简单有效的办法,即数据驱动式训练,然而一方面,人工标注数据集花费大量的人力物力,另一方面,很多实际领域并不能人工标注。由此,为了解决由于数据分布不同导致的模型泛化性能下降,基于域自适应的目标检测方法应运而生。
目前,基于域自适应的目标检测方法包括基于特征的、基于模型的等方法。其中最为经典的方法(DA-FasterRcnn)为,通过嵌套对抗训练模块,最小化特征图的领域差异,使得分类器无法区分候选框特征,后续相关算法都是基于此算法进行改进。另外还有一类算法通过对抗生成,实现像素级别的域对齐。
然而上述算法只考虑了分类方面的域差异,没有考虑回归上的域差异,导致其场景变换后效果不理想。另外,对于域差异较大图像,由于数据分布未知,在两阶段目标检测的一阶段提取候选区域RPN阶段,无法有效提取合适的候选框目标,在特征对齐时也无法判别哪些区域的特征需要对齐。
发明内容
本发明提出了一种基于运动前景的场景自适应目标检测方法,用以解决现有技术存在的上述技术问题。
根据本发明的一个方面,提供了一种基于运动前景的场景自适应目标检测方法,包括以下步骤:
A)获取源域数据集与目标域数据集,其中源域数据集包含源域RGB图像、目标检测人工标签、运动前景目标框标签,目标域数据集包含目标域RGB图像、运动前景目标框标签;
B)将源域数据集,目标域数据集输入特征提取模块分别获取源域特征与目标域域特征;
C)将步骤B)中获取的源域特征与实例域特征输入第一候选框前景框特征聚合模块,分别获得源域实例特征、目标域实例特征;
D)将步骤B)中获取的源域特征输入第二候选框前景框特征聚合模块,获得源域分类回归特征;
E)将步骤C)中获取的源域实例特征、目标域实例特征输入生成式相似性度量网络模块,计算损失,优化网络,降低域差异;
F)将步骤D)中获取的源域分类回归特征输入分类回归模块,计算损失,优化网络;
G)将步骤B)中获取的源域特征、目标域特征输入全局特征对齐网络模块,计算损失,优化网络;
其中,步骤A)中的运动前景目标框获取方式包括但不限于vibe、混合高斯背景消除、帧差、光流;
其中,步骤C)中的第一候选框前景框特征聚合模块包括,在训练过程中,将置信度较高的RPN候选框与运动前景目标框联合,样本均衡化后,进行源域实例特征与目标域实例特征提取;
其中,步骤D)中的第二候选框前景框特征聚合模块包括,在训练过程中,将运动前景目标框联合RPN候选框联合,进行源域分类回归特征的提取;
其中,步骤E)中的生成式相似性度量网络模块包括,在训练过程中,对提取到的源域实例特征和目标域实例特征,使用解码器重构实例特征获取解码特征,计算解码特征的相似度损失,实现实例特征对齐;
其中,步骤F)中的分类回归模块包括,在训练过程中,通过源域目标框真值标签计算源域数据集分类回归损失,从而保证源域目标检测准确性;
其中,步骤G)中的全局特征对齐网络模块包括,梯度反转层和分类器,从而实现图像层面特征对齐。
与现有技术相比,本发明具有以下有益效果:
本发明提出的一种基于运动前景的场景自适应目标检测方法,该方法通过有效利用运动前景的先验知识,同时使用解码器进行特征对齐,从而获得良好的检测效果,有效提升模型在新场景下的泛化性能。
附图说明
图1是根据本发明的一个实施例的基于运动前景的场景自适应目标检测方法的流程图;
图2是根据本发明的一个实施例的第一候选框前景框聚合模块的构造示意图;
图3是根据本发明的一个实施例的第二候选框前景框聚合模块的构造示意图;
图4是根据本发明的一个实施例的生成式相似性计量模块的构造示意图;
图5是根据本发明的一个实施例的全局特征对齐模块的构造示意图;
具体实施方式
图1的实施例中,源域数据集为
Figure BDA0003375832720000031
ns表示源域中真实样本数量,
Figure BDA0003375832720000032
表示源域中的样本i,
Figure BDA0003375832720000033
表示源域中样本i的目标框坐标值集合,
Figure BDA0003375832720000034
表示源域中第i个样本的目标类别。本具体实施例中只有行人单一类别,
Figure BDA0003375832720000035
表示源域中第i个样本的运动前景目标框坐标值集合,
Figure BDA0003375832720000036
集合内目标框数量与
Figure BDA0003375832720000037
集合内目标框数量不一致;目标域数据集用
Figure BDA0003375832720000038
表示,其中nT表示目标域中真实样本数量,
Figure BDA0003375832720000039
表示目标域中的样本i,
Figure BDA00033758327200000310
表示目标域中样本i中包含的运动前景目标框坐标值数据集。
根据本实施例的基于运动前景的场景自适应目标检测方法基于源域数据和目标域的运动前景数据对模型进行训练,使得模型在无目标域(T)标注数据集情况下也拥有良好的检测效果,其包括以下步骤:
A)把源域连续帧样本集合
Figure BDA00033758327200000311
和目标域连续帧样本集合
Figure BDA00033758327200000312
输入Vibe运动目标检测算法获取源域运动前景目标框和目标域运动前景目标框
Figure BDA00033758327200000313
(其中S代表源域,T代表目标域),因此源域数据集DS与目标域数据集DT被获取。
B)源域数据集DS与目标域数据集DT输入特征提取模块(S101),获取源域特征f1和目标域特征f2,本具体实施例中特征提取模块的主干网络为ResNet-101;
C)将源域特征f1、源域运动前景目标框
Figure BDA00033758327200000314
输入第一候选框前景框聚合模块PFA1(S112)得到源域实例特征pfs,将目标域特征f2和目标域运动前景目标框
Figure BDA00033758327200000315
输入候选框前景框聚合模块PFA1(S113),得到目标域实例特征pft;
D)将源域特征f1与运动前景目标框
Figure BDA00033758327200000316
输入第二候选框前景框聚合模块PFA2(S111),得到源域分类回归特征crs;
E)把源域分类回归特征crs输入分类回归模块(S121)。通过源域目标框真值标签计算源域数据集的分类回归损失,通过对源域数据集进行训练优化特征提取模块与分类回归模块网络权重;
F)把源域实例特征pfs和目标域实例特征pft输入生成式相似性计量模块GSM(S122),通过对源域数据集、目标域数据集进行训练,使得源域实例特征和目标域实例特征尽可能相似,优化特征提取模块和生成式相似性计量模块GSM的网络权重,进而提升模型的泛化性能;
G)将源域特征f1和目标域特征f2通过全局特征对齐模块GFA(S123);通过对源域数据集、目标域数据集进行训练,使得源域和目标域特征尽可能相似,优化特征提取模块、全局特征对齐模块GFA(梯度反转层层(GRL)与分类器)网络权重使源域特征f1和目标域特征f2的所属域无法被分辨出。
根据本发明的一个进一步的方面,如图2所示,所述第一候选框前景框聚合模块PFA1包括分别执行以下操作步骤的子模块:
步骤S201:把源域连续帧样本
Figure BDA00033758327200000317
和目标域连续帧样本
Figure BDA00033758327200000318
输入RPN网络(regionproposal network),生成正负候选框集合
Figure BDA00033758327200000319
其中
Figure BDA00033758327200000320
代表源域和目标域第i个图像样本的第j个候选框,C代表RPN网络生成的候选框的数量,本实施例中取值64,
Figure BDA0003375832720000041
表示源域中第i个图像样本,
Figure BDA0003375832720000042
表示目标域中第i个图像样本;
步骤S202:在本实施例中,把源域连续帧样本
Figure BDA0003375832720000043
和目标域连续帧样本
Figure BDA0003375832720000044
输入Vibe运动目标检测算法,分别获取源域运动前景目标框和目标域运动前景目标框
Figure BDA0003375832720000045
fbi为第i个图像样本的运动前景目标框集合;
步骤S211:选取正负候选框集合
Figure BDA0003375832720000046
中置信度大于预设的阈值TH的候选框,本实施例中TH取值0.7;
步骤S212:合并步骤S211得到的候选框与步骤S202获取的运动前景目标框
Figure BDA0003375832720000047
步骤S213:将步骤S212的输出输入样本均衡过滤器filter,获取源域PFA1候选框集合、目标域PFA1候选框集合
Figure BDA0003375832720000048
其中{bif}j代表数据集中第i个样本中第j个个PFA1候选框集合,f为标识符代表PFA1模块生成的候选框集合,S代表源域,T代表目标域,CSf,CTf分别代表源域中候选框与运动前景目标框的集合中框的个数与目标域中候选框与运动前景目标框的集合中框的个数,其中CSf=CTf
其中,样本均衡过滤器filter,设置固定样本数量f_num,本实施例中被设置为8,使源域(S)中的第i个样本与目标域(T)的第i个样本中PFA1候选框的数量保持一致,从而消除样本不均衡。
根据本发明的一个进一步的方面,如附图3所示,第二候选框前景框聚合模块PFA2包括分别进行如下操作的子模块:
步骤S301:将源域连续帧样本
Figure BDA0003375832720000049
通过RPN网络,生成源域正负候选区域集合
Figure BDA00033758327200000410
其中C为一个常量代表RPN网络生成的候选框的数量,本实施例中取值64,
Figure BDA00033758327200000411
为源域第i个样本的第j个候选框;
步骤S302:本实施例中,将源域连续帧样本
Figure BDA00033758327200000412
输入Vibe运动目标检测算法中,获取源域运动前景目标框
Figure BDA00033758327200000413
fbi为第i个图像样本的运动前景目标框集合;
步骤S311:叠加步骤S301中生成的源域正负候选区域集合
Figure BDA00033758327200000414
与步骤S302中生成的源域运动前景目标框
Figure BDA00033758327200000415
生成源域PFA2候选框集合
Figure BDA00033758327200000416
其中{bia}j代表第i个样本中第j个PFA2候选框集合,a为标识符代表PFA2模块生成的候选框集合,S代表源域,CSa源域中候选框与运动前景目标框的集合中框的个数.通过运动前景目标框的加入解决了两域在目标尺寸差异过大时无法生成准确的候选框的问题。
根据本发明的一个进一步的方面,在分类回归模块S121中,将源域特征f1与PFA2候选框集合
Figure BDA00033758327200000417
输入分类器与回归器对样本进行回归与分类,该部分损失函数如下:
Ldet=LRPN+LT
上式中,Ldet代表源域检测损失函数,由LRPN,LT两部分组成,LRPN是RPN损失函数,LT是二阶段分类回归损失函数;其中角标det代指分类回归模块的总损失函数名称,RPN代指二阶段目标检测框架的第一阶段RPN阶段的损失函数名称,T代指二阶段目标检测框架的第二阶段分类回归阶段的损失函数名称。本具体实施例中,分类损失使用交叉熵损失,回归损失使用均方误差(MSE)损失。
根据本发明的一个进一步的方面,如图4所示,生成式相似性计量模块GSM包括分别进行如下操作的子模块:
步骤S401:将PFA1模块生成的PFA1候选框集合
Figure BDA0003375832720000051
输入特征提取模块提取到的源域特征f1、目标域特征f2,生成源域实例特征fS和目标域实例特征fT
步骤S402:将源域实例特征fS和目标域实例特征fT输入自适应平均池化层输出池化特征fSs402,fTs402,其输出尺寸为8*8,通道数等于源域实例特征fS特征通道数;
步骤S403:将S402中的输出输入第一1*1卷积层,本实施例中通道数为1024,输出源域第一卷积层特征和目标域第一卷积层特征fSs403,fTs403
步骤S404:将S403中的输出输入第一上采样模块,该第一上采样模块由插值上采样层、卷积层、批标准化层等组成,上采样后的特征尺寸为16*16,本实施例中通道数为256,输出源域第一上采样特征和目标域第一上采样层特征fSs404,fTs404
步骤S405,将S404的输出输入第二上采样模块,上采样后特征尺寸为32*32,本实施例中通道数为256,输出源域第二上采样特征和目标域第二上采样层特征fSs405,fTs405
步骤S406,将S405的输出输入上采样模块3,上采样后特征尺寸为64*64,本实施例中通道数为256,输出源域第二上采样特征和目标域第二上采样层特征fSs406,fTs406
步骤S407,将S406中输出的特征输入第二1*1卷积层,生成特征的通道数为3,生成源域解码特征、目标域解码特征fSG,fTG
计算源域、目标域解码特征fSG,fTG的感知损失,得到损失Lins
Lins=E(G(S),G(T))
其中E为感知损失,是一种被用来衡量图像之间的相似性的损失函数;
Lins为源域解码特征、目标域解码特征fSG,fTG感知损失值,E为感知损失计算函数(该感知损失函数为已有技术),G(S),G(T)分别代指源域实例特征和目标域实例特征fS,fT经过步骤S402-S407(共享解码器G)生成的源域解码特征、目标域解码特征fSG,fTG。该方案可以有效衡量两域(源域和目标域)实例特征之间的相似性。通过对特征提取模块与生成式相似性计量模块GSM的训练,可以使源域实例特征和目标域的实例特征尽可能相似,保证了分类回归模块模块在目标域的准确性;同时解码器的使用增强了模型的泛化性能,降低模型过拟合的风险,减少模型训练失败率。
根据本发明的一个进一步的方面,如图5所示,全局特征对齐模块GFA包括分别进行如下操作的子模块:
步骤S501:获取上述步骤中生成的源域特征f1和目标域特征f2;
步骤S502:将源域特征f1,目标域特征f2输入梯度反转层GRL,常规反向传播中将损失(预测值和真实值的差距)逐层向前传递,每层网络根据传递损失计算梯度,进而更新本层网络的参数。GRL层将传到本层的误差取反,从而实现GRL前后的网络训练目标相反,以实现对抗的效果;
步骤S503:把源域特征f1,目标域特征f2输入分类器,以区分源域特征和目标域特征,该分类器包括卷积层、激活层,具体的分别执行步骤S511-S513的操作。
其中,全局特征对齐模块GFA的损失函数为分类器的损失函数Limg。本实施例中,Limg为交叉熵损失函数:
Figure BDA0003375832720000061
其中,N为源域和目标域所有样本数量的和,i为样本标号,yi为样本实际标签即属于源域还是目标域,pi为经过分类器后属于不同类别的概率。
在本发明的一个实施例中,最终的全局损失函数为:
L=Ldet1Lins2Limg
其中λ12为经验值,用于衡量三项损失对最终损失的贡献值,均取为1。
本发明的优点包括:
(1)本发明充分利用了运动前景这一先验,并将其很好的融入训练框架之中。通过使用FPA1候选框前景框聚合模块和FPA2两大候选框前景框聚合模块对RPN网络提取的候选框与运动前景目标框进行有效融合,使两类候选框相互补充相互影响,实现模型效果的优化。
(2)在进行实例特征对齐时,为了减少模型过拟合的风险,提升目标框回归准确率,本发明摒弃了已有的通过分类器进行特征对齐的方式,改用解码器降低过拟合,通过感知损失函数计算损失,极大程度了提升了模型在目标域的效果。
(3)在RPN网络提取的候选框与运动前景目标框融合中,通过样本均衡过滤器,有效的实现了样本均衡。
为了验证本发明方法的有效性和改进效果,本发明人进行了如下实验,其中,测试过程只需按照两阶段检测算法测试过程进行测试,因此在速度上与常规两阶段算法一致。通过在模型训练时添加部分组件,使得训练后的模型在源域与目标域中均能获取良好的效果。
该实验的测试实例所采用的源域数据集与目标域数据集均来自于真实场景,分别被命名为dml数据集与zn数据集,其中dml数据集为源域数据集,zn数据集为目标域数据集。
实验细节:在该实验中采用的参数与原始DA-FasterRcnn算法(经典域自适应检测算法)保持一致,骨干网络使用ResNet-50,骨干网络的初始化采用ImageNet的预训练权重。训练了70000张图片后,计算目标域的平均精度map。实验是基于PyTorch框架的,使用的硬件平台为:NVIDIAGTX-2080Ti。
表1为实验结果对比图,其中方法Da-FasterRcnn为经典域自适应检测算法,方法PFA1为在经典算法上添加第一候选框前景框聚合模块PFA1,即在RPN候选框的基础上融合运动前景目标框。可以看到,本发明方法显著提升了目标域的检测效果。
表1:域自适应检测结果
方法 map(%)
DA-FasterRcnn 27.45
PFA1 33.97
本发明方法 63.81

Claims (7)

1.一种基于运动前景的场景自适应目标检测方法,其基于源域数据和目标域的前景数据对模型进行训练,使得模型在目标域(T)上也拥有良好的检测效果,其特征在于包括如下步骤:
A)把源域连续帧样本集合和目标域连续帧样本集合输入运动目标检测算法,输出源域连续帧样本的运动前景目标框和目标域连续帧样本的运动前景目标框,与源域标注标签共同构成源域数据集与目标域数据集;
B)将源域数据集与目标域数据集输入特征提取模块获取源域特征和目标域特征;
C)将源域特征、目标域特征和运动前景目标框分别输入第一候选框前景框聚合模块(PFA1),得到源域实例特征和目标域实例特征;
D)将源域特征与源域运动前景目标框输入第二候选框前景框聚合模块(PFA2),得到源域分类回归特征;
E)把源域分类回归特征输入分类回归模块,与源域目标框真值标签计算损失,从而在源域上获取优化的检测效果;
F)把源域实例特征和目标域实例特征输入生成式相似性计量模块(GSM),使得源域实例特征和目标域实例特征尽可能相似并提升泛化性能,减少过拟合;
G)把源域特征和目标域特征输入全局特征对齐模块(GFA).,使图像特征对齐,从而使得源域特征和目标域特征的所属域无法被分辨出,
所述第一候选框前景框聚合模块(PFA1)包括分别进行如下操作的子模块:
步骤S201:把源域连续帧样本和目标域连续帧样本输入RPN网络,生成源域正负候选框集合和目标域正负候选框集合;
步骤S211:选取步骤S201中生成的源域正负候选框集合和目标域正负候选框集合中置信度大于预设的阈值TH的源域正负候选框和目标域正负候选框;
步骤S202:通过运动目标检测算法获取源域运动前景目标框和目标域运动前景目标框;
步骤S212:合并步骤S211得到的置信度大于预设的阈值TH的源域正负候选框和目标域正负候选框与步骤S202获取的源域运动前景目标框和目标域运动前景目标框,获取源域合并目标框与目标域合并目标框;
步骤S213:通过样本均衡过滤器,获取第一候选框前景框聚合模块(PFA1)的源域候选框和目标域候选框;
样本均衡过滤器通过复制或删除步骤S212中生成的源域合并目标框与目标域合并目标框,从而使源域(S)中的第i个样本包括的源域合并目标框与目标域(T)的第i个样本中包括的目标域合并目标框的数量保持一致,从而有效利用运动前景先验并消除样本不均衡。
所述第二候选框前景框聚合模块(PFA2)包括分别进行如下操作的子模块:
步骤S301:使源域连续帧样本通过RPN网络,生成源域正负候选框集合;
步骤S302:利用运动目标检测算法获取源域运动前景目标框;
步骤S311:叠加源域正负候选框集合与源域运动前景目标框,生成第二候选框前景框聚合模块(PFA2)的源域候选框集合,通过在源域正负候选框集合中加入源域运动前景目标框,解决源域与目标域的目标尺寸差异过大时模型无法生成好的候选目标框的问题;
生成式相似性计量模块(GSM)包括分别进行如下操作的子模块:
步骤S401:使用步骤S213中生成的第一候选框前景框聚合模块(PFA1)的源域候选框,截取源域特征中的源域实例特征;使用步骤S213中生成的第一候选框前景框聚合模块(PFA1)的目标域候选框,截取目标域特征中的目标域实例特征;
步骤S402:将源域实例特征和目标域实例特征输入自适应平均池化层,将源域实例特征和目标域实例特征的尺寸改变为8*8,通道数等于源域实例特征的通道数,输出源域池化层特征和目标域池化层特征;
步骤S403:将S402中获得的源域池化层特征和目标域池化层特征输入第一1*1卷积层,该第一1*1卷积层是一个1*1卷积层,输出源域第一卷积层特征和目标域第一卷积层特征;
步骤S404:将S403中获得的源域第一卷积层特征和目标域第一卷积层特征输入第一上采样模块,该第一上采样模块执行插值上采样、卷积和/或批标准化层操作,输出源域第一上采样层特征和目标域第一上采样层特征;
步骤S405,将步骤S404中第一上采样模块的输出输入第二上采样模块,该第二上采样模块执行插值上采样、卷积和/或批标准化层操作,输出源域第二上采样层特征和目标域第二上采样层特征;
步骤S406,将步骤S405中第二上采样模块的输出输入第三上采样模块,该第三上采样模块执行插值上采样、卷积和/或批标准化层操作,输出源域第三上采样层特征和目标域第三上采样层特征;
步骤S407,将步骤S406中第三上采样模块的输出输入第二1*1卷积层,该第二1*1卷积层是一个1*1卷积层,生成源域解码特征和目标域解码特征,源域解码特征和目标域解码特征的通道数为3,计算源域解码特征和目标域解码特征的感知损失,得到损失Lins
Lins=E(G(S),G(T))
其中:
Lins为源域解码特征和目标域解码特征的感知损失值,E为感知损失计算函数,G(S)代指源域实例特征经过步骤S402-S407生成的源域解码特征,G(T)代指目标域实例特征经过步骤S402-S407生成和目标域解码特征,
全局特征对齐模块包括分别进行如下操作的子模块:
步骤S501:获取源域特征和目标域特征;
步骤S502:将源域特征,目标域特征输入梯度反转层输出分类特征,梯度反转层将传到本层的误差取反,从而实现梯度反转层前后的网络训练目标相反,以实现对抗的效果,输出分类特征,
步骤S503:把上述分类特征输入分类器,以区分源域特征和目标域特征,该分类器包括第一分类器卷积层、第一分类器激活层、第二分类器卷积层;
其中:
梯度反转层在图像层面实现一定程度的特征对齐,全局特征对齐模块(GFA)的损失函数为分类器的损失函数。
2.根据权利要求1所述的基于运动前景的场景自适应目标检测方法,其特征在于:
所述步骤B)包括将源域连续帧样本和目标域连续帧样本输入作为特征提取网络的ResNet-101,而把获得的最后一层特征作为源域特征和目标域特征。
3.根据权利要求1所述的基于运动前景的场景自适应目标检测方法,其特征在于:
分类回归模块,使用步骤S311生成的第二候选框前景框聚合模块(PFA2)的源域候选框集合截取源域实例特征生成分类回归特征,接入分类回归模块第一卷积层对样本进行回归与分类,其中涉及到的损失函数包括:分类回归损失函数LT和RPN损失函数LRPN,源域目标检测算法损失函数Ldet为:
Ldet=LRPN+LT
上式中,LRPN,LT分别是RPN损失函数与分类回归损失函数;其中角标det代指分类回归模块的总损失函数,RPN代指二阶段目标检测框架的第一阶段RPN的损失函数,T代指二阶段目标检测框架的第二阶段分类回归阶段的损失函数名称。
4.根据权利要求1所述的基于运动前景的场景自适应目标检测方法,其特征在于:
全局特征对齐模块的损失函数Limg为交叉熵损失函数:
Figure FDA0003375832710000031
其中,N为源域和目标域所有样本数量,i为样本标号,yi为样本实际标签即属于源域还是目标域,pi为经过分类器后属于不同类别的概率。
5.根据权利要求4所述的基于运动前景的场景自适应目标检测方法,其特征在于:
全局损失函数为:
L=Ldet1Lins2Limg
其中λ12为经验值,用于衡量三项损失各自对最终损失的贡献值。
6.根据权利要求1所述的基于运动前景的场景自适应目标检测方法,其特征在于:
所述运动目标检测算法包括帧差法和/或背景消除法。
7.存储有计算机程序的计算机可读存储介质,该计算机程序能使处理器执行根据权利要求1-6之一所述的场景自适应目标检测方法。
CN202111416174.2A 2021-11-25 2021-11-25 一种基于运动前景的场景自适应目标检测方法 Active CN114399697B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111416174.2A CN114399697B (zh) 2021-11-25 一种基于运动前景的场景自适应目标检测方法
PCT/CN2021/134085 WO2023092582A1 (en) 2021-11-25 2021-11-29 A scene adaptive target detection method based on motion foreground

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111416174.2A CN114399697B (zh) 2021-11-25 一种基于运动前景的场景自适应目标检测方法

Publications (2)

Publication Number Publication Date
CN114399697A true CN114399697A (zh) 2022-04-26
CN114399697B CN114399697B (zh) 2024-11-19

Family

ID=

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115049870A (zh) * 2022-05-07 2022-09-13 电子科技大学 一种基于小样本的目标检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111339891A (zh) * 2020-02-20 2020-06-26 苏州浪潮智能科技有限公司 一种图像数据的目标检测方法及相关装置
US20200372660A1 (en) * 2019-05-21 2020-11-26 Beihang University Image salient object segmentation method and apparatus based on reciprocal attention between foreground and background
US20210056708A1 (en) * 2019-06-26 2021-02-25 Beijing Sensetime Technology Development Co., Ltd. Target detection and training for target detection network
CN113052184A (zh) * 2021-03-12 2021-06-29 电子科技大学 一种基于两阶段局部特征对齐的目标检测方法
CN113343989A (zh) * 2021-07-09 2021-09-03 中山大学 一种基于前景选择域自适应的目标检测方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200372660A1 (en) * 2019-05-21 2020-11-26 Beihang University Image salient object segmentation method and apparatus based on reciprocal attention between foreground and background
US20210056708A1 (en) * 2019-06-26 2021-02-25 Beijing Sensetime Technology Development Co., Ltd. Target detection and training for target detection network
CN111339891A (zh) * 2020-02-20 2020-06-26 苏州浪潮智能科技有限公司 一种图像数据的目标检测方法及相关装置
CN113052184A (zh) * 2021-03-12 2021-06-29 电子科技大学 一种基于两阶段局部特征对齐的目标检测方法
CN113343989A (zh) * 2021-07-09 2021-09-03 中山大学 一种基于前景选择域自适应的目标检测方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王露荻;解月江;: "基于域适应Faster RCNN的复杂背景目标检测", 航天控制, no. 01, 15 February 2020 (2020-02-15) *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115049870A (zh) * 2022-05-07 2022-09-13 电子科技大学 一种基于小样本的目标检测方法

Also Published As

Publication number Publication date
WO2023092582A1 (en) 2023-06-01

Similar Documents

Publication Publication Date Title
Sindagi et al. Cnn-based cascaded multi-task learning of high-level prior and density estimation for crowd counting
CN107529650B (zh) 闭环检测方法、装置及计算机设备
CN111652317B (zh) 基于贝叶斯深度学习的超参数图像分割方法
WO2023077821A1 (zh) 基于多清晰度集成自训练的小样本低质量图像目标检测方法
CN111462012A (zh) 一种基于条件生成对抗网络的sar图像仿真方法
Yuan et al. Neighborloss: a loss function considering spatial correlation for semantic segmentation of remote sensing image
Jia et al. Effective meta-attention dehazing networks for vision-based outdoor industrial systems
CN109740677A (zh) 一种基于主成分分析改进生成对抗网络的半监督分类方法
Cenggoro et al. Feature pyramid networks for crowd counting
CN113743474A (zh) 基于协同半监督卷积神经网络的数字图片分类方法与系统
Pan et al. ChebyLighter: Optimal Curve Estimation for Low-light Image Enhancement
CN114372523A (zh) 一种基于证据深度学习的双目匹配不确定性估计方法
CN116563146A (zh) 基于可学习曲率图的图像增强方法与系统
CN115862119A (zh) 基于注意力机制的人脸年龄估计方法及装置
CN115223033A (zh) 一种合成孔径声呐图像目标分类方法及系统
CN113158904B (zh) 一种基于双掩膜模板更新的孪生网络目标跟踪方法及装置
JP7294275B2 (ja) 画像処理装置、画像処理プログラムおよび画像処理方法
Oszust A regression-based family of measures for full-reference image quality assessment
CN114399697A (zh) 一种基于运动前景的场景自适应目标检测方法
CN114399697B (zh) 一种基于运动前景的场景自适应目标检测方法
WO2021217653A1 (zh) 视频插帧方法及装置、计算机可读存储介质
Celona et al. CNN-based image quality assessment of consumer photographs
CN114998605B (zh) 一种恶劣成像条件下图像增强引导的目标检测方法
CN115170809B (zh) 图像分割模型训练、图像分割方法、装置、设备及介质
Zhao et al. Overlapping region reconstruction in nuclei image segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant