CN110704666B

CN110704666B - 一种提升跨视角车辆精确检索的方法及系统

Info

Publication number: CN110704666B
Application number: CN201910818526.3A
Authority: CN
Inventors: 段凌宇; 白燕; 楼燚航
Original assignee: Peking University
Current assignee: Peking University
Priority date: 2019-08-30
Filing date: 2019-08-30
Publication date: 2022-06-03
Anticipated expiration: 2039-08-30
Also published as: CN110704666A

Abstract

本发明涉及计算机视觉领域，特别涉及一种提升跨视角车辆精确检索的方法及系统。包括将某一视角图片输入训练好的对抗网络生成器的该视角的图片输入端，生成另一视角图片；将原视角图片和生成的另一视角图片输入到训练好的度量网络中，获得原视角图片的特征和另一视角的图片的特征，将原视角图片的特征和另一视角的图片的特征拼接为级联特征，计算级联特征和数据库中参考车辆图片的特征距离，排列展示距离最近的若干查询目标。本发明提出了一个特征距离对抗网络(FDA‑Net)，在度量空间设计了一种新的特征距离对抗方案。

Description

一种提升跨视角车辆精确检索的方法及系统

技术领域

本发明涉及计算机视觉领域，特别涉及一种提升跨视角车辆精确检索的方法及系统。

背景技术

车辆重识别(ReID)旨在从大型车辆数据库中检索查询车辆的图片，这对城市安全和城市管理具有重要意义。比较直接的方法是通过识别车牌来识别车辆。然而，在许多情况下，车牌不能被清晰地获取，有时甚至被移除、遮挡或伪造。这导致对基于视觉外观的车辆ReID技术的需求呈指数增长。深度学习和现有注释数据集的发展极大地促进了车辆ReID研究。可是在实际应用中，视角、背景和光照等方面的多样性，给车辆ReID模型带来了巨大挑战。

一个阻碍车辆ReID性能改进的主要问题是视角变化。例如,只给出前视角来识别相应的后视点图片，反之亦然，这对ReID方法的视角转换能力提出了挑战。

发明内容

本发明实施例提供了一种提升跨视角车辆精确检索的方法及系统。提出了一个特征距离对抗网络(FDA-Net)，在度量空间设计了一种新的特征距离对抗方案。

根据本发明实施例的第一方面，一种提升跨视角车辆精确检索的方法，包括：

将原视角图片输入训练好的对抗网络生成器的该视角的图片输入端，生成另一视角图片；

将原视角图片和生成的另一视角图片输入到训练好的度量网络中，获得原视角图片的特征和另一视角图片的特征，将原视角图片的特征和另一视角图片的特征拼接为级联特征，

计算级联特征和数据库中参考车辆图片的特征距离，排列展示距离最近的若干查询目标；

所述对抗网络和度量网络的训练包括：

将a视角样本x_a输入对抗网络的b视角的生成器G_B得到G_B(x_a)；

固定度量判别器D，将G_B(x_a)和x_a输入到度量网络得到b视角生成损失函数L_{GB_ed}；

根据损失函数L_{GB_ed}最小化，更新对抗网络的b视角的生成器G_B；

将a视角样本x_a输入对抗网络的b视角的生成器G_B得到G_B(x_a)；

固定对抗网络的b视角的生成器G_B，将G_B(x_a)和x_a输入到度量网络计算度量损失函数L_{DB_ed}；

通过损失函数L_{DB_ed}最小化，更新度量判别器D；

将b视角样本x_b输入对抗网络的a视角的生成器G_A得到G_A(x_b)；

固定度量判别器D，将x_b和G_A(x_b)输入到度量网络得到a视角生成损失函数L_{GA_ed}；

通过损失函数L_{GA_ed}最小化，更新对抗网络的a视角的生成器G_A；

将b视角样本x_b输入对抗网络的a视角的生成器G_A得到G_A(x_b)；

固定对抗网络的a视角的生成器G_A，将x_b和G_A(x_b)输入到度量网络计算度量损失函数L_{DA_ed}；

通过损失函数L_{DA_ed}最小化，更新度量判别器D；

将x_b和G_B(x_a)输入到对抗网络的b视角判别器D_B，将x_a和G_A(x_b)输入到对抗网络的a视角判别器D_A，

固定对抗网络的a视角的生成器G_A，计算对抗网络的a视角判别器D_A的损失函数L(G_A，D_A，B，A)，通过损失函数L(G_A，D_A，B，A)最大化更新对抗网络的a视角判别器D_A；

固定对抗网络的b视角的生成器G_B，计算对抗网络的b视角判别器D_B损失函数L(G_B，D_B，A，B)，通过损失函数L(G_B，D_B，A，B)最大化更新对抗网络的b视角判别器D_B；

固定对抗网络的a视角的判别器D_A，计算对抗网络的a视角判别器D_A的损失函数L(G_A，D_A，B，A)，通过损失函数L(G_A，D_A，B，A)最小化更新对抗网络的a视角生成器G_A；

固定对抗网络的b视角的判别器D_B，计算对抗网络的b视角判别器D_B损失函数L(G_B，D_B，A，B)，通过损失函数L(G_B，D_B，A，B)最小化更新对抗网络的b视角生成器G_B；

计算循环一致性损失函数L_cyc，通过损失函数L_cyc最小化，更新对抗网络的a视角生成器G_A和对抗网络的b视角生成器G_B；

返回继续训练，直至所有损失函数均减低到阈值或者迭代次数达到要求；

所述循环一致性损失函数L_cyc，计算方法为：

其中，G_A(G_B(x_a))为将G_B(x_a)输入a视角的生成器G_A生成的图片，G_B(G_A(x_b))为将G_A(x_b)输入b视角的生成器G_B生成的图片；

为2范数；

所述b视角生成损失函数L_{GB_ed}，计算方法为：

其中，x_a为给定图片，G_B(x_a)为将x_a输入到b视角生成器，得到的图片，

为对于x_a～pdata(x_a)的期望值，d(*)为度量判别器生成的特征之间的距离，

为a视角负样本，即属于与x不同的类的样本；α是控制正样本和负样本之间边界的标量；

所述a视角生成损失函数L_{GA_ed}，计算方法为：

其中，x_b为给定图片，G_A(x_b)为将x_b输入到a视角生成器，得到的图片，

为对于x_b～pdata(x_b)的期望值，d(*)为度量判别器生成的特征之间的距离，

为b视角负样本，即属于与x不同的类的样本；α是控制正样本和负样本之间边界的标量；

所述a视角判别器D_A的损失函数L(G_A，D_A，B，A)，计算方法为：

其中，A为a视角图片集合，B为b视角图片集合，

为对于x_a～pdata(x_a)的期望值，D_A(x_a)为a视角的图片输入判别器判别a视角判别器D_A(*)的图片，D_A(G_A(x_b))为G_A(x_b)输入判别器判别a视角判别器D_A(*)的图片；

所述b视角判别器D_B损失函数L(G_B，D_B，A，B)，计算方法为：

其中，A为a视角图片集合，B为b视角图片集合，

为对于x_b～pdata(x_b)的期望值，D_B(x_b)为b视角的图片输入判别器判别b视角判别器D_B(*)的图片，D_B(G_B(x_a))为G_B(x_a)输入判别器判别b视角判别器D_B(*)的图片。

一种提升跨视角车辆精确检索的系统，包括：

包括对抗网络模块、度量网络模块、特征计算模块，

对抗网络模块包括两个生成器、两个判别器，用以将某一视角图片输入训练好的对抗网络的该视角的图片生成器，生成另一视角图片；

度量网络模块包括度量判别器，用以将原视角图片和生成的另一视角图片输入，获得原视角图片的特征和另一视角图片的特征；

特征计算模块用以将原视角图片的特征和另一视角图片的特征拼接为级联特征，计算级联特征和数据库中参考车辆图片的特征距离，排列展示距离最近的若干查询目标；

所述对抗网络模块和度量网络模块的训练包括：

将a视角样本x_a输入对抗网络的b视角的生成器G_B得到G_B(x_a)；

通过损失函数L_{DB_ed}最小化，更新度量判别器D；

将b视角样本x_b输入对抗网络的a视角的生成器G_A得到G_A(x_b)；

通过损失函数L_{DA_ed}最小化，更新度量判别器D；

所述循环一致性损失函数L_cyc，计算方法为：

为2范数；

所述b视角生成损失函数L_{GB_ed}，计算方法为：

所述a视角生成损失函数L_{GA_ed}，计算方法为：

其中，A为a视角图片集合，B为b视角图片集合，

所述b视角判别器D_B损失函数L(G_B，D_B，A，B)，计算方法为：

其中，A为a视角图片集合，B为b视角图片集合，

本发明实施例提供的技术方案可以包括以下有益效果：

利用特征距离对抗学习进行跨视角样本生成，基于生成的跨视角样本生成的特征和原始样本的特征级联，能更好的抵抗车辆视角对特征检索的影响，从而提升目标检索的性能；

生成器从视觉外观和特征距离的角度在线生成跨视角样本来提升跨视角车辆精确检索的任务。对生成器施加相似性约束以使生成的跨视角样本在视觉上与真实输入相似，并保持相同的车辆ID约束。此外，车辆ReID的特征表示模型(特征提取器)无缝耦合到FDA-Net作为度量判别器，并可以实现端到端优化。随着对抗训练的进行，生成的跨视角样本越来越逼近车辆的真实跨视角图片。在车辆真正搜索阶段，生成查询车辆的跨视角样本，辅助查询样本召回在数据库中的相同身份的样本。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本发明提供了一种提升跨视角车辆精确检索的方法流程图；

图2是本发明的车辆检索结果对比的示意图；

图3是本发明的一种提升跨视角车辆精确检索的系统结构框图。

具体实施方式

实施例一

视角变化是影响ReID性能的另一个重要因素。在度量对抗性学习的基础上，提出了基于跨视角生成的车辆特征匹配问题。更具体地说，在ReID中，为每个输入的车辆图片生成一个额外的跨视角车辆图片，以实现融合的特征表示。跨视角生成是一个域转移问题(从视角A→B或者B→A)。CycleGAN关于域转移的代表性工作，但是CycleGAN转移视角，不能保证ID的身份相同。因此，我们利用特征距离对抗学习来解决CycleGAN在实例级视角转移中的局限性。

如图1所示，本发明提供了一种提升跨视角车辆精确检索的方法，包括：

将某一视角图片输入训练好的对抗网络的该视角图片的输入端，生成另一视角的图片；

将原视角图片(即所述的“某一视角”)和生成的另一视角的图片输入到训练好的度量网络中，获得原视角图片的特征和另一视角的图片的特征，用于提取图片的特征和输入图片的特征拼接到一起形成级联特征，

计算级联特征和数据库中参考车辆图片的特征算余弦距离，然后倒序排序寻找最佳的查询目标。

优选的，对于度量网络和对抗网络的训练，包括

训练样本包括

和

其中x_a∈A和x_b∈B，N为样本的个数，A为a视角的样本的集合，B为b视角样本的集合；

将某一个视角的训练样本，例如A样本集合，将x_a输入到b视角生成器，得到G_B(x_a)，

固定度量判别器D，将G_B(x_a)和x_a输入到度量网络，其中度量距离约束可以表示为：

为对于x_a～pdata(x_a)的期望值，d(*)为度量判别器生成的特征之间的距离，可以为欧式距离，

固定度量判别器，将G_B(x_a)和x_a输入到度量网络得到b视角生成损失函数L_{GB_ed}；根据损失L_{GB_ed}最小化，更新生成器G_B；

将a视角样本x_a输入b视角的生成器G_B得到G_B(x_a)；

固定b视角的生成器G_B，将G_B(x_a)和x_a输入到度量网络计算度量损失函数L_{DB_ed}；

相比之下，度量判别器D试图推动G_B(x_a)远离x_a的距离。因此，D的度量损失为：

其中，

为对于x_a～pdata(x_a)的期望值，d(*)为度量判别器生成的特征之间的距离，可以为欧式距离，x^p为正样本，即属于与x相同的类的样本，α是控制正样本和负样本之间边界的标量；

固定生成器参数，通过L_{D_ed}最小化，更新度量判别器D；

同样的，将x_b输入到a视角生成器G_A，得到G_A(x_b)，

固定度量判别器D，将G_A(x_b)和x_b输入到度量网络，其中度量距离约束可以表示为：

为对于x_b～pdata(x_b)的期望值，d(*)为度量判别器生成的特征之间的距离，可以为欧式距离，

根据损失L_{GA_ed}最小化，更新生成器G_A；

将b视角样本x_b输入a视角的生成器G_A得到G_A(x_b)；

固定a视角的生成器G_A，将x_b和G_A(x_b)输入到度量网络计算度量损失函数L_{DA_ed}；

相比之下，度量判别器D试图推动G_A(x_b)远离x_b的距离。因此，D的度量损失为：

其中，

为对于x_b～pdata(x_b)的期望值，d(*)为度量判别器生成的特征之间的距离，可以为欧式距离，x^p为正样本，即属于与x相同的类的样本，α是控制正样本和负样本之间边界的标量；

通过L_{DA_ed}最小化，更新度量判别器参数D；

固定a视角的生成器G_A，计算a视角判别器D_A的损失函数L(G_A，D_A，B，A)，通过损失函数L(G_A，D_A，B，A)最大化更新D_A；

D_A的损失为：

其中，G_A(x_b)为输入b视角图片x_b输入生成器生成的图片，A为a视角图片集合，B为b视角图片集合，

通过损失函数L(G_A，D_A，B，A)最大化，更新D_A，

固定b视角的生成器G_B，计算b视角判别器D_B损失函数L(G_B，D_B，A，B)，

D_B的损失为：

其中，A为a视角图片集合，B为b视角图片集合，

为对于x_b～pdata(x_b)的期望值，D_B(x_b)为b视角的图片输入判别器判别b视角判别器D_B(*)的图片，D_B(G_B(x_a))为G_B(x_a)输入判别器判别b视角判别器D_B(*)的图片；

通过损失函数L(G_B，D_B，A，B)最大化，更新D_B；

因此，在跨视角图片生成学习中，对生成器G_B和生成器G_A进行优化的最终损失函数可以表示为：

所述a视角生成器最终损失函数L_GA为

L_GA＝L_view+λ_cycL_cyc+λ_edL_{DA_ed}

b视角生成器最终损失函数L_GB为

L_GB＝L_view+λ_cycL_cyc+λ_edL_{DB_ed}

L_D＝-L_view+λ_edL_{D_ed}

其中，对抗性损失函数可以表示为：

L_view＝L(G_B，D_B，A，B)+L(G_A，D_A，B，A)

L_cyc为循环一致性损失，以提高映射的稳定性。λ_ed和λ_cyc超参数平衡的目标。

为2范数。

计算循环一致性损失L_cyc，通过损失L_cyc最小化，更新G_A和G_B；

返回继续更新，直至所有损失函数均减低到阈值或者迭代次数达到要求。

实施例二

本发明一种提升跨视角车辆精确检索的方法，包括

将特征距离对抗学习方法扩展到跨视角对抗性学习中，包括特征距离对抗性学习和前后对抗性学习，以提高跨视角车辆图片生成的质量。给定一个输入车辆图片x，跨视角生成的目的是产生一个跨视角样本G(x)并且保持相同的身份与给定输入x。我们考虑两个方向，前方和后方，学习他们之间的映射函数，因为大多数监控摄像头捕获车辆的前方和后方的视角。因此，训练样本包括

和

其中x_a∈A和x_b∈B，N为样本的个数，A为a视角的样本的集合，B为b视角样本的集合。

我们施加额外的特征距离约束基于对抗学习来生成的图片跨视角G(x)接近输入x在约束在度量空间中a。给定图片x∈{A，B}，G(x)的度量距离约束可以表示为：

L_{G_ed}＝E_x～pdata(x)max{(d(x-G(x))+a-d(x，xⁿ)，0)}

其中，x为给定图片，G(x)为生成器生成的图片，E_x～pdata(x)(*)为对于x～pdata(x)的期望值，d(*)为距离，可以为欧式距离，xⁿ为负样本，即属于与x不同的类的样本；

相比之下，度量判别器D试图推动G(x)远离x_a的距离。因此，D的度量损失为：

L_{D_ed}＝E_x～pdata(x)max{(d(x，x^p)+α-d(x，G(x))，0)}

其中，E_x～pdata(x)(*)为对于x～pdata(x)的期望值，d(*)为距离，可以为欧式距离，x^p为正样本，即属于与x相同的类的样本，α是控制正样本和负样本之间边界的标量；

另一种前后对抗损失用于指导跨视角生成，它试图确定生成的样本是真实的前视角还是真实的后视角。目标函数可以表示为：度量判别器D试图推动G(x)远离x_a的距离。因此，D的度量损失为：

其中，A为a视角图片集合，B为b视角图片集合，

其中，G_A(x_b)为将x_b输入到a视角生成器得到的图片，A为a视角图片集合，B为b视角图片集合，

其中的目标是最小化目标，而对抗的D_B是最大化目标。目标函数G_B：B→A和判别器函数D_A。因此，对抗性损失函数可以表示为：

L_view＝L(G_B，D_B，A，B)+L(G_A，D_A，B，A)

因此，在跨视角图片生成学习中，对生成器G_B和判别器G_A进行优化的最终损失函数可以表示为：

L_G＝L_view+λL_cyc+λ_edL_{D_ed}

L_D＝-L_view+λ_edL_{D_ed}

其中L_cyc为循环一致性损失，以提高映射的稳定性。λ_ed和λ_cyc超参数平衡的目标。

为2范数。

深度对抗网络训练步骤，所述训练步骤包括一个样本的图片数据通过具有某种特定结构性质的深度对抗网络的生成器生成一个跨视角的样本，使得该样本在高维空间中与输入的图片尽可能接近。

生成的跨视角样本用于提取图片的特征和输入图片的特征拼接到一起形成级联特征，然后在欧式空间计算多张图片的欧氏距离，通过排序实现目标精确检索的目标；

a)在训练生成器阶段，将输入的图片用生成器生成一张与其对应的跨视角图片，并将该跨视角样本和输入图片再输入到度量判别器中，计算相似度约束，调整生成器参数；

b)在训练度量判别器阶段，使用真实车辆重识别训练数据集进行训练。

约束生成的跨视角样本与给定输入样本尽可能保持在特征空间中接近。

训练度量判别器时，使用的损失函数旨在为一个更具有判别力的度量空间，可使用softmax，triplet等损失，不对目标损失函数进行限制。

如图2所示，为本发明的车辆检索结果对比的示意图。在车辆检索阶段，对查询图片和数据库中的参考图片，都进行跨视角样本生成。每个图片的特征，由两部分拼接级联构成，一部分是原始图片从特征网络(度量判别器)提取的特征，另一部分是跨视角生成的样本从特征网络提取的特征。

如图3所示，本发明一种提升跨视角车辆精确检索的系统，包括对抗网络模块、度量网络模块、特征计算模块，

度量网络模块包括度量判别器，用以将原视角图片和生成的另一视角图片输入，获得原视角图片的特征和另一视角的图片的特征；

特征计算模块用以将原视角图片的特征和另一视角的图片的特征拼接为级联特征，计算级联特征和数据库中参考车辆图片的特征距离，排列展示距离最近的若干查询目标。

对抗网络模块和度量网络模块的训练包括：

训练样本包括

和

固定度量判别器，将G_B(x_a)和x_a输入到度量网络得到b视角生成损失函数L_{GB_ed}；根据损失L_{GB_e}d最小化，更新生成器G_B；

将a视角样本x_a输入b视角的生成器G_B得到G_B(x_a)；

其中，

固定生成器参数，通过L_{D_ed}最小化，更新度量判别器D；

同样的，将x_b输入到a视角生成器G_A，得到G_A(x_b)，

根据损失L_{GA_ed}最小化，更新生成器G_A；

将b视角样本x_b输入a视角的生成器G_A得到G_A(x_b)；

其中，

通过L_{DA_ed}最小化，更新度量判别器参数D；

D_A的损失为：

通过损失函数L(G_A，D_A，B，A)最大化，更新D_A，

D_B的损失为：

其中，A为a视角图片集合，B为b视角图片集合，

通过损失函数L(G_B，D_B，A，B)最大化，更新D_B；

所述a视角生成器最终损失函数L_GA为

L_GA＝L_view+λ_cycL_cyc+λ_edL_{DA_ed}

b视角生成器最终损失函数L_GB为

L_GB＝L_view+λ_cycL_cyc+λ_edL_{DB_ed}

L_D＝-L_view+λ_edL_{D_ed}

其中，对抗性损失函数可以表示为：

L_view＝L(G_B，D_B，A，B)+L(G_A，D_A，B，A)

为2范数。

计算循环一致性损失L_cyc，通过损失L_cyc最小化，更新G_A和G_B。

返回继续训练，直至所有损失函数均减低到阈值或者迭代次数达到要求。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。