CN112800898A

CN112800898A - 行人重识别数据集增强方法、系统、终端、摄像头及介质

Info

Publication number: CN112800898A
Application number: CN202110065005.2A
Authority: CN
Inventors: 廖伟; 石珺; 李志鹏; 廖勇; 杨阳朝; 易勇
Original assignee: Shenzhen Wanglian Anrui Network Technology Co ltd
Current assignee: Shenzhen Wanglian Anrui Network Technology Co ltd
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-05-14

Abstract

本发明开一种行人重识别数据集增强方法、系统、终端、摄像头及介质，涉及图像处理技术领域。用于网络输入三张行人图片，分别使用外貌编码器和结构编码器进行编码，得到外貌编码和结构编码；使用E_s编码器对x_i进行编码，得到结构编码C_s ⁱ；使用E_a编码器对x_k进行编码，得到x_k的外貌编码C_a ^k，鉴别器D₁和D₂的判断；重复迭代得到最优生成器；利用训练好的最优生成器生成行人数据集，输入三张行人图片，交叉生成不同的外貌的行人图片，还交叉生成同一行人ID不同姿态、背景、光照、角度的行人图片。本发明降低行人重识别数据集采集及标注成本，丰富行人重识别数据集的多样性，助力行人重识别技术发展。

Description

行人重识别数据集增强方法、系统、终端、摄像头及介质

技术领域

本发明公开涉及图像处理技术领域，尤其涉及一种行人重识别数据集增强方法、系统、终端、摄像头及介质。

背景技术

目前，几何变换包括翻转，旋转，裁剪，变形，缩放等增强方法；常见的颜色变换包括噪声、模糊、颜色变换、擦除、填充等增强方法；合成、拼接增强方法；基于动作预测的生成类增强方法。

现有技术的缺陷为：

几何变换、颜色变换、合成常用方法不适合用于行人重识别数据增强；基于动作预测的生产类方法生成的样本多样性不足，例如行人外表、衣着、装饰、姿态、背景、光照、角度等方面的缺失。

通过上述分析，现有技术存在的问题及缺陷为:

由于现有行人重识别数据集普遍偏小，多样性不足，不能满足深度神经网络训练要求，数据集过小，训练容易过拟合，数据集多样性不足，模型鲁棒性不高。

几何变换、颜色变换、合成等常用数据增强方法不适用于行人重识别数据集的增强。

基于动作预测的生产类方法生成的样本多样性不足，如行人外表、衣着、装饰、姿态、背景、光照、角度等方面的缺失。

难于生成清晰的样本图像。

加大行人数据采集力度，由于行人重识别数据集采集及标注难度较高，对人物、器材、场景需求非常大，直接采集扩充数据集非常困难，耗费巨大。

解决以上问题及缺陷的难度为：

需要保证行人ID不变的情况下，扩充该行人ID的多样性，包括行人外表、衣着、装饰、姿态、背景、光照、角度等。

生成对抗网络训练不稳定，训练自由度太大，生成器和判别器很容易陷入不正常的对抗。

需要预先采集一定量的数据集，用于模型训练。

解决以上问题及缺陷的意义为：

只需要预先采集少量的数据，然后通过本发明的方法就能扩充大量的数据，可以节省大量的人工成本、时间成本和物资成本。

扩充大量的行人重识别数据集，有助于行人重识别技术的发展。

发明内容

为克服相关技术中存在的问题，本发明公开实施例提供一种行人重识别数据集增强方法、系统、终端、摄像头及介质。所述技术方案如下：

根据本发明公开实施例的第一方面，提供一种基于生成对抗网络的行人重识别数据集增强方法，应用于数据信息处理终端，所述基于生成对抗网络的行人重识别数据集增强方法包括：

利用训练好的最优生成器G生成行人数据集，输入多张行人图片，交叉生成不同的外貌的行人图片；同时还交叉生成同一行人ID不同姿态、背景、光照、角度的行人图片；所述行人图片包括衣着、装饰。

优选地，所述最优生成器G生成方法包括：

第一步，网络输入三张行人图片分别为x_i、x_j、x_k，其中x_j与x_k是同一行人在不同场景或不同时段采集的图片，分别使用外貌编码器E_a和结构编码器E_s对x_j进行编码，得到外貌编码C_a ^j和结构编码C_s ^j；E_a外貌编码器是ImageNet上预训练的ResNet50，移除全局平均池化层和全连接层后，加一个自适应max-pool，输出的外貌code的size为2048*1；E_s结构编码器是一个比较浅的网络，输出的结构code为128*64*32，由四个卷积层后跟四个残差块组成；

第二步，使用第一步中的E_s编码器对x_i进行编码，得到结构编码C_s ⁱ；

第三步，使用第一步中的中的E_a编码器对x_k进行编码，得到x_k的外貌编码C_a ^k；

第四步，通过第一步～第三步生成对抗网络中生成器G，还需进行两个鉴别器D₁和D₂的判断；

第五步，重复迭代以上第一步～第四步，得到最优生成器G。

优选地，所述第一步得到外貌编码C_a ^j和结构编码C_s ^j后，再利用外貌编码C_a ^j和结构编码C_s ^j重构自身图像x_j’，对于这个重构过程，使用简单的像素级L1损失：

L_j＝E[||x_j-G(C_a ^j,C_s ^j)||₁]

优选地，所述第二步得到结构编码C_s ⁱ后，再利用x_j的外貌编码C_a ^j和结构编码C_s ⁱ重构图像x_i’，也是使用简单的像素级L1损失：

L_i＝E[||x_i-G(C_a ^j,C_s ⁱ)||₁]

优选地，所述第三步得到x_k的外貌编码C_a ^k后，再利用第一步中x_j的结构编码C_s ^j和结构编码C_a ^k重构图像x_k’，也是使用简单的像素级L1损失：

L_k＝E[||x_j-G(C_a ^k,C_s ^j)||₁]

所述第四步的D₁鉴别器用以真假判断，由对抗损失监督，优化外貌编码器E_a、结构编码器E_s和生成器，对抗损失函数：

L_D1＝E[logD₁(x_j)+log(1-D₁(G(C_a ^j,C_s ^j))]

D₂鉴别器用以类别判断，判断生成图片x_n’以及输入图片对应生成图片的类别，D₂模型优化时还进行优化生成器，使用分类损失：

L_D2＝E[logD₂(x_k)+log(1-D₂(G(C_a ^k,C_s ^j))]

总优化目标：

L_total(E_a,E_s,G,D₁,D₂)＝λ_iL_i+λ_jL_j+λ_kL_k+λ_D1L_D1+λ_D1L_D2

λ_i、λ_j、λ_k、λ_D1、λ_D1是控制各种loss之间联系的权重。

根据本发明公开实施例的第二方面，提供一种基于生成对抗网络的行人重识别数据集增强系统，应用于所述基于生成对抗网络的行人重识别数据集增强系统包括：

自身图像重构模块，用于网络输入三张行人图片分别为x_i、x_j、x_k，其中x_j与x_k是同一行人在不同场景或不同时段采集的图片，分别使用外貌编码器E_a和结构编码器E_s对x_j进行编码，得到外貌编码C_a ^j和结构编码C_s ^j，然后利用外貌编码C_a ^j和结构编码C_s ^j重构自身图像x_j’；

结构编码重构图像模块，用于使用E_s编码器对x_i进行编码，得到结构编码C_s ⁱ，然后利用x_j的外貌编码C_a ^j和结构编码C_s ⁱ重构图像x_i’；

外貌编码重构图像模块，用于使用E_a编码器对x_k进行编码，得到x_k的外貌编码C_a ^k，然后利用第S101步中x_j的结构编码C_s ^j和结构编码C_a ^k重构图像x_k’；

鉴别器判读模块，用于鉴别器D₁和D₂的判断；

最优生成器生成模块，用于重复迭代自身图像重构模块、结构编码重构图像模块、外貌编码重构图像模块、鉴别器判读模块运行程序，得到最优生成器G；

行人图片获取模块，用于利用训练好的最优生成器G生成行人数据集，输入三张行人图片，交叉生成不同的外貌的行人图片，还交叉生成同一行人ID不同姿态、背景、光照、角度的行人图片。

根据本发明公开实施例的第三方面，提供一种数据信息处理终端，所述数据信息处理终端用于实施所述的基于生成对抗网络的行人重识别数据集增强方法。

根据本发明公开实施例的第四方面，提供一种摄像头，所述摄像头搭载有所述的数据信息处理终端，还包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述的基于生成对抗网络的行人重识别数据集增强方法。

根据本发明公开实施例的第五方面，提供一种接收用户输入程序存储介质，所存储的计算机程序使电子设备执行权利要求任意一项所述包括下列步骤：

网络输入三张行人图片分别为x_i、x_j、x_k，其中x_j与x_k是同一行人在不同场景或不同时段采集的图片，分别使用外貌编码器E_a和结构编码器E_s对x_j进行编码，得到外貌编码C_a ^j和结构编码C_s ^j，然后利用外貌编码C_a ^j和结构编码C_s ^j重构自身图像x_j’；

使用E_s编码器对x_i进行编码，得到结构编码C_s ⁱ，然后利用x_j的外貌编码C_a ^j和结构编码C_s ⁱ重构图像x_i’；

使用E_a编码器对x_k进行编码，得到x_k的外貌编码C_a ^k，然后利用第S101步中x_j的结构编码C_s ^j和结构编码C_a ^k重构图像x_k’；

鉴别器D₁和D₂的判断；

重复迭代自身图像重构模块、结构编码重构图像模块、外貌编码重构图像模块、鉴别器判读模块运行程序，得到最优生成器G；

利用训练好的最优生成器G生成行人数据集，输入三张行人图片，交叉生成不同的外貌的行人图片，还交叉生成同一行人ID不同姿态、背景、光照、角度的行人图片。

本发明公开的实施例提供的技术方案可以包括以下有益效果：

本发明基于生成对抗网络生成类内行人不同外表、衣着、装饰、姿态、背景的图像，还可以模拟生成不同摄像头的光照、角度效果。

本发明降低行人重识别数据集采集及标注成本，丰富行人重识别数据集的多样性，助力行人重识别技术发展。

结合实验或试验数据和现有技术对比得到的效果和优点：

可以生成大量行人数据集，保证数据集多样性，满足深度神经网络的训练要求。

实现已有数据的内容交叉互换，如行人外表、衣着、装饰、姿态、背景、光照、角度等方面的缺失。

本发明能生成清晰度高的样本图像。

当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是本发明实施例提供的基于生成对抗网络的行人重识别数据集增强方法流程图。

图2是本发明实施例提供的基于生成对抗网络的行人重识别数据集增强方法原理图。

图3是本发明实施例提供的生成图像效果图。

图4是本发明实施例提供的外貌多样性及场景多样性数据输入与输出对比图。

图5是本发明实施例提供的行人ID结构编码的重构的效果图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

如图1所示，本发明基于生成对抗网络的行人重识别数据集增强方法，包括以下步骤：

S101：网络输入三张行人图片分别为x_i、x_j、x_k，其中x_j与x_k是同一行人在不同场景或不同时段采集的图片，分别使用外貌编码器E_a和结构编码器E_s对x_j进行编码，得到外貌编码C_a ^j和结构编码C_s ^j，然后利用外貌编码C_a ^j和结构编码C_s ^j重构自身图像x_j’。

S102：使用S101中的E_s编码器对x_i进行编码，得到结构编码C_s ⁱ，然后利用第S101步中x_j的外貌编码C_a ^j和结构编码C_s ⁱ重构图像x_i’。

S103：使用S101中的E_a编码器对x_k进行编码，得到x_k的外貌编码C_a ^k，然后利用第S101步中x_j的结构编码C_s ^j和结构编码C_a ^k重构图像x_k’。

S104：通过步骤S101-步骤S103生成对抗网络中生成器G，还需进行两个鉴别器D₁和D₂的判断，D₁鉴别器用以真假判断，由对抗损失监督，优化外貌编码器E_a、结构编码器E_s和生成器。D₂鉴别器用以类别判断，判断生成图片x_n’以及输入图片对应生成图片的类别，D₂模型优化时又反过来优化了生成器。

S105：重复迭代以上步骤S101-步骤S104，得到最优生成器G。

S106：利用训练好的最优生成器G生成行人数据集，输入三张行人图片，可以交叉生成不同的外貌的行人图片，包括衣着、装饰等；还可以交叉生成同一行人ID不同姿态、背景、光照、角度的行人图片。

其中，图2是本发明实施例提供的基于生成对抗网络的行人重识别数据集增强方法原理。

本发明还提供一种基于生成对抗网络的行人重识别数据集增强系统，应用于所述基于生成对抗网络的行人重识别数据集增强系统包括：

鉴别器判读模块，用于鉴别器D₁和D₂的判断；

本发明还提供一种数据信息处理终端，所述数据信息处理终端用于实施所述的基于生成对抗网络的行人重识别数据集增强方法。

本发明还提供一种摄像头，所述摄像头搭载有所述的数据信息处理终端，还包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行所述的基于生成对抗网络的行人重识别数据集增强方法。

下面结合具体仿真实验对本发明的效果作进一步描述。

如图3所示，生成图像效果对比如表1：

表1

如图4、图5所示，行人外貌、场景多样性对比如表2：

表2

本领域技术人员在考虑说明书及实践这里公开的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由所附的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围应由所附的权利要求来限制。