CN116563184A

CN116563184A - ReID模型的训练方法、背景融合方法、系统及控制装置

Info

Publication number: CN116563184A
Application number: CN202310514110.9A
Authority: CN
Inventors: 刘康
Original assignee: Yuncong Technology Group Co Ltd
Current assignee: Yuncong Technology Group Co Ltd
Priority date: 2023-05-08
Filing date: 2023-05-08
Publication date: 2023-08-08

Abstract

本发明涉及图像处理技术领域，具体提供一种ReID模型的训练方法、背景融合方法、系统及控制装置，旨在解决现有技术中ReID模型的训练存在数据量少、泛化能力弱、学习信息错误的技术问题。为此目的，本发明的背景融合方法，包括：将原始图像输入到训练后的分割模型，得到行人掩膜图像；获取背景图像集；将所述背景图像集中任一背景图像与所述行人掩膜图像进行融合，得到第一融合图像。

Description

ReID模型的训练方法、背景融合方法、系统及控制装置

技术领域

本发明涉及图像处理技术领域，具体提供一种ReID模型的训练方法、背景融合方法、系统及控制装置。

背景技术

ReID，又叫“跨镜追踪技术”，是感知算法研究的热门方向，主要解决跨摄像头跨场景下行人的识别与检索。当前，ReID模型训练面临以下几个难题：

1)数据量不足。ReID数据需要跨镜数据，采集难度大。真实场景构建数据集时跨镜头数据非常稀少，需要专门安装多个机位来拍摄，这给数据采集团队提出了比较高的要求。数据量不足直接导致模型容易过拟合，泛化性能较弱。

2)跨域问题。在源域上训练好的模型直接在目标域进行测试，性能有巨大的下降。跨域问题本身在机器学习领域普遍存在。但是ReID数据集相对单一的场景让这个问题更加严重。另外，单一场景采集的数据ID的背景比较相似，模型训练时容易学习到背景信息，而不是行人本身信息。这在下游跟踪等任务时，容易产生串轨迹等问题。

通用的数据增强方法如几何变换、色彩变换等可以有效提高模型的泛化能力，一定程度上缓解数据不足的问题，但是这些方法大多数是对原图进行变换，很难引入新的信息。

相应地，本领域需要一种新的背景融合方法来解决上述问题。

发明内容

为了克服上述缺陷，提出了本发明，以提供解决或至少部分地解决现有技术中ReID模型的训练存在数据量少、泛化能力弱、学习信息错误的技术问题。

在第一方面，本发明提供一种背景融合方法，包括步骤：

将原始图像输入到训练后的分割模型，得到行人掩膜图像；

获取背景图像集；

将所述背景图像集中任一背景图像与所述行人掩膜图像进行融合，得到第一融合图像。

在上述背景融合方法的一个技术方案中，还包括：

将所述第一融合图像和所述行人掩膜图像输入到图像和谐化模型，得到第二融合图像。

在上述背景融合方法的一个技术方案中，所述图像和谐化模型包括特征提取器、融合器、N个全连接层和N个滤波器，

所述特征提取器的输入端接收行人掩膜图像和第一融合图像，所述特征提取器的输出端输出原始特征；

第一个全连接层的输入端接收所述原始特征，所述第一个全连接层的输出端输出第一特征，所述第一个全连接层的输出端输出第一特征，第i个全连接层的输入端接收所述原始特征与第i-1特征拼接后的特征，所述第i个全连接层的输出端输出第i特征，第N个全连接层的输入端接收所述原始特征与第N-1特征拼接后的特征，所述第N个全连接层的输出端输出第N特征，其中1＜i＜N；

第一个滤波器的输入端接收第一融合图像和第一特征，第一个滤波器的输出端连接第二个滤波器的输入端，第j个滤波器的输入端接收第j特征，第j个滤波器的输出端连接第j+1个滤波器的输入端，第N个滤波器的输入端用于接收第N特征，第N个滤波器的输出端用于连接融合器的输入端，其中1＜j＜N；

所述融合器的输入端用于接收行人掩膜图像，所述融合器的输出端用于输出第二融合图像。

在上述背景融合方法的一个技术方案中，所述全连接层和所述滤波器的数量均为四个，所述的四个滤波器分别为亮度滤波器、对比度滤波器、色温滤波器和饱和度滤波器。

在上述背景融合方法的一个技术方案中，所述分割模型的训练方法包括，

步骤a：将多个未进行分割的原始图像输入到分割模型，得到行人掩膜图像；

步骤b：筛选出分割效果不满足要求的原始图像以供手动标注，并将手动标注后的原始图像输入到分割模型重新训练；

步骤c：按照预设次数循环执行步骤a～步骤b，得到训练后的分割模型。

在上述背景融合方法的一个技术方案中，所述将所述背景图像集中任一背景图像与所述行人掩膜图像进行融合，包括：

从所述背景图像集中获取任一背景图像；

采用宽高比固定的方式裁剪所述背景图像；

将所述行人掩膜图像与裁剪后的背景图像融合，得到第一融合图像。

在上述背景融合方法的一个技术方案中，所述采用宽高比固定的方式裁剪所述背景图像，包括：

采用宽高比固定的方式裁剪所述背景图像，保留所述背景图像的上部区域。

在上述背景融合方法的一个技术方案中，所述将所述行人掩膜图像与裁剪后的背景图像融合，包括：

将所述行人掩膜图像与裁剪后的背景图像的上部区域融合。

在上述背景融合方法的一个技术方案中，所述将原始图像输入到训练后的分割模型，在离线模式下运行。

在第二方面，本发明提供一种ReID模型的训练方法，包括步骤：

获取原始图像集；

将原始图像集中每一原始图像通过如权利要求1-9中任一项所述的背景融合方法进行处理，得到多张第一融合图像；

使用所述多张第一融合图像对ReID模型进行训练；

或者

将所述多张第一融合图像和所述行人掩膜图像输入到图像和谐化模型，得到多张第二融合图像；

使用所述多张第二融合图像对ReID模型进行训练。

在第三方面，本发明提供一种背景融合系统，包括：

第一处理模块，用于将原始图像输入到训练后的分割模型，得到行人掩膜图像；

获取模块，用于获取背景图像集；

第二处理模块，用于将所述背景图像集中任一背景图像与所述行人掩膜图像进行粗融合，得到第一融合图像。

在第四方面，提供一种控制装置，该控制装置包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行上述背景融合方法或ReID模型的训练方法。

在第五方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述背景融合方法或ReID模型的训练方法。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

在实施本发明的技术方案中，通过将原始图像进行分割得到行人掩膜图像，再将行人掩膜图像与背景图像集中的背景图像进行融合，可以实现一张原始图像得到多张第一融合图像的效果，解决了本发明中数据量少的问题。相应的使模型不容易过拟合，提高了泛化性能。得到的多张第一融合图像的行人信息相同，背景信息不同，有益于模型学习到正确的信息。

附图说明

参照附图，本发明的公开内容将变得更易理解。本领域技术人员容易理解的是：这些附图仅仅用于说明的目的，而并非意在对本发明的保护范围组成限制。此外，图中类似的数字用以表示类似的部件，其中：

图1是根据本发明的一个实施例的背景融合方法的主要步骤流程示意图；

图2是根据本发明的一个实施例的分割模型训练步骤示意图；

图3是根据本发明的一个实施例的背景融合步骤示意图；

图4是根据本发明的一个实施例的背景融合方法的主要步骤流程示意图；

图5是根据本发明的一个实施例的背景融合系统的主要结构框图；

图6是根据本发明的一个实施例的控制装置的主要结构框图。

附图标记列表：

11：第一处理模块；12：获取模块；13：第二处理模块。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”也可以包含复数形式。

在本文中用到的方位术语如“前”、“前侧”、“前部”、“后”、“后侧”和“后部”等均以部件安装至车辆后车辆的前后方向为基准。在本文中提到的“纵”、“纵向”、“纵截面”均以部件安装至车辆后的前后方向为基准，而“横”、“横向”、“横截面”则表示垂直于纵向方向。

这里先解释本发明涉及到的一些术语。

ReID：行人重识别，利用计算机技术判断图像或者视频序列是否存在特定行人的技术。

语义分割：对图像中的每个像素进行分割，实现像素级别的分类。

掩膜：行人分割模型生成的二值化图。1代表前景即行人主体信息，0代表背景。

跨域：训练数据集和测试数据集来自不同场景，即为跨域。

图像和谐化：通过模型学习，调整融合后图像的前景，使其与背景在风格、色调等方面相似，视觉效果更加自然。

mAP：目标检测和ReID常用的评价指标，度量模型预测的准确率。

ID：行人身份的标签。

在本发明实施例中，通过背景融合方法对原始图像进行处理，保证同一张原始图像的行人前景信息获取到不同的背景，生成更多的融合图像，丰富了训练样本。同时，经过背景融合得到的训练样本，背景差异较大，ReID模型训练时更容易学习到行人本身信息，优化训练结果。

本发明提出一种背景融合方法，图1是根据本发明的一个实施例的背景融合方法的主要步骤流程示意图。如图1所示，主要包括下列步骤S11-步骤S14。

步骤S11：将原始图像输入到训练后的分割模型，得到行人掩膜图像。

本实施例中，行人分割的精度要求较高，一般采用较大的分割模型得到更精确的分割结果。如果在ReID模型训练时，再使用分割模型得到行人掩膜信息，势必会降低ReID模型训练的效率，拉长ReID模型的训练周期。因此，原始图像生成行人掩膜采用离线处理的方式，通过提前训练一个分割模型执行分割，不影响ReID模型的训练效率。同时，本发明的背景融合方法应用到其他类似模型的训练也具有相同的优点。

在该方法的进一步实施例中，由于ReID模型所采用的数据集只需要将行人分割出来，其他物体均可视为背景。另外，行人随身携带之物如背包、手机、帽子等是标识该ID的重要属性，需要分割到行人主体中。但是原始的分割模型是一个多类别分割，如果只在原始分割模型预训练权重上做微调，原始模型会将行人随身携带的物体分割到其他类别中，几乎不会得到理想的分割效果。因此，需要对分割模型的训练过程做出进一步的改进，图2是根据本发明的一个实施例的分割模型训练步骤示意图，如图2所示，所述分割模型的训练方法包括：

本实施例中，一般经过3～4轮迭代，训练出的分割模型基本满足ReID模型对于行人分割的要求。

步骤S12：获取背景图像集。

步骤S13：将所述背景图像集中任一背景图像与所述行人掩膜图像进行融合，得到第一融合图像。

在本实施例中，背景融合采用在线处理的方式，也就是在ReID模型训练时，再执行步骤S30进行背景融合。如果背景融合改成离线方式，本方案就变成了一种离线的数据增强策略。离线方式最大的问题灵活性不够，需要预先把所有的ReID模型所需要的行人掩膜数据与背景完成融合并保存下来，需要占用大量的存储空间，对硬件配置提出了更高的要求。

行人的掩膜信息并不会随着ReID模型训练而改变，离线处理的方式最为合适。而背景是需要随机替换的，选择在线处理比较合理。背景替换是一种低成本的数据增强策略，原始图像采集比较困难，但是背景图像可以从网络上随意爬取。通过离线分割图像和在线背景融合，使灵活性和高效性之间达到了一个平衡。

在该方法的进一步实施例中，图3是根据本发明的一个实施例的背景融合步骤示意图，如图3所示，所述步骤S30包括：

步骤S131：从所述背景图像集中获取任一背景图像。

每个行人掩膜图像需要与背景图像集中的多张背景图像进行背景融合，这样一张原始图像就能生成多张训练图像。

步骤S132：采用宽高比固定的方式裁剪所述背景图像。

本实施例中，由于背景图像集中的图片大小不一，需要预处理，裁剪到原图大小。采用宽高比固定的方式裁剪所述背景图像，保证裁剪后的背景图片信息尽可能不被压缩。另外，无论是室外还是室内的背景图像，图片顶部往往是天空或者屋顶，直接将行人掩膜图像与这些区域融合。因此，我们选择背景图片的下部80％区域进行裁剪，尽可能规避天空或者屋顶。保留所述背景图像的上部区域。

步骤S133：将所述行人掩膜图像与裁剪后的背景图像融合，得到第一融合图像。

基于上述步骤S11-步骤S13得到的第一融合图像已经可以作为ReID模型的训练图像。经过实验，同等配置下，第一融合图像比使用原始图像训练的指标高出0.5％。但是第一融合图像的前景和背景在色调、风格上有明显的差异。因此，需要一个轻量级的图像和谐化网络模型对第一融合图像的结果做精细化处理，拉近前景和背景的距离。

步骤S14：将所述第一融合图像和所述行人掩膜图像输入到图像和谐化模型，得到第二融合图像。

一个实施例中，所述图像和谐化模型包括特征提取器、融合器、四个全连接层和四个滤波器，所述的四个滤波器分别为亮度滤波器、对比度滤波器、色温滤波器和饱和度滤波器。

第一个全连接层的输入端接收所述原始特征，所述第一个全连接层的输出端输出第一特征，所述第一个全连接层的输出端输出第一特征，第二个全连接层的输入端接收所述原始特征与第一特征拼接后的特征，所述第二个全连接层的输出端输出第二特征，第三个全连接层的输入端接收所述原始特征与第二特征拼接后的特征，所述第三个全连接层的输出端输出第三特征，第四个全连接层的输入端接收所述原始特征与第三特征拼接后的特征，所述第四个全连接层的输出端输出第四特征；

第一个滤波器的输入端接收第一融合图像和第一特征，第一个滤波器的输出端连接第二个滤波器的输入端，第二个滤波器的输入端接收第二特征，第二个滤波器的输出端连接第三个滤波器的输入端，第三个滤波器的输入端接收第三特征，第三个滤波器的输出端连接第四个滤波器的输入端，第四个滤波器的输入端用于接收第四特征，第四个滤波器的输出端用于连接融合器的输入端；

本实施例中，假设原始图像为I，背景图像为B，行人掩膜信息为M，使用Alpha融合得到第一融合图像结果I_coarse＝M·I+(1-M)·B

通过级联的方式学习滤波器参数，来控制融合后图像的亮度、对比度、色温和饱和度。当前滤波器的输出由上一个滤波器的输出以及当前层学习到的参数经滤波得到：I_i＝F_i(I_i-1，θ_i)，i∈[1，4]

图像和谐化处理得到的第二融合图像的结果I_refine由最后融合器输出得到：I_refine＝M·I4+(1-M)·I_coarse

通过图像和谐化模型处理后得到的第二融合图像前景和背景更加协调，风格上更加相似。在ReID模型训练中，不同场景的原始图像按照一定概率与相同的背景图像融合。经过和谐化后，两个不同场景的数据有了相同的背景信息，图像风格也更加相似，有效地拉近了两个数据的域间间隔。图像和谐化训练出来的第二融合图像使ReID模型跨域能力更强。

在实验中，从网络上爬取了200类的室内、室外场景图片，作为背景图像集。本方案在13万ID,近300万图片的ReID原始图像集上进行了实验，mAP指标相较于原始数据的训练结果提高了近1％。指标涨幅甚至超过了标注一批新数据，有效地降低了标注成本。

本发明实施例中的背景融合方法是一种普适性的数据增强方法，可以扩展到其他的监督学习任务中。以人脸识别为例，只需要训练一个人脸分割模型，将人脸掩膜从原始图像中分割出来，后续的训练策略可以套用本方法的步骤S12～S14。

需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本发明的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时(并行)执行或以其他顺序执行，这些变化都在本发明的保护范围之内。

进一步，本发明提供一种ReID模型的训练方法，图4是根据本发明的一个实施例的背景融合方法的主要步骤流程示意图。如图4所示，包括步骤S21～S23：

步骤S21：获取原始图像集。

目前最常用的ReID四大公开数据集如表1所示，有效ID数总计8881个，图片总数量只有208263张。与人脸数据集上百万ID的数据不在一个量级。数据量不足直接导致模型容易过拟合，范化性能较弱。

表1ReID常用4大公开数据集信息统计

除此之外，表1展示的公开数据集大多数数据都采集于校园。Market-1501采集于夏天的国内校园，DukeMTMC-reID采集于冬天的国外校园，不同季节的着装风格差异造成了两个数据集之间存在明显的域间间隔。

步骤S22：将原始图像集中每一原始图像通过所述的背景融合方法进行处理，得到多张第二融合图像。

步骤S23：使用所述多张第二融合图像对ReID模型进行训练。

进一步，本发明还提供了一种背景融合系统。

参阅附图5，图5是根据本发明的一个实施例的背景融合系统的主要结构框图。如图5所示，本发明实施例中的背景融合系统主要包括第一处理模块11、获取模块12和第二处理模块13。其中，第一处理模块，用于将原始图像输入到训练后的分割模型，得到行人掩膜图像；获取模块，用于获取背景图像集；第二处理模块，用于将所述背景图像集中任一背景图像与所述行人掩膜图像进行粗融合，得到第一融合图像。

在一些实施例中，第一处理模块11、获取模块12和第二处理模块13中的一个或多个可以合并在一起成为一个模块。

一个实施方式中，第一处理模块11具体实现功能的描述可以参见步骤S11所述。获取模块12具体实现功能的描述可以参见步骤S12所述。第二处理模块13具体实现功能的描述可以参见步骤S13所述。

上述背景融合系统以用于执行图1所示的背景融合方法实施例，两者的技术原理、所解决的技术问题及产生的技术效果相似，本技术领域技术人员可以清楚地了解到，为了描述的方便和简洁，背景融合系统的具体工作过程及有关说明，可以参考背景融合方法的实施例所描述的内容，此处不再赘述。

本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读存储介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读存储介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读存储介质不包括电载波信号和电信信号。

进一步，本发明还提供了一种控制装置。如图6所示，在根据本发明的一个控制装置实施例中，控制装置包括处理器和存储装置，存储装置可以被配置成存储执行上述方法实施例的背景融合方法或ReID模型的训练方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的背景融合方法或ReID模型的训练方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该控制装置可以是包括各种电子设备形成的控制装置设备。

进一步，本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的背景融合方法或ReID模型的训练方法的程序，该程序可以由处理器加载并运行以实现上述背景融合方法或ReID模型的训练方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本发明的装置的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。

本领域技术人员能够理解的是，可以对装置中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理，因此，拆分或合并之后的技术方案都将落入本发明的保护范围内。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种背景融合方法，其特征在于，包括步骤：

将原始图像输入到训练后的分割模型，得到行人掩膜图像；

获取背景图像集；

2.根据权利要求1所述的背景融合方法，其特征在于，还包括：

3.根据权利要求2所述的背景融合方法，其特征在于，所述图像和谐化模型包括特征提取器、融合器、N个全连接层和N个滤波器，

4.根据权利要求3所述的背景融合方法，其特征在于，所述全连接层和所述滤波器的数量均为四个，所述的四个滤波器分别为亮度滤波器、对比度滤波器、色温滤波器和饱和度滤波器。

5.根据权利要求1所述的背景融合方法，其特征在于，所述分割模型的训练方法包括，

6.根据权利要求1所述的背景融合方法，其特征在于，所述将所述背景图像集中任一背景图像与所述行人掩膜图像进行融合，包括：

从所述背景图像集中获取任一背景图像；

采用宽高比固定的方式裁剪所述背景图像；

7.根据权利要求6所述的背景融合方法，其特征在于，所述采用宽高比固定的方式裁剪所述背景图像，包括：

8.根据权利要求6所述的背景融合方法，其特征在于，所述将所述行人掩膜图像与裁剪后的背景图像融合，包括：

将所述行人掩膜图像与裁剪后的背景图像的上部区域融合。

9.根据权利要求1-8中任一项所述的背景融合方法，其特征在于，所述将原始图像输入到训练后的分割模型，在离线模式下运行。

10.一种ReID模型的训练方法，其特征在于，包括步骤：

获取原始图像集；

使用所述多张第一融合图像对ReID模型进行训练；

或者

使用所述多张第二融合图像对ReID模型进行训练。

11.一种背景融合系统，其特征在于，包括：

获取模块，用于获取背景图像集；

12.一种控制装置，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至9中任一项所述的背景融合方法或权利要求10所述的ReID模型的训练方法。

13.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至9中任一项所述的背景融合方法或权利要求10所述的ReID模型的训练方法。