CN111860147A

CN111860147A - 行人重识别模型优化处理方法、装置和计算机设备

Info

Publication number: CN111860147A
Application number: CN202010529356.XA
Authority: CN
Inventors: 张少林; 宁欣; 龚克
Original assignee: Beijing Wave Wisdom Security And Safety Technology Co ltd
Current assignee: Beijing Wave Wisdom Security And Safety Technology Co ltd
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-10-30
Anticipated expiration: 2040-06-11
Also published as: CN111860147B

Abstract

本申请涉及一种行人重识别模型优化处理方法、装置和计算机设备。所述方法包括：对模型标识对应的原行人重识别模型进行网络层删除以及对指定网络层的卷积步幅进行修改，得到主干网络模型；通过主干网络模型对样本数据集中的各样本图像进行特征提取，得到初始特征数据；对初始特征数据进行批量标准化处理，得到多个特征图；根据多个特征图和主干网络模型的预设网络层构建多个注意力分支网络模型；将主干网络模型以及多个注意力分支网络模型进行组合，得到优化后的行人重识别模型，通过样本数据集和多个损失函数关系对优化后的行人重识别模型进行训练，直至达到预设条件，停止模型训练，输出训练后的行人重识别模型。采用本方法能够节约计算资源。

Description

行人重识别模型优化处理方法、装置和计算机设备

技术领域

本申请涉及计算机技术领域，特别是涉及一种行人重识别模型优化处理方法、装置、计算机设备和存储介质。

背景技术

行人重识别(Person Reidentification，简称ReID)是指判断两个不同拍摄区域内的摄像头拍摄的图像中是否存在特定行人的技术。行人再识别技术广泛应用于安防、刑侦、智慧城市等领域。传统方式中，是基于部件的行人重识别模型进行特征提取以及利用度量方法进行相似度度量来实现行人重识别。

然而，传统的基于部件的行人重识别模型所提取的部件特征并非都是有效的，有些特征对于行人重识别来说是没有任何作用的，从而导致了计算资源的浪费。因此，如何对传统的基于部件的行人重识别模型进行优化处理来筛选有效的特征，以节约计算资源成为目前需要解决的一个技术问题。

发明内容

基于此，有必要针对上述技术问题，提供一种能够对传统的基于部件的行人重识别模型进行优化处理来筛选有效的特征，以节约计算资源的行人重识别模型优化处理方法、装置、计算机设备和存储介质。

一种行人重识别模型优化处理方法，所述方法包括：

获取样本数据集以及模型标识；

对所述模型标识对应的原行人重识别模型进行网络层删除处理以及对指定网络层的卷积步幅进行修改，得到主干网络模型；

将所述样本数据集输入至所述主干网络模型中，通过所述主干网络模型对所述样本数据集中的各样本图像进行特征提取，得到初始特征数据；

对所述初始特征数据进行批量标准化处理，得到多个特征图；

根据多个特征图以及所述主干网络模型的预设网络层构建多个注意力分支网络模型；

将所述主干网络模型以及多个注意力分支网络模型进行组合，得到优化后的行人重识别模型，通过所述样本数据集以及多个损失函数关系对所述优化后的行人重识别模型进行训练，直至达到预设条件，停止模型训练，输出训练后的行人重识别模型。

在其中一个实施例中，所述方法还包括：

获取待识别图像；

将所述待识别图像输入至预设训练的行人重识别模型中，通过所述行人重识别模型提取所述待识别图像的有效特征数据；

将图像库中的预设图像输入至预先训练的行人重识别模型中，通过所述行人重识别模型提取各预设图像的有效特征数据；

根据所述待识别图像的有效特征数据与各预设图像的有效特征数据计算所述待识别图像与各预设图像之间的相似度，确定目标图像。

在其中一个实施例中，有效特征数据包括全局特征数据以及局部特征数据，所述通过所述行人重识别模型提取所述待识别图像的有效特征数据包括：

通过所述行人重识别模型中的主干网络模型对所述待识别图像进行特征提取，得到所述待识别图像的全局特征数据；

通过所述行人重识别模型中的各注意力分支网络模型提取所述待识别图像的多个局部特征数据；

将所述全局特征数据与多个局部特征数据进行连接，得到所述待识别图像的有效特征数据。

在其中一个实施例中，所述对所述模型标识对应的原行人重识别模型进行网络层删除处理以及对指定网络层的卷积步幅进行修改，得到主干网络模型包括：

将所述模型标识对应的原行人重识别模型中最后一个卷积层对应的下采样层进行删除处理；

根据预设步幅对所述最后一个卷积层的卷积步幅进行修改；

删除所述原行人重识别模型中的全局池化层以及全连接层，得到修改后的原行人重识别模型，将所述修改后的原行人重识别模型作为主干网络模型。

在其中一个实施例中，所述对所述初始特征数据进行批量标准化处理，得到多个特征图包括：

对所述初始特征数据进行批量标准化处理，得到标准化处理后的初始特征数据；

通过指定尺寸的卷积核对所述标准化处理后的初始特征数据进行卷积运算，得到多个特征图。

在其中一个实施例中，所述预设网络层包括第一网络层以及第二网络层，所述根据多个特征图以及所述主干网络模型的预设网络层构建多个注意力分支网络模型包括：

将各特征图转换为相应的注意力图，将各注意力图与所述主干网络模型中第一网络层进行点乘处理，得到各注意力图对应的点乘结果；

基于所述主干网络模型中第二网络层构建与所述注意力图数量相同的网络层；

将各注意力图对应的点乘结果输入至所述相应的网络层中，在各网络层之后加入全连接层，生成各注意力对应的注意力分支网络模型。

在其中一个实施例中，所述通过所述样本数据集以及多个损失函数关系对所述优化后的行人重识别模型进行训练，直至达到预设条件，停止模型训练，输出训练后的行人重识别模型包括：

将所述样本数据集中的样本图像划分为多个批次的样本图像；

将多个批次的样本图像输入至所述优化后的行人重识别模型中进行训练；

在训练过程中，通过多个损失函数关系对所述行人重识别模型进行参数优化，直至达到预设条件，停止模型训练，输出训练后的行人重识别模型。

在其中一个实施例中，所述在获取样本数据集之后，还包括：

对所述样本数据集中样本图像的尺寸进行调整；

对调整后的样本图像进行增强处理，得到增强后的图像；

对所述增强后的图像进行归一化处理，得到归一化后的图像；

对所述归一化后的图像进行图像标准化处理，得到目标数据集。

一种行人重识别模型优化处理装置，所述装置包括：

获取模块，用于获取样本数据集以及模型标识；

修改模块，用于对所述模型标识对应的原行人重识别模型进行网络层删除处理以及对指定网络层的卷积步幅进行修改，得到主干网络模型；

提取模块，用于将所述样本数据集输入至所述主干网络模型中，通过所述主干网络模型对所述样本数据集中的各样本图像进行特征提取，得到初始特征数据；

批量标准化模块，用于对所述初始特征数据进行批量标准化处理，得到多个特征图；

构建模块，用于根据多个特征图以及所述主干网络模型的预设网络层构建多个注意力分支网络模型；

训练模块，用于将所述主干网络模型以及多个注意力分支网络模型进行组合，得到优化后的行人重识别模型，通过所述样本数据集以及多个损失函数关系对所述优化后的行人重识别模型进行训练，直至达到预设条件，停止模型训练，输出训练后的行人重识别模型。

在其中一个实施例中，所述装置还包括：识别模块，用于获取待识别图像；将所述待识别图像输入至预设训练的行人重识别模型中，通过所述行人重识别模型提取所述待识别图像的有效特征数据；将图像库中的预设图像输入至预先训练的行人重识别模型中，通过所述行人重识别模型提取各预设图像的有效特征数据；根据所述待识别图像的有效特征数据与各预设图像的有效特征数据计算所述待识别图像与各预设图像之间的相似度，确定目标图像。

一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述各个方法实施例中的步骤。

上述行人重识别模型优化处理方法、装置、计算机设备和存储介质，对模型标识对应的原行人重识别模型进行网络层删除处理以及对指定网络层的卷积步幅进行修改，得到主干网络模型。能够通过主干网络模型提取图像的全局特征数据。从而将样本数据集输入至主干网络模型中，通过主干网络模型对样本数据集中的各样本图像进行特征提取，得到初始特征数据，对初始特征数据进行批量标准化处理，根据得到的多个特征图以及主干网络模型的预设网络层构建多个注意力分支网络模型。多个注意力分支网络模型能够提取到行人的不同局部特征数据。将主干网络模型以及多个注意力分支网络模型进行组合，得到优化后的行人重识别模型，通过样本数据集以及多个损失函数关系对优化后的行人重识别模型进行训练，直至达到预设条件，停止模型训练，输出训练后的行人重识别模型。通过多个损失函数关系对优化后的行人重识别模型进行训练，能够避免多个注意力分支网络模型关注到行人的相同局部特征数据，能够实现自适应的关注到行人的不同部位，自动筛选对行人重识别有益的特征，克服了传统的基于部件的行人重识别模型平均划分特征的问题，保证提取到的特征为有效特征数据，节约了计算资源。另外，将主干网络模型以及多个注意力分支网络模型进行组合，能够将行人的全局特征数据与筛选的有效局部特征数据组成更加具有区分性的特征，进而有效增强了行人重识别模型的识别准确性。

附图说明

图1为一个实施例中行人重识别模型优化处理方法的应用环境图；

图2为一个实施例中行人重识别模型优化处理方法的流程示意图；

图3为一个实施例中通过预先训练的行人重识别模型进行行人重识别步骤的流程示意图；

图4为一个实施例中通过修改后的Resnet网络生成多个特征图的局部网络结构示意图；

图5为一个实施例中为以修改后的Resnet网络为主干网络模型的训练后的行人重识别模型的网络结构示意图；

图6为一个实施例中为以修改后的Resnet网络为主干网络模型的训练后的行人重识别模型进行特征提取的网络结构示意图；

图7为一个实施例中行人重识别模型优化处理装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供的行人重识别模型优化处理方法，可以应用于终端，也可以应用于服务器。以应用于服务器为例进行说明，可以应用于如图1所示的应用环境中。其中，终端102与服务器104通过网络进行通信。终端102下发模型优化任务至服务器104，服务器104对模型优化任务进行解析，得到样本数据集以及模型标识。服务器104对模型标识对应的原行人重识别模型进行网络层删除处理以及对指定网络层的卷积步幅进行修改，得到主干网络模型。服务器104将样本数据集输入至主干网络模型中，通过主干网络模型对样本数据集中的各样本图像进行特征提取，得到初始特征数据。服务器104对初始特征数据进行批量标准化处理，得到多个特征图。服务器104根据多个特征图以及主干网络模型的预设网络层构建多个注意力分支网络模型。服务器104将主干网络模型以及多个注意力分支网络模型进行组合，得到优化后的行人重识别模型，通过样本数据集以及多个损失函数关系对优化后的行人重识别模型进行训练，直至达到预设条件，停止模型训练，输出训练后的行人重识别模型。服务器104获取终端102发送的待识别图像，将待识别图像输入至预设训练的行人重识别模型中，通过行人重识别模型提取待识别图像的有效特征数据。服务器104将图像库中的预设图像输入至预先训练的行人重识别模型中，通过行人重识别模型提取各预设图像的有效特征数据。服务器104根据待识别图像的有效特征数据与各预设图像的有效特征数据计算待识别图像与各预设图像之间的相似度，确定目标图像。其中，终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

在一个实施例中，如图2所示，提供了一种行人重识别模型优化处理方法，以该方法应用于图1中的服务器为例进行说明，包括以下步骤：

步骤202，获取样本数据集以及模型标识。

服务器获取终端下发的模型优化任务，对模型优化任务进行解析，得到样本数据集以及模型标识。模型优化任务用于指示服务器根据样本数据集对原行人重识别模型进行优化处理。模型优化任务可以是终端在用户需要优化模型时，根据获取到的样本数据集生成的。样本数据集中包括多个不同行人的图像，每个行人对应多张图像。模型标识是指行人重识别模型对应的标记标识，用于对行人重识别模型进行标记，行人重识别模型存在唯一对应的模型标识。

样本数据集可以是终端预先构建的，也可以是终端获取的公开数据集。当终端需要构建数据集时，可以获取安装在多个拍摄区域内的摄像头采集的视频数据。终端对视频数据进行解析，得到视频数据中的多帧图像。在多帧图像中提取同一个行人的图像，并标注行人的身份标识，以便后续进行图像搜索时确认行人身份。根据多个不同行人的图像构建得到样本数据集。当样本数据集为公开数据集时，可以是Market1501、DukeMTMC-reID和MSMT17等。

步骤204，对模型标识对应的原行人重识别模型进行网络层删除处理以及对指定网络层的卷积步幅进行修改，得到主干网络模型。

原行人重识别模型是指待优化处理的行人重识别模型。原行人重识别模型可以是具有多个卷积层的神经网络。例如，Resent、VGG(Visual Geometry Group，超分辨率测试序列)等神经网络。为了得到更多的特征信息，服务器可以对原行人重识别模型的网络结构进行修改，得到主干网络模型。具体的，服务器对原行人重识别模型进行网络层删除处理。原行人重识别模型可以包括多个网络层。例如，网络层可以包括输入层、卷积层、下采样层、全局池化层、全连接层、输出层等。服务器将原行人重识别模型中最后一个卷积层对应的下采样层进行删除。下采样层是用于降低模型训练参数及模型的过拟合程度的网络层。服务器还可以将最后一个卷积层的卷积步幅进行重新设置，进而得到修改后的行人重识别模型，将修改后的行人重识别模型作为主干网络模型。卷积步幅是指卷积核遍历图像时的步幅大小。

例如，当原行人重识别模型为Resent模型时，Resent模型包括5个卷积层，即将Resent模型的第5个卷积层对应的下采样层进行删除，以及将第5个卷积层的卷积步幅进行重新设置。

步骤206，将样本数据集输入至主干网络模型中，通过主干网络模型对样本数据集中的各样本图像进行特征提取，得到初始特征数据。

当服务器构建得到主干网络模型之后，可以将样本数据集中的样本图像输入至主干网络模型中进行特征提取，从而得到初始特征数据。初始特征数据中包括样本数据集中多个样本图像对应的特征数据。其中，各样本图像的初始特征数据可以是F∈R^H×W×C，其中，H表示特征数据的高，W表示特征数据的宽，C表示通道数量。由于主干网络模型是对原行人重识别模型进行修改后得到的模型，因此，主干网络模型中最后一个卷积层输出的特征的高与最后一个卷积层的输入特征的高，即倒数第二个卷积层中输入特征的高是相同的，均为H。最后一个卷积层输出的特征的宽与最后一个卷积层的输入特征的宽，即倒数第二个卷积层中输入特征的宽也是相同的，均为W。

步骤208，对初始特征数据进行批量标准化处理，得到多个特征图。

服务器对初始特征数据进行批量标准化处理(Batch Normalization，简称BN)。服务器通过批量标准化处理，将初始标准化数据进行归一化和标准化，对批量标准化处理后的初始特征数据进行卷积运算，得到一个大小为H×W×N的特征数据，其中，H表示特征数据的高，W表示特征数据的宽，N表示通道数量。每个通道上存在一个大小为H×W的特征图。该特征图的高与最后一个卷积层的输出特征以及输入特征的高是相同的，该特征图的宽与最后一个卷积层的输出特征的宽以及输入特征的宽也是相同的。服务器进而得到多个大小相等的特征图。

步骤210，根据多个特征图以及主干网络模型的预设网络层构建多个注意力分支网络模型。

服务器在得到多个特征图之后，可以先在特征图中加入注意力机制，从而构建得到多个注意力图。为了避免多个注意力图关注到行人的相同部位，可以构建一个特征多样性损失函数，通过计算损失使各注意力图关注行人的不同部位。具体的，服务器可以对多个注意力图进行高斯标准化处理，使多个注意力图满足高斯分布。高斯标准化的计算公式可以如下所示：

其中，H表示特征图的高，W表示特征图的宽，i，j分别表示不同的注意力图。

服务器通过对多个注意力图进行高斯标准化处理，实现将特征图的最大值的位置作为注意力图的中心位置。之后，服务器可以通过计算各个注意力图中心之间的距离来使注意力如中心不重合，以使不同的注意力图关注的位置不重合，即关注不同行人的部位。具体的，可以预先根据注意力数量和注意力图的宽度合理设置一个阈值D，如果距离小于阈值D，那么注意力的损失将会加大。因此，构建的特征多样性损失函数关系式可以如下所示：

其中，batch_size是一个批次中样本图像的数量，i，j分别表示不同的注意力图，dij是注意力图i与注意力图j之间的距离。

当多个注意力图满足高斯分布之后，可以基于主干网络模型中的预设网络层构建多个注意力分支网络模型。预设网络层可以是第一网络层以及第二网络层。例如，第一网络层可以是倒数第二个卷积层。第二网络层可以是最后一个卷积层。具体的，服务器将各注意力图与主干网络模型中第一网络层进行点乘处理，将点乘结果输入至第二网络层中，随后在第二网络层后加入全连接层，以构建得到各注意力层对应的注意力分支网络模型。服务器可以将全连接层的输出作为注意力分支网络模型提取的分支特征，即图像的局部特征信息。

步骤212，将主干网络模型以及多个注意力分支网络模型进行组合，得到优化后的行人重识别模型，通过样本数据集以及多个损失函数关系对优化后的行人重识别模型进行训练，直至达到预设条件，停止模型训练，输出训练后的行人重识别模型。

服务器通过将主干网络模型以及多个注意力分支网络模型进行组合，得到优化后的行人重识别模型。服务器可以将样本数据集中的样本图像进行批次划分，并将划分过后的样本图像输入至优化后的行人重识别模型中，并采用多个损失函数关系以及随机梯度下降算法(SGD)对优化后的行人重识别模型进行训练，在训练过程中对模型参数进行优化。当达到预设条件时，停止模型训练，输出训练后的行人重识别模型。预设条件可以是损失函数的损失值不再下降。

服务器得到初始特征数据之后，可以对初始特征数据进行全局自适应池化处理，得到一个大小为1×C的特征数据。服务器可以通过多个损失函数关系对优化后的行人重识别模型进行训练的过程中，对大小为1×C的特征数据进行批量标准化处理以及加入全连接层，通过全连接层输出全局特征数据。

在本实施例中，对模型标识对应的原行人重识别模型进行网络层删除处理以及对指定网络层的卷积步幅进行修改，得到主干网络模型。能够通过主干网络模型提取图像的全局特征数据。从而将样本数据集输入至主干网络模型中，通过主干网络模型对样本数据集中的各样本图像进行特征提取，得到初始特征数据，对初始特征数据进行批量标准化处理，根据得到的多个特征图以及主干网络模型的预设网络层构建多个注意力分支网络模型。多个注意力分支网络模型能够提取到行人的不同局部特征数据。将主干网络模型以及多个注意力分支网络模型进行组合，得到优化后的行人重识别模型，通过样本数据集以及多个损失函数关系对优化后的行人重识别模型进行训练，直至达到预设条件，停止模型训练，输出训练后的行人重识别模型。通过多个损失函数关系对优化后的行人重识别模型进行训练，能够避免多个注意力分支网络模型关注到行人的相同局部特征数据，能够实现自适应的关注到行人的不同部位，自动筛选对行人重识别有益的特征，克服了传统的基于部件的行人重识别模型平均划分特征的问题，保证提取到的特征为有效特征数据，节约了计算资源。另外，将主干网络模型以及多个注意力分支网络模型进行组合，能够将行人的全局特征数据与筛选的有效局部特征数据组成更加具有区分性的特征，进而有效增强了行人重识别模型的识别准确性。

在一个实施例中，如图3所示，通过预先训练的行人重识别模型进行行人重识别的步骤包括：

步骤302，获取待识别图像。

步骤304，将待识别图像输入至预设训练的行人重识别模型中，通过行人重识别模型提取待识别图像的有效特征数据。

步骤306，将图像库中的预设图像输入至预先训练的行人重识别模型中，通过行人重识别模型提取各预设图像的有效特征数据。

步骤308，根据待识别图像的有效特征数据与各预设图像的有效特征数据计算待识别图像与各预设图像之间的相似度，确定目标图像。

服务器在得到训练后的行人重识别模型之后，可以利用该模型进行行人重识别。具体的，服务器可以获取终端发送的待识别图像。待识别图像为包含行人目标的图像。服务器调用训练后的行人重识别模型，将待识别图像输入至训练后的行人重识别模型中，通过所述行人重识别模型提取待识别图像的有效特征数据。待识别图像的有效特征数据可以包括待识别图像全局特征数据以及局部特征数据。全局特征数据可以包括图像中行人的整体特征。局部特征信息可以包括图像中行人某一身体部位的特征，例如，头部特征、手部特征等。

另外，服务器将图像库中的预设图像输入至预先训练的行人重识别模型中，通过行人重识别模型提取各预设图像的有效特征数据，预设图像的有效特征数据可以包括预设图像的全局特征数据以及局部特征数据。最终提取的各预设图像的特征可以表示为：

其中，N表示包含全局特征数据和局部特征数据在内的特征总数，fi表示第i个注意力分支网络模型提取的局部特征数据。

服务器根据待识别图像的有效特征数据与各预设图像的有效特征数据计算待识别图像与各预设图像之间的相似度。相似度可以是有效特征数据之间的距离。例如，相似度可以是欧式距离。待识别图像的有效特征数据可以用(q₁,q₂,…,q_n)来表示，图像库汇总某个预设图像的有效特征数据可以表示为(g₁,g₂,…,g_n)。则这两张图像的相似度可以表示为：

服务器可以根据距离大小将图像库的预设图像进行排序，从而得到待识别图像的识别结果，进而根据识别结果选取相似度最大的预设图像作为目标图像。服务器可以将提取的各预设图像的有效特征数据进行存储，可以在后续进行行人重识别时，只需要提取待识别图像的有效特征数据，从而将提取的特征数据与存储的图像库中各预设图像的有效特征数据来计算图像之间的相似度，能够减少行人重识别的时间。

在一个实施例中，服务器在提取到图像库中各预设图像的有效特征数据以及待识别图像的有效特征数据之后，可以将图像库中的预设图像以及待识别图像进行上下翻转，再一次提取翻转后的预设图像以及翻转后的待识别图像的特征数据。将翻转后的预设图像的特征数据与第一次提取的相应预设图像的有效特征数据进行相加，并计算平均值，得到第一特征数据。同样的，服务器将翻转后的待识别图像的特征数据与第一次提取的待识别图像的有效特征数据进行相加，并计算平均值，得到第二特征数据。进而将第一特征数据以及第二特征数据进行相似度计算。能够消除图像库中的预设图像以及待识别图像之间的偏差，从而提高行人重识别的准确性。

在本实施例中，由于行人重识别模型是预先训练得到的，且行人重识别模型能够自动筛选对行人重识别有效的特征，从而减少了无效特征提取占用计算资源，进而有效节约了计算资源。

在一个实施例中，有效特征数据包括全局特征数据以及局部特征数据，通过行人重识别模型提取待识别图像的有效特征数据包括：通过行人重识别模型中的主干网络模型对待识别图像进行特征提取，得到待识别图像的全局特征数据；通过行人重识别模型中的各注意力分支网络模型提取待识别图像的多个局部特征数据；将全局特征数据与多个局部特征数据进行连接，得到待识别图像的有效特征数据。

服务器在利用行人重识别模型进行行人重识别的过程中，行人重识别模型中的主干网络模型提取待识别图像以及图像库中各预设图像的全局特征数据，以及行人重识别模型中的各注意力分支网络模型提取待识别图像以及图像库中各预设图像的多个局部特征数据。各注意力分支网络模型提取的局部特征数据是不相同的。主干网络模型是对原行人重识别模型进行修改后得到的网络模型，由此可以得到具有更多细节的特征图，用于提取图像的全局特征数据。各注意力分支网络模型能够自动筛选不同部位的特征，能够确保各注意力分支网路模型提取的是不同的局部特征数据。通过将全局特征数据与多个局部特征数据进行连接，能够得到更具有区分性的特征数据，进而可以提高模型的行人重识别准确性。

在一个实施例中，对模型标识对应的原行人重识别模型进行网络层删除处理以及对指定网络层的卷积步幅进行修改，得到主干网络模型包括：将模型标识对应的原行人重识别模型中最后一个卷积层对应的下采样层进行删除处理；根据预设步幅对最后一个卷积层的卷积步幅进行修改；删除原行人重识别模型中的全局池化层以及全连接层，得到修改后的原行人重识别模型，将修改后的原行人重识别模型作为主干网络模型。

服务器对模型标识对应的原行人识别模型进行修改。具体的，服务器删除对原行人重识别模型中最后一个卷积层对应的下采样层，之后根据预设步幅对最后一个卷积层的卷积步幅进行修改。例如，预设步幅可以是1，即将最后一个卷积层的卷积步幅设置为1。进一步的，服务器删除原行人重识别模型中的全局池化层以及全连接层，将修改后的原行人识别模型作为主干网络模型。

在本实施例中，通过删除原行人重识别模型中最后一个卷积层对应的下采样层、对最后一个卷积层的卷积步幅进行修改以及删除原行人重识别模型中的全局池化层以及全连接层，通过修改了最后一个卷积层的相关设置以得到具有更多细节数据的特征图，避免细节数据的丢失。

在一个实施例中，对初始特征数据进行批量标准化处理，得到多个特征图包括：对初始特征数据进行批量标准化处理，得到标准化处理后的初始特征数据；通过指定尺寸的卷积核对标准化处理后的初始特征数据进行卷积运算，得到多个特征图。

服务器对初始特征数据进行批量标准化处理(Batch Normalization，简称BN)，将初始标准化数据进行归一化和标准化。之后，通过指定尺寸的卷积核对批量标准化处理后的初始特征数据进行卷积运算。具体的，服务器利用一个3×3的卷积核对批量标准化处理后的初始特征数据进行卷积运算，得到第一卷积特征数据。再加入relu激活函数，relu激活函数用于减小计算量。随后再通过一个1×1的卷积核对第一卷积特征数据进行卷积运算，得到第二卷积特征数据，再加入一个Sigmoid层，最终得到一个大小为H×W×N的特征数据。其中，H表示特征数据的高，W表示特征数据的宽，N表示通道数量。每个通道上存在一个H×W的特征图，进而得到多个特征图。服务器在得到多个特征图之后，可以在特征

图中加入注意力机制，从而构建得到多个注意力图。为了避免多个注意力图关注到行人的相同部位，可以构建一个特征多样性损失函数(loss_dist)，通过计算损失使各注意力图关注行人的不同部位。当主干网络模型为修改后的Resnet网络时，第5个卷积层(Conv Block5)为最后一个卷积层，如图4所示，为通过主干网络模型生成多个特征图的局部网络结构示意图。其中，loss_diver表示特征多样性损失函数，即loss_dist。loss_diver之前的菱形图表示多个特征图。

在本实施例中，对初始特征数据进行批量标准化处理，得到标准化处理后的初始特征数据，能够解决后续模型训练过程中输入样本数据分布漂移的问题。通过指定尺寸的卷积核对标准化处理后的初始特征数据进行卷积运算，使得最后一个卷积层的输出特征与输入特征的宽、高是相同的，从而可以得到多个大小相等的特征图。

在一个实施例中，预设网络层包括第一网络层以及第二网络层，根据多个特征图以及主干网络模型的预设网络层构建多个注意力分支网络模型包括：将各特征图转换为相应的注意力图，将各注意力图与主干网络模型中第一网络层进行点乘处理，得到各注意力图对应的点乘结果；基于主干网络模型中第二网络层构建与注意力图数量相同的网络层；将各注意力图对应的点乘结果输入至相应的网络层中，在各网络层之后加入全连接层，生成各注意力对应的注意力分支网络模型。

预设网络层包括第一网络层以及第二网络层。例如，第一网络层可以是倒数第二个卷积层。第二网络层可以是最后一个卷积层。服务器在多个特征图中加入注意力机制，得到多个注意力图。随后，服务器将各注意力图与主干网络模型中倒数第二个卷积层进行点乘操作。点乘操作是指将注意力图作为多个注意力分支网络模型的输入，将各注意力图中的各矩阵元素与倒数第二个卷积层中的相应矩阵元素相乘。从而服务器对主干网络模型中的最后一个卷积层进行复制，得到与注意力图数量相同的卷积层。进而服务器将各注意力图对应的点乘结果输入至相应的卷积层中，还需要在各卷积层之后加入全连接层，生成各注意力对应的注意力分支网络模型。在行人重识别过程中，通过全连接层输出注意力分支网络模型提取的局部特征数据。

在本实施例中，将各特征图转换为相应的注意力图，将各注意力图与主干网络模型中第一网络层进行点乘处理，使得各注意力图对应的矩阵与倒数第二个卷积层对应的矩阵的大小是相同的。基于主干网络模型中第二网络层构建与注意力图数量相同的网络层，进而将各注意力图对应的点乘结果输入至相应的网络层中，在各网络层之后加入全连接层，生成各注意力对应的注意力分支网络模型。能够使得注意力分支网络模型自适应地关注到不同的局部特征数据，从而实现自动筛选行人特征。

在一个实施例中，通过样本数据集以及多个损失函数关系对优化后的行人重识别模型进行训练，直至达到预设条件，停止模型训练，输出训练后的行人重识别模型包括：将样本数据集中的样本图像划分为多个批次的样本图像；将多个批次的样本图像输入至优化后的行人重识别模型中进行训练；在训练过程中，通过多个损失函数关系对行人重识别模型进行参数优化，直至达到预设条件，停止模型训练，输出训练后的行人重识别模型。

服务器将样本数据集中的样本图像划分为数量相等的多个批次，将各批次的样本图像依次输入至优化后的行人重识别模型中进行训练。例如，可以将样本数据集分成若干个P×Q大小的批次，其中，P表示每个批次包含的行人身份的数量，Q表示每个身份行人的数量。

通过多个损失函数关系对行人重识别模型进行参数优化。多个损失函数关系可以包括标签平滑交叉熵损失函数、难样本采样三元组损失函数、中心损失函数以及特征多样性损失函数。服务器还可以通过随机梯度下降算法(SGD)对模型进行参数优化。

难样本采样三元组损失函数关系式可以如下所示：

其中，一个batch包括P个行人身份，每个身份的行人有Q张图片；对于一个图片a，与其具有相同身份的图像的集合为A，与其身份不同的图片集合为B；d_a,p表示图像a与图像p的特征数据之间的相似度；d_a,n表示图片a与图片n的特征数据之间的相似度；α表示一个阈值；(z)₊等价于max(z,0)。

标签平滑交叉熵损失函数关系式可以如下所示：

其中，g_i表示样本i的真实身份标签；p_i表示模型预测的概率；ε表示平滑因子；S表示参与训练的行人身份标签的总数；N表示一个批次训练的样本图像的数量。

中心损失函数关系式可以如下所示：

其中，y_j是该批次内第j张图像的身份标签，

表示标签为y_j这个类的特征数据的中心值，B表示训练批次的大小。

预先构建的特征多样性损失函数关系式可以如公式(4)所示。

服务器通过主干网络模型对样本数据集中的各样本图像进行特征提取，得到初始特征数据之后，在训练过程中，加入全局自适应池化层(pooling)得到一个1×C的特征数据。之后，通过难样本采样三元组损失函数(L_th)和中心损失函数(L_C)进行参数优化，还可以进行批量归一化(BN)操作进行归一化和标准化，随后加入全连接层(FC)，进而接入标签平滑交叉熵损失函数(L_{sof_LS})进行参数优化。服务器在构建的多个注意力分支网络模型之后，加入批量归一化(BN)操作，随后加入全连接层(FC)，进而接入标签平滑交叉熵损失函数(L_{sof_LS})进行参数优化。当达到预设条件时，服务器停止模型训练，输出训练后的行人重识别模型。例如，预设条件可以是损失函数的损失值不再下降。

当主干网络模型为修改后的Resnet网络时，第5个卷积层(Conv Block5)为最后一个卷积层，如图5所示，为训练后的行人重识别模型的网络结构示意图。其中，Resnet网络包括5个卷积层，Conv Block1表示第1个卷积层，Conv Block4表示第4个卷积层，Conv Block5表示第5个卷积层，loss_dist表示特征多样性损失函数，loss_dist之前的菱形图表示多个特征图。服务器删除Resnet网络中最后一个卷积层(Conv Block5)对应的下采样层、全局池化层以及全连接层，将修改后的Resnet网络作为主干网络模型。主干网络模型可以称为骨干网络。在训练过程中，在主干网络模型中加入全局自适应池化层(pooling)。之后，通过难样本采样三元组损失函数(L_th)和中心损失函数(L_C)进行参数优化，还可以进行批量归一化(BN)操作进行归一化和标准化，随后加入全连接层(FC)，进而接入标签平滑交叉熵损失函数(L_{sof_LS})进行参数优化。服务器基于主干网络模型的第5个卷积层生成多个注意力图。之后，将各注意力图与主干网络模型中第4个卷积层进行点乘处理，将点乘结果输入至第5个卷积层中，构建多个注意力分支网络模型。注意力分支网络模型用于进行特征筛选，也可以称为特征筛选网络。服务器在第5个卷积层之后加入批量归一化(BN)操作，随后加入全连接层(FC)，进而接入标签平滑交叉熵损失函数(L_{sof_LS})进行参数优化。

进一步的，当主干网络模型为修改后的Resnet网络时，第5个卷积层(ConvBlock5)为最后一个卷积层，如图6所示，为训练后的行人重识别模型进行特征提取的网络结构示意图。其中，Conv Block1表示第1个卷积层，Conv Block4表示第4个卷积层，ConvBlock5表示第5个卷积层，pooling表示全局自适应池化层，BN表示批量归一化操作，FC表示全连接层，L_th表示难样本采样三元组损失函数，L_C表示中心损失函数，L_{sof_LS}表示标签平滑交叉熵损失函数，loss_dist表示特征多样性损失函数，loss_dist之前的菱形图表示多个特征图。训练后的行人重识别模型中包括骨干网络以及特征筛选网络。骨干网络的全连接层输出全局特征数据，特征筛选网络的全连接层输出的特征作为局部特征数据。将全局特征数据与多个局部特征数据进行连接(contact)，得到综合特征数据。

进一步的，当主干网络模型为Resnet网络时，为了减少训练的时间，可以使用Image数据集上的Resnet权重作为主干网络模型的初始权重。

在本实施例中，将样本数据集中的样本图像划分为多个批次的样本图像，将多个批次的样本图像输入至优化后的行人重识别模型中进行训练。在训练过程中，通过多个损失函数关系对行人重识别模型进行参数优化，直至达到预设条件，停止模型训练，输出训练后的行人重识别模型。由于多个损失函数关系式中包括根据注意力分支网络模型预先构建的特征多样化损失函数，因此，多哥注意力分支网络模型能够自适应的关注到不同的局部特征，从而实现自适应地筛选行人特征，克服了传统的基于部件的行人重识别模型平均划分特征的问题。

在一个实施例中，在获取样本数据集之后，还包括：对样本数据集中样本图像的尺寸进行调整；对调整后的样本图像进行增强处理，得到增强后的图像；对增强后的图像进行归一化处理，得到归一化后的图像；对归一化后的图像进行图像标准化处理，得到目标数据集。

由于获取到的样本数据集中的样本图像的尺寸是不一致的，因此，服务器可以对样本数据集中的样本图像的尺寸进行调整，将样本图像的尺寸进行统一。例如，尺寸可以是224×224、384×128、256×128等。从而服务器对调整后的样本图像进行数据增强处理。数据增强处理的方式可以是以概率P水平翻转图像。例如，P可以为0.5。随后，服务器对增强后的图像进行归一化处理，将增强后的图像中三个通道的像素值归一化到[0,1]。三个通道是指RGB(红、绿、蓝)三个颜色通道。归一化的计算公式可以如下所示：

其中，x′_ij是归一化后的像素值，X_ij表示图像中某个通道中第i行第j列的像素值，X_max表示图像中某个通道像素值的最大值，X_min表示图像中某个通道像素值的最小值。

服务器还可以对归一化后的图像进行图像标准化处理。标准化处理的公式可以如下所示：

其中，x′_ij表示归一化后的像素值，μ表示图像中通道像素值的平均值，σ表示图像中通道像素值的标准差。

例如，可以根据ImageNet数据集的统计结果，设定需要处理的图像的RGB三个通道的均值依次为0.485，0.456，0.406，图像的标准差依次为0.229，0.224，0.225。将上述设定的数值按照公式(11)进行计算，从而可以得到目标数据集。

进一步的，为了扩增样本数据集，增强行人重识别模型的鲁棒性，以0.5的概率将图像中面积为S(S_min＜S＜S_max)的矩形框内的像素值随机分配为[0,1]中的任意值。

在本实施例中，对样本数据集中样本图像的尺寸进行调整，有利于后续进行特征提取。对调整后的样本图像进行增强处理，得到增强后的图像，对增强后的图像进行归一化处理，得到归一化后的图像，对归一化后的图像进行图像标准化处理，得到目标数据集。能够提高后续训练后的行人重识别模型进行特征提取的准确性。

应该理解的是，虽然图2至3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2至3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种行人重识别模型优化处理装置，包括：获取模块702、修改模块704、提取模块706、批量标准化模块708、构建模块710和训练模块712，其中：

获取模块702，用于获取样本数据集以及模型标识。

修改模块704，用于对模型标识对应的原行人重识别模型进行网络层删除处理以及对指定网络层的卷积步幅进行修改，得到主干网络模型。

提取模块706，用于将样本数据集输入至主干网络模型中，通过主干网络模型对样本数据集中的各样本图像进行特征提取，得到初始特征数据。

批量标准化模块708，用于对初始特征数据进行批量标准化处理，得到多个特征图。

构建模块710，用于根据多个特征图以及主干网络模型的预设网络层构建多个注意力分支网络模型。

训练模块712，用于将主干网络模型以及多个注意力分支网络模型进行组合，得到优化后的行人重识别模型，通过样本数据集以及多个损失函数关系对优化后的行人重识别模型进行训练，直至达到预设条件，停止模型训练，输出训练后的行人重识别模型。

在一个实施例中，上述装置还包括：识别模块，用于获取待识别图像；将待识别图像输入至预设训练的行人重识别模型中，通过行人重识别模型提取待识别图像的有效特征数据；将图像库中的预设图像输入至预先训练的行人重识别模型中，通过行人重识别模型提取各预设图像的有效特征数据；根据待识别图像的有效特征数据与各预设图像的有效特征数据计算待识别图像与各预设图像之间的相似度，确定目标图像。

在一个实施例中，识别模块，还用于通过行人重识别模型中的主干网络模型对待识别图像进行特征提取，得到待识别图像的全局特征数据；通过行人重识别模型中的各注意力分支网络模型提取待识别图像的多个局部特征数据；将全局特征数据与多个局部特征数据进行连接，得到待识别图像的有效特征数据。

在一个实施例中，修改模块704，还用于将模型标识对应的原行人重识别模型中最后一个卷积层对应的下采样层进行删除处理；根据预设步幅对最后一个卷积层的卷积步幅进行修改；删除原行人重识别模型中的全局池化层以及全连接层，得到修改后的原行人重识别模型，将修改后的原行人重识别模型作为主干网络模型。

在一个实施例中，批量标准化模块708，用于对初始特征数据进行批量标准化处理，得到标准化处理后的初始特征数据；通过指定尺寸的卷积核对标准化处理后的初始特征数据进行卷积运算，得到多个特征图。

在一个实施例中，构建模块710，还用于将各特征图转换为相应的注意力图，将各注意力图与主干网络模型中第一网络层进行点乘处理，得到各注意力图对应的点乘结果；基于主干网络模型中第二网络层构建与注意力图数量相同的网络层；将各注意力图对应的点乘结果输入至相应的网络层中，在各网络层之后加入全连接层，生成各注意力对应的注意力分支网络模型。

在一个实施例中，训练模块712，还用于将样本数据集中的样本图像划分为多个批次的样本图像；将多个批次的样本图像输入至优化后的行人重识别模型中进行训练；在训练过程中，通过多个损失函数关系对行人重识别模型进行参数优化，直至达到预设条件，停止模型训练，输出训练后的行人重识别模型。

在一个实施例中，上述装置还包括：预处理模块，用于对样本数据集中样本图像的尺寸进行调整；对调整后的样本图像进行增强处理，得到增强后的图像；对增强后的图像进行归一化处理，得到归一化后的图像；对归一化后的图像进行图像标准化处理，得到目标数据集。

关于行人重识别模型优化处理装置的具体限定可以参见上文中对于行人重识别模型优化处理方法的限定，在此不再赘述。上述行人重识别模型优化处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储样本数据集。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种行人重识别模型优化处理方法。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，该存储器存储有计算机程序，该处理器执行计算机程序时实现上述各个实施例中的步骤。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述各个实施例中的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种行人重识别模型优化处理方法，其特征在于，所述方法包括：

获取样本数据集以及模型标识；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取待识别图像；

3.根据权利要求2所述的方法，其特征在于，有效特征数据包括全局特征数据以及局部特征数据，所述通过所述行人重识别模型提取所述待识别图像的有效特征数据包括：

4.根据权利要求1所述的方法，其特征在于，所述对所述模型标识对应的原行人重识别模型进行网络层删除处理以及对指定网络层的卷积步幅进行修改，得到主干网络模型包括：

根据预设步幅对所述最后一个卷积层的卷积步幅进行修改；

5.根据权利要求1所述的方法，其特征在于，所述对所述初始特征数据进行批量标准化处理，得到多个特征图包括：

6.根据权利要求1所述的方法，其特征在于，所述预设网络层包括第一网络层以及第二网络层，所述根据多个特征图以及所述主干网络模型的预设网络层构建多个注意力分支网络模型包括：

7.根据权利要求1所述的方法，其特征在于，所述通过所述样本数据集以及多个损失函数关系对所述优化后的行人重识别模型进行训练，直至达到预设条件，停止模型训练，输出训练后的行人重识别模型包括：

8.根据权利要求1至7任意一项所述的方法，其特征在于，所述在获取样本数据集之后，还包括：

对所述样本数据集中样本图像的尺寸进行调整；

对调整后的样本图像进行增强处理，得到增强后的图像；

9.一种行人重识别模型优化处理装置，其特征在于，所述装置包括：

获取模块，用于获取样本数据集以及模型标识；

10.根据权利要求9所述的装置，其特征在于，所述装置还包括：识别模块，用于获取待识别图像；将所述待识别图像输入至预设训练的行人重识别模型中，通过所述行人重识别模型提取所述待识别图像的有效特征数据；将图像库中的预设图像输入至预先训练的行人重识别模型中，通过所述行人重识别模型提取各预设图像的有效特征数据；根据所述待识别图像的有效特征数据与各预设图像的有效特征数据计算所述待识别图像与各预设图像之间的相似度，确定目标图像。

11.一种计算机设备，包括存储器和处理器，所述存储器存储有可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。