CN109784166A

CN109784166A - 行人重识别的方法及装置

Info

Publication number: CN109784166A
Application number: CN201811522444.6A
Authority: CN
Inventors: 冯维新; 董远; 白洪亮; 熊风烨
Original assignee: Beijing Faceall Co
Current assignee: Beijing Faceall Co
Priority date: 2018-12-13
Filing date: 2018-12-13
Publication date: 2019-05-21

Abstract

本发明实施例提供一种行人重识别的方法及装置，其中方法包括：将获取的若干个行人图像输入至预先训练的神经网络模型，输出各行人图像的特征向量，作为第一全局特征向量；将目标行人图像输入至预先训练的神经网络模型，输出目标行人图像的特征向量，作为第二全局特征向量；计算第二全局特征向量与各第一全局特征向量间的欧式距离，选取欧式距离最近的若干个行人图像作为目标行人图像的行人重识别结果。本发明实施例在训练过程中同时使用分类信息，全局特征和局部特征，使网络性能大为提升，在测试及使用过程中只使用全局特征衡量图像间差异，兼顾了网络使用时对识别速度的要求，同时使用距离损失与分类损失训练网络，提高了网络识别效率。

Description

行人重识别的方法及装置

技术领域

本发明实施例涉及图像识别技术领域，更具体地，涉及行人重识别的方法及装置。

背景技术

在视频帧中，由于很多情景下行人的动作姿态变化较大，遮挡严重，部分行人衣着长相相似难以分辨，以及对行人的检测可能存在位置不准确的情况，使得在实际情景中对行人图像的识别充满困难。

行人重识别：也称作行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。如给定一个行人，检索该行人在多个摄像头监控视频中的图像。目前主流的行人重识别技术主要分为以下三类：

第一类是基于表征学习的行人重识别方法，这种方法将行人重识别问题看成是一个分类问题，即把每个行人的图片当做一个类别，利用分类误差训练网络模型。这种方法网络结构简单，且可以使用大量识别的现成技术，但仅仅使用行人的id信息难以学习出泛化能力足够强的模型，因而重识别的效果一般较差。

第二类是基于度量学习的方法。这种方法目的不再是按照行人的ID把不同行人分成不同的类别，而是在于学习图片间的距离，根据距离判断两张图片是否是同一行人。这种方法从行人图像的相似度入手，准确率比较高，速度也比较快，但不能克服同一个行人在不同图像中位置不一致造成的误识别。

第三类是基于局部特征学习的方法，这种方法训练网络将人体分成几个部分，比较时可以在给定的两张图片间对应部分互相比较，提高了系统的性能，但局部特征的提取不仅在训练过程中需要大量的标注数据，并且速度也比较慢。

发明内容

本发明实施例提供一种克服上述问题或者至少部分地解决上述问题的行人重识别的方法及装置。

第一个方面，本发明实施例提供一种行人重识别的方法，包括：

将获取的若干个行人图像输入至预先训练的神经网络模型，输出各行人图像的特征向量，作为第一全局特征向量；将目标行人图像输入至预先训练的神经网络模型，输出目标行人图像的特征向量，作为第二全局特征向量；

计算所述第二全局特征向量与各所述第一全局特征向量间的欧式距离，选取欧式距离最近的若干个行人图像作为所述目标行人图像的行人重识别结果；

其中，所述神经网络模型具体通过以下步骤训练：

获取行人图像的样本集，所述样本集中的样本预先配置对应的行人ID的标签；将所述样本集中的样本输入至残差网络中，输出第一特征矩阵；根据所述第一特征矩阵分别提取样本的全局特征向量和局部特征向量；

根据所述样本的全局特征向量以及标签，使用交叉熵函数计算分类损失；根据所述样本的全局特征向量获取样本的三元组，根据三元组的全局特征向量和局部特征向量分别计算三元组的全局距离损失和局部距离损失；

根据所述分类损失、三元组的全局距离损失和三元组的局部距离损失优化所述神经网络模型中的参数。

第二个方面，本发明实施例提供一种行人重识别的装置，包括：

全局特征向量获取模块，用于将获取的若干个行人图像输入至预先训练的神经网络模型，输出各行人图像的特征向量，作为第一全局特征向量；将目标行人图像输入至预先训练的神经网络模型，输出目标行人图像的特征向量，作为第二全局特征向量；

识别结果模块，用于计算所述第二全局特征向量与各所述第一全局特征向量间的欧式距离，选取欧式距离最近的若干个行人图像作为所述目标行人图像的行人重识别结果；

其中，所述神经网络模型具体通过以下步骤训练：

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的行人重识别的方法及装置，同时使用距离损失与分类损失训练网络，使网络从多角度提取图像信息，提高了网络识别效率；使用局部特征水平对齐的方法，使网络在提取全局特征的同时提取图像局部信息，从而将图像进行对齐，增强了识别行人位置不在图像正中央的行人图像的能力；在训练过程中同时使用分类信息，全局特征和局部特征，使网络性能大为提升。而在测试及使用过程中只使用全局特征衡量图像间差异，兼顾了网络使用时对识别速度的要求。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的行人重识别的方法的流程示意图；

图2为本发明实施例的神经网络模型的训练的流程示意图；

图3为本发明实施例根据局部特征进行水平对齐的示意图；

图4为本发明实施例提供的行人重识别的装置的结构示意图；

图5为本发明实施例提供的电子设备的实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了克服现有技术的上述问题，本发明实施例提供了一种行人重识别的方法及装置，其发明构思为：使用残差网络作为基础，在训练阶段使用多种误差损失函数辅助网络的学习，在应用阶段用欧氏距离判断行人的相似程度。

图1为本发明实施例提供的行人重识别的方法的流程示意图，如图1所示，包括：

S101、将获取的若干个行人图像输入至预先训练的神经网络模型，输出各行人图像的特征向量，作为第一全局特征向量；将目标行人图像输入至预先训练的神经网络模型，输出目标行人图像的特征向量，作为第二全局特征向量；

S102、计算所述第二全局特征向量与各所述第一全局特征向量间的欧式距离，选取欧式距离最近的若干个行人图像作为所述目标行人图像的行人重识别结果。

需要说明的是，行人图像是指含有行人的图像，本发明实施例通过将行人图像输入至预先训练的神经网络模型中，输出对应每个行人图像的第一全局特征向量；目标行人图像即含有目标行人的图像，本发明实施例通过将目标行人图像输入至预先训练的神经网络模型中，输出对应目标行人图像的第二全局特征向量。通过计算第二全局特征向量与各第一全局特征向量间的欧式距离，选取欧式距离最近的若干个行人图像作为所述目标行人图像的行人重识别结果。

图2为本发明实施例的神经网络模型的训练的流程示意图，如图2所示，包括：

S201、获取行人图像的样本集，所述样本集中的样本预先配置对应的行人ID的标签；将所述样本集中的样本输入至残差网络中，输出第一特征矩阵；根据所述第一特征矩阵分别提取样本的全局特征向量和局部特征向量。

本发明实施例以残差网络作为基础网络，对图像中监测到的行人提取出特征，即第一特征矩阵。残差网络在图像分类、检测以及定位三个方面具有比较突出的优势，并且残差网络更容易优化，能够通过增加相当的深度来提高准确率。

在本发明实施例中，将第一特征矩阵通过池化处理，即可获得全局特征向量，而局部特征向量则是将第一特征矩阵按行分割，对每水平行去均值获得的局部特征矩阵，其构思是将图像(或者行人)做水平分割处理，每一层局部图像对应局部特征矩阵中的一行元素，局部特征向量的每一行分别代表该等份的特征。使用局部特征对全局特征进行辅助，能够解决行人在图像中位置不对齐引起的识别错误。

S202、根据所述样本的全局特征向量以及标签，使用交叉熵函数计算分类损失；根据所述样本的全局特征向量获取样本的三元组，根据三元组的全局特征向量和局部特征向量分别计算三元组的全局距离损失和局部距离损失。

S203、根据所述分类损失、三元组的全局距离损失和三元组的局部距离损失优化所述神经网络模型中的参数。

训练过程中，需要使用损失函数使得网络参数向损失减小的方向调整，从而优化网络性能。本发明实施例为达到更好的行人重识别效果，同时使用了分类损失和距离损失。分类损失使用交叉熵函数计算，距离损失使用三元组损失计算。

本发明实施例使用残差网络作为基础网络，对视频中检测到的行人提取其特征，并通过对神经网络的训练使得相同行人的不同图像间的特征尽可能接近，而不同行人的图像之间特征尽可能相差明显，从而实现对行人的再识别。

在上述各实施例的基础上，作为一种可选实施例，根据所述第一特征矩阵分别提取样本的全局特征向量和局部特征向量，具体为：

定义第一特征矩阵为l通道，m*n大小，将样本的第一特征矩阵输入平均池化层，输出l通道的特征向量，作为样本的全局特征向量。

例如，当采用resnet-18残差网络时，该残差网络的最后一个卷积层的输出为一个512通道，8*4大小的第一特征矩阵，将该矩阵输入至平均池化层提出出512通道的全局特征向量。

将样本的第一特征矩阵输入水平池化层对每行向量取均值，输出高度为m，宽度为1的第二特征矩阵，将所述第二特征矩阵输入至1*1大小的卷积层，输出o通道，m*1大小的第三特征矩阵，作为所述样本的局部特征向量，其中o小于l。

需要说明的是，将第二特征矩阵再次输入一个卷积层，其目的是为了降维，例如，将512通道，8*4大小的第一特征矩阵输入水平池化层，输出的是高度为8，宽度为1的第二特征矩阵，再输入至一个卷积层，即可降维至128通道，形成8*1*128的特征矩阵，相当于将行人图像水平分为8等份，局部特征的每一行分别代表该等份的特征。

在上述各实施例的基础上，所述根据所述样本的全局特征向量以及标签，使用交叉熵函数计算分类损失，具体为：

将所述全局特征向量输入至所述神经网络模型的全连接层，输出所述样本对应各行人ID的概率，通过交叉熵公式计算分类损失：

其中，x[i]表示样本x对应标签的概率，x[j]表示样本x对应标签j的概率，i∈J，j∈J。

可以理解的是，全连接层可以整合卷积层或者池化层中具有类别区分性的局部信息.其目的是为了进行分类。本发明实施例使用全局距离和局部距离来衡量图片的相似程度。并且为了进一步提升性能，同时使用了分类损失帮助网络收敛。分类损失使神经网络模型对所有图片对所有id计算相对应的分数，该分数由全局平均池化层后引出一个全连接层计算，最高分数的则判定为是同一行人。

在上述各实施例的基础上，距离损失使用三元组损失计算。对每一张图像anchor，需要在所有与之同id的行人图像中找出一张距离最大的图像作为正样本pos，以及在所有与之不同id的行人图像中找一张距离最小的图像作为负样本neg。为节省计算成本，本系统仅使用全局距离进行正负样本的选取。根据样本的全局特征获得三元组的步骤，具体为：

根据样本集中各样本的全局特征向量，计算两两样本间的全局距离；对于任意一个样本，选取与所述样本具有相同标签且全局距离最大的图像作为正样本，选取与所述样本具有不同标签且全局距离最小的图像作为负样本，将一个样本及所述样本的正样本和负样本作为一个三元组。

在上述实施例的基础上，所述根据三元组的全局特征计算三元组的全局距离损失，具体为：

根据样本与正样本间的全局距离减去样本与负样本的全局距离，获得所述三元组的全局距离损失；

其中，根据以下公式计算两个样本间的全局距离：

其中，x和y分别表示两个样本，其中，x_i表示样本x的第i个通道的特征向量，y_i表示样本y的第i个通道的特征向量，样本的通道数为n。

在上述各实施例的基础上，作为一种可选实施例，所述根据三元组的局部特征计算三元组的局部距离损失，具体为：

根据样本与正样本间的局部距离减去样本与负样本的局部距离获得所述三元组的局部距离损失；

其中，根据以下公式计算两个样本间的局部距离：

定义两个样本的局部特征向量均为o通道，m*1大小，将样本x的局部特征向量表示为x＝{x₁,x₂,...,x_i,...,x_m}，将样本y的局部特征向量表示为y＝{y₁,y₂,...,x_j,...,y_m}；

根据公式计算样本x中元素i与样本y中的元素j间的归一化欧式距离，并构成距离矩阵D；

根据距离矩阵D构建最短距离矩阵S，其中最短距离矩阵S中的元素S_ij的表达式为：

将元素S_mm的值作为两个样本间的局部距离。

需要说明的是，本发明实施例将行人图像在水平方向上划分为几份，提取每一份的局部特征，并根据局部特征对图像进行水平对齐，减少了由于行人在图像中位置不一致造成的误差，局部特征与全局特征相结合，大大提高了行人再识别技术的准确率。

使用局部特征对全局特征进行辅助，能够解决行人在图像中位置不对齐引起的识别错误，图3为本发明实施例根据局部特征进行水平对齐的示意图，如图3所示，image B中对行人检测的结果相较image A位于偏下的位置。如果使用全局特征计算其全局距离，必然造成距离相差较大。而使用局部特征先对两张图像进行对齐。由于行人同一水平部位的图像更接近，采用最短距离算法能将二者进行一个更好的对齐，减少环境因素对检测结果的影响。如图所示，采用最短距离算法，将image A的1部分作为人的头部与image B的1,2,3,4进行对齐，image A的2,3部分为行人上身，与image B的5部分进行对齐。image A4,5部分为行人下身，与image B 6部分对齐。image A的6,7部分则与image B 7部分进行了对齐。使用水平对齐后的特征，计算图片距离很大幅度的提升了性能。

在上述各实施例的基础上，所述将获取的若干个行人图像输入至预先训练的神经网络模型，具体为：

将获取的行人图像进行筛选，去除长宽比小于1.8的行人图像，将任意行人图像统一缩放为预设尺寸，输入至预先训练的神经网络模型。

需要说明的是，为了突出图像间的相对差异，加速网络收敛，所有图像在输入网络之前要进行预处理，统一放缩至特定大小(比如128*256)，并按照经验值在RGB每个通道上做归一化处理，减均值除以方差后放缩到0～1的大小。

图4为本发明实施例提供的行人重识别的装置的结构示意图，如图4所示，该行人重识别的装置包括：全局特征向量获取模块401和识别结果模块402，其中：

全局特征向量获取模块401，用于将获取的若干个行人图像输入至预先训练的神经网络模型，输出各行人图像的特征向量，作为第一全局特征向量；将目标行人图像输入至预先训练的神经网络模型，输出目标行人图像的特征向量，作为第二全局特征向量；

识别结果模块402，用于计算所述第二全局特征向量与各所述第一全局特征向量间的欧式距离，选取欧式距离最近的若干个行人图像作为所述目标行人图像的行人重识别结果。

其中，所述神经网络模型具体通过以下步骤训练：

获取行人图像的样本集，所述样本集中的样本预先配置对应的行人ID的标签；将所述样本集中的样本输入至残差网络中，输出第一特征矩阵；根据所述第一特征矩阵分别提取样本的全局特征向量和局部特征向量。

根据所述样本的全局特征向量以及标签，使用交叉熵函数计算分类损失；根据所述样本的全局特征向量获取样本的三元组，根据三元组的全局特征向量和局部特征向量分别计算三元组的全局距离损失和局部距离损失。

本发明实施例提供的行人重识别的装置，具体执行上述各行人重识别的方法实施例流程，具体请详见上述各行人重识别的方法实施例的内容，在此不再赘述。本发明实施例提供的行人重识别的装置同时使用距离损失与分类损失训练网络，使网络从多角度提取图像信息，提高了网络识别效率，使用局部特征水平对齐的方法，使网络在提取全局特征的同时提取图像局部信息，从而将图像进行对齐，增强了识别行人位置不在图像正中央的行人图像的能力，在训练过程中同时使用分类信息，全局特征和局部特征，使网络性能大为提升。而在测试及使用过程中只使用全局特征衡量图像间差异，兼顾了网络使用时对识别速度的要求。

图5为本发明实施例提供的电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储在存储器530上并可在处理器510上运行的计算机程序，以执行上述各实施例提供的行人重识别的方法，例如包括：将获取的若干个行人图像输入至预先训练的神经网络模型，输出各行人图像的特征向量，作为第一全局特征向量；将目标行人图像输入至预先训练的神经网络模型，输出目标行人图像的特征向量，作为第二全局特征向量；计算所述第二全局特征向量与各所述第一全局特征向量间的欧式距离，选取欧式距离最近的若干个行人图像作为所述目标行人图像的行人重识别结果；其中，所述神经网络模型具体通过以下步骤训练：获取行人图像的样本集，所述样本集中的样本预先配置对应的行人ID的标签；将所述样本集中的样本输入至残差网络中，输出第一特征矩阵；根据所述第一特征矩阵分别提取样本的全局特征向量和局部特征向量；根据所述样本的全局特征向量以及标签，使用交叉熵函数计算分类损失；根据所述样本的全局特征向量获取样本的三元组，根据三元组的全局特征向量和局部特征向量分别计算三元组的全局距离损失和局部距离损失；根据所述分类损失、三元组的全局距离损失和三元组的局部距离损失优化所述神经网络模型中的参数。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的行人重识别的方法，例如包括：将获取的若干个行人图像输入至预先训练的神经网络模型，输出各行人图像的特征向量，作为第一全局特征向量；将目标行人图像输入至预先训练的神经网络模型，输出目标行人图像的特征向量，作为第二全局特征向量；计算所述第二全局特征向量与各所述第一全局特征向量间的欧式距离，选取欧式距离最近的若干个行人图像作为所述目标行人图像的行人重识别结果；其中，所述神经网络模型具体通过以下步骤训练：获取行人图像的样本集，所述样本集中的样本预先配置对应的行人ID的标签；将所述样本集中的样本输入至残差网络中，输出第一特征矩阵；根据所述第一特征矩阵分别提取样本的全局特征向量和局部特征向量；根据所述样本的全局特征向量以及标签，使用交叉熵函数计算分类损失；根据所述样本的全局特征向量获取样本的三元组，根据三元组的全局特征向量和局部特征向量分别计算三元组的全局距离损失和局部距离损失；根据所述分类损失、三元组的全局距离损失和三元组的局部距离损失优化所述神经网络模型中的参数。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种行人重识别的方法，其特征在于，包括：

其中，所述神经网络模型具体通过以下步骤训练：

2.根据权利要求1所述的方法，其特征在于，根据所述第一特征矩阵分别提取样本的全局特征向量和局部特征向量，具体为：

定义第一特征矩阵为l通道，m*n大小，将样本的第一特征矩阵输入平均池化层，输出l通道的特征向量，作为样本的全局特征向量；

3.根据权利要求1所述的方法，其特征在于，所述根据所述样本的全局特征向量以及标签，使用交叉熵函数计算分类损失，具体为：

4.根据权利要求1所述的方法，其特征在于，所述根据样本的全局特征获得三元组的步骤，具体为：

5.根据权利要求1所述的方法，其特征在于，所述根据三元组的全局特征计算三元组的全局距离损失，具体为：

其中，根据以下公式计算两个样本间的全局距离：

6.根据权利要求1所述的方法，其特征在于，所述根据三元组的局部特征计算三元组的局部距离损失，具体为：

其中，根据以下公式计算两个样本间的局部距离：

将元素S_mm的值作为两个样本间的局部距离。

7.根据权利要求1所述的方法，其特征在于，所述将获取的若干个行人图像输入至预先训练的神经网络模型，具体为：

8.一种行人重识别的装置，其特征在于，包括：

其中，所述神经网络模型具体通过以下步骤训练：

9.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至7中任意一项所述的行人重识别的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行如权利要求1至7中任意一项所述的行人重识别的方法。