CN110532884B

CN110532884B - 行人重识别方法、装置及计算机可读存储介质

Info

Publication number: CN110532884B
Application number: CN201910695774.3A
Authority: CN
Inventors: 陈思静
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2024-04-09
Anticipated expiration: 2039-07-30
Also published as: WO2021017303A1; CN110532884A

Abstract

本发明公开了一种行人重识别方法、装置及计算机可读存储介质，该方法包括：从待识别的视频数据中提取行人图像，构建行人重识别训练数据集，根据所述行人重识别训练数据集训练特征提取网络，以获得行人重识别特征提取网络的模型参数，根据所述模型参数，利用所述特征提取网络从所述数据集中提取行人图像特征，根据行人图像特征计算所有行人的最终特征相似度，根据所有行人的最终特征相似度大小进行行人重识别；其中，获得的最终多尺度相似性的线性组合是最终获得行人特征相似度；本发明通过将CRF和DNN结合起来，学得更加一致性的相似性度量，挖掘了整个数据集所有行人图像之间的信息，从而更充分地挖掘了更多有用信息。

Description

行人重识别方法、装置及计算机可读存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种行人重识别方法、装置及计算机可读存储介质。

背景技术

行人重识别(Person re-identification，ReID)，也称行人再识别，是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。行人重识别技术广泛被认为是一个图像检索的子问题。行人重识别技术的训练库趋于大规模化，广泛采用深度学习框架。在行人重识别技术中，给定一个监控行人图像，检索跨设备下的该行人图像。行人重识别技术旨在弥补目前固定的摄像头的视觉局限，并可与行人检测/行人跟踪技术相结合，可广泛应用于智能视频监控、智能安保等领域。

然而在具体实现行人重识别技术时会面临着许多挑战，例如行人对象会受到光照、遮挡、视角等因素影响，这使得行人间的内类(同一个行人)差异甚至大于类间(不同行人)差异，从而导致实施行人重识别技术的失败。现在的行人重识别技术主要分为三个步骤：特征提取(行人对象的外观特征表示)，距离度量(行人间的相似性比较)和排序优化(对排序结果的优化)。在实施的过程中，从数据样本中采样了一些很小的集合，比如三元组、四元祖等，然后将这些很小的集合组成一个批处理样品集，构建一个优化损失函数，从而学习一个相似性度量模型，在很大程度上依赖采样策略。

现有的四元组行人重识别模型中，为了训练出行人重识别模型，一般是从行人重识别数据集中随机取出4个图像作为一个四元组，在将行人重识别数据集中待训练的行人图像形成多个四元组后，再对行人重识别模型进行训练。但是，将随机取出4个图像作为一个四元组中，如果选出的4个图像的识别度较高，则容易导致训练出的行人重识别模型对行人的识别能力较差。

发明内容

本发明提供一种行人重识别方法、装置及计算机可读存储介质，其主要目的在于可以挖掘整个数据集所有行人图像之间的信息、以更充分地挖掘更多有用信息。

为实现上述目的，本发明提供一种行人重识别方法，该方法包括：

步骤A：从待识别的视频数据中提取行人图像；

步骤B：构建行人重识别训练数据集，其中，所述数据集包括预设数量的行人图像；

步骤C：根据所述行人重识别训练数据集训练特征提取网络，以获得行人重识别特征提取网络的模型参数；

步骤D：根据所述模型参数，利用所述特征提取网络从所述数据集中提取行人图像特征；

步骤E：根据行人图像特征计算所有行人的最终特征相似度，根据所有行人的最终特征相似度大小进行行人重识别。

可选地，所述步骤E包括：

步骤E1：计算局部相似度；及

步骤E2：计算组相似度；

其中，对应局部相似性的值为局部相似度，对应组相似性的值为组相似度；

局部相似性是由深度神经网络(Deep Neural Networks，DNN)所表示的函数计算得到：

组相似性被建模成随机变量，用来描述probe图像和gallery图像之间的相似性，组成组相似性集合y＝{y_p,i|I_i∈g}，其中，y_p,i代表在图像组中的任意两个图像的组相似性，I_i表示具有i个probe图像组成的图像组集合，g表示gallery图像组的集合；

其中，s是英文scale的缩写，表示特定的尺度；m和n表示一种索引，m和n且分别表示图像组中的第m和n个图像；p是英文probe的缩写，表示指定的probe图像，i表示指定的probe图像中的第i个图像。

可选地，所述步骤E还包括：

步骤E3：根据所述局部相似度和组相似度构建CRF模型；及

步骤E4：根据所述CRF模型获得最终多尺度相似性的线性组合；

其中，所述获得的最终多尺度相似性的线性组合是最终获得行人特征相似度。

可选地，给定一组图像O，所有图像组中的相似性集合其中，表示其中一个尺度下的相似性集合，I_m和I_n分别表示具有m个图像的图像组集合和具有n个图像的图像组集合。

可选地，所述最终多尺度相似性的线性组合表示如下：

其中，α^s是对应尺度下的与一元项关联的正参数，k表示一种索引，且k表示probe图像和gallery图像中的第k个图像。

可选地，用T_u和T_p分别表示一元项和成对项，其中，T_u包括probe图像和gallery图像之间的局部相似度，T_p包括gallery图像中所有图像之间的相似度，T_u和T_p表示如下:

其中，α^S＝exp(w^S),β^S＝exp(v^s)；

和/>初始化为0，/>初始化为：

其中，β^s是对应尺度下的与成对项关联的正参数；

i和j分别表示一种索引，且i和j分别表示gallery图像中的第i和j个图像；

I_k表示具有k个probe图像和gallery图像组成的图像组集合。

可选地，使用交叉损失来监督每个图像的多尺度特征嵌入，所示如下：

可选地，所述步骤E还包括：

当计算出来的最终特征相似度超过预设数值时，则判定为同一行人；

当计算出来的最终特征相似度未超过预设数值时，则判定为不同行人；

若存在多个最终特征相似度值大于预设数值，进行排序返回；或按照行人图像拍摄的时间先后顺序进行排列返回。

为实现上述目的，本发明还提供一种行人重识别装置，所述装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的行人重识别程序，所述行人重识别程序被所述处理器执行时实现如上所述的行人重识别方法。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有行人重识别程序，所述行人重识别程序可被一个或者多个处理器执行，以实现如上所述的行人重识别方法的步骤。

本发明提出的行人重识别方法装置及计算机可读存储介质中，通过构建行人重识别训练数据集，根据所述行人重识别训练数据集训练特征提取网络，以获得行人重识别特征提取网络模型参数，根据所述模型参数，利用所述特征提取网络从所述数据集中提取行人图像特征，计算所有行人特征相似度，根据相似度大小进行行人重识别；其中，通过计算局部相似度和组相似度，获得的最终多尺度相似性的线性组合是最终获得行人特征相似度，最后根据最终获得的行人特征相似度的大小进行行人重识别；本发明通过将CRF和DNN结合起来，学得更加一致性的相似性度量，挖掘了整个数据集所有行人图像之间的信息，从而更充分地挖掘了更多有用信息。

附图说明

图1为本发明一实施例提供的行人重识别方法的流程示意图；

图2为图1中的步骤E的流程示意图；

图3为本发明一实施例提供的行人重识别装置的内部结构图；

图4为本发明一实施例提供的行人重识别装置中行人重识别程序的模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本发明提供一种行人重识别方法。参照图1所示，为本发明一实施例提供的行人重识别方法的流程示意图。该方法可以由一个装置执行，该装置可以由软件和/或硬件实现。

在本实施例中，所述行人重识别方法包括：

步骤A：从待识别的视频数据中提取行人图像；

进一步地，在所述步骤A之前，所述行人重识别方法包括还包括：对待识别的视频数据进行预处理，使得预处理后的待识别的视频数据中的每幅图像的尺寸相同。

由于行人通常在运动时，与摄像头的距离不同，导致监测视频中的各帧图像中，行人的大小不同，从而导致进行行人监测获得的监测框的大小不同，行人图像的尺寸不同。因此，需要对待识别的视频数据进行预处理。

可以理解的是，在所述步骤A中，所述待识别的视频图像中的行人图像是同一行人的图像。在行人重识别过程中，所述视频数据中所包括的视频图像，通常是对监控视频中根据行人的行走过程拍摄的连续多帧图像进行行人监测获得的图像序列。对于监控视频中的每一帧图像进行行人检测，获得该帧图像中行人所在的区域，将该帧图像中行人所在的区域对应的部分作为行人图像。本发明实施例对行人检测的方法不作具体限制。该帧图像中行人所在的区域，是进行行人检测获得的检测框所包围的区域。

具体地，在所述步骤A中，将提取的行人图像组成图像组。

进一步地，在采用所述步骤B的方法构建行人重识别训练数据集的过程中，当所述数据集中的行人图像的数量达到预设数量的行人图像时，可停止提取行人图像。

进一步地，在所述步骤C中训练的特征提取网络，训练一个结构相同和参数共享的孪生网络，所述孪生网络的两个子网络，可以分别接受一幅行人图像作为输入、生成两个行人图像的输出特征。

可选地，所述特征提取网络包括卷积单元、循环单元，以及池化层构成，其中每个卷积单元由一个批量归一化层、一个卷积层和一个非线性激活层构成，循环单元由若干门控单元构成。

具体地，所述步骤E包括：

当计算出来的最终特征相似度超过预设数值时，则判定为同一行人；否则，判定为不同行人；

若存在多个最终特征相似度大于预设数值，进行排序返回；或按照行人图像拍摄的时间先后顺序进行排列返回。

通过所述步骤E，可以实现多个摄像机中对同一行人的重识别。

本发明的一实施例中，在训练阶段，每个图像组包含一个probe图像和多个gallery图像；在测试阶段，网络输入可以是任意数量的probe图像和gallery图像，最终的相似性是多尺度相似性的线性组合；本发明通过局部相似性和组相似性描述相关的两个图像和图像组的图像间的关系。对应所述局部相似性的值为局部相似度，对应所述组相似性的值为组相似度。

所述组相似性基于所述组相似性，可以被划分成T_u和T_p用来分别表示一元项和成对项。T_u包括probe图像和gallery图像之间的局部相似度，T_p包括gallery图像中所有图像之间的相似度，T_u和T_p表示如下：

其中，α^s＝exp(w^s)，β^s＝exp(v^s)；

和/>初始化为0，/>初始化为：

其中，α^s是对应尺度下的与一元项关联的正参数，β^s是对应尺度下的与成对项关联的正参数；

进一步地，s是英文scale的缩写，表示特定的尺度；

k表示一种索引，且k表示probe图像和gallery图像中的第k个图像,I_k表示具有k个probe图像和gallery图像的组成的图像组集合；

i和j分别表示一种索引，且i和j分别表示gallery图像中的第i和j个图像；I_m和I_n分别表示具有m个gallery图像的图像组集合和具有n个gallery图像的图像组集合；

p是英文probe的缩写，表示指定的probe图像。

在本实施例中，为了增加模型的泛化能力，会对输入图像进行相应的尺度缩放，将s表示为对应着某个特定的尺度。

在训练阶段，每个图像组包含一个probe图像和多个gallery图像；在测试阶段，网络输入可以是任意数量的probe图像和gallery图像，最终的相似性是多尺度相似性的线性组合。

进一步地，在所述步骤E中，通过计算局部相似度和组相似度，获得的最终多尺度相似性的线性组合是最终获得行人特征相似度。

在本实施例中，用t_m,n代表在图像组中的任意两个图像的局部相似性，y_p,i代表在图像组中的任意两个图像的组相似性，y_p,i利用了整个图像组的信息来进行相似性估计；其中，t_m,n中的m和n表示一种索引，m和n且分别表示图像组中的第m和n个图像；y_p,i中的p是英文probe的缩写，表示指定的probe图像，y_p,i中的i表示指定的probe图像中的第i个图像。

更详细地，所述局部相似度和所述组相似度均被约束在0-1之间，所述局部相似性和组相似性的值越大表示越相似。

所述局部相似性和组相似性通过CRF(Conditional Random Fields，条件随机场)模型在统一的图形化模型中相关联，局部相似性作为其中观察到的输入变量，而组相似性作为要预测的输出变量。

更进一步地，请参阅图2，所述步骤E还包括：

步骤E1：计算局部相似度；

步骤E2：计算组相似度；

步骤E3：根据所述局部相似度和组相似度构建CRF模型；

步骤E4：根据所述CRF模型获得最终多尺度相似性的线性组合。

进一步地，所述CRF模型包括多尺度特征嵌入模块，局部相似性估计模块和组相似性估计模块。其中，所述局部相似性估计模块用于计算局部相似度；所述组相似性估计模块用于计算组相似度；所述多尺度特征嵌入模块用于获得最终多尺度相似性的线性组合。

在一实施例中，通过所述CRF模型进行建模的原理为：

给定一组图像O，首先计算图像组里的本地相似性，由于采用了多尺度的相似性度量，所有图像组中的相似性集合

其中，表示其中一个尺度下的相似性集合；

局部相似性是由深度神经网络(Deep Neural Networks，DNN)所表示的函数计算得到

组相似性被建模成随机变量，用来描述probe图像和gallery图像之间的相似性，组成组相似性集合y＝{y_p,i|I_i∈g}。组相似性受限于局部相似性，并且(Y,T)对可以被建模成连续的CRF模型，通过Gibbs分布来描述，所示如下：

对于全连接成对CRF模型，E(y|T)可以被表述成：

其中，α^S是对应尺度下的与一元项关联的正参数，β^s是对应尺度下的与成对项关联的正参数，

其中，α^s＝exp(w^s)，β^s＝exp(v^s)；

和/>初始化为0，/>初始化为：

在一实施例中，通过所述CRF模型进行相似性推理的原理为：

在获得了局部相似性集合T后，本发明通过一个平均场近似来得到一个易于训练的推理过程，将P(y|T)近似成一个简单的分布Q(y)，Q(y)可以表示为以下下一系列的独立边缘分布：

通过最小化Q(y)和P(y|T)之间的KL散度，最优的分布可由以下公式估算获得：

进一步地可以得到：

其中，和/>是高斯函数，将上述的式子带入，可以进一步通过下面的式子更新得到/>

通过所述局部相似性估计模块进行局部相似性的步骤中，其中，深度网络的训练的样本是以batch来组织的，从而提供了挖掘更多的图像间信息的机会。具体地，在一实施例中，通过在一个batch中来构建图像组。在实际应用中，一个图像batch包含N个行人，每个行人包含K张图像。在图像batch中，从不同行人中，取其中一个图像作为probe图像，将剩下的其他图像作为gallery图像，由整个图像组共享；其中，N＝20，K＝8。

通过所述组相似性估计模块进行组相似性的步骤中，所述组相似性代表了一个图像对是同行人的相似性，用验证损失来引导模型学习，所示如下：

在一实施例中，所述多尺度特征嵌入模块中通过使用交叉损失来监督每个图像的多尺度特征嵌入，所示如下：

最终的损失是这两个损失通过加权计算总和。

在所述步骤E中，通过计算所述局部相似度和组相似度，最终获得的行人特征相似度线性组合表示如下：

本发明提供的行人重识别方法，通过构建行人重识别训练数据集，根据所述行人重识别训练数据集训练特征提取网络，以获得行人重识别特征提取网络模型参数，根据所述模型参数，利用所述特征提取网络从所述数据集中提取行人图像特征，计算所有行人特征相似度，根据相似度大小进行行人重识别；其中，通过计算局部相似度和组相似度，获得的最终多尺度相似性的线性组合是最终获得行人特征相似度，最后根据最终获得的行人特征相似度的大小进行行人重识别。本发明通过将CRF和DNN结合起来，学得更加一致性的相似性度量，挖掘了整个数据集所有行人图像之间的信息，从而更充分地挖掘了更多有用信息。

本发明还提供一种行人重识别装置。参照图3所示，为本发明一实施例提供的行人重识别装置的内部结构图。所述行人重识别装置可以是PC(Personal Computer，个人电脑)，也可以是智能手机、平板电脑、便携计算机等终端设备。该代码库管理装置至少包括存储器11、处理器12、网络接口13以及通信总线14。

其中，所述存储器11至少包括一种类型的可读存储介质，所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如，SD或DX存储器等)、磁性存储器、磁盘、光盘等。所述存储器11在一些实施例中可以是行人重识别装置的内部存储单元，例如该行人重识别装置的硬盘。所述存储器11在另一些实施例中也可以是行人重识别装置的外部存储设备，例如行人重识别装置上配备的插接式硬盘，智能存储卡(Smart Media Card,SMC)，安全数字(Secure Digital,SD)卡，闪存卡(Flash Card)等。进一步地，所述存储器11还可以既包括行人重识别装置的内部存储单元也包括外部存储设备。所述存储器11不仅可以用于存储安装于行人重识别装置的应用软件及各类数据，例如行人重识别程序的代码等，还可以用于暂时地存储已经输出或者将要输出的数据。

所述处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片，用于运行所述存储器11中存储的程序代码或处理数据，例如执行行人重识别程序等。

所述网络接口13可选的可以包括标准的有线接口、无线接口(如WI-FI接口)，通常用于在该基于阅读理解的营销线索提取装置与其他电子设备之间建立通信连接。

所述通信总线14用于实现这些组件之间的连接通信。

图3仅示出了具有组件11至14以及基于行人重识别程序的行人重识别装置，本领域技术人员可以理解的是，图3示出的结构并不构成对行人重识别装置的限定，可以包括比图示更少或者更多的部件，或者组合某些部件，或者不同的部件布置。

在图3所示的行人重识别装置实施例中，所述存储器11中存储有行人重识别程序；所述处理器12执行所述存储器11中存储的行人重识别程序时实现如下步骤：

步骤A：从待识别的视频数据中提取行人图像；

所述行人重识别程序根据其不同的功能，可以划分为一个或多个功能模块。一个或者多个模块被存储于所述存储器11中，并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明，本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段，用于描述行人重识别程序在行人重识别装置中的执行过程。

例如，参照图4所示，为本发明行人重识别装置一实施例中的行人重识别程序的程序模块示意图，该实施例中，行人重识别程序可以被分割为行人图像提取模块31、数据集构建模块32、特征提取网络训练模块33、特征提取模块34、及行人重识别模块35，示例性地：

行人图像提取模块31用于从待识别的视频数据中提取行人图像；

数据集构建模块32用于构建行人重识别训练数据集，其中，所述数据集包括预设数量的行人图像；

特征提取网络训练模块33用于根据所述行人重识别训练数据集训练特征提取网络，以获得行人重识别特征提取网络的模型参数；

特征提取模块34用于根据所述模型参数，利用所述特征提取网络从所述数据集中提取行人图像特征；

行人重识别模块35用于计算所有行人特征相似度，根据相似度大小进行行人重识别。

进一步地，所述行人重识别模块35包括CRF模型，所述CRF模型包括多尺度特征嵌入模块，局部相似性估计模块和组相似性估计模块。

上述行人图像提取模块31、数据集构建模块32、特征提取网络训练模块33、特征提取模块34、及行人重识别模块35等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同，在此不再赘述。

图4仅示出了具有模块31-35以及行人重识别程序的行人重识别装置，本领域技术人员可以理解的是，图4示出的结构并不构成对所述行人重识别装置的限定，可以包括比图示更少或者更多的模块，或者组合某些模块，或者不同的模块布置。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

此外，本发明实施例还提出一种计算机可读存储介质，所述计算机可读存储介质上存储有行人重识别程序，所述行人重识别程序可被一个或多个处理器执行，以实现如下操作：

步骤A：从待识别的视频数据中提取行人图像；

本发明计算机可读存储介质具体实施方式与上述行人重识别装置和方法各实施例基本相同，在此不作累述。

需要说明的是，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。并且本文中的术语“包括”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下，由语句“包括……”限定的要素，并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种行人重识别方法，其特征在于，所述方法包括：

步骤A：从待识别的视频数据中提取行人图像；

步骤E：根据行人图像特征计算所有行人的最终特征相似度，根据所有行人的最终特征相似度大小进行行人重识别；

所述步骤E包括：

步骤E1：计算局部相似度；

步骤E2：计算组相似度；

步骤E3：根据所述局部相似度和组相似度构建CRF模型；

局部相似性是由深度神经网络所表示的函数计算得到：

其中，中的s是英文scale的缩写，表示特定的尺度；m和n表示一种索引，m和n且分别表示图像组中的第m和n个图像；y_p,i中的p是英文probe的缩写，表示指定的probe图像，i表示指定的probe图像中的第i个图像；

其中，所述获得的最终多尺度相似性的线性组合是最终获得行人特征相似度；

给定一组图像O，所有图像组中的相似性集合其中，/>表示其中一个尺度下的相似性集合，I_m和I_n分别表示具有m个图像的图像组集合和具有n个图像的图像组集合；

所述最终多尺度相似性的线性组合表示如下：

其中，α^s是对应尺度下的与一元项关联的正参数，k表示一种索引，且k表示probe图像和gallery图像中的第k个图像；

用T_u和T_p分别表示一元项和成对项，其中，T_u包括probe图像和gallery图像之间的局部相似度，T_p包括gallery图像中所有图像之间的相似度，T_u和T_p表示如下:

其中，α^S＝exp(w^S)；

初始化为0；

其中，i和j分别表示一种索引，且i和j分别表示gallery图像中的第i和j个图像；I_k表示具有k个probe图像和gallery图像组成的图像组集合。

2.如权利要求1所述的行人重识别方法，其特征在于，所述步骤E还包括：

3.一种行人重识别装置，其特征在于，所述行人重识别装置包括存储器和处理器，所述存储器上存储有可在所述处理器上运行的行人重识别程序，所述行人重识别程序被所述处理器执行时实现如权利要求1-2任一所述的行人重识别方法。

4.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有行人重识别程序，所述行人重识别程序可被一个或者多个处理器执行，以实现如权利要求1至2任一项所述的行人重识别方法的步骤。