CN110399789B

CN110399789B - 行人重识别方法、模型构建方法、装置、设备和存储介质

Info

Publication number: CN110399789B
Application number: CN201910514458.1A
Authority: CN
Inventors: 李德紘; 张睿; 刘伟; 冯焱一
Original assignee: PCI Suntek Technology Co Ltd
Current assignee: PCI Technology Group Co Ltd
Priority date: 2019-06-14
Filing date: 2019-06-14
Publication date: 2021-04-20
Anticipated expiration: 2039-06-14
Also published as: CN110399789A

Abstract

本申请实施例公开了一种行人重识别方法、网络模型构建方法、装置、设备和存储介质，包括：输入第一类型的连续帧图像至第一通道，输入第二类型的连续帧图像至第二通道；针对每个残差卷积层，将第一通道中的残差卷积层的输出结果与对应的第二通道中的残差卷积层的输出结果按照预设侧向连接方式进行融合，将融合后的结果分别输入至下一残差卷积层；分别提取第一残差神经网络模型输出的空间级特征和第二残差神经网络模型输出的时序级特征；根据空间级特征和时序级特征，训练预先构建的第一残差神经网络模型和第二残差神经网络模型；应用训练好的第一残差神经网络模型和第二残差神经网络模型进行行人重识别。提高了行人重识别的效率和正确率。

Description

行人重识别方法、模型构建方法、装置、设备和存储介质

技术领域

本申请实施例涉及计算机视觉技术，尤其涉及一种行人重识别方法、网络模型构建方法、装置、设备和存储介质。

背景技术

行人重识别，主要应用于视频监控方面，例如，在刑侦工作中，刑侦人员通常需要浏览多个摄像头中的视频，查找某个特定的行人在哪个摄像头中出现过。这种针对特定的行人的监控视频检索问题，通常也称为行人重识别。

现有技术中对行人重识别的过程，通常采用过拟合的数据模型进行行人的识别，使得模型的泛化能力不够强，导致识别的效率和识别的正确率较低，难以满足行人重识别的要求。

发明内容

本申请提供了一种行人重识别方法、模型构建方法、装置、设备和存储介质，以解决现有技术中行人重识别的效率和正确率较低的问题。

本发明采用如下技术方案：

第一方面，本申请实施例提供了一种行人重识别方法，该方法包括：

输入第一预设帧数的第一类型的连续帧图像至第一通道，输入第二预设帧数的第二类型的连续帧图像至第二通道，其中，第一类型的连续帧图像为多通道图像，第二类型的连续帧图像为单通道图像，所述第一通道由预先构建的第一残差神经网络模型构成，所述第二通道由预先构建的第二残差神经网络模型构成；

针对每个残差卷积层，将第一通道中的残差卷积层的输出结果与对应的第二通道中的残差卷积层的输出结果，按照预设侧向连接方式进行融合，将融合后的结果分别输入至下一残差卷积层；

分别提取所述第一残差神经网络模型输出的空间级特征和第二残差神经网络模型输出的时序级特征；

根据所述空间级特征和所述时序级特征，训练所述预先构建的第一残差神经网络模型和所述预先构建的第二残差神经网络模型；

应用训练好的第一残差神经网络模型和所述第二残差神经网络模型进行行人重识别。

第二方面，本申请实施例提供了一种网络模型构建方法，该方法包括：

基于获取的拓扑结构信息和配置参数信息，构建形成初始网络模型，其中，所述拓扑结构信息包括：残差卷积层信息、最大池化层信息、平均池化层信息、跨连接层信息和各层之间的拓扑连接顺序；所述配置参数信息包括每个残差卷积层中的残差模块的参数信息；

根据获取的训练学习信息，迭代训练所述初始网络模型，构建第一残差神经网络模型和第二残差神经网络模型。

第三方面，本申请实施例提供了一种行人重识别装置，该装置包括：

图像输入模块，用于输入第一预设帧数的第一类型的连续帧图像至第一通道，输入第二预设帧数的第二类型的连续帧图像至第二通道，其中，第一类型的连续帧图像为多通道图像，第二类型的连续帧图像为单通道图像，所述第一通道由预先构建的第一残差神经网络模型构成，所述第二通道由预先构建的第二残差神经网络模型构成；

融合模块，用于针对每个残差卷积层，将第一通道中的残差卷积层的输出结果与对应的第二通道中的残差卷积层的输出结果，按照预设侧向连接方式进行融合，将融合后的结果分别输入至下一残差卷积层；

特征提取模块，用于分别提取所述第一残差神经网络模型输出的空间级特征和第二残差神经网络模型输出的时序级特征；

训练模块，用于根据所述空间级特征和所述时序级特征，训练所述预先构建的第一残差神经网络模型和所述预先构建的第二残差神经网络模型；

识别模块，用于应用训练好的第一残差神经网络模型和所述第二残差神经网络模型进行行人重识别。

第四方面，本申请实施例提供了一种网络模型的构建装置，该装置包括：

初始网络模型构建模块，用于基于获取的拓扑结构信息和配置参数信息，构建形成初始网络模型，其中，所述拓扑结构信息包括：残差卷积层信息、最大池化层信息、平均池化层信息、跨连接层信息和各层之间的拓扑连接顺序；所述配置参数信息包括每个残差卷积层中的残差模块的参数信息；

残差神经网络模型构建模块，用于根据获取的训练学习信息，迭代训练所述初始网络模型，构建第一残差神经网络模型和第二残差神经网络模型。

第五方面，本申请实施例提供了一种设备，包括存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的行人重识别方法。

第六方面，本申请实施例提供了一种设备，包括存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第二方面所述的网络模型构建方法。

第七方面，本申请实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的行人重识别方法。

第八方面，本申请实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第二方面所述的网络模型构建方法。

本发明采用的技术方案中有如下有益效果：设计了两个通道，第一通道也即慢神经通道，第二通道也即快神经通道，分别利用慢神经通道和快神经通道的特性，例如慢神经通道的高空间特征提取能力，以及，快神经通道的高帧率的特性，提取慢神经通道中的空间级特征和快神经通道中的时序级特征，然后进行融合，并对慢神经通道和快神经通道对应的残差神经网络模型进行训练，进而应用训练好的模型进行行人重识别。这样，同时提高了行人重识别的效率和正确率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请实施例提供的一种行人重识别方法流程图；

图2是本申请实施例提供的一种网络模型构建方法的流程图；

图3是本申请实施例提供的一种行人重识别装置的结构示意图；

图4是本申请实施例提供的一种网络模型构建装置的结构示意图；

图5是本申请实施例提供的一种设备的结构示意图；

图6是本申请实施例提供的另一种设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

首先对本申请实施例的背景进行说明，本申请实施例中，利用灵长类动物视觉系统的视网膜神经节细胞的工作原理构建神经网络，神经节细胞中的M细胞负责获取高速时序信息，对快速运动的捕获能力强，P细胞负责获取空间信息，但对运动信息不敏感。因此，在本申请实施例中，分别以慢神经通道和快神经通道分别模拟P细胞和M细胞工作，其中，慢神经通道也称为第一通道，快神经通道也称为第二通道，慢神经通道和快神经通道分别基于3D残差神经网络构成。

图1给出了本申请实施例提供的一种行人重识别方法的流程图，本实施例提供的行人重识别方法可以由行人重识别装置来执行，该行人重识别装置可通过硬件和/或软件的方式实现。参考图1，该方法具体可以包括：

S101、输入第一预设帧数的第一类型的连续帧图像至第一通道，输入第二预设帧数的第二类型的连续帧图像至第二通道，其中，第一类型的连续帧图像为多通道图像，第二类型的连续帧图像为单通道图像，所述第一通道由预先构建的第一残差神经网络模型构成，所述第二通道由预先构建的第二残差神经网络模型构成。

具体的，T为视频流的帧长度，在输入的T帧连续帧图像中，假设处理步长为τ，也即，每τ帧将输入一帧图像至第一通道，也即，慢神经通道。因此，对于帧长度为T的视频流，仅T/τ帧图像输入至第一通道，也即，T/τ即为第一预设帧数。而对于第二通道，也即，快神经通道，在一个具体的例子中，设定慢快神经通道间的帧率比为α，则输入第二通道的帧图像数量为αT/τ，即为第二预设帧数，其中，α大于1。

此外，由于预先构建的第一残差神经网络模型是基于3D-ResNet(3D-ResidualNeural Network，3D残差神经网络)修改后得到的P3D-ResNet(Pseudo-3D ResidualNeural Network，伪3D残差神经网络)构成，该网络提供了强大的空间特征提取能力，用户获取图像中的高级语义信息，因此，慢神经通道具有低帧率、高空间特征提取能力的特性，也即，牺牲了一定的刷新速度来换取更高的特征提取能力，可以使得网络对图像“看得更仔细”。在一个具体的例子中，第一残差神经网络可以是将3D-ResNet101网络结构修改为P3D-ResNet127网络结构。

比较性的，由于快神经通道不负责空间语义信息的提取，因此，可输入低通道数的图像，例如，单通道的灰度图像，通道数为1。另外，设定通道衰减因子为β，0<β<1，也即，快神经通道的每层网络的通道数将是慢神经通道每层网络通道数的β倍。预先构建的第二残差神经网络也可以是由P3D-ResNet三维卷积神经网络构成，但是因为通道数均缩减，因此，在处理空间信息上的能力较弱。因此，快神经通道具有轻量、低通道容量和高帧率的特性，也即，通过牺牲处理空间信息的能力换取更快的处理速度和捕获快速变化的运动信息的能力。

在一个具体的例子中，考虑到慢神经通道和快神经通道的特性，多通道图像可以选为RGB(Red、Green、Blue，红绿蓝)三通道图像，单通道图像可以选为灰度图像。

S102、针对每个残差卷积层，将第一通道中的残差卷积层的输出结果与对应的第二通道中的残差卷积层的输出结果，按照预设侧向连接方式进行融合，将融合后的结果分别输入至下一残差卷积层。

具体的，慢神经通道和快神经通道同时进行，也即，同时对慢神经通道和快神经通道输入连续帧图像，两个神经通道的每个残差卷积层的输出结果都会先通过侧向连接进行信息融合，可选的，可以按照预设侧向连接方式。然后将融合后的结果分别输入至下一残差卷积层。示例性的，针对每个残差卷积层，执行上述操作。

示例性的，侧向连接方式包括单向连接和双向连接，实践证明，单向连接的效果和双向连接的效果相似，在本申请实施例中，以从快神经通道到慢神经通道的单向连接为标准，针对两个神经通道的输出形状不同的问题，分别计算以下三种侧向连接方式的融合手段和效果进行说明：

(1)通过变形和转置，将快神经通道某个残差卷积层的输出的形状{αT/τ,βC,H*W}变成{T/τ,αβC,H*W}，即把每α帧图像的特征图打包到一帧图像的通道维度上；(2)通过每α帧图像抽取出一帧图像的特征图，因此，快神经通道某个残差卷积层的输出的形状{αT/τ,βC,H*W}变成{T/τ,βC,H*W}；(3)使用一个卷积核形状为5*1*1*βC*2βC且卷积步长为α的卷积模块对快神经通道某个残差卷积层的输出进行卷积操作。

其中，H*W为卷积核的高与宽，C为对应的通道数，其他参数的含义如上述实施例所示。在本申请实施例中，可以选用第(3)种侧向连接方式作为预设侧向连接方式。

S103、分别提取所述第一残差神经网络模型输出的空间级特征和第二残差神经网络模型输出的时序级特征。

在一个具体的例子中，由于慢神经通道和快神经通道的特性，慢神经通道和快神经通道的最后一层，也即，平均池化层，分别输出2048维空间级特征和(2048*β)维时序级特征。然后将这两类特征进行融合，得到2048+(2048*β)维特征。

S104、根据所述空间级特征和所述时序级特征，训练所述预先构建的第一残差神经网络模型和所述预先构建的第二残差神经网络模型。

具体的，上述2048+(2048*β)维特征可以用于基于欧氏距离或Cosine距离的相似性度量，例如，在训练阶段，可以根据相似性度量结果计算权重三元组损失函数，以得到损失值，然后将损失值反向传递从而使网络学习。因此，在本申请实施例中，根据空间级特征和时序级特征确定损失值，以完成对预先构建的第一残差神经网络模型和预先构建的第二残差神经网络模型的训练。

S105、应用训练好的第一残差神经网络模型和所述第二残差神经网络模型进行行人重识别。

在一个具体的例子中，将待识别视频图像输入至训练好的第一残差神经网络模型和第二残差神经网络模型中，获取待识别视频图像的特征向量，然后获取待识别的视频图像中的行人的识别结果，并输出该识别结果，作为待识别的视频图像的行人重识别结果。

图2给出了本申请实施例提供的一种网络模型构建方法的流程图，本实施例提供的网络模型构建方法可以由网络模型构建装置来执行，该网络模型构建装置可通过硬件和/或软件的方式实现。参考图2，该方法具体可以包括：

S201、基于获取的拓扑结构信息和配置参数信息，构建形成初始网络模型，其中，所述拓扑结构信息包括：残差卷积层信息、最大池化层信息、平均池化层信息、跨连接层信息和各层之间的拓扑连接顺序；所述配置参数信息包括每个残差卷积层中的残差模块的参数信息。

具体的，定义最大池化层为maxpool，定义平均池化层为avgpool，第i层残差卷积层定义为ResLayerⁱ，跨连接层定义为shortcut，其中，跨连接层可以理解为一条快速通道连接到层的尾部，将输入直接映射，并和结果相加。示例性的，本申请实施例中的残差模块的结构可以包括两种，分别定义为ResBlock2d和ResBlock3d，这两种结构中各个层的结构和数量不同。本申请实施例中初始网络模型可以是P3D-ResNet网络结构构成的模型。

S202、根据获取的训练学习信息，迭代训练所述初始网络模型，构建第一残差神经网络模型和第二残差神经网络模型。

具体的，根据获取到的训练学习信息，例如，损失函数信息以及收敛条件信息，迭代训练上述初始网络模型，进而构建第一残差神经网络模型和第二残差神经网络模型，例如，P3D-ResNet127网络结构构成的模型。

本申请实施例中，基于获取的拓扑结构信息和配置参数信息，构建形成初始网络模型；根据获取的训练学习信息，迭代训练所述初始网络模型，构建第一残差神经网络模型和第二残差神经网络模型。通过第一残差神经网络模型和第二残差神经网络模型，构建了对应特性的慢神经通道和快神经通道，进而应用到行人重识别中，通过更精准更合适的残差神经网络模型，提高了行人重识别的效率和正确率。

可选的，每层残差卷积层包括至少一个残差模块，每个残差模块包括：卷积模块、归一化模块和激活函数模块。

其中，残差模块用ResBlock_j ⁱ表示，也即，ResLayerⁱ＝{ResBlock₁ ⁱ,ResBlock₂ ⁱ,…,ResBlock_m ⁱ}，m为每层残差卷积层中包括的残差模块的个数，j＝1,2…m。具体的，卷积模块通用定义为conv3d；归一化模块即为3D Batch Normalization，通用定义为bn3d；激活函数模块通用定义为ReLU，也即，应用的激活函数为ReLU(Rectified LinearUnit，修正线性单元)函数，也称为线性整流函数，可以指代以斜坡函数及其变种为代表的非线性函数。

示例性的，上述卷积模块中的卷积核的大小通用定义为w∈R^{(D*H*W*cin*cout)}，D为一个卷积核在时间方向上的深度，H和W为一个卷积核的高与宽。因此，可以具体定义为conv3d(1,down)的卷积核wb∈R^{(1*1*1*cin*cout/4)}；conv3d(s)的卷积核ws∈R^{(1*H*W*cout/4*cout/4)}；conv3d(t)的卷积核wt∈R^{(D*1*1*cout/4*cout/4)}；conv3d(1,up)的卷积核wb'∈R^{(1*1*1*cout/4*cout)}。

在一个具体的例子中，ResBlock2d和ResBlock3d的结构分别如下：

示例性的，本申请实施例中，归一化模块的确定方式包括：根据第一可学习参数和第二可学习参数，应用各个图像通道的平均值和标准差，确定所述归一化模块的输出。

在一个具体的例子中，通用ResBlock(包括ResBlock2d和ResBlock3d)的定义如下：定义第一个残差模块ResBlock₁ ⁱ的输出为

cout为输出通道数，cin为输入h^i-1(h^i-1也为上一层layer^i-1的输出)的通道数；定义layerⁱ的除第一个外的残差模块

的输出为

定义第i个模块为bn3dⁱ的输出为yⁱ，具体公式如下：

其中，n∈N，t∈Dⁱ，c∈cinⁱ，y∈Hⁱ，x∈Wⁱ，

为各个图像通道的平均值，

为各个图像通道的标准差，

和

分别为第一可学习参数和第二可学习参数。主要作用是把

尽可能恢复

原来的分布。

在上述技术方案的基础上，本申请实施例的技术方案还包括：更新所述归一化模块，具体可以通过如下方式实现：构建置信图预测器和部件亲和域预测器；将第一预设帧数的第二类型的连续帧图像输入至所述置信图预测器，以获取人体的部件置信图，并确定所述人体的部件的相对位置信息，根据所述相对位置信息更新所述第一残差神经网络模型的归一化模块中的第一可学习参数和第二可学习参数，以更新所述归一化模块；将第二预设帧数的第二类型的连续帧图像输入至所述部件亲和域预测器，以获取人体关键点在空间上的位置信息和方向信息，根据所述位置信息和方向信息更新所述第二残差神经网络模型的归一化模块中的第一可学习参数和第二可学习参数，以更新所述归一化模块；其中，所述第二类型的连续帧图像为单通道图像。

本申请实施例中构建的置信图预测器支持19个人体关键点，部件亲和域预测器支持38维部件亲和域。其中，置信图预测器和部件亲和域预测器均可以采用六组低通道数的轻量ResBlock2d的卷积神经网络结构。具体的，在更新归一化模块的过程中，输入至置信图预测器的图像和输入至部件亲和域预测器的图像均为单通道图像，例如可以是灰度图像。需要说明的是，由于本申请实施例中的快神经通道的高帧率的特性，以及，慢神经通道的高空间特征提取力的特性，因此，在归一化模块更新过程中，输入至置信图预测器和部件亲和域预测器的图像的帧数条件需要满足下述条件，也即，输入置信图预测器的第二类型的连续帧图像的帧数为第一预设帧数，输入至部件亲和域预测器的连续帧图像的帧数为第二预设帧数，且，第一预设帧数和第二预设帧数的关系请参考上述实施例中的说明，这里不再赘述。

针对置信图预测器，在获取到人体的部件置信图后，从而得到人体每个部件的在空间的相对位置信息，通过映射得到部件之间的相关性，得到人体体态等信息，并把此类信息用于慢神经通道中每一层残差卷积层的每个bn3d模块，代替原有的

和

也即，第一学习参数和第二学习参数，目的在于修补批量归一化后被破坏掉的部分空间语义。

针对部件亲和域预测器，部件亲和域同时包括了人体关键点在空间上的位置与方向，通过把多帧图像的部件亲和域输入至某函数映射得到部件在时间维度上的运动信息，如方向的变化和位置的变化等，并把此类信息用于每个bn3d模块，代替原有的

和

也即，第一学习参数和第二学习参数。

例如，更新后的归一化模块分别为：

上述

以及

均为通过已某学习模块的映射后的得到的参数更新。其中

和

会因时间位置的不同而不同。

和

将paf在时间维度上进行了信息融合。

在一个实施例中，针对第一残差神经网络模型：卷积模块的卷积核的大小为1*7*7*3*64，卷积步长为(1,2,2)，填充参数为(0,3,3)；最大池化层的核形状为1*3*3，卷积步长为(1,2,2)，填充参数为(0,1,1)；各个残差卷积层的输入通道数分别为64、256、512、1024，对应的输出通道数分别为256、512、1024和2048。

具体的，从第一残差神经网络模型的第一层开始顺序描述，序号为神经网络层号：1、conv3d，卷积核大小均为w¹∈R^1*7*7*3*64，stride卷积步长为(1，2，2)，padding填充参数为(0，3，3)；2、bn3d；3、relu；4、maxpool，核形状为1*3*3*，stride卷积步长为(1，2，2)，padding填充参数为(0，1，1)；5、ResLayer²＝{ResBlock2d|cin＝64，cout＝256}*3；6、ResLayer³＝{ResBlock2d|cin＝256，cout＝512}*4；7、ResLayer⁴＝{ResBlock3d|cin＝512，cout＝1024}*23；8、ResLayer⁵＝{ResBlock3d|cin＝1024，cout＝2028}*3；9、avgpool。

示例性的，ResLayer²第一个

的stride为(1，1，1)，其他ResLayerⁱ(i>2)的第一个

的stride为(1，2，2)。

在另一个实施例中，针对第二残差神经网络模型：卷积模块的卷积核的大小为5*7*7*3*64*β，卷积步长为(1,2,2)，填充参数为(0,3,3)；最大池化层的核形状为1*3*3，卷积步长为(1,2,2)，填充参数为(0,1,1)；各个残差卷积层的输入通道数分别为64*β、256*β、512*β、1024*β，对应的输出通道数分别为256*β、512*β、1024*β和2048*β，其中β为大于零且小于1的自然数。

具体的，从第二残差神经网络模型的第一层开始顺序描述，序号为神经网络层号：1、conv3d，卷积核大小均为w¹∈R^{5*7*7*3*64*β}，stride卷积步长为(1，2，2)，padding填充参数为(0，3，3)；2、bn3d；3、relu；4、maxpool，核形状为1*3*3，stride卷积步长为(1，2，2)，padding填充参数为(0，1，1)；5、ResLayer²＝{ResBlock3d|cin＝64*β，cout＝256*β}*3；6、ResLayer³＝{ResBlock3d|cin＝256*β，cout＝512*β}*4；7、ResLayer⁴＝{ResBlock3d|cin＝512*β，cout＝1024*β}*23；8、ResLayer⁵＝{ResBlock3d|cin＝1024*β，cout＝2048*β}*3；9、avgpool。

本申请实施例中，考虑到慢神经通道的低帧率特性，而物体通常运动速度较快，因此可见输入到慢神经通道的帧图像间的时间相关性不大，在时间维度上相对独立，而且当空间感受域较小(即比较局部)，时间感受域上的关联也会非常小，因此在前两层ResLayer²和ResLayer³仅采用了ResBlock2d，保持住原来的时间分辨率，只对空间维度进行卷积处理。在后两层ResLayer⁴和ResLayer⁵，因为网络的空间感受域大大增加，以足够应付时间感受域上的信息，因此ResLayer⁴和ResLayer⁵均使用ResBlock3d。

经过工程实践，以上基于3D-ResNet101修改的P3D127三维卷积网络与原3D-ResNet101模型相比模型参数量大大降低少，接近于2D-ResNet101的参数量，因此所消耗的资源更少，计算更快，而且性能不受影响。

经过工程实践，以上P3D127-fast三维卷积网络与慢神经通道的P3D127模型相比，计算效率更快，快神经通道的计算量大概占总计算量的20％，而灵长类动物的视网膜神经节细胞中正巧也仅有约15％到20％的M-cell细胞负责运动信息的获取，进一步验证了本申请实施例中的技术方案的有效性。

在上述实施例的基础上，图3为本申请实施例提供的一种行人重识别装置的结构示意图。参考图3，本实施例提供的行人重识别装置具体包括：图像输入模块301、融合模块302、特征提取模块303、训练模块304和识别模块305。

其中，图像输入模块301，用于输入第一预设帧数的第一类型的连续帧图像至第一通道，输入第二预设帧数的第二类型的连续帧图像至第二通道，其中，第一类型的连续帧图像为多通道图像，第二类型的连续帧图像为单通道图像，所述第一通道由预先构建的第一残差神经网络模型构成，所述第二通道由预先构建的第二残差神经网络模型构成；融合模块302，用于针对每个残差卷积层，将第一通道中的残差卷积层的输出结果与对应的第二通道中的残差卷积层的输出结果，按照预设侧向连接方式进行融合，将融合后的结果分别输入至下一残差卷积层；特征提取模块303，用于分别提取所述第一残差神经网络模型输出的空间级特征和第二残差神经网络模型输出的时序级特征；训练模块304，用于根据所述空间级特征和所述时序级特征，训练所述预先构建的第一残差神经网络模型和所述预先构建的第二残差神经网络模型；识别模块305，用于应用训练好的第一残差神经网络模型和所述第二残差神经网络模型进行行人重识别。

可选的，所述多通道图像为RGB三通道图像，所述单通道图像为灰度图像。

本申请实施例提供的行人重识别装置可以用于执行上述实施例提供的行人重识别方法，具备相应的功能和有益效果。

在上述实施例的基础上，图4为本申请实施例提供的一种网络模型构建装置的结构示意图。参考图4，本实施例提供的网络模型构建装置具体包括：初始网络模型构建模块401和残差神经网络模型构建模块402。

其中，初始网络模型构建模块401，用于基于获取的拓扑结构信息和配置参数信息，构建形成初始网络模型，其中，所述拓扑结构信息包括：残差卷积层信息、最大池化层信息、平均池化层信息、跨连接层信息和各层之间的拓扑连接顺序；所述配置参数信息包括每个残差卷积层中的残差模块的参数信息；残差神经网络模型构建模块402，用于根据获取的训练学习信息，迭代训练所述初始网络模型，构建第一残差神经网络模型和第二残差神经网络模型。

可选的，还包括归一化模块确定模块，用于根据第一可学习参数和第二可学习参数，应用各个图像通道的平均值和标准差，确定所述归一化模块的输出。

可选的，还包括归一化模块更新模块，用于：

构建置信图预测器和部件亲和域预测器；

将第一预设帧数的第二类型的连续帧图像输入至所述置信图预测器，以获取人体的部件置信图，并确定所述人体的部件的相对位置信息，根据所述相对位置信息更新所述第一残差神经网络模型的归一化模块中的第一可学习参数和第二可学习参数，以更新所述归一化模块；将第二预设帧数的第二类型的连续帧图像输入至所述部件亲和域预测器，以获取人体关键点在空间上的位置信息和方向信息，根据所述位置信息和方向信息更新所述第二残差神经网络模型的归一化模块中的第一可学习参数和第二可学习参数，以更新所述归一化模块；

其中，所述第二类型的连续帧图像为单通道图像。

可选的，针对第一残差神经网络模型：

卷积模块的卷积核的大小为1*7*7*3*64，卷积步长为(1,2,2)，填充参数为(0,3,3)；最大池化层的核形状为1*3*3，卷积步长为(1,2,2)，填充参数为(0,1,1)；各个残差卷积层的输入通道数分别为64、256、512、1024，对应的输出通道数分别为256、512、1024和2048。

可选的，针对第二残差神经网络模型：

卷积模块的卷积核的大小为5*7*7*3*64*β，卷积步长为(1,2,2)，填充参数为(0,3,3)；最大池化层的核形状为1*3*3，卷积步长为(1,2,2)，填充参数为(0,1,1)；各个残差卷积层的输入通道数分别为64*β、256*β、512*β、1024*β，对应的输出通道数分别为256*β、512*β、1024*β和2048*β，其中β为大于零且小于1的自然数。

本申请实施例提供的网络模型构建装置可以用于执行上述实施例提供的网络模型构建方法，具备相应的功能和有益效果。

本申请实施例提供了一种设备，且该设备中可集成本申请实施例提供的行人重识别装置。图5是本申请实施例提供的一种设备的结构示意图。参考图5，该设备包括：处理器50、存储器51。该设备中处理器50的数量可以是一个或者多个，图5中以一个处理器50为例。该设备中存储器51的数量可以是一个或者多个，图5中以一个存储器51为例。该设备的处理器50和存储器51可以通过总线或者其他方式连接，图5中以通过总线连接为例。

存储器51作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请任意实施例所述的行人重识别方法对应的程序指令/模块(例如，行人重识别装置中的图像输入模块301、融合模块302、特征提取模块303、训练模块304和识别模块305)。存储器51可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器51可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器51可进一步包括相对于处理器50远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器50通过运行存储在存储器51中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的行人重识别方法，该行人重识别方法包括：输入第一预设帧数的第一类型的连续帧图像至第一通道，输入第二预设帧数的第二类型的连续帧图像至第二通道，其中，第一类型的连续帧图像为多通道图像，第二类型的连续帧图像为单通道图像，所述第一通道由预先构建的第一残差神经网络模型构成，所述第二通道由预先构建的第二残差神经网络模型构成；针对每个残差卷积层，将第一通道中的残差卷积层的输出结果与对应的第二通道中的残差卷积层的输出结果，按照预设侧向连接方式进行融合，将融合后的结果分别输入至下一残差卷积层；分别提取所述第一残差神经网络模型输出的空间级特征和第二残差神经网络模型输出的时序级特征；根据所述空间级特征和所述时序级特征，训练所述预先构建的第一残差神经网络模型和所述预先构建的第二残差神经网络模型；应用训练好的第一残差神经网络模型和所述第二残差神经网络模型进行行人重识别。

上述提供的设备可用于执行上述实施例提供的行人重识别方法，具备相应的功能和有益效果。

本申请实施例提供了另一种设备，且该设备中可集成本申请实施例提供的网络模型构建装置。图6是本申请实施例提供的一种设备的结构示意图。参考图6，该设备包括：处理器60、存储器61。该设备中处理器60的数量可以是一个或者多个，图6中以一个处理器60为例。该设备中存储器61的数量可以是一个或者多个，图6中以一个存储器61为例。该设备的处理器60和存储器61可以通过总线或者其他方式连接，图6中以通过总线连接为例。

存储器61作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请任意实施例所述的网络模型构建方法对应的程序指令/模块(例如，网络模型构建装置中的初始网络模型构建模块401和残差神经网络模型构建模块402)。存储器61可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器61可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器61可进一步包括相对于处理器60远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器60通过运行存储在存储器61中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的行人重识别方法，该行人重识别方法包括：基于获取的拓扑结构信息和配置参数信息，构建形成初始网络模型，其中，所述拓扑结构信息包括：残差卷积层信息、最大池化层信息、平均池化层信息、跨连接层信息和各层之间的拓扑连接顺序；所述配置参数信息包括每个残差卷积层中的残差模块的参数信息；根据获取的训练学习信息，迭代训练所述初始网络模型，构建第一残差神经网络模型和第二残差神经网络模型。上述提供的设备可用于执行上述实施例提供的网络模型构建方法，具备相应的功能和有益效果。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种行人重识别方法，该行人重识别方法包括：输入第一预设帧数的第一类型的连续帧图像至第一通道，输入第二预设帧数的第二类型的连续帧图像至第二通道，其中，第一类型的连续帧图像为多通道图像，第二类型的连续帧图像为单通道图像，所述第一通道由预先构建的第一残差神经网络模型构成，所述第二通道由预先构建的第二残差神经网络模型构成；针对每个残差卷积层，将第一通道中的残差卷积层的输出结果与对应的第二通道中的残差卷积层的输出结果，按照预设侧向连接方式进行融合，将融合后的结果分别输入至下一残差卷积层；分别提取所述第一残差神经网络模型输出的空间级特征和第二残差神经网络模型输出的时序级特征；根据所述空间级特征和所述时序级特征，训练所述预先构建的第一残差神经网络模型和所述预先构建的第二残差神经网络模型；应用训练好的第一残差神经网络模型和所述第二残差神经网络模型进行行人重识别。

本申请实施例还提供另一种包含计算机可执行指令的存储介质，上述计算机可执行指令在由计算机处理器执行时用于执行一种网络模型构建方法：基于获取的拓扑结构信息和配置参数信息，构建形成初始网络模型，其中，所述拓扑结构信息包括：残差卷积层信息、最大池化层信息、平均池化层信息、跨连接层信息和各层之间的拓扑连接顺序；所述配置参数信息包括每个残差卷积层中的残差模块的参数信息；根据获取的训练学习信息，迭代训练所述初始网络模型，构建第一残差神经网络模型和第二残差神经网络模型。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的行人重识别方法和网络模型构建方法，还可以执行本申请任意实施例所提供的行人重识别方法和网络模型构建方法的相关操作。

上述实施例中提供的行人重识别装置和网络模型构建装置、存储介质及设备可执行本申请任意实施例所提供的行人重识别方法和网络模型构建方法，未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的行人重识别方法和网络模型构建方法。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种行人重识别方法，其特征在于，包括：

输入第一预设帧数的第一类型的连续帧图像至第一通道，输入第二预设帧数的第二类型的连续帧图像至第二通道，其中，第一类型的连续帧图像为多通道图像，第二类型的连续帧图像为单通道图像，所述第一通道由预先构建的第一残差神经网络模型构成，所述第二通道由预先构建的第二残差神经网络模型构成，所述第一残差神经网络模型包括P3D-ResNet127模型，所述第二残差神经网络模型包括通道数缩减的所述P3D-ResNet127模型；

针对每个残差卷积层，将第一通道中的残差卷积层的输出结果与对应的第二通道中的残差卷积层的输出结果，按照预设侧向连接方式进行融合，将融合后的结果分别输入至下一残差卷积层，其中，每个残差卷积层包含的归一化模块的输出，根据第一可学习参数和第二可学习参数，应用各个图像通道的平均值和标准差确定，所述第一可学习参数和所述第二可学习参数的更新包括将第二预设帧数的第二类型的连续帧图像输入至构建的部件亲和域预测器；

根据所述空间级特征和所述时序级特征来共同训练所述预先构建的第一残差神经网络模型和所述预先构建的第二残差神经网络模型；

2.根据权利要求1所述的方法，其特征在于，所述多通道图像为RGB三通道图像，所述单通道图像为灰度图像。

3.根据权利要求1所述的方法，其特征在于，所述第一残差神经网络模型和所述第二残差神经网络模型的生成包括：

4.根据权利要求3所述的方法，其特征在于，每层残差卷积层包括至少一个残差模块，每个残差模块包括：卷积模块、归一化模块和激活函数模块。

5.根据权利要求1所述的方法，其特征在于，还包括：更新所述归一化模块，相应的，所述更新所述归一化模块包括：

构建置信图预测器和部件亲和域预测器；

将第一预设帧数的第二类型的连续帧图像输入至所述置信图预测器，以获取人体的部件置信图，并确定所述人体的部件的相对位置信息，根据所述相对位置信息更新所述第一残差神经网络模型的归一化模块中的第一可学习参数和第二可学习参数，以更新所述归一化模块；

将第二预设帧数的第二类型的连续帧图像输入至所述部件亲和域预测器，以获取人体关键点在空间上的位置信息和方向信息，根据所述位置信息和方向信息更新所述第二残差神经网络模型的归一化模块中的第一可学习参数和第二可学习参数，以更新所述归一化模块；

其中，所述第二类型的连续帧图像为单通道图像。

6.根据权利要求4所述的方法，其特征在于，针对第一残差神经网络模型：

7.根据权利要求4所述的方法，其特征在于，针对第二残差神经网络模型：

8.一种行人重识别装置，其特征在于，包括：

图像输入模块，用于输入第一预设帧数的第一类型的连续帧图像至第一通道，输入第二预设帧数的第二类型的连续帧图像至第二通道，其中，第一类型的连续帧图像为多通道图像，第二类型的连续帧图像为单通道图像，所述第一通道由预先构建的第一残差神经网络模型构成，所述第二通道由预先构建的第二残差神经网络模型构成，所述第一残差神经网络模型包括P3D-ResNet127模型，所述第二残差神经网络模型包括通道数缩减的所述P3D-ResNet127模型；

融合模块，用于针对每个残差卷积层，将第一通道中的残差卷积层的输出结果与对应的第二通道中的残差卷积层的输出结果，按照预设侧向连接方式进行融合，将融合后的结果分别输入至下一残差卷积层，其中，每个残差卷积层包含的归一化模块的输出，根据第一可学习参数和第二可学习参数，应用各个图像通道的平均值和标准差确定，所述第一可学习参数和所述第二可学习参数的更新包括将第二预设帧数的第二类型的连续帧图像输入至构建的部件亲和域预测器；

训练模块，用于根据所述空间级特征和所述时序级特征来共同训练所述预先构建的第一残差神经网络模型和所述预先构建的第二残差神经网络模型；

9.根据权利要求8所述的装置，其特征在于，还包括：

10.一种行人重识别设备，其特征在于，包括：

存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-2任一所述的行人重识别方法。

11.一种行人重识别设备，其特征在于，包括：

存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求3-7任一所述的第一残差神经网络模型和第二残差神经网络模型的生成。

12.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-2任一所述的行人重识别方法。

13.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求3-7任一所述的第一残差神经网络模型和第二残差神经网络模型的生成。