CN112597943A

CN112597943A - 行人重识别的特征提取方法及装置、电子设备、存储介质

Info

Publication number: CN112597943A
Application number: CN202011595976.XA
Authority: CN
Inventors: 孙叶纳; 周军
Original assignee: Beijing Eyes Intelligent Technology Co ltd; Beijing Eyecool Technology Co Ltd
Current assignee: Beijing Eyes Intelligent Technology Co ltd; Beijing Eyecool Technology Co Ltd
Priority date: 2020-12-28
Filing date: 2020-12-28
Publication date: 2021-04-02

Abstract

本申请提供一种行人重识别的特征提取方法及装置、电子设备、计算机可读存储介质，该方法可以包括：将视频帧序列中每一视频帧作为已训练的头肩检测网络的输入，获得头肩检测网络输出的头肩检测框；基于头肩检测框回归得到行人检测框；将头肩检测框内的局部视频帧输入第一特征提取网络，获得头肩特征向量；将行人检测框内的局部视频帧输入第二特征提取网络，获得行人特征向量；对头肩特征向量和行人特征向量进行融合，获得行人外貌特征向量。通过本方案，可从视频帧中较少被遮挡的头肩部位提取出头肩特征向量融合到行人外貌特征向量中，使得行人外貌特征向量中可以包含更多有效的行人外貌特征，从而准确表征行人，提高行人追踪的稳定性和可靠性。

Description

行人重识别的特征提取方法及装置、电子设备、存储介质

技术领域

本申请涉及图像处理技术领域，特别涉及一种行人重识别的特征提取方法及装置、电子设备、计算机可读存储介质。

背景技术

行人追踪技术被广泛应用于商城、银行、学校及安防等场景。行人追踪技术中通常可通过行人重识别(Person Re-identification，Person re-ID)技术提取行人的外貌特征，从而根据外貌特征来对行人进行识别和跟踪。在实际应用场景中，行人往往相互遮挡或者被场景中的物体所遮挡。在这种情况下，从监控图像中提取到的行人外貌特征会掺杂许多噪声，导致外貌特征无法准确地表征行人，降低了行人追踪的稳定性和可靠性。

发明内容

本申请实施例的目的在于提供一种行人重识别的特征提取方法及装置、电子设备、计算机可读存储介质，用于提取行人的外貌特征，使得提取到的外貌特征可以准确表征行人，提高行人追踪的稳定性和可靠性。

一方面，本申请提供了一种行人重识别的特征提取方法，包括：

将视频帧序列中每一视频帧作为已训练的头肩检测网络的输入，获得所述头肩检测网络输出的头肩检测框；

基于所述头肩检测框回归得到行人检测框；

将所述头肩检测框内的局部视频帧输入第一特征提取网络，获得头肩特征向量；

将所述行人检测框内的局部视频帧输入第二特征提取网络，获得行人特征向量；

对所述头肩特征向量和所述行人特征向量进行融合，获得行人外貌特征向量。

在一实施例中，所述头肩检测网络通过如下方式训练得到：

将样本数据集中的样本图像作为目标检测网络的输入，获得所述目标检测网络输出的样本头肩预测框；其中，所述样本图像携带已标注的头肩标签框；

基于所述样本头肩预测框和所述头肩标签框之间的差异，调整所述目标检测网络的网络参数；

重复上述过程，直至所述目标检测网络收敛，获得所述头肩检测网络。

在一实施例中，所述头肩检测框以中心点坐标、宽度和高度表示；

所述基于所述头肩检测框回归得到行人检测框，包括：

将所述头肩检测框在垂直方向向下移动达到指定距离；

将移动后的所述头肩检测框在中心点不变的情况下，高度指定倍数，获得所述行人检测框。

在一实施例中，所述第二特征提取网络为已训练的多粒度网络；

所述将所述行人检测框内的局部视频帧输入第二特征提取网络，获得行人特征向量，包括：

将所述行人检测框内的局部视频帧输入所述多粒度网络的主干网络，获得所述主干网络输出的基础图像特征；

将所述基础图像特征输入所述多粒度网络的全局特征提取网络，获得第一全局特征向量；

将所述基础图像特征输入所述多粒度网络的第一区域特征提取网络，获得第二全局特征向量、第一区域特征向量和第二区域特征向量；

将所述基础图像特征输入所述多粒度网络的第二区域特征提取网络，获得第三全局特征向量、第三区域特征向量和第四区域特征向量；

对所述第一全局特征向量、所述第二全局特征向量、所述第三全局特征向量、所述第一区域特征向量、所述第二区域特征向量、所述第三区域特征向量和所述第四区域特征向量进行融合，得到所述行人特征向量。

在一实施例中，所述将所述基础图像特征输入所述多粒度网络的全局特征提取网络，获得第一全局特征向量，包括：

对所述基础图像特征进行下采样处理；

对下采样处理后的基础图像特征进行全局最大池化处理；

对全局最大池化处理后的基础图像特征进行降维处理，得到所述第一全局特征向量。

在一实施例中，所述将所述基础图像特征输入所述多粒度网络的第一区域特征提取网络，获得第二全局特征向量、第一区域特征向量和第二区域特征向量，包括：

将所述基础图像特征在垂直方向上二等分，得到第一子基础特征和第二子基础特征；

分别对所述基础图像特征、所述第一子基础特征和所述第二子基础特征进行全局最大池化处理；

分别对全局最大池化处理后的基础图像特征、第一子基础特征和第二子基础特征进行降维处理，得到所述第二全局特征向量、所述第一区域特征向量和所述第二区域特征向量。

在一实施例中，所述将所述基础图像特征输入所述多粒度网络的第二区域特征提取网络，获得第三全局特征向量、第三区域特征向量和第四区域特征向量，包括：

将所述基础图像特征在垂直方向上三等分，得到第三子基础特征和第四子基础特征；

分别对所述基础图像特征、所述第三子基础特征和所述第四子基础特征进行全局最大池化处理；

分别对全局最大池化处理后的基础图像特征、第三子基础特征和第四子基础特征进行降维处理，得到所述第三全局特征向量、所述第三区域特征向量和所述第四区域特征向量。

另一方面，本申请还提供了一种行人重识别的特征提取装置，包括：

检测模块，用于将视频帧序列中每一视频帧作为已训练的头肩检测网络的输入，获得所述头肩检测网络输出的头肩检测框；

回归模块，用于基于所述头肩检测框回归得到行人检测框；

第一提取模块，用于将所述头肩检测框内的局部视频帧输入第一特征提取网络，获得头肩特征向量；

第二提取模块，用于将所述行人检测框内的局部视频帧输入第二特征提取网络，获得行人特征向量；

融合模块，用于对所述头肩特征向量和所述行人特征向量进行融合，获得行人外貌特征向量。

进一步的，本申请还提供了一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述行人重识别的特征提取方法。

另外，本申请还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成上述行人重识别的特征提取方法。

在本申请实施例中，从视频帧中检测出头肩检测框后，可以确定行人的行人检测框，分别从头肩检测框内的局部视频帧和行人检测框内的局部视频帧中提取得到头肩特征向量和行人特征向量，并融合得到行人外貌特征向量；通过上述措施，可以从视频帧中较少被遮挡的头肩部位提取出头肩特征向量融合到行人外貌特征向量中，使得行人外貌特征向量中可以包含更多有效的行人外貌特征；而依据头肩检测框确定行人检测框，也可减少因实际场景中的遮挡对行人检测的影响，可以从行人检测框内的局部视频帧中提取到包含行人整体信息的行人特征向量，使得最终包含行人特征向量和头肩特征向量的行人外貌特征向量中包含行人头肩部位以及整体的外貌特征，从而准确表征行人，提高行人追踪的稳定性和可靠性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍。

图1为本申请一实施例提供的行人重识别的特征提取方法的应用场景示意图；

图2为本申请一实施例提供的电子设备的结构示意图；

图3为本申请一实施例提供的行人重识别的特征提取方法的流程示意图；

图4为本申请一实施例提供的视频帧的示意图；

图5为本申请另一实施例提供的视频帧的示意图；

图6为本申请一实施例提供的头肩检测网络的训练流程图；

图7为本申请一实施例提供的行人特征向量的提取方法的流程示意图；

图8为本申请一实施例提供的基础图像特征的示意图；

图9为本申请另一实施例提供的基础图像特征的示意图；

图10为本申请一实施例提供的行人重识别的特征提取装置的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

图1为本申请实施例提供的行人重识别的特征提取方法的应用场景示意图。如图1所示，该应用场景包括客户端20和服务端30；客户端20可以是网络摄像机或者与摄像机对接的主机，用于向服务端30上传采集到的视频帧序列；服务端30可以是服务器、服务器集群或云计算中心，可以获取客户端20上传的视频帧序列，并从视频帧序列中提取行人的外貌特征。

如图2所示，本实施例提供一种电子设备1，包括：至少一个处理器11和存储器12，图2中以一个处理器11为例。处理器11和存储器12通过总线10连接，存储器12存储有可被处理器11执行的指令，指令被处理器11执行，以使电子设备1可执行下述的实施例中方法的全部或部分流程。在一实施例中，电子设备1可以是上述服务端30。

存储器12可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(Static Random Access Memory，简称SRAM)，电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，简称EEPROM)，可擦除可编程只读存储器(Erasable Programmable Read Only Memory，简称EPROM)，可编程只读存储器(Programmable Red-Only Memory，简称PROM)，只读存储器(Read-Only Memory，简称ROM)，磁存储器，快闪存储器，磁盘或光盘。

本申请还提供了一种计算机可读存储介质，存储介质存储有计算机程序，计算机程序可由处理器11执行以完成本申请提供的行人重识别的特征提取方法。

参见图3，为本申请一实施例提供的行人重识别的特征提取方法的流程示意图，如图3所示，该方法可以包括以下步骤310-步骤350。

步骤310：将视频帧序列中每一视频帧作为已训练的头肩检测网络的输入，获得头肩检测网络输出的头肩检测框。

其中，头肩检测网络用于检测视频帧中人物的头肩部位，从视频帧中识别出一个或多个头肩检测框。头肩检测框可以限定头肩部位在视频帧中的位置，一般可以以检测框中心点在视频帧所属的图像坐标系中的坐标和检测框的宽度及高度来表示。示例性的，头肩检测框可写作(c_x，c_y，w，h)，(c_x，c_y)表示检测框中心点坐标，w表示检测框宽度，h表示检测框高度。

参见图4，为本申请一实施例提供的视频帧的示意图，如图4所示，视频帧中的虚线框表示头肩检测框。

步骤320：基于头肩检测框回归得到行人检测框。

在获得头肩检测框后，服务端可以确定该头肩检测框指示的行人在视频帧中的方位，并得到限定行人整体位置的行人检测框。该行人检测框限定行人在视频帧中的位置。

在一实施例中，服务端可以将头肩检测框在垂直方向向下移动达到指定距离，并将移动后的头肩检测框在中心点不变的情况下，高度扩大指定倍数，从而获得行人检测框。其中，垂直方向是视频帧所属图像坐标系中纵轴指示的方向，高度是检测框在垂直方向的长度。指定距离和指定倍数均为预配置的经验值。示例性的，一般认为对同一行人而言，行人检测框的高度是头肩检测框的高度的三倍，可将指定距离设定为头肩检测框的高度，指定倍数设定为三倍。

如果头肩检测框表示为(c_x，c_y，w，h)，行人检测框表示为(c’_x，c’_y，w’，h’)，在将头肩检测框在垂直方向向下移动后，可以得到行人检测框的中心点，此时，c’_x为c_x、c’_y为c_y-h。在中心点不变的情况下，将高度扩大三倍，此时，w’为w、h’为3h。

参见图5，为本申请另一实施例提供的视频帧的示意图，如图5所示，视频帧中的虚线框表示行人检测框。

步骤330：将头肩检测框内的局部视频帧输入第一特征提取网络，获得头肩特征向量。

其中，第一特征提取网络可以是AlexNet、VGGNet(Visual GeometryGroupNetwork，视觉几何群网络)、ResNet(Residual Neural Network，残差神经网络)等卷积神经网络中的一种。

服务端可以从视频帧中裁切头肩检测框内的局部视频帧，并将该局部视频帧输入第一特征提取网络，通过第一特征提取网络从中提取得到特征向量，该特征向量为表征头肩部位信息的头肩特征向量。

步骤340：将行人检测框内的局部视频帧输入第二特征提取网络，获得行人特征向量。

其中，第二特征提取网络可以是AlexNet、VGG Net、ResNet等卷积神经网络中的一种。

服务端可以从视频帧中裁切行人检测框内的局部视频帧，并将该局部视频帧输入第二特征提取网络，通过第二特征提取网络从中提取得到特征向量，该特征向量为表征行人整体信息的行人特征向量。

步骤350：对头肩特征向量和行人特征向量进行融合，获得行人外貌特征向量。

在获得同一行人的头肩特征向量和行人特征向量之后，服务端可以对两者进行融合，从而得到该行人的行人外貌特征向量。在融合时，服务端可以对两个向量进行连接(concat)，从而得到行人外貌特征向量。在这种情况下，服务端可以将m维的头肩特征向量和n维的行人特征向量融合为(m+n)维的行人外貌特征向量。

通过上述措施，可以从视频帧中较少被遮挡的头肩部位提取出头肩特征向量融合到行人外貌特征向量中，使得行人外貌特征向量中可以包含更多有效的行人外貌特征；而依据头肩检测框确定行人检测框，也可减少因实际场景中的遮挡对行人检测的影响，可以从行人检测框内的局部视频帧中提取到包含行人整体信息的行人特征向量，使得最终包含行人特征向量和头肩特征向量的行人外貌特征向量中包含行人头肩部位以及整体的外貌特征，从而准确表征行人，提高行人追踪的稳定性和可靠性。

在一实施例中，服务端在执行上述特征提取方法之前，需训练出头肩检测网络。参见图6，为本申请一实施例提供的头肩检测网络的训练流程图，如图6所示，该方法可以包括如下步骤610-步骤630。

步骤610：将样本数据集中的样本图像作为目标检测网络的输入，获得目标检测网络输出的样本头肩预测框；其中，样本图像携带已标注的头肩标签框。

样本数据集中包含大量样本图像，样本图像为实际场景中包含行人的图像。样本图像携带的头肩标签框用于限定样本图像中行人的头肩部位。

目标检测网络可以是YOLO(You Only Look Once)、SSD(Single Shot MultiBoxDetector，单镜头多盒探测器)、RCNN(Region-based Convolutional Network)、Faster-RCNN(Faster Region-based Convolutional Network)等网络中的任意一种。

在训练之前，目标检测网络的网络参数可以随机产生。服务端可以将样本图像输入至目标检测网络，通过目标检测网络对样本图像中的行人头肩部位的位置进行预测，获得样本头肩预测框。

步骤620：基于样本头肩预测框和头肩标签框之间的差异，调整目标检测网络的网络参数。

步骤630：重复上述过程，直至目标检测网络收敛，获得头肩检测网络。

服务端可以依据预设的损失函数评估样本头肩预测框和头肩标签框之间的差异，从而调整目标检测网络的网络参数。经过多次迭代，当损失函数的函数值趋于稳定时，可认为目标检测网络收敛，此时获得可用于检测头肩部位的头肩检测网络。

在一实施例中，第二特征提取网络为已训练的多粒度网络(Mutiple GranularityNetwork，MGN)，参见图7，为本申请一实施例提供的行人特征向量的提取方法的流程示意图，如图7所示，该方法可以包括如下步骤710-步骤750。

步骤710：将行人检测框内的局部视频帧输入多粒度网络的主干网络，获得主干网络输出的基础图像特征。

其中，多粒度网络的主干网络为ResNet50。多粒度网络包括主干网络、全局特征提取网络、第一区域特征提取网络和第二区域特征提取网络。

服务端从行人检测框内裁切出局部视频帧后，将该局部视频帧输入上述主干网络，从而得到基础图像特征。该基础图像特征可以是高维度的特征图(Feature Map)。

步骤720：将基础图像特征输入多粒度网络的全局特征提取网络，获得第一全局特征向量。

服务端将基础图像特征输入全局特征提取网络，通过全局特征提取网络对基础图像特征进行下采样处理，并对下采样处理后的基础图像特征进行全局最大池化处理，从而将基础图像特征转换为向量。服务端可以对全局最大池化处理后的基础图像特征进行降维处理，从而获得第一全局特征向量。

步骤730：将基础图像特征输入多粒度网络的第一区域特征提取网络，获得第二全局特征向量、第一区域特征向量和第二区域特征向量。

服务端将基础图像特征输入第一区域特征提取网络后，将基础图像特征在垂直方向上二等分，得到第一子基础特征和第二子基础特征。参见图8，为本申请一实施例提供的基础图像特征的示意图，如图8所示，基础图像特征a在垂直方向上二等分，获得第一子基础特征a1和第二子基础特征a2，两个子基础特征分别包含行人检测框内局部视频帧中一半的行人特征。

服务端可以通过第一区域特征提取网络，分别对基础图像特征、第一子基础特征和第二子基础特征进行全局最大池化处理，从而将基础图像特征、第一子基础特征和第二子基础特征转换为向量。服务端通过第一区域特征提取网络对池化处理后的基础图像特征进行降维处理，得到第二全局特征向量；对池化处理后的第一子基础特征进行降维处理，得到第一区域特征向量；对池化处理后的第二子基础特征进行降维处理，得到第二区域特征向量。

步骤740：将基础图像特征输入多粒度网络的第二区域特征提取网络，获得第三全局特征向量、第三区域特征向量和第四区域特征向量。

服务端将基础图像特征输入第二区域特征提取网络后，将基础图像特征在垂直方向上三等分，得到第三子基础特征、第四子基础特征和第五子基础特征。参见图9，为本申请另一实施例提供的基础图像特征的示意图，如图9所示，基础图像特征a在垂直方向上三等分，获得第三子基础特征a3、第四子基础特征a4和第五子基础特征a5；其中，第三子基础特征包含行人检测框中头肩部位的行人特征，第四子基础特征包含行人检测框中躯干部位的行人特征，第五子基础特征包含行人检测框中腿部的行人特征。

由于在实际场景中，行人腿部被遮挡的可能性最大，服务端可以不对第五子基础特征进行处理。

服务端可以通过第二区域特征提取网络，分别对基础图像特征、第三子基础特征和第四子基础特征进行全局最大池化处理，从而将基础图像特征、第三子基础特征和第四子基础特征转换为向量。服务端通过第二区域特征提取网络对池化处理后的基础图像特征进行降维处理，得到第三全局特征向量；对池化处理后的第三子基础特征进行降维处理，得到第三区域特征向量；对池化处理后的第四子基础特征进行降维处理，得到第四区域特征向量。

步骤750：对第一全局特征向量、第二全局特征向量、第三全局特征向量、第一区域特征向量、第二区域特征向量、第三区域特征向量和第四区域特征向量进行融合，得到行人特征向量。

在融合时，服务端可以将上述第一全局特征向量、第二全局特征向量、第三全局特征向量、第一区域特征向量、第二区域特征向量、第三区域特征向量和第四区域特征向量进行连接，从而得到行人特征向量。

参见图10，是本发明一实施例的一种行人重识别的特征提取装置，如图10所示，该装置可以包括：检测模块1010、回归模块1020、第一提取模块1030、第二提取模块1040、融合模块1050。

检测模块1010，用于将视频帧序列中每一视频帧作为已训练的头肩检测网络的输入，获得所述头肩检测网络输出的头肩检测框；

回归模块1020，用于基于所述头肩检测框回归得到行人检测框；

第一提取模块1030，用于将所述头肩检测框内的局部视频帧输入第一特征提取网络，获得头肩特征向量；

第二提取模块1040，用于将所述行人检测框内的局部视频帧输入第二特征提取网络，获得行人特征向量；

融合模块1050，用于对所述头肩特征向量和所述行人特征向量进行融合，获得行人外貌特征向量。

上述装置中各个模块的功能和作用的实现过程具体详见上述行人重识别的特征提取方法中对应步骤的实现过程，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种行人重识别的特征提取方法，其特征在于，包括：

基于所述头肩检测框回归得到行人检测框；

2.根据权利要求1所述的方法，其特征在于，所述头肩检测网络通过如下方式训练得到：

3.根据权利要求1所述的方法，其特征在于，所述头肩检测框以中心点坐标、宽度和高度表示；

所述基于所述头肩检测框回归得到行人检测框，包括：

将所述头肩检测框在垂直方向向下移动达到指定距离；

将移动后的所述头肩检测框在中心点不变的情况下，高度扩大指定倍数，获得所述行人检测框。

4.根据权利要求1所述的方法，其特征在于，所述第二特征提取网络为已训练的多粒度网络；

5.根据权利要求4所述的方法，其特征在于，所述将所述基础图像特征输入所述多粒度网络的全局特征提取网络，获得第一全局特征向量，包括：

对所述基础图像特征进行下采样处理；

对下采样处理后的基础图像特征进行全局最大池化处理；

6.根据权利要求4所述的方法，其特征在于，所述将所述基础图像特征输入所述多粒度网络的第一区域特征提取网络，获得第二全局特征向量、第一区域特征向量和第二区域特征向量，包括：

7.根据权利要求4所述的方法，其特征在于，所述将所述基础图像特征输入所述多粒度网络的第二区域特征提取网络，获得第三全局特征向量、第三区域特征向量和第四区域特征向量，包括：

8.一种行人重识别的特征提取装置，其特征在于，包括：

回归模块，用于基于所述头肩检测框回归得到行人检测框；

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-7任意一项所述的行人重识别的特征提取方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的行人重识别的特征提取方法。