CN108875498A

CN108875498A - 用于行人重识别的方法、装置及计算机存储介质

Info

Publication number: CN108875498A
Application number: CN201711073056.XA
Authority: CN
Inventors: 徐子扬; 张弛
Original assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Current assignee: Beijing Megvii Technology Co Ltd; Beijing Maigewei Technology Co Ltd
Priority date: 2017-11-03
Filing date: 2017-11-03
Publication date: 2018-11-23
Anticipated expiration: 2037-11-03
Also published as: CN108875498B

Abstract

本发明实施例提供了一种用于行人重识别的方法、装置及计算机存储介质。该方法包括：提取视频序列中的每一帧图像中行人的静态特征向量；根据所述视频序列中的多帧图像中所述行人的静态特征向量，得到所述行人的动作特征向量；根据所述行人的动作特征向量和所述多帧图像中所述行人的静态特征向量，确定用于行人重识别的特征向量。由此可见，考虑到视频中行人的行走姿态等动作特征，在静态特征向量的基础上结合动作特征向量来得到用于行人重识别的特征向量，能够保证后续行人重识别的准确性，降低误识别率。

Description

用于行人重识别的方法、装置及计算机存储介质

技术领域

本发明涉及图像处理领域，更具体地涉及一种用于行人重识别的方法、装置及计算机存储介质。

背景技术

行人检测可以应用于智能驾驶、辅助驾驶和智能监控等相关领域，主要用于检测图像或视频中是否存在行人。行人重识别(re-identification，ReID)也称为行人再识别，可以应用于安防领域、刑侦领域等相关领域，主要用于在一组行人的图像中找到和目标最像的一张图像。但是，在行人重识别过程中，主要是通过对单帧图像中的行人特征进行匹配，对于静态特征类似的行人无法进行准确的区分，从而导致出现误识别的情况。

发明内容

考虑到上述问题而提出了本发明。本发明提供了一种用于行人重识别的方法、装置及计算机存储介质，在静态特征向量的基础上结合动作特征向量来得到用于行人重识别的特征向量，能够保证后续行人重识别的准确性，降低误识别率。

根据本发明的一方面，提供了一种用于行人重识别的方法，所述方法包括：

提取视频序列中的每一帧图像中行人的静态特征向量；

根据所述视频序列中的多帧图像中所述行人的静态特征向量，得到所述行人的动作特征向量；

根据所述行人的动作特征向量和所述多帧图像中所述行人的静态特征向量，确定用于行人重识别的特征向量。

在本发明的一个实施例中，所述根据所述视频序列中的多帧图像中所述行人的静态特征向量，得到所述行人的动作特征向量，包括：

将所述视频序列中的多帧图像中所述行人的静态特征向量输入至循环神经网络，并将所述循环神经网络的输出确定为所述行人的动作特征向量。

在本发明的一个实施例中，所述根据所述行人的动作特征向量和所述多帧图像中所述行人的静态特征向量，确定用于行人重识别的特征向量，包括：

对所述视频序列中的所述多帧图像中行人的静态特征向量进行池化操作；

根据所述行人的动作特征向量和所述池化后的行人的静态特征向量，确定所述用于行人重识别的特征向量。

在本发明的一个实施例中，所述根据所述行人的动作特征向量和所述池化后的行人的静态特征向量，确定所述用于行人重识别的特征向量，包括：

将所述行人的动作特征向量和所述池化后的行人的静态特征向量进行整合，得到所述用于行人重识别的特征向量。

在本发明的一个实施例中，所述将所述行人的动作特征向量和所述池化后的行人的静态特征向量进行整合，包括：

采用如下任一种方法将所述行人的动作特征向量和所述池化后的行人的静态特征向量进行整合：按位取平均、按位求和、合并。

在本发明的一个实施例中，还包括：基于所述用于行人重识别的特征向量，确定所述行人是否为目标行人。

根据本发明另一方面，提供了一种用于行人重识别的装置，所述装置包括：

提取模块，用于提取视频序列中的每一帧图像中行人的静态特征向量；

第一确定模块，用于根据所述视频序列中的多帧图像中所述行人的静态特征向量，得到所述行人的动作特征向量；

第二确定模块，用于根据所述行人的动作特征向量和所述多帧图像中所述行人的静态特征向量，确定用于行人重识别的特征向量。

在本发明的一个实施例中，所述第一确定模块，具体用于：

在本发明的一个实施例中，所述第二确定模块，包括：

池化子模块，用于对所述视频序列中的所述多帧图像中行人的静态特征向量进行池化操作；

确定子模块，用于根据所述行人的动作特征向量和所述池化后的行人的静态特征向量，确定所述用于行人重识别的特征向量。

在本发明的一个实施例中，所述确定子模块，具体用于：

在本发明的一个实施例中，还包括判断模块，用于：基于所述用于行人重识别的特征向量，确定所述行人是否为目标行人。

该装置能够用于实现前述方面及其各种示例的用于行人重识别的方法。

根据本发明的又一方面，提供了一种用于行人重识别的装置，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现前述方面及各个示例所述的用于行人重识别的方法的步骤。

根据本发明的再一方面，提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现前述方面及各个示例所述的用于行人重识别的方法的步骤。

由此可见，考虑到视频中行人的行走姿态等动作特征，在静态特征向量的基础上结合动作特征向量来得到用于行人重识别的特征向量，能够保证后续行人重识别的准确性，降低误识别率。

附图说明

通过结合附图对本发明实施例进行更详细的描述，本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解，并且构成说明书的一部分，与本发明实施例一起用于解释本发明，并不构成对本发明的限制。在附图中，相同的参考标号通常代表相同部件或步骤。

图1是本发明实施例的电子设备的一个示意性框图；

图2是本发明实施例的用于行人重识别的方法的一个示意性流程图；

图3是本发明实施例的循环神经网络的一个示意图；

图4是本发明实施例的用于行人重识别的方法的另一个示意性流程图；

图5是本发明实施例的用于行人重识别的装置的一个示意性框图。

具体实施方式

为了使得本发明的目的、技术方案和优点更为明显，下面将参照附图详细描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。基于本发明中描述的本发明实施例，本领域技术人员在没有付出创造性劳动的情况下所得到的所有其它实施例都应落入本发明的保护范围之内。

本发明实施例可以应用于电子设备，图1所示为本发明实施例的电子设备的一个示意性框图。图1所示的电子设备10包括一个或更多个处理器102、一个或更多个存储装置104、输入装置106、输出装置108、图像传感器110以及一个或更多个非图像传感器114，这些组件通过总线系统112和/或其它形式互连。应当注意，图1所示的电子设备10的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以包括CPU 1021和GPU 1022或者具有数据处理能力和/或指令执行能力的其它形式的处理单元，例如现场可编程门阵列(Field－Programmable GateArray，FPGA)或进阶精简指令集机器(Advanced RISC(Reduced Instruction SetComputer)Machine，ARM)等，并且处理器102可以控制所述电子设备10中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或更多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器1041和/或非易失性存储器1042。所述易失性存储器1041例如可以包括随机存取存储器(Random Access Memory，RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器1042例如可以包括只读存储器(Read-Only Memory，ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或更多个计算机程序指令，处理器102可以运行所述程序指令，以实现各种期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或更多个。

所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音)，并且可以包括显示器、扬声器等中的一个或更多个。

所述图像传感器110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

当注意，图1所示的电子设备10的组件和结构只是示例性的，尽管图1示出的电子设备10包括多个不同的装置，但是根据需要，其中的一些装置可以不是必须的，其中的一些装置的数量可以更多等等，本发明对此不限定。

图2是本发明实施例的用于行人重识别的方法的一个示意性流程图。图2所示的方法包括：

S101，提取视频序列中的每一帧图像中行人的静态特征向量。

行人的静态特征向量可以表示行人的衣着、身体比例等不会随着行人的行动而动态变化的静态特征。

示例性地，视频序列可以是从存储器中获取的待处理的视频序列，该视频序列中包括行人。示例性地，视频序列可以是由图像采集装置采集的实时行人视频。

假设该视频序列包括N帧图像，那么在S101中，可以针对N帧图像中的每一帧图像进行特征提取。可理解，通过提取可以得到与N帧图像分别对应的N个静态特征向量。

可以利用预先训练好的卷积神经网络提取视频序列中每一帧图像中行人的静态特征向量。以第i帧图像为例，可以将该第i帧图像输入到一层或多层卷积神经网络(Convolutional Neural Network，CNN)，提取该第i帧图像中行人的静态特征张量。

卷积神经网络(CNN)是一种前馈神经网络，由若干卷积单元组成。其中，CNN的参数可以进行随机初始化，或者可以先前已经训练好的其他神经网络进行初始化，如VGG、ReNet等。每个卷积单元可以响应一部分覆盖范围内的周围单元。每个卷积单元的参数都是通过反向传播算法优化得到的。卷积运算的目的是提取输入的不同特征。例如，第一层卷积层可能只能提取一些低级的特征，如边缘、线条和角等层级，更多层的网络能从低级特征中迭代提取更复杂的特征。这些特征类似于热力图，对于一张图像(如视频中的一帧)，经过卷积神经网络提取的特征张量可以表示为一个三阶张量X。该三阶张量的三个维度分别代表横向(H)，纵向(W)和频道(C)，其中，频道(C)为根据应用场景的需求进行设定的维度，频道(C)中包含有原始图像的特征，由于不同的使用场景所需要的原始图像特征的种类与精细程度不同，因此经过不同的卷积神经网络所得到的频道(C)并不一定相同，其根据不同的需求进行设定。其中，W也可以称为宽度，H也可以称为高度，C也可以称为通道，本发明对此不限定。

可选地，作为一例，卷积神经网络根据应用场景的需要进行训练后，对输入的一张图像进行计算，基于输入图像的长度信息、宽度信息及色彩通道信息输出一个三阶张量，三个维度分别代表横向(H)，纵向(W)和频道(C)，上述每个维度均包含256或128或其他数量个值。也就是说，S101提取所得到的每个静态特征向量的维度可以表示为H×W×C。静态特征向量中的元素可以表示为X[i][j][k]，其中，i＝0,1,2,…,H-1，j＝0,1,2,…,W-1，k＝0,1,2,…,C-1。

其中，可以逐帧地提取每一帧中行人的静态特征向量，或者，可以并行地提取各个帧中行人的静态特征向量。

S102，根据所述视频序列中的多帧图像中所述行人的静态特征向量，得到所述行人的动作特征向量。

行人的动作特征向量可以表示行人的行走姿态、动作姿态等随着行人的行动而动态变化的动作特征。

具体地，可以将所述视频序列中的多帧图像中行人的静态特征向量输入至预先训练好的循环神经网络(Recurrent Neural Network，RNN)，所述循环神经网络输出所述行人的动作特征向量。

循环神经网络可以为长短期记忆(Long Short-Term Memory，LSTM)网络、门控循环单元(Gated Recurrent Unit，GRU)网络或神经图灵机(Neutral Turing Machine，NTM)等。

循环神经网络的神经元连接构成有向图，通过将状态在自身网络中循环传递，可以接受更广泛的时间序列结构输入。其中，循环神经网络可以是一层或多层的单向或双向循环神经网络。

例如，参照图3，以LSTM网络为例，LSTM网络包括一系列的LSTM单元，LSTM单元可以称为神经元，可以将每一帧图像中行人的静态特征向量依次作为各个LSTM单元的输入，则可以得到输出，即行人的动作特征向量。可理解，S102所得到的行人的动作特征向量的维度也为H×W×C。

应理解，用于提取每帧图像中行人的静态特征向量的卷积神经网络和用于输出行人的动作特征向量的循环神经网络可以分开单独训练，也可以连接在一起共同训练。

S103，根据所述行人的动作特征向量和所述多帧图像中所述行人的静态特征向量，确定用于行人重识别的特征向量。

示例性地，如图4所示，S103可以包括S1031和S1032。

S1031，对所述视频序列中的所述多帧图像中行人的静态特征向量进行池化操作。

具体地，可以将S101得到的行人的N个静态特征向量进行池化操作，从而得到单一的池化后的行人的静态特征向量。其中，池化操作可以是一般池化、重叠池化或空金字塔池化中的任意一种，或者池化操作也可以是其他类型的池化操作，本发明对此不限定。可理解，S1031所得到的池化后的行人的静态特征向量的维度也为H×W×C。

另外，可理解，本发明实施例S102和S1031的执行顺序不做限定，例如可以先执行S102再执行S1031，或者可以先执行S1031再执行S102，或者可以并行执行。

S1032，根据所述行人的动作特征向量和所述池化后的行人的静态特征向量，确定用于行人重识别的特征向量。

示例性地，可以将所述行人的动作特征向量和所述池化后的行人的静态特征向量进行整合，得到所述用于行人重识别的特征向量。

其中，可以采用如下任一种方法将所述行人的动作特征向量和所述池化后的行人的静态特征向量进行整合：按位取平均、按位求和、合并。

假设池化后的行人的静态特征向量表示为A，行人的动作特征向量表示为B，用于行人重识别的特征向量表示为C。按位取平均是指：将A的某元素与B的对应元素取平均，即C[i][j][k]＝(A[i][j][k]+B[i][j][k])/2。按位求和是指：将A的某元素与B的对应元素求和，即C[i][j][k]＝A[i][j][k]+B[i][j][k]。合并是指，A与B之间的concatenate操作，也可以称为连接。

可理解，也可以采用其他的方法进行整合，例如对应元素加权求和等，这里不再一一罗列。

作为另一种实现方式，也可以采用其他的方式将S102得到的行人的动态特征向量与S101得到的多帧图像中行人的静态特征向量进行综合，以得到用于行人重识别的特征向量。这里不再一一罗列。

进一步地，可以基于S1032得到的用于行人重识别的特征向量执行行人重识别。举例来说，在S103之后可以基于所述用于行人重识别的特征向量，确定所述行人是否为目标行人。例如，可以将该特征向量C输入至用于行人重识别的卷积神经网络。本文不再详细描述。

图5是本发明实施例的一种用于行人重识别的装置的示意性框图。图5所示的装置50可以包括：提取模块510、第一确定模块520和第二确定模块530。

提取模块510，用于提取视频序列中的每一帧图像中行人的静态特征向量；

第一确定模块520，用于根据所述视频序列中的多帧图像中所述行人的静态特征向量，得到所述行人的动作特征向量；

第二确定模块530，用于根据所述行人的动作特征向量和所述多帧图像中所述行人的静态特征向量，确定用于行人重识别的特征向量。

在本发明的一个实施例中，第一确定模块520可以具体用于：将所述视频序列中的多帧图像中所述行人的静态特征向量输入至循环神经网络，并将所述循环神经网络的输出确定为所述行人的动作特征向量。

在本发明的一个实施例中，第二确定模块530可以包括：池化子模块和确定子模块。

池化子模块，用于对所述视频序列中的所述多帧图像中行人的静态特征向量进行池化操作；确定子模块，用于根据所述行人的动作特征向量和所述池化后的行人的静态特征向量，确定所述用于行人重识别的特征向量。

在本发明的一个实施例中，确定子模块可以具体用于：将所述行人的动作特征向量和所述池化后的行人的静态特征向量进行整合，得到所述用于行人重识别的特征向量。

在本发明的一个实施例中，确定子模块可以具体用于：采用如下任一种方法将所述行人的动作特征向量和所述池化后的行人的静态特征向量进行整合：按位取平均、按位求和、合并。

在本发明的一个实施例中，池化子模块进行的所述池化操作可以包括一般池化、重叠池化或空金字塔池化中的任意一种。

图5所示的装置50能够实现前述图2至图4所示的用于行人重识别的方法，为避免重复，这里不再赘述。

另外，本发明实施例还提供了另一种用于行人重识别的装置，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，处理器执行所述程序时实现前述图2至图4所示方法的步骤。

另外，本发明实施例还提供了一种电子设备，该电子设备可以包括图5所示的装置50。该电子设备可以实现前述图2至图4所示的方法。

另外，本发明实施例还提供了一种计算机存储介质，其上存储有计算机程序。当所述计算机程序由处理器执行时，可以实现前述图2至图4所示方法的步骤。例如，该计算机存储介质为计算机可读存储介质。

尽管这里已经参考附图描述了示例实施例，应理解上述示例实施例仅仅是示例性的，并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改，而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本申请所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个设备，或一些特征可以忽略，或不执行。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本发明并帮助理解各个发明方面中的一个或多个，在对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该本发明的方法解释成反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如相应的权利要求书所反映的那样，其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

本领域的技术人员可以理解，除了特征之间相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如，在权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本发明的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如，计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

以上所述，仅为本发明的具体实施方式或对具体实施方式的说明，本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于行人重识别的方法，其特征在于，所述方法包括：

提取视频序列中的每一帧图像中行人的静态特征向量；

2.根据权利要求1所述的方法，其特征在于，所述根据所述视频序列中的多帧图像中所述行人的静态特征向量，得到所述行人的动作特征向量，包括：

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述行人的动作特征向量和所述多帧图像中所述行人的静态特征向量，确定用于行人重识别的特征向量，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述行人的动作特征向量和所述池化后的行人的静态特征向量，确定所述用于行人重识别的特征向量，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述行人的动作特征向量和所述池化后的行人的静态特征向量进行整合，包括：

6.根据权利要求1或2所述的方法，其特征在于，还包括：

基于所述用于行人重识别的特征向量，确定所述行人是否为目标行人。

7.一种用于行人重识别的装置，其特征在于，所述装置包括：

8.根据权利要求7所述的装置，其特征在于，所述第一确定模块，具体用于：

9.根据权利要求7或8所述的装置，其特征在于，所述第二确定模块，包括：

10.根据权利要求9所述的装置，其特征在于，所述确定子模块，具体用于：

11.根据权利要求10所述的装置，其特征在于，所述确定子模块，具体用于：

12.根据权利要求7或8所述的装置，其特征在于，还包括判断模块，用于：

13.一种用于行人重识别的装置，包括存储器、处理器及存储在所述存储器上且在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。

14.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述方法的步骤。