CN113821689A

CN113821689A - 基于视频序列的行人检索方法、装置和电子设备

Info

Publication number: CN113821689A
Application number: CN202111106856.3A
Authority: CN
Inventors: 沈春华
Original assignee: Individual
Current assignee: Individual
Priority date: 2021-09-22
Filing date: 2021-09-22
Publication date: 2021-12-21

Abstract

本申请的实施例提供了一种基于视频序列的行人检索方法、装置和电子设备，涉及行人检索的技术领域。所述方法包括：获取待检索视频序列，所述待检索视频序列包含有待检索行人；根据所述待检索视频序列通过训练完成的神经网络模型进行行人检索。本申请能够解决因使用步态辅助导致数据处理量增大，从而使得检索处理过程繁琐且可操作性较低的问题，达到简化检索数据处理过程，增强检索可操作性的效果。

Description

基于视频序列的行人检索方法、装置和电子设备

技术领域

本申请的实施例涉及行人检索的技术领域，尤其涉及一种基于视频序列的行人检索方法、装置和电子设备。

背景技术

随着大型行人视频数据集的出现，基于视频的行人检索开始引起越来越多的关注。与基于图像的人物检索相比，基于视频的行人检索除带来更丰富的视觉外观，还带来含有时间线索的更全面的信息。当前，基于视频的行人检索具有重大的挑战性，而基于步态辅助的视频行人检索更是正在成为一个重要的待解决的问题。

针对上述中的相关技术，发明人认为，基于步态辅助的视频行人检索，因使用步态辅助导致数据处理量增大，导致处理过程更加繁琐且可操作性较低。

发明内容

本申请的实施例提供了一种基于视频序列的行人检索方法、装置和电子设备，能够解决基于步态辅助的视频行人检索，因使用步态辅助导致数据处理量增大，从而使得检索处理过程更加繁琐且可操作性较低的问题。

在本申请的第一方面，提供了一种基于视频序列的行人检索方法，包括：

获取待检索视频序列，所述待检索视频序列包含有待检索行人；

根据所述待检索视频序列，通过训练完成的神经网络模型进行行人检索；

其中，所述训练完成的神经网络模型用于根据所述待检索视频序列得到第一人体外观颜色特征和第一人体步态剪影特征，并基于所述第一人体外观颜色特征和所述第一人体步态剪影特征来进行行人检索。

通过采用以上技术方案，仅获取包括人体外观视频序列的待检索视频序列，并通过人体外观特征输入训练完成的神经网络模型，就能完成行人检索过程，从而能够避免基于步态辅助的视频行人检索因使用步态辅助导致数据处理量增大，进而使得检索处理过程繁琐且可操作性较低的问题，达到简化检索数据处理过程，增强检索可操作性的效果。

在一种可能的实现方式中，所述训练完成的神经网络模型包括外观特征提取模块、知识蒸馏模块以及特征融合模块；

所述根据所述待检索视频序列，通过训练完成的神经网络模型进行行人检索包括：

根据所述待检索视频序列，通过所述外观特征提取模块，提取所述第一人体外观颜色特征；

根据所述第一人体外观颜色特征，通过所述知识蒸馏模块，得到所述第一人体步态剪影特征；

将所述第一人体外观颜色特征和所述第一人体步态剪影特征进行融合，并基于融合后的特征进行行人检索。

在一种可能的实现方式中，还包括：

获取训练样本，所述训练样本包括历史视频序列、第二人体外观颜色特征和第二人体步态剪影特征，所述历史视频序列包含有待检索行人；

根据所述历史视频序列和所述第二人体外观颜色特征训练所述外观特征提取模块；

根据所述第二人体外观颜色特征和所述第二人体步态剪影特征训练所述知识蒸馏模块；

根据所述第二人体外观颜色特征和所述第二人体步态剪影特征训练所述特征融合模块。

在一种可能的实现方式中，获取第二人体步态剪影特征包括：

获取步态Mask剪影视频序列；

根据所述步态Mask剪影视频序列，通过预先构建的步态特征提取模型，提取所述第二人体步态特征。

在一种可能的实现方式中，还包括：

分别对所述第一人体外观颜色特征和所述第一人体步态剪影特征进行最大时间池化处理。

在本申请的第二方面，提供了一种基于视频序列的行人检索装置，包括：

第一获取模块，用于获取待检索视频序列，所述待检索视频序列包含有待检索行人；

行人检索模块，用于根据所述待检索视频序列，通过训练完成的神经网络模型进行行人检索；

所述行人检索模块包括：

第一获取单元，用于根据所述待检索视频序列，通过所述外观特征提取模块，提取所述第一人体外观颜色特征；

第二获取单元，用于根据所述第一人体外观颜色特征，通过所述知识蒸馏模块，得到所述第一人体步态剪影特征；

特征融合单元，用于将所述第一人体外观颜色特征和所述第一人体步态剪影特征进行融合，并基于融合后的特征进行行人检索。

在一种可能的实现方式中，还包括：

第二获取模块，用于获取训练样本，所述训练样本包括历史视频序列、第二人体外观颜色特征和第二人体步态剪影特征，所述历史视频序列包含有待检索行人；

第一训练模块，用于根据所述历史视频序列和所述第二人体外观颜色特征训练所述外观特征提取模块；

第二训练模块，用于根据所述第二人体外观颜色特征和所述第二人体步态剪影特征训练所述知识蒸馏模块；

特征融合模块，用于根据所述第二人体外观颜色特征和所述第二人体步态剪影特征训练所述特征融合模块。

在一种可能的实现方式中，还包括：

特征池化模块，用于分别对所述第一人体外观颜色特征和所述第一人体步态剪影特征进行最大时间池化处理。

在本申请的第三方面，提供了一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如第一方面中任一项所述的方法。

应当理解，发明内容部分中所描述的内容并非旨在限定本申请的实施例的关键或重要特征，亦非用于限制本申请的范围。本申请的其它特征将通过以下的描述变得容易理解。

附图说明

结合附图并参考以下详细说明，本申请各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中，相同或相似的附图标记表示相同或相似的元素，其中：

图1示出了本申请实施例中基于视频序列的行人检索方法的流程图。

图2示出了本申请实施例中人体外观RGB视频序列的示意图。

图3示出了本申请实施例中基于视频序列的行人检索装置的结构图。

图4示出了适于用来实现本申请实施例的电子设备结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

本申请实施例提供的基于视频序列的行人检索方法可以应用于行人检索技术领域，例如基于视频序列进行行人检索等场景。但是，在上述场景中应用最重要的，同时也是最耗时的就是基于步态辅助的视频序列进行行人检索。因此，如何解决基于步态辅助的视频序列进行行人检索，因使用步态辅助导致数据处理量增大，导致处理过程繁琐且可操作性较低是一个很重要的技术问题。为解决这个技术问题，本申请的实施例提供了一种基于视频序列的行人检索方法。

图1示出了本申请实施例中基于视频序列的行人检索方法流程图。在一些实施例中，该基于视频序列的行人检索方法可以由电子设备执行。参见图1，本实施例中基于视频序列的行人检索方法包括：

步骤101，获取待检索视频序列。

在本申请实施例中，待检索视频序列包含有待检索行人，即包含有待检索或待跟踪的行人的视频序列。示例地，参见图2，图2示出了待检索的行人的视频序列。需要说明的是，待检索的视频序列在时间上可以是连续的，也可以是离散的。

步骤102，根据待检索视频序列，通过训练完成的神经网络模型进行行人检索。

在本申请实施例中，训练完成的神经网络模型能够根据包含有待检索行人的待检索视频序列得到第一人体外观颜色特征和第一人体步态剪影特征，并基于第一人体外观颜色特征和第一人体步态剪影特征来进行行人检索。需要说明的是，人体外观颜色特征可以为RGB颜色特征、HSV颜色特征或YUV颜色特征中的一种。

在一些实施例中，训练完成的神经网络模型包括外观特征提取模块、知识蒸馏模块以及特征融合模块。那么步骤102可以包括以下步骤：

步骤1021，根据待检索视频序列，通过外观特征提取模块，提取第一人体外观颜色特征。

外观特征提取模块用于根据人体外观视频序列提取人体外观特征。可选地，外观特征提取模块可以选用ResNet50模型，通过将待检索视频序列输入至训练完成的ResNet50模型中，即可获得第一人体外观颜色特征。

由于外观特征提取模块的输入是待检索视频序列，那么提取到的第一人体外观颜色特征也是一个序列，即：

其中，T为一个待检索视频序列中图片的总数量，

为一个待检索视频序列提取到的单张图片的人体外观颜色特征，f_a为人体外观颜色特征。

针对获得的第一人体外观颜色特征序列进行最大时间池化处理，即可得到第一人体外观颜色特征。

步骤1022，根据第一人体外观颜色特征，通过知识蒸馏模块，得到第一人体步态剪影特征。

知识蒸馏模块用于根据第一人体外观颜色特征获得第一人体步态剪影特征。可选地，知识蒸馏模块可以选用多层神经网络(Muti－Layer Perception，MLP)。在对多层神经网络(Muti－Layer Perception，MLP)进行训练时，需要引入人体步态剪影特征，其具体训练过程将在下文中进行介绍。

步骤1023，将第一人体外观颜色特征和第一人体步态剪影特征进行融合，并基于融合后的特征进行行人检索。

特征融合模块用于将人体外观特征和人体步态特征进行融合。可选地，特征融合模块可以选用注意力机制模块。

在本申请实施例中，例如采用f_a来表示第一人体外观颜色特征，采用f_g来表示第一人体步态剪影特征，那么采用注意力机制模块来融合第一人体外观颜色特征和第一人体步态剪影特征可以采用如下的方式：

f＝a₁*f_a+a₂*f_g

其中，f表示融合后的特征，a₁、a₂表示重要程度。

根据本申请实施例，通过获取包括人体外观视频序列的待检索视频序列，并通过人体外观特征输入训练完成的神经网络模型，得到人体外观特征和人体步态特征来完成行人检索过程，从而能够避免基于步态辅助的视频行人检索因使用步态辅助导致数据处理量增大，进而使得检索处理过程繁琐且可操作性较低的问题，达到简化检索数据处理过程，增强检索可操作性的效果。

本申请实施例中，通过上述检索方式在两个视频行人检索的数据集进行试验来验证效果。例如，选用MARS和Duke MTMC-Video Re ID进行验证，通过试验得到结果如表1所示：

表1：验证数据表

数据集类型	mAP正确率	Rank1正确率
			MARS	84.3％	89.5％
Duke MTMC-Video Re ID	95.5％	96.2％

就MARS与Duke MTMC-Video Re ID这两个视频行人检索的数据集而言，衡量算法搜索能力的指标mAP(mean Average Precision,平均精度均值)与Rank1(第一张匹配平均正确率)的数值越高，效果越好。

从上述两个视频行人检索的数据集的mAP与Rank1显示的结果来看，相对于上述基于步态辅助的视频序列行人检索的方法，在本实施例中基于视频序列的行人检索方法中，仅需提供人体外观视频序列就可进行行人检索，达到在保持了检索效果的前提下，使得步态数据集不在成为必要条件，从而实现检索更加的简单实用的效果。

在一些实施例中，对上述训练完成的神经网络模型进行训练时，由于该神经网络模型包括外观特征提取模块、知识蒸馏模块以及特征融合模块，那么则可以分别对外观特征提取模块、知识蒸馏模块以及特征融合模块进行训练。

在训练之前需要获取训练样本，在本申请实施例中，训练样本包括历史视频序列、第二人体外观颜色特征和第二人体步态剪影特征，其中历史视频序列包含有待检索行人。

针对外观特征提取模块：

可以采用历史视频序列和第二人体外观颜色特征来进行训练，即历史视频序列作为外观特征提取模块的输入、第二人体外观颜色特征作为外观特征提取模块的输出。当然，为了进一步减少计算量，也可以采用已经训练完成的外观特征提取模块来进行人体外观颜色特征的提取。

针对知识蒸馏模块：

可以采用第二人体外观颜色特征和第二人体步态剪影特征训练知识蒸馏模块，即将第二人体步态剪影特征蒸馏转移至外观特征提取模块，从而能够根据第二人体外观颜色特征得到人体步态剪影特征。

由于人体步态剪影特征是与人体外观颜色特征相对应，那么人体步态剪影特征也是一个序列，表示如下：

其中，T为一个待检索视频序列中图片的总数量，

为一个待检索视频序列提取到的单张图片的人体步态剪影特征，f_g′为人体步态剪影特征。

对获得的人体步态剪影特征序列进行最大时间池化处理，即可得到人体步态剪影特征。

针对特征融合模块的训练是确定人体外观颜色特征和人体步态剪影特征的之间的重要程度的关系：

a＝[a₁,a₂]

以此得到融合特征，

f＝a₁*f_a+a₂*f′_g

其中，f表示融合后的特征，a₁、a₂表示重要程度。

可选的，获取第二人体步态剪影特征可以采用如下的方式：首先，获取步态Mask剪影视频序列；然后，根据步态Mask剪影视频序列，通过预先构建的步态特征提取模型，提取第二人体步态特征。

需要说明的是，可将历史视频序列通过使用训练完成的人体分割模型进行分割，获得步态Mask剪影视频序列。

训练完成的人体分割模型采用如下方法进行训练，该方法包括步骤A1-步骤A3：

步骤A1：对历史视频序列中的图像进行前景和背景的分割，得到背景图像。

步骤A2：对背景图像进行二值化处理，得到二值化后的背景图像。

步骤A3：根据二值化后的背景图像对人体分割模型进行训练。

在一些实施例中，还可将历史视频序列通过使用额外的现有人体分割模型进行分割，获得基于历史视频序列得到的步态Mask剪影视频序列。

在一些实施例中，还可基于外观颜色视频序列和步态Mask剪影视频序列构建外观步态双分支网络模型，其中一个网络分支模型包括外观分支网络模型，另一个网络分支模型包括步态分支网络模型。预先构建的步态特征提取模型可选基于外观颜色视频序列和步态Mask剪影视频序列构建外观步态双分支网络模型其中一个网络分支模型，即步态分支网络模型。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于可选实施例，所涉及的动作和模块并不一定是本申请所必须的。

以上是关于方法实施例的介绍，以下通过装置实施例，对本申请所述方案进行进一步说明。

图3示出了本申请实施例的一种基于视频序列的行人检索装置的结构图。参见图3，该基于视频序列的行人检索装置包括第一获取模块301和行人检索模块302。

第一获取模块301，用于获取待检索视频序列，所述待检索视频序列包含有待检索行人。

行人检索模块302，用于根据所述待检索视频序列，通过训练完成的神经网络模型进行行人检索。

在一些实施例中，所述训练完成的神经网络模型包括外观特征提取模块、知识蒸馏模块以及特征融合模块。

所述行人检索模块包括：

第一获取单元，用于根据所述待检索视频序列，通过所述外观特征提取模块，提取所述第一人体外观颜色特征。

第二获取单元，用于根据所述第一人体外观颜色特征，通过所述知识蒸馏模块，得到所述第一人体步态剪影特征。

在一些实施例中，还包括：

第二获取模块，用于获取训练样本，所述训练样本包括历史视频序列、第二人体外观颜色特征和第二人体步态剪影特征，所述历史视频序列包含有待检索行人。

第一训练模块，用于根据所述历史视频序列和所述第二人体外观颜色特征训练所述外观特征提取模块。

第二训练模块，用于根据所述第二人体外观颜色特征和所述第二人体步态剪影特征训练所述知识蒸馏模块。

在一些实施例中，还包括：

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，所述描述的模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

图4示出了适于用来实现本申请实施例的电子设备的结构示意图。如图4所示，图4所示的电子设备400包括：处理器401和存储器403。其中，处理器401和存储器403相连。可选地，电子设备400还可以包括收发器404。需要说明的是，实际应用中收发器404不限于一个，该电子设备400的结构并不构成对本申请实施例的限定。

处理器401可以是CPU(Central Processing Unit，中央处理器)，通用处理器，DSP(Digital Signal Processor，数据信号处理器)，ASIC(Application SpecificIntegrated Circuit，专用集成电路)，FPGA(Field Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框，模块和电路。处理器401也可以是实现计算功能的组合，例如包含一个或多个微处理器组合，DSP和微处理器的组合等。

总线402可包括一通路，在上述组件之间传送信息。总线402可以是PCI(Peripheral Component Interconnect，外设部件互连标准)总线或EISA(ExtendedIndustry Standard Architecture，扩展工业标准结构)总线等。总线402可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器403可以是ROM(Read Only Memory，只读存储器)或可存储静态信息和指令的其他类型的静态存储设备，RAM(Random Access Memory，随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备，也可以是EEPROM(Electrically ErasableProgrammable Read Only Memory，电可擦可编程只读存储器)、CD-ROM(Compact DiscRead Only Memory，只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。

存储器403用于存储执行本申请方案的应用程序代码，并由处理器401来控制执行。处理器401用于执行存储器403中存储的应用程序代码，以实现前述方法实施例所示的内容。

其中，电子设备包括但不限于：移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，当其在计算机上运行时，使得计算机可以执行前述方法实施例中相应内容。与现有技术相比，本申请实施例中，获取包括待检索行人的待检索视频序列，并通过训练完成的神经网络模型进行行人检索，能够解决基于步态辅助的视频行人检索，因使用步态辅助导致数据处理量增大，导致处理过程更加繁琐且可操作性较低的问题，达到简化基于视频序列的行人检索数据处理过程，增强基于视频序列的行人检索可操作性的效果。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种基于视频序列的行人检索方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述训练完成的神经网络模型包括外观特征提取模块、知识蒸馏模块以及特征融合模块；

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求3所述的方法，其特征在于，获取第二人体步态剪影特征包括：

获取步态Mask剪影视频序列；

5.根据权利要求2所述的方法，其特征在于，还包括：

6.一种基于视频序列的行人检索装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述训练完成的神经网络模型包括外观特征提取模块、知识蒸馏模块以及特征融合模块；

所述行人检索模块包括：

8.根据权利要求7所述的装置，其特征在于，还包括：

9.根据权利要求7所述的装置，其特征在于，还包括：

10.一种电子设备，包括存储器和处理器，所述存储器上存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至5中任一项所述的方法。