CN109784295A

CN109784295A - 视频流特征识别方法、装置、设备及存储介质

Info

Publication number: CN109784295A
Application number: CN201910074957.3A
Authority: CN
Inventors: 张睿; 王昱; 孙树文; 赵刚; 张少文
Original assignee: PCI Suntek Technology Co Ltd
Current assignee: PCI Technology Group Co Ltd
Priority date: 2019-01-25
Filing date: 2019-01-25
Publication date: 2019-05-21
Anticipated expiration: 2039-01-25
Also published as: CN109784295B

Abstract

本发明实施例公开了一种视频流特征识别方法、装置、设备及存储介质，包括：获取查询时序样本和注册时序样本；将两个样本分别输入至第一卷积神经网络，以得到每个样本对应的特征张量；将每个样本的特征张量分别输入至第二卷积神经网络，以分别得到查询位置向量及注册位置向量；将查询时序样本对应的特征张量和查询位置向量输入至第三卷积神经网络，以得到查询图像级表征，按照同样方式得到注册图像级表征；基于查询图像级表征和注册图像级表征确定查询时序级表征及注册时序级表征；基于注册时序级表征，在注册时序样本中选择与查询时序级表征相似度最高的注册特征作为查询时序样本的检索结果。上述方法可以快速准确地在视频流中实现行人特征提取。

Description

视频流特征识别方法、装置、设备及存储介质

技术领域

本发明实施例涉及人工智能技术领域，尤其涉及一种视频流特征识别方法、装置、设备及存储介质。

背景技术

随着人工智能的发展，人工神经网络被广泛的应用于各个领域。例如，将人工神经网络应用于智能化视频监控领域。其中，在智能化视频监控领域中，行人重识别技术是重要子任务之一。行人重识别技术需要利用计算机视觉技术判断图像或视频序列中是否存在目标行人，从而实现对目标行人跨镜头跟踪。

目前，行人重识别技术主要分为基于图像的检索问题和基于视频流的检索问题。其中，基于视频流的检索问题主要算法有：卷积神经网络-递归神经网络模型、累计运动背景网络模型以及基于注意力机制的时空模型。然而，上述算法均需要利用光流图特征作为模型的输入，而光流图在现实场景的运用并不可靠，且抗干扰能力差。同时，上述算法的卷积操作均需要运用2D卷积神经网络模型，而对于一定长度的时序图像，2D卷积神经网络模型仅能对每一帧图像进行2D卷积处理以实现特征提取，这样会导致计算量大、计算效率低且时间维度信息不完整。综上，如何快速准确在视频流中提取行人的特征信息成为了亟需解决的问题。

发明内容

本发明提供了一种视频流特征识别方法、装置、设备及存储介质，以快速准确地在视频流中实现行人特征提取。

第一方面，本发明实施例提供了一种视频流特征识别方法，包括：

获取查询时序样本和注册时序样本，所述查询时序样本和所述注册时序样本均为视频流中时间连续的多帧图像；

将两个样本分别输入至第一卷积神经网络，以分别得到每个样本中各图像对应的特征张量；

将每个样本对应的特征张量分别输入至第二卷积神经网络，以分别得到查询时序样本中各查询特征的查询位置向量及注册时序样本中各注册特征的注册位置向量，所述查询特征和所述注册特征均为对应图像中包含的特征；

将查询时序样本对应的特征张量和查询位置向量作为第一输入并输入至第三卷积神经网络，以得到各查询特征在同时间维度下的查询图像级表征，并将注册时序样本对应的特征张量和注册位置向量作为第二输入并输入至第三卷积神经网络，以得到各注册特征在同时间维度下的注册图像级表征；

基于查询图像级表征和注册图像级表征确定各查询特征的查询时序级表征及各注册特征的注册时序级表征；

基于注册时序级表征，在注册时序样本中选择与查询时序级表征相似度最高的注册特征作为查询时序样本的检索结果。

进一步的，所述第一卷积神经网络包括：N个卷积层，N≥2，每个卷积层包括至少两个子卷积层，每个子卷积层的卷积核的大小为h*w*K*c，其中，h为卷积核中每个矩阵的高，w为卷积核中每个矩阵的宽，K为前一层的输出通道数，c为卷积核的深度。

进一步的，N＝4，其中，第一卷积层包括两个第一子卷积层，每个第一子卷积层的卷积核的大小为3*3*3*64；

第二卷积层包括两个第二子卷积层，每个第二子卷积层的卷积核的大小为3*3*64*128；

第三卷积层包括三个第三子卷积层，每个第三子卷积层的卷积核的大小为3*3*128*256；

第四卷积层包括三个第四子卷积层，第一个第四子卷积层的卷积核的大小为3*3*256*512，第二个第四子卷积层的卷积核的大小为3*3*512*256，第三个第四子卷积层的卷积核的大小为3*3*256*128。

进一步的，所述第二卷积神经网络为双分支多阶段卷积神经网络。

进一步的，所述双分支多阶段卷积神经网络包括：置信图预测器网络分支和部件亲和域预测器网络分支；

所述置信图预测器网络分支包括M个置信卷积阶段，所述部件亲和域预测器网络分支包括M个亲和域卷积阶段，M≥2；

所述置信图预测器网络分支的第一个置信卷积阶段的输入依次为对应样本中每帧图像对应的特征张量，且所述第一个置信卷积阶段包括5个卷积层；剩余置信卷积阶段的输入包括所述特征张量、前一置信卷积阶段的结果以及前一亲和域卷积阶段的结果，且剩余置信卷积阶段包括7个卷积层；其中，每个置信卷积阶段的第一个卷积层的卷积核的大小为3*3*b*128，b为输入通道数，最后一个卷积层的卷积核的大小为1*1*128*T，T为结构点的数量，次后一个卷积层的卷积核的大小为1*1*128*128，剩余卷积层的卷积核的大小为3*3*128*128；

所述部件亲和域预测器网络分支的第一个亲和域卷积阶段的输入依次为对应样本中每帧图像对应的特征张量，且所述第一个亲和域卷积阶段包括5个卷积层；剩余亲和域卷积阶段的输入包括所述特征张量、前一置信卷积阶段的结果以及前一亲和域卷积阶段的结果，且剩余亲和域卷积阶段包括7个卷积层；其中，每个亲和域卷积阶段的第一个卷积层的卷积核的大小为3*3*b*128，最后一个卷积层的卷积核的大小为1*1*128*(2*T)，次后一个卷积层的卷积核的大小为1*1*128*128，剩余卷积层的卷积核的大小为3*3*128*128。

进一步的，还包括：

获取目标特征在对应图像中的像素位置信息，所述目标特征为查询特征或注册特征；

基于所述像素位置信息确定目标特征的位置二维向量；

获取所述部件亲和域预测器网络分支中最后一个亲和域卷积阶段的输出结果，所述输出结果是与查询特征对应的第一结果或与注册特征对应的第二结果；

根据所述输出结果和所述位置二维向量构建损失函数，以通过反向传播训练所述部件亲和域预测器网络分支。

进一步的，所述将查询时序样本对应的特征张量和查询位置向量作为第一输入并输入至第三卷积神经网络，以得到各查询特征在同时间维度下的查询图像级表征，并将注册时序样本对应的特征张量和注册位置向量作为第二输入并输入至第三卷积神经网络，以得到各注册特征在同时间维度下的注册图像级表征之前，还包括：

连接查询时序样本中同一帧图像对应的特征张量和查询位置向量，并连接注册时序样本中同一帧图像对应的特征张量和注册位置向量。

进一步的，所述第三卷积神经网络为3D卷积神经网络；

所述将查询时序样本对应的特征张量和查询位置向量作为第一输入并输入至第三卷积神经网络，以得到各查询特征在同时间维度下的查询图像级表征包括：

将查询时序样本对应的特征张量和查询位置向量作为第一输入并输入至3D卷积神经网络；

获取所述3D卷积神经网络最后一个卷积层输出的Q组基于查询特征分组的卷积结果；

按照时间维度对每组卷积结果进行组内划分，以将每组卷积结果划分为至少一个子卷积结果；

将不同组卷积结果中处于同一时间维度下的子卷积结果进行组合，以得到多个基于时间维度的子卷积组；

对每个子卷积组进行池化层处理，以得到各查询特征在同时间维度下的查询图像级表征。

进一步的，所述基于查询图像级表征和注册图像级表征确定各查询特征的查询时序级表征及各注册特征的注册时序级表征包括：

将所述查询时序样本的查询图像级表征和注册时序样本的注册图像级表征分别输入至递归神经网络，以得到所述查询时序样本的查询时空特征以及所述注册时序特征的注册时空特征；

根据所述查询时空特征确定查询时序级表征，并根据注册时空特征确定注册时序级表征。

进一步的，所述根据所述查询时空特征确定查询时序级表征，并根据注册时空特征确定注册时序级表征包括：

基于所述查询时空特征和注册时空特征计算关注度得分；

对所述关注度得分进行基于行的池化操作，以得到注册时序样本的第一关注度得分向量；

根据所述第一关注度得分向量得到注册关注度比值；

根据所述注册关注度比值和所述注册时空特征确定所述注册时序样本的注册时序级表征；

对所述关注度得分进行基于列的池化操作，以得到查询时序样本的第二关注度得分向量；

根据所述第二关注度得分向量得到查询关注度比值；

根据所述查询关注度比值和所述查询时空特征确定所述查询时序样本的查询时序级表征。

第二方面，本发明实施例还提供了一种视频流特征识别装置，包括：

数据获取模块，用于获取查询时序样本和注册时序样本，所述查询时序样本和所述注册时序样本均为视频流中时间连续的多帧图像；

第一卷积模块，用于将两个样本分别输入至第一卷积神经网络，以分别得到每个样本中各图像对应的特征张量；

第二卷积模块，用于将每个样本对应的特征张量分别输入至第二卷积神经网络，以分别得到查询时序样本中各查询特征的查询位置向量及注册时序样本中各注册特征的注册位置向量，所述查询特征和所述注册特征均为对应图像中包含的特征；

第三卷积模块，用于将查询时序样本对应的特征张量和查询位置向量作为第一输入并输入至第三卷积神经网络，以得到各查询特征在同时间维度下的查询图像级表征，并将注册时序样本对应的特征张量和注册位置向量作为第二输入并输入至第三卷积神经网络，以得到各注册特征在同时间维度下的注册图像级表征；

表征确定模块，用于基于查询图像级表征和注册图像级表征确定各查询特征的查询时序级表征及各注册特征的注册时序级表征；

特征识别模块，用于基于注册时序级表征，在注册时序样本中选择与查询时序级表征相似度最高的注册特征作为查询时序样本的检索结果。

第三方面，本发明实施例还提供了一种视频流特征识别设备，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的视频流特征识别方法。

第四方面，一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的视频流特征识别方法。

上述视频流特征识别方法、装置、设备及存储介质，通过第一卷积神经网络确定查询时序样本及注册时序样本中每张图像的特征张量，通过第二卷积神经网络确定各查询特征的查询位置向量及注册特征的注册位置向量，通过第三卷积神经网络确定各查询特征在同时间维度下的查询图像级表征及各注册特征在同时间维度下的注册图像级表征，之后，基于查询图像级表征和注册图像级表征确定查询时序级表征和注册时序级表征，并基于查询时序级表征与注册时序级表征之间的相似度计算实现在注册时序样本中对查询时序样本进行搜索，进而实现了视频流的特征搜索与跟踪，且上述方法计算量少、计算速度快、准确度高。

附图说明

图1为本发明实施例提供的一种视频流特征识别方法的流程图；

图2为本发明实施例提供的另一种视频流特征识别方法的流程图；

图3为本发明实施例提供的一种视频流特征识别装置的结构示意图；

图4为本发明实施例提供的一种视频流特征识别设备的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

图1为本发明实施例提供的一种视频流特征识别方法的流程图。该视频流特征识别方法用于对视频流中的设定目标进行识别，其中，设定目标包括但不限定于行人、行人的身体部分和/或其他运动物体等。该视频流特征识别方法可以由视频流特征识别装置执行，该视频流特征识别装置通过软件和/或硬件的方式集成在视频流特征识别设备中。其中，视频流特征识别设备包括计算机等具有数据处理功能的电子设备。具体的，参考图1，该视频流特征识别方法具体包括：

步骤110、获取查询时序样本和注册时序样本，所述查询时序样本和注册时序样本均为视频流中时间连续的多帧图像。

示例性的，查询时序样本包含视频流中时间连续的多帧图像。其中，视频流为一段时间内的视频数据，图像中包含用户期望查询的特征。也可以理解为，基于查询时序样本得到的特征可以作为后续搜索的设定特征。例如，基于查询时序样本得到的某个行人的特征可以作为用户需要的设定特征，以在其他视频流中搜索该特征，进而实现行人的重识别。可选的，上述视频数据中的数据内容可以根据实际情况设定。实施例中，以视频流包括行人数据为例进行描述。进一步的，视频流可以由摄像头等视频采集设备进行获取，并发送至视频流特征识别设备中。其中，摄像头的安装参数、摄像参数以及运行时间实施例不作限定。

进一步的，注册时序样本同样包含视频流中时间连续的多帧图像。其中，注册时序样本对应的视频流和查询时序样本对应的视频流可以是相同视频采集设备在不同时间采集的视频流，也可以是不同视频采集设备在同一时间或不同时间采集的视频流。通常，限定注册时序样本对应的视频流同样包括行人数据。可选的，注册时序样本内的多帧图像和查询时序样本内的多帧图像对应的帧数相同，图像内容可以相同也可以不同。其中，帧数可以根据实际情况设定。通常，注册时序样本可以理解为待搜索的特征集合。一般而言，用户通过查询时序样本确定设定特征，并在注册时序样本中，搜索与设定特征最为相似的特征，以实现特征搜索，进而实现行人重识别和跟踪。实施例中，将通过查询时序样本中各图像确定的特征记为查询特征，将通过注册时序样本中各图像确定的特征记为注册特征。

步骤120、将两个样本分别输入至第一卷积神经网络，以分别得到每个样本中各图像对应的特征张量。

具体的，第一卷积神经网络可以为VGG16、VGG19神经网络，也可以是基于VGG16修改的小型神经网络。实施例中，以第一卷积神经网络为基于VGG16修改的小型神经网络为例进行描述。其中，第一卷积神经网络包括N个卷积层，N≥2，每个卷积层包括至少两个子卷积层，每个子卷积层的卷积核的大小为h*w*K*c，其中，h为卷积核中每个矩阵的高，w为卷积核中每个矩阵的宽，K为前一层的输出通道数，c为卷积核的深度。其中，第i个卷积层记为Convⁱ，1≤i≤N。第i个卷积层中的第j个子卷积层记为即Convⁱ＝(Convⁱ ₁，……，Convⁱ _m)，其中，Convⁱ共有m个子卷积层。进一步的，定义第j个子卷积层的输出为其中，c为第j个子卷积层的卷积核的深度；当本卷积层内各子卷积层的卷积核的大小相等时，K为第i-1个卷积层的输出通道数(即上一层为第i-1个卷积层)。当本卷积层内各子卷积层的卷积核的大小不相等时，K为第j-1个子卷积层的输出通道数(即上一层为第j-1个子卷积层)，若第j为1，则第j-1个子卷积层为上一卷积层的最后一个子卷积层。第i个卷积层的前一层为输入层，即样本输入层，则K为输入层的输出通道数。也可以理解为，K为输入至卷积层的样本通道数。W为第j个子卷积层的卷积核。实施例中设定W∈R^h*w*K*c。即W的大小为h*w*K*c，其中，W中每个矩阵的高为h，宽为w。进一步的，定义每个卷积层的stride为1。定义每个卷积层的padding为1。定义第i个卷积层的最大池化层为Maxpoolⁱ，其中，最大池化层的核大小为2*2，且stride为2。

示例性的，将查询时序样本中每帧图像作为输入，并依次输入至第一卷积神经网络。在输入时，可以根据实际需求将每帧图像分通道。例如，将每帧图像分为R、G、B三通道后输入至第一卷积神经网络。进一步的，将每帧图像依次输入至第一卷积神经网络后，可以得到每帧图像的特征张量。其中，每帧图像对应多张特征张量。通常，特征张量的数量与最后一个子卷积层的卷积核的深度有关。进一步的，特征张量是对设定目标的特征识别结果。例如，设定目标为行人时，特征识别结果可以包括行人的位置、外貌特征等。

进一步的，将注册时序样本中每帧图像作为另一输入，并依次输入至第一卷积神经网络，以通过第一卷积神经网络得到注册时序样本中每帧图像对应的特征张量，上述过程与查询时序样本中每帧图像作为第一卷积神经网络的输入时的过程相同，在此不做赘述。

可选的，注册时序样本和查询时序样本分别输入的第一卷积神经网络可以是同一神经网络，也可以是两个相同结构的神经网络，其具体的输入顺序实施例不作限定。

步骤130、将每个样本对应的特征张量分别输入至第二卷积神经网络，以分别得到查询时序样本中各查询特征的查询位置向量及注册时序样本中各注册特征的注册位置向量，所述查询特征和所述注册特征均为对应图像中包含的特征。

具体的，将查询时序样本内每帧图像对应的特征张量作为第二卷积神经网络的输入，并将第二卷积神经网络的输出结果记为查询特征的查询位置向量。将注册时序样本内每帧图像对应的特征张量作为第二卷积神经网络的另一输入，并将第二卷积神经网络的输出结果记为注册特征的注册位置向量。一般而言，上述两个过程采用的第二卷积神经网络可以是同一神经网络，或者是相同结构的神经网络。由于上述两个过程的原理、步骤相同，因此，仅以查询时序样本为例，描述第二卷积神经网络的工作过程。可以理解的是，将下述内容中与查询时序样本相关的内容替换为注册时序样本相关的内容，便可得到第二卷积神经网络针对注册时序样本的工作过程。

实施例中，设定第二卷积神经网络为双分支多阶段的卷积神经网络。其中，双分支包括置信图预测器网络分支和部件亲和域预测器网络分支。置信图预测器网络分支可以确定查询时序样本内各图像包含的设定目标的结构点以及结构点在图像中的位置。若设定目标为行人，那么结构点也可以理解为人体结构点。例如，肩膀对应的点、手肘对应的点、手腕对应的点等。一般而言，通过至少两个关联的人体结构点可以确定一个人体的查询特征。例如，通过肩膀对应的点和手肘对应的点可以确定行人的查询特征为大臂。部件亲和域预测器网络分支用于根据结构点确定对应的查询特征以及该查询特征的像素位置向量，此时，将查询特征在图像中的像素位置向量域记为查询像素向量。其中，可以理解的是，查询特征为设定目标的组成部分。例如，设定目标为行人，那么查询特征可以包括大臂、小臂、肩膀、头部等。进一步的，查询位置向量为二维向量域，其代表查询特征对应的肢体在图像中显示区域的像素编码。其中，该显示区域内的每个像素都会被编码成一个二维向量，二维向量实质是单位向量，具有像素的位置及方向信息。例如，查询特征为行人的大臂，此时，某个像素点在图像中的位置属于大臂所在的区域，那么，该像素点就会被编码成二维向量。同理，位于大臂所在区域内的其他像素点都会被编码成二维向量，位于大臂所在区域外的像素点为0。编码完成后，大臂所在区域的像素点都会被编码成二维向量，其余像素点设置为0，进而得到了大臂对应的查询位置向量。

可选的，为了保证第二卷积神经网络的准确性，可以在构建第二卷积神经网络时，通过已知结构点的位置，以及结构点对应特征的位置向量，构建损失函数，通过反向传播的方式训练第二卷积神经网络。

需要说明的是，上述第二卷积神经网络仅是一种可选方案。实际应用中，任意可以确定查询特征的查询位置向量的卷积神经网络均可作为第二卷积神经网络。

步骤140、将查询时序样本对应的特征张量和查询位置向量作为第一输入并输入至第三卷积神经网络，以得到各查询特征在同时间维度下的查询图像级表征，并将注册时序样本对应的特征张量和注册位置向量作为第二输入并输入至第三卷积神经网络，以得到各注册特征在同时间维度下的注册图像级表征。

具体的，将查询时序样本对应的特征张量和查询位置向量作为第三卷积神经网络的第一输入，并将第三卷积神经网络处理后的输出结果记为查询特征的查询图像级表征。查询图像级表征是指各查询特征在图像中的高语义表征，通过查询图像级表征可以使视频流特征识别设备明确查询时序样本中每帧图像包含的特征。进一步的，将注册时序样本对应的特征张量和注册位置向量作为第三卷积神经网络的第二输入，并将第三卷积神经网络处理后的输出结果记为注册特征的注册图像级表征。其中，注册图像级表征的含义与查询图像级表征的含义相同，在此不做赘述。由于，第三卷积神经网络对两个输入的处理过程相同，因此，实施例中仅以查询时序样本为例进行描述。可以理解的是，将下述描述内容中与查询时序样本相关的内容替换为注册时序样本相关的内容，便可以得到第三卷积神经网络针对注册时序样本的工作过程。

具体的，第三卷积神经网络为3D卷积神经网络，实际应用中，第三卷积神经网络还可以是其他具有相同功能的卷积神经网络。

可选的，在将查询时序样本对应的特征张量和查询位置向量输入至第三卷积神经网络前，可以构建特征张量与查询位置向量的关系。例如，将同一帧图像对应的特征张量和查询位置向量建立连接关系。之后，将查询时序样本对应的特征张量和全部查询位置向量输入至第三卷积神经网络，以通过第三卷积神经网络可以得到同时间维度下的查询图像级表征。其中，各查询特征在同时间维度下的查询图像级表征的含义是，每组结果中各查询图像级表征为同一时间维度下的查询特征对应的图像级表征。

具体的，在确认查询图像级表征时，获取第三卷积神经网络最后一个卷积层进行卷积运算后的卷积结果，并对每组卷积结果按照时间维度进行组内划分，并将不同组卷积结果中处于同一时间维度下的结果进行重组，之后，将重组后的结果输入至池化层进行池化处理，以得到同时间维度下的查询图像级表征。

步骤150、基于查询图像级表征和注册图像级表征确定各查询特征的查询时序级表征及各注册特征的注册时序级表征。

示例性的，查询时序级表征和注册时序级表征均表示某个特征在时间维度下对应的高语义特征，其用于特征重识别或特征追踪。

进一步的，查询时序级表征和注册时序级表征的计算方式可以相同，且具体的计算规则实施例不作限定。例如，将查询特征在多个时间维度下对应的查询图像级表征输入至递归神经网络，并将输出结果记为查询时空特征。此时，通过递归神经网络可以将同一查询特征在多个时间维度下进行关联及组合。一般而言，查询时空特征不仅包含查询特征的空间特性还包括时间特征，例如，查询特征为手臂，那么，查询时空特征可以明确手臂在一段时间维度下的空间位置以及运动轨迹等。同时，按照同样的方式确定注册特征的注册时空特征。之后，基于查询时空特征和注册时空特征计算关注度得分，通常，关注度得分为矩阵形式，且关注度得分越高，视频流特征识别设备在进行特征识别时，对该关注度得分对应的特征越为关注。进一步的，基于关注度得分得到各时间维度下的查询关注度比值和注册关注度比值，并根据查询关注度比值确定查询时序级表征，根据注册关注度比值确定注册时序级表征。

步骤160、基于注册时序级表征，在注册时序样本中选择与查询时序级表征相似度最高的注册特征作为查询时序样本的检索结果。

一般而言，同一特征对应的查询时序级表征和注册时序级表征之间的相似度最高。因此，通过计算某个查询时序级表征与各注册时序级表征的相似度，便可以查找到与查询时序样本对应的注册时序样本，即实现视频流内的特征重识别或追踪。其中，相似度的计算方式可以根据实际情况设定，例如采用欧式距离计算方式，当计算完查询特征与每个注册特征的欧式距离后，按照距离从小到大的顺序对注册特征进行排序。其中，排序越前代表相似度最高。一般而言，排序结果可以作为在注册时序样本中对查询特征进行搜索的结果。可选的，在排序结果中选择相似度最高的注册特征作为查询特征的最终搜索结果，即在注册时序样本的图像中实现了对查询特征的重识别。

需要说明的是，实际应用中，可以将步骤110-步骤160中对数据进行处理的过程认为是一个网络模型对数据的处理过程，此时，各神经网络可以认为是模型中的组成部分。可以理解的是，针对网络模型的训练过程实施例不作限定，其训练过程中构建的身份损失等函数可以根据实际情况设定。此外，通过上述各步骤可知，对于查询时序样本和注册时序样本的处理过程中，三个卷积神经网络执行同样的过程，那么在实际应用中，可以同时设定两组卷积神经网络，以分别且同时对查询时序样本和注册时序样本进行处理，其具体的执行顺序不作限定。

上述，通过第一卷积神经网络确定查询时序样本及注册时序样本中各帧图像的特征张量，通过第二卷积神经网络确定查询特征的查询位置向量及注册特征的注册位置向量，通过第三卷积神经网络确定各查询特征在同时间维度下的查询图像级表征及各注册特征在同时间维度下的注册图像级表征，之后，基于查询图像级表征和注册图像级表征确定查询时序级表征和注册时序级表征，并基于查询时序级表征与注册时序级表征之间的相似度计算实现在注册时序样本中对查询时序样本进行搜索，进而实现了视频流的特征识别与追踪，且上述方法计算量少、计算速度快、准确度高。

图2为本发明实施例提供的另一种视频流特征识别方法的流程图。本实施例是在上述实施例的基础上进行具体化。具体的，参考图2，本实施例提供的视频流特征识别方法具体包括：

步骤201、获取查询时序样本和注册时序样本，所述查询时序样本和所述注册时序样本均为视频流中时间连续的多帧图像。

步骤202、将两个样本分别输入至第一卷积神经网络，以分别得到每个样本中各图像对应的特征张量。

实施例中，设定N＝4，即第一卷积神经网络包括4个卷积层。其中，第一卷积层包括两个第一子卷积层，每个第一子卷积层的卷积核的大小为3*3*3*64；第二卷积层包括两个第二子卷积层，每个第二子卷积层的卷积核的大小为3*3*64*128；第三卷积层包括三个第三子卷积层，每个第三子卷积层的卷积核的大小为3*3*128*256；第四卷积层包括三个第四子卷积层，第一个第四子卷积层的卷积核的大小为3*3*256*512，第二个第四子卷积层的卷积核的大小为3*3*512*256，第三个第四子卷积层的卷积核的大小为3*3*256*128。定义每个卷积层的stride为1、padding为1，最大池化层的核大小为2*2，且stride为2。相比于传统的VGG16或VGG19卷积神经网络，上述卷积神经网络的计算速度较快、网络参数量较少，同时，也可以较好的获取特征张量且不影响后续部件亲和域预测器网络分支的性能。

通过上述第一卷积神经网络的结构可知，查询时序样本和注册时序样本中的每帧图像被分为3个通道输入至第一卷积神经网络，且经过卷积运算后，每帧图像可以得到128张特征张量。

步骤203、将每个样本对应的特征张量分别输入至第二卷积神经网络，以分别得到查询时序样本中各查询特征的查询位置向量及注册时序样本中各注册特征的注册位置向量，所述查询特征和所述注册特征均为对应图像中包含的特征。

设定双分支多阶段卷积神经网络包括：置信图预测器网络分支和部件亲和域预测器网络分支。

其中，置信图预测器网络分支包括M个置信卷积阶段，所述部件亲和域预测器网络分支包括M个亲和域卷积阶段，M≥2；所述置信图预测器网络分支的第一个置信卷积阶段的输入依次为对应样本中每帧图像对应的特征张量(输入依次为查询时序样本对应的特征张量或输入依次为注册时序样本对应的特征张量)，且所述第一个置信卷积阶段包括5个卷积层；剩余置信卷积阶段的输入包括所述特征张量(即相应样本对应的特征张量)、前一置信卷积阶段的结果以及前一亲和域卷积阶段的结果，且剩余置信卷积阶段包括7个卷积层；其中，每个置信卷积阶段的第一个卷积层的卷积核的大小为3*3*b*128，b为输入通道数，最后一个卷积层的卷积核的大小为1*1*128*T，T为结构点的数量，次后一个卷积层的卷积核的大小为1*1*128*128，剩余卷积层的卷积核的大小为3*3*128*128；所述部件亲和域预测器网络分支的第一个亲和域卷积阶段的输入依次为对应样本中每帧图像对应的特征张量(输入依次为查询时序样本对应的特征张量或输入依次为注册时序样本对应的特征张量)，且所述第一个亲和域卷积阶段包括5个卷积层；剩余亲和域卷积阶段的输入包括所述特征张量(即相应样本对应的特征张量)、前一置信卷积阶段的结果以及前一亲和域卷积阶段的结果，且剩余亲和域卷积阶段包括7个卷积层；其中，每个亲和域卷积阶段的第一个卷积层的卷积核的大小为3*3*b*128，最后一个卷积层的卷积核的大小为1*1*128*(2*T)，次后一个卷积层的卷积核的大小为1*1*128*128，剩余卷积层的卷积核的大小为3*3*128*128。

具体的，实施例中N＝6，b＝128，结构点为人体结构点，且T＝19。人体结构点可选但不限于包括：两个手腕、两个手肘、两个肩膀、鼻子、颈部的下点、两个脚踝、两个膝盖、大腿与股部之间的两个关节、两个耳朵，头部上侧左右两个结构点以及一个干扰点。进一步的，部件亲和域预测器网络分支确定查询特征或注册特征时，需要依赖于关联的两个结构点。通常，部件亲和域预测器网络分支中预先存有结构点的组合规则，以通过组合规则确定查询特征或注册特征。进一步的，由于人体结构点为19个，那么设定肢体为19*2个，即一个行人的查询特征或注册特征可以为38个。对应的，肢体区域为38个，即某个行人对应的查询位置向量或注册位置向量共有38个。

可选的，为了保证第二卷积神经网络的准确性，需要对第二卷积神经网络进行反向传播，并在训练结束后，使用第二卷积神经网络得到对应的位置向量。其中，为了便于描述，实施例中仍然以上述查询时序样本或注册时序样本为例，解释第二卷积神经网络的训练过程。此时，该训练过程具体包括：获取目标特征在对应图像中的像素位置信息，所述目标特征为查询特征或注册特征；基于所述像素位置信息确定目标特征的位置二维向量；获取所述部件亲和域预测器网络分支中最后一个亲和域卷积阶段的输出结果，所述输出结果为与查询特征对应的第一结果或与注册特征对应的第二结果；根据所述输出结果和所述位置二维向量构建损失函数，以通过反向传播训练所述部件亲和域预测器网络分支。

由于采用查询时序样本或注册时序样本，相应的训练方法相同，因此，实施例中以采用查询时序样本为例进行描述。具体的，通过查询时序样本中每帧图像包含的查询特征训练第二卷积神经网络，此时，设定各查询特征对应的结构点在图像中的位置是已知的。其中，上述位置可以通过人工标注的方式确定，并由视频流特征识别设备获取。进一步的，确定结构点在图像中的位置后，便可以确定各查询特征在图像中的像素位置信息。其中，像素位置信息表示图像中查询特征所在区域内各像素点的位置信息。

进一步的，基于所述像素位置信息对图像数据进行编码，以得到查询特征的位置二维向量。由于像素位置信息可以表示查询特征在图像中的位置区域，因此，基于像素位置信息对图像数据内的全部像素点进行编码，便可以得到查询特征的位置二维向量，其也是二维向量域。其中，编码的具体规则实施例不作限定。例如，编码规则为：

其中，表示第z个设定目标中第y个查询特征中像素值为pixel的像素点的编码值。可选的，设定目标可以为行人，查询特征为行人的肢体。x_y1,z和x_y2,z分别表示第y个查询特征对应的两个结构点在图像中的像素位置。如果像素值为pixel的像素点在像素位置信息内，则其等于(x_y2,z-x_y1,z)/||x_y2,z-x_y1,z||₂。如果像素值为pixel的像素点不在像素位置信息内，则为0。

通过上述编码方式，可以得到二维向量域，且该二维向量域表示第z个对象的第y个查询特征在图像中的位置二维向量。

进一步的，获取第二卷积神经网络中部件亲和域预测器网络分支中最后一个亲和域卷积阶段的输出结果。即获取部件亲和域预测器网络分支中第6阶段的输出结果。其中，输出结果是与查询时序样本对应的第一结果。可以理解的是，若以注册时序样本进行训练，那么输出结果是与注册时序样本对应的第二结果。

进一步的，基于输出结果和位置二维向量构建损失函数。实施例中，设定损失函数为：

其中，P表示部件亲和域预测器网络分支，表示最后一层亲和域卷积阶段中像素值为pixel的像素点的输出结果。Y表示第z个设定目标的查询特征的总数。W(pixel)为校验参数，当pixel像素点未在目标特征的位置区域时，W(pixel)为0，否则，为1。

确定损失函数后，通过损失函数反向传播训练所述部件亲和域预测器网络分支，进而实现训练第二卷积神经网络，以便后续直接使用第二卷积神经网络确定查询特征的查询位置向量及注册特征的注册位置向量。

步骤204、连接查询时序样本中同一帧图像对应的特征张量和查询位置向量，并连接注册时序样本中同一帧图像对应的特征张量和注册位置向量。

由于针对查询时序样本的连接过程与针对注册时序样本的连接过程相同，因此，仅以查询时序样本的连接过程为例进行描述。具体的，查询时序样本中每帧图像均存在特征张量和查询位置向量。因此，建立同一帧图像对应的特征张量以及查询位置向量的连接关系。其中，连接关系的具体建立方式实施例不作限定。建立连接关系的好处是，将特征张量和查询位置向量关联起来，以保证后续第三卷积神经网络输入及输出结果的准确性。

步骤205、将查询时序样本对应的特征张量和查询位置向量作为第一输入并输入至3D卷积神经网络。

具体的，将具有连接关系的特征张量和查询位置向量作为一个输入元素，将全部输入元素输入至3D卷积神经网络。

步骤206、获取所述3D卷积神经网络最后一个卷积层输出的Q组基于查询特征分组的卷积结果。

示例性的，通过3D卷积神经网络可以得到各查询特征在全部时间维度下对应的高语义表征向量。实施例中，设定获取3D卷积神经网络最后一个卷积层输出的Q组卷积结果，且各组卷积结果之间以查询特征为依据进行分组。其中，Q的值取决于最后一个卷积层的卷积核的大小。每组卷积结果的大小为h”*w”*τ其中，τ通道表示时间维度，h”和w”分别表示卷积结果中各矩阵的高和宽。若用G表示输出结果，那么G＝(g₁，……，g_Q)，其中，g_i∈R^h″*w″*τ，1≤i≤Q。

步骤207、按照时间维度对每组卷积结果进行组内划分，以将每组卷积结果划分为至少一个子卷积结果。

由于3D卷积神经网络可以得到各查询特征在全部时间维度下的特征向量。因此，为了得到同时间维度下的查询图像级表征，设定对每组卷积结果进行组内划分，且按照时间维度进行划分。此时，每组卷积结果可以包括至少一个子卷积结果。即

步骤208、将不同卷积结果中处于同一时间维度下的子卷积结果进行组合，以得到多个基于时间维度的子卷积组。

例如，对各子卷积结果进行组合后，第j个时间维度下的子卷积组即第j个时间维度下的子卷积组包含Q组卷积结果中第j个时间维度的子卷积结果。通过上述操作可以得到不同时间维度下的多个子卷积组，且每个子卷积组中的子卷积结果位于同时间维度。

步骤209、对每个子卷积组进行池化层处理，以得到各查询特征在同时间维度下的查询图像级表征。

具体的，利用基于多层空间尺度的空间金字塔池化，对每组子卷积组进行池化层处理，以对每组子卷积组进行多尺度空间信息的提取。其中，对一个子卷积组进行池化层处理后，可以得到一个或多个特征向量，若有多个特征向量，则将多个特征向量进行连接，并将连接结果作为该子卷积组对应的时间维度下的查询图像级表征。若仅有一个特征向量，则将该特征向量作为子卷积组对应的时间维度下的查询图像级表征。通过查询图像级表征可以确定每个时间维度下查询特征在图像中的高语义特征。

步骤210、将注册时序样本对应的特征张量和注册位置向量作为第二输入并输入至3D卷积神经网络，以得到各注册特征在同时间维度下的注册图像级表征。

需要说明的是，该步骤的具体执行过程与步骤205-步骤209的执行过程相同，仅是步骤205-步骤209针对查询时序样本。因此，对步骤210的具体描述可以参照步骤205-步骤209。同时，该步骤210与步骤205-步骤209之间具体的执行顺序本实施例不作限定。

步骤211、将所述查询时序样本的查询图像级表征和注册时序样本的注册图像级表征分别输入至递归神经网络，以得到所述查询时序样本的查询时空特征以及所述注册时序样本的注册时空特征。

具体的，将多个维度下的查询时序样本的查询图像级表征和多个维度下的注册时序样本的注册图像级表征一同输入至递归神经网络。其中，多个维度是指多个时间维度。进一步的，设定将查询图像级表征输入至递归神经网络后，输出结果记为查询时空特征。同样的，将注册图像级表征输入至递归神经网络后，输出结果记为注册时空特征。此时，递归神经网络可以将同一特征在多个时间维度下的注册时序样本及查询时序样本分别进行关联和组合。一般而言，查询时空特征和注册时空特征不仅包含特征的空间特性还包括时间特性。

例如，将d维将查询时序样本的查询图像级表征和d维注册时序样本的注册图像级表征输入至递归神经网络。并将递归神经网络输出的查询时空特征记为O^prob，将输出的注册时空特征记为O^gallery，且O^prob和O^gallery的时序输出的大小为τ*d。

步骤212、根据所述查询时空特征确定查询时序级表征，并根据注册时空特征确定注册时序级表征。

查询时序级表征和注册时序级表征分别表示某个特征作为查询特征时的一个参数以及作为注册特征时的一个参数。如果某个查询特征的查询时序级表征和某个注册特征的注册时序级表征的相似度越高，则说明该查询特征和注册特征为同一特征的可能性越大。具体的，该步骤具体包括步骤2121-步骤2127：

步骤2121、基于所述查询时空特征和注册时空特征计算关注度得分。

其中，关注度得分越高，视频流特征识别设备在进行特征识别时，对对应特征越为关注。具体的，关注度得分的计算方式可以根据实际情况设定，实施例中设定关注度得分的计算公式为：

A＝tanh(O^prob·U_pg·(O^gallery)^T)

其中，A表示关注度得分。U_pg表示共享权重，其是一个可学习矩阵，因此可以通过训练得到，共享权重用于将O^prob和O^gallery之间存在一定的关联性。T表示转置。一般而言，A为一个τ*τ的矩阵。

步骤2122、对所述关注度得分进行基于行的池化操作，以得到注册时序样本的第一关注度得分向量。

具体的，对关注度得分进行基于行的最大池化操作，即取关注度得分矩阵中每行的最大值作为该行的池化结果，并将得到的向量记为第一关注度得分向量。其中，第一关注度得分向量为τ维向量，其中第i个元素表示注册时序样本的注册时空特征在第i个时间维度的关注度得分。

步骤2123、根据所述第一关注度得分向量得到注册关注度比值。

具体的，注册关注度比值的计算方式可以根据实际情况设定。例如，第一关注度得分向量中第i个元素的注册关注度比值的计算方式为：

其中，[t_gallery]_i表示第一关注度得分向量中第i元素对应的具体数据。

通过上述计算方式，可以得到第一关注度得分向量中每个元素对应的注册关注度比值。关注度比值越高，说明对应元素在该时间维度下的关注度越高。

步骤2124、根据所述注册关注度比值和所述注册时空特征确定所述注册时序样本的注册时序级表征。

具体的，注册时序级表征的计算方式可以根据实际情况设定，实施例中，设定注册时序级表征的计算方式为：

v_g＝(O^gallery)^T·a_g

其中，a_g为第一关注度得分向量中各元素对应的注册关注度比值组成的向量。基于注册时序级表征，便可以确定特征作为注册时序样本时，在图像中的高语义特征的表示。一般而言，通过上述方法便可以确定各注册时序样本的注册时序级表征。

步骤2125、对所述关注度得分进行基于列的池化操作，以得到查询时序样本的第二关注度得分向量。

具体的，对关注度得分进行基于列的最大池化操作，即取关注度得分矩阵中每列的最大值作为该行的池化结果，并将得到的向量记为第二关注度得分向量。其中，第二关注度得分向量为τ维向量，其中第i个元素表示查询时序样本的查询时空特征在第i个时间维的关注度得分。

步骤2126、根据所述第二关注度得分向量得到查询关注度比值。

具体的，查询关注度比值的计算方式可以根据实际情况设定。例如，第二关注度得分向量中第i个元素的查询关注度比值的计算方式为：

其中，[t_probe]_i表示第二关注度得分向量中第i元素对应的具体数据。

通过上述计算方式，可以得到第二关注度得分向量中每个元素对应的查询关注度比值。关注度比值越高，说明对应元素在该时间维度下的关注度越高。

步骤2127、根据所述查询关注度比值和所述查询时空特征确定所述查询时序样本的查询时序级表征。

具体的，查询时序级表征的计算方式可以根据实际情况设定，实施例中，设定查询时序级表征的计算方式为：

v_p＝(O^prob)^T·a_p

其中，a_p为第二关注度得分向量中各元素对应的查询关注度比值组成的向量。基于查询时序级表征，便可以确定查询特征在图像中的高语义特征的表示。一般而言，通过上述方法便可以确定各查询时序样本的查询时序级表征。

需要说明的是，步骤2122-步骤2124以及步骤2125-步骤2127之间可以同时执行，也可以前后执行，且前后顺序实施例不作限定。

步骤213、基于注册时序级表征，在注册时序样本中选择与查询时序级表征相似度最高的注册特征作为查询时序样本的检索结果。

上述，通过采用第一卷积神经网络分别获取查询时序特征和注册时序特征的特征张量，可以实现在得到准确的特征张量时保证神经网络的计算速度，通过双分支多阶段卷积网络可以获取各特征张量中查询特征对应的查询位置向量或注册特征对应的注册位置向量，无需人工标注查询位置向量或注册位置向量，降低了人工成本。通过3D卷积神经网络的卷积结果得到各查询特征或注册特征的时空特性，并对卷积结果进行基于时间维度的拆分重组以及空间金字塔池化，以提取时空特性中的时间特性，即时间维度下的查询图像级表征及注册图像级表征，以此解决3D卷积神经网络不能高效利用学习时空域特征的问题。进一步的，将时间维度下的查询图像级表征及注册图像级表征输入至递归神经网络，以获取各特征的时空特性，并引入共享权重，以建立注册时序样本和查询时序样本之间的关系，同时，对关注度得分进行时序池化，可以解决递归神经网络输出存在过多冗余信息的问题。进而，根据时序池化结果确定查询时序级表征及注册时序级表征，以便于后续利用时序级表征在视频流中追踪或重识别行人特征。

图3为本发明实施例提供的一种视频流特征识别装置的结构示意图。参考图3，该视频流特征识别装置包括：数据获取模块301、第一卷积模块302、第二卷积模块303、第三卷积模块304、表征确定模块305以及特征识别模块306。

其中，数据获取模块301，用于获取查询时序样本和注册时序样本，所述查询时序样本和所述注册时序样本均为视频流中时间连续的多帧图像；第一卷积模块302，用于将两个样本分别输入至第一卷积神经网络，以分别得到每个样本中各图像对应的特征张量；第二卷积模块303，用于将每个样本对应的特征张量分别输入至第二卷积神经网络，以分别得到查询时序样本中各查询特征的查询位置向量及注册时序样本中各注册特征的注册位置向量，所述查询特征和所述注册特征均为对应图像中包含的特征；第三卷积模块304，用于将查询时序样本对应的特征张量和查询位置向量作为第一输入并输入至第三卷积神经网络，以得到各查询特征在同时间维度下的查询图像级表征，并将注册时序样本对应的特征张量和注册位置向量作为第二输入并输入至第三卷积神经网络，以得到各注册特征在同时间维度下的注册图像级表征；表征确定模块305，用于基于查询图像级表征和注册图像级表征确定各查询特征的查询时序级表征及各注册特征的注册时序级表征；特征识别模块306，用于基于注册时序级表征，在注册时序样本中选择与查询时序级表征相似度最高的注册特征作为查询时序样本的检索结果。

在上述实施例的基础上，所述第一卷积神经网络包括：N个卷积层，N≥2，每个卷积层包括至少两个子卷积层，每个子卷积层的卷积核的大小为h*w*K*c，其中，h为卷积核中每个矩阵的高，w为卷积核中每个矩阵的宽，K为前一层的输出通道数，c为卷积核的深度。

在上述实施例的基础上，N＝4，其中，第一卷积层包括两个第一子卷积层，每个第一子卷积层的卷积核的大小为3*3*3*64；

在上述实施例的基础上，所述第二卷积神经网络为双分支多阶段卷积神经网络。

在上述实施例的基础上，所述双分支多阶段卷积神经网络包括：置信图预测器网络分支和部件亲和域预测器网络分支；

在上述实施例的基础上，还包括：位置获取模块，用于获取目标特征在对应图像中的像素位置信息；向量确定模块，用于基于所述像素位置信息确定目标特征的位置二维向量；结果获取模块，用于获取所述部件亲和域预测器网络分支中最后一个亲和域卷积阶段的输出结果，所述输出结果为与查询特征对应的第一结果或与注册特征对应的第二结果；反向传播模块，用于根据所述输出结果和所述位置二维向量构建损失函数，以通过反向传播训练所述部件亲和域预测器网络分支。

在上述实施例的基础上，还包括：连接模块，用于将查询时序样本对应的特征张量和查询位置向量作为第一输入并输入至第三卷积神经网络，以得到各查询特征在同时间维度下的查询图像级表征，并将注册时序样本对应的特征张量和注册位置向量作为第二输入并输入至第三卷积神经网络，以得到各注册特征在同时间维度下的注册图像级表征之前，连接查询时序样本中同一帧图像对应的特征张量和查询位置向量，并连接注册时序样本中同一帧图像对应的特征张量和注册位置向量。

在上述实施例的基础上，所述第三卷积神经网络为3D卷积神经网络；所述第三卷积模块304包括：输入单元，用于将查询时序样本对应的特征张量和查询位置向量作为第一输入并输入至3D卷积神经网络；获取单元，用于获取所述3D卷积神经网络最后一个卷积层输出的Q组基于查询特征分组的卷积结果；划分单元，用于按照时间维度对每组卷积结果进行组内划分，以将每组卷积结果划分为至少一个子卷积结果；组合单元，用于将不同组卷积结果中处于同一时间维度下的子卷积结果进行组合，以得到多个基于时间维度的子卷积组；池化单元，用于对每个子卷积组进行池化层处理，以得到各查询特征在同时间维度下的查询图像级表征；注册图像级表征确定单元，用于将注册时序样本对应的特征张量和注册位置向量作为第二输入并输入至3D卷积神经网络，以得到各注册特征在同时间维度下的注册图像级表征。

在上述实施例的基础上，表征确定模块305包括：时空特征确定单元，用于将所述查询时序样本的查询图像级表征和注册时序样本的注册图像级表征分别输入至递归神经网络，以得到所述查询时序样本的查询时空特征以及所述注册时序样本的注册时空特征；时序表征确定单元，用于根据所述查询时空特征确定查询时序级表征，并根据注册时空特征确定注册时序级表征。

在上述实施例的基础上，时序表征确定单元包括：关注度得分计算子单元，用于基于所述查询时空特征和注册时空特征计算关注度得分；第一池化子单元，用于对所述关注度得分进行基于行的池化操作，以得到注册时序样本的第一关注度得分向量；第一比值计算子单元，根据所述第一关注度得分向量得到注册关注度比值；第一表征计算子单元，用于根据所述注册关注度比值和所述注册时空特征确定所述注册时序样本的注册时序级表征；第二池化子单元，用于对所述关注度得分进行基于列的池化操作，以得到查询时序样本的第二关注度得分向量；第二比值计算子单元，用于根据所述第二关注度得分向量得到查询关注度比值；第二表征计算子单元，用于根据所述查询关注度比值和所述查询时空特征确定所述查询时序样本的查询时序级表征。

本发明实施例提供的视频流特征识别装置可用于执行上述任意视频流特征识别方法，具备相应的功能和有益效果。

图4为本发明实施例提供的一种视频流特征识别设备的结构示意图。如图4所示，该视频流特征识别设备包括处理器40、存储器41、输入装置42和输出装置43；视频流特征识别设备中处理器40的数量可以是一个或多个，图4中以一个处理器40为例；视频流特征识别设备中的处理器40、存储器41、输入装置42和输出装置43可以通过总线或其他方式连接，图4中以通过总线连接为例。

存储器41作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的视频流特征识别方法对应的程序指令/模块(例如，视频流特征识别装置中的数据获取模块301、第一卷积模块302、第二卷积模块303、第三卷积模块304、表征确定模块305和特征识别模块306)。处理器40通过运行存储在存储器41中的软件程序、指令以及模块，从而执行视频流特征识别设备的各种功能应用以及数据处理，即实现上述的视频流特征识别方法。

存储器41可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据视频流特征识别设备的使用所创建的数据等。此外，存储器41可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器41可进一步包括相对于处理器40远程设置的存储器，这些远程存储器可以通过网络连接至视频流特征识别设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置42可用于接收输入的数字或字符信息，以及产生与视频流特征识别设备的用户设置以及功能控制有关的键信号输入。输出装置43可包括显示屏等显示设备。

上述视频流特征识别设备包含视频流特征识别装置，可以用于执行任意视频流特征识别方法，具备相应的功能和有益效果。

本发明实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种视频流特征识别方法，该方法包括：

将两个样本分别输入至第一卷积神经网络，以分别得到每个样本图像对应的特征张量；

当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的视频流特征识别方法中的相关操作。

通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

值得注意的是，上述视频流特征识别装置的实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种视频流特征识别方法，其特征在于，包括：

2.根据权利要求1所述的视频流特征识别方法，其特征在于，所述第一卷积神经网络包括：N个卷积层，N≥2，每个卷积层包括至少两个子卷积层，每个子卷积层的卷积核的大小为h*w*K*c，其中，h为卷积核中每个矩阵的高，w为卷积核中每个矩阵的宽，K为前一层的输出通道数，c为卷积核的深度。

3.根据权利要求2所述的视频流特征识别方法，其特征在于，N＝4，其中，第一卷积层包括两个第一子卷积层，每个第一子卷积层的卷积核的大小为3*3*3*64；

4.根据权利要求1所述的视频流特征识别方法，其特征在于，所述第二卷积神经网络为双分支多阶段卷积神经网络。

5.根据权利要求4所述的视频流特征识别方法，其特征在于，所述双分支多阶段卷积神经网络包括：置信图预测器网络分支和部件亲和域预测器网络分支；

6.根据权利要求5所述的视频流特征识别方法，其特征在于，还包括：

基于所述像素位置信息确定目标特征的位置二维向量；

获取所述部件亲和域预测器网络分支中最后一个亲和域卷积阶段的输出结果，所述输出结果为与查询特征对应的第一结果或与注册特征对应的第二结果；

7.根据权利要求1所述的视频流特征识别方法，其特征在于，所述将查询时序样本对应的特征张量和查询位置向量作为第一输入并输入至第三卷积神经网络，以得到各查询特征在同时间维度下的查询图像级表征，并将注册时序样本对应的特征张量和注册位置向量作为第二输入并输入至第三卷积神经网络，以得到各注册特征在同时间维度下的注册图像级表征之前，还包括：

8.根据权利要求1所述的视频流特征识别方法，其特征在于，所述第三卷积神经网络为3D卷积神经网络；

9.根据权利要求1所述的视频流特征识别方法，其特征在于，所述基于查询图像级表征和注册图像级表征确定各查询特征的查询时序级表征及各注册特征的注册时序级表征包括：

将所述查询时序样本的查询图像级表征和注册时序样本的注册图像级表征分别输入至递归神经网络，以得到所述查询时序样本的查询时空特征以及所述注册时序样本的注册时空特征；

10.根据权利要求9所述的视频流特征识别方法，其特征在于，所述根据所述查询时空特征确定查询时序级表征，并根据注册时空特征确定注册时序级表征包括：

基于所述查询时空特征和注册时空特征计算关注度得分；

根据所述第一关注度得分向量得到注册关注度比值；

对所述关注度得分进行基于列的池化操作，以得到查询序列样本的第二关注度得分向量；

根据所述第二关注度得分向量得到查询关注度比值；

11.一种视频流特征识别装置，其特征在于，包括：

12.一种视频流特征识别设备，其特征在于，包括：

一个或多个处理器；

存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-10中任一所述的视频流特征识别方法。

13.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-10中任一所述的视频流特征识别方法。