CN110070066B

CN110070066B - 一种基于姿态关键帧的视频行人重识别方法及系统

Info

Publication number: CN110070066B
Application number: CN201910359494.5A
Authority: CN
Inventors: 陈羽中; 黄腾达; 柯逍; 林洋洋
Original assignee: Fuzhou University
Current assignee: Fuzhou University
Priority date: 2019-04-30
Filing date: 2019-04-30
Publication date: 2022-12-09
Anticipated expiration: 2039-04-30
Also published as: CN110070066A

Abstract

本发明涉及一种基于姿态关键帧的视频行人重识别方法及系统，该方法包括以下步骤：步骤A：使用标注了行人姿态关键点位置信息的数据训练行人姿态估计深度神经网络；步骤B：根据行人姿态估计深度神经网络预测得到的姿态信息选取姿态关键帧，训练行人重识别深度神经网络；步骤C：将查询集和检索集的视频输入行人重识别深度神经网络以提取特征，计算各视频间的特征距离，并对各特征距离进行排序，生成各查询视频的近邻列表；步骤D：利用重排序方法对近邻列表进行重新排序，选取近邻列表的前若干名为行人重识别结果。该方法及系统可以提高视频行人重识别的准确度和速度。

Description

一种基于姿态关键帧的视频行人重识别方法及系统

技术领域

本发明涉及模式识别与计算机视觉技术领域，具体涉及一种基于姿态关键帧的视频行人重识别方法及系统。

背景技术

随着科技的进步和社会发展的需要，视频监控系统已被广泛部署到生活中的各种场合中，其具有直观、准确、及时等优点。常见的应用便是视频侦查，即根据案发时监控摄像头拍摄到的嫌疑目标图像，在整个监控网络中搜索该目标在其它摄像头中的画面，以定位该目标。然而，传统的方法主要是依靠人力观看大量监控视频并进行人工比对，该方法成本高、容易出错且效率低下，以无法满足新形势下的视频侦查需求，因此针对特定行人目标的智能检索已成为目前视频监控领域亟需解决的重要问题。

近几年，计算机视觉和模式识别研究的不断发展，使得利用计算机代替人力完成视频侦查成为可能，行人重识别便是解决该问题的方案。视频行人重识别指的是根据输入的目标行人视频，在监控系统中自动查找该行人的其他视频。目前的研究主要集中在依赖于行人目标表观特征的行人重识别技术上，这种表观特征包括衣服颜色、衣着样式和体态特征等。但使用该特征容易受行人姿态因素的影响，同一行人的外观特征会发生很大变化，导致无法得到正确的重识别结果。同时，视频相比于图像，其更容易受到遮挡、光照变化等情况的干扰，导致无法提取鲁棒的视频特征用于相似性的比较。难负样本的存在也阻碍了行人重识别精度的进一步提高，因其特征与目标样本的特征相似性过高，导致不能正确地对其进行分类。

发明内容

本发明的目的在于提供一种基于姿态关键帧的视频行人重识别方法及系统，该方法及系统可以提高视频行人重识别的准确度和速度。

为实现上述目的，本发明的技术方案是：一种基于姿态关键帧的视频行人重识别方法，包括以下步骤：

步骤A：使用标注了行人姿态关键点位置信息的数据训练行人姿态估计深度神经网络；

步骤B：根据行人姿态估计深度神经网络预测得到的姿态信息选取姿态关键帧，训练行人重识别深度神经网络；

步骤C：将查询集和检索集的视频输入行人重识别深度神经网络以提取特征，计算各视频间的特征距离，并对各特征距离进行排序，生成各查询视频的近邻列表；

步骤D：利用重排序方法对近邻列表进行重新排序，选取近邻列表的前若干名为行人重识别结果。

进一步地，所述步骤A中，使用标注了行人姿态关键点位置信息的数据训练行人姿态估计深度神经网络，包括以下步骤：

步骤A1：利用行人姿态关键点的位置信息生成真实的关键点热力图；

步骤A2：将标注了行人姿态关键点位置信息的数据输入行人姿态估计深度神经网络，获得预测的关键点热力图；

步骤A3：结合真实和预测的关键点热力图，计算损失以训练网络。

进一步地，所述步骤A1中，利用行人姿态关键点的位置信息生成真实的关键点热力图的具体方法为：对于每个关键点，利用高斯分布生成真实的关键点热力图，计算公式如下：

其中，x、y分别是关键点热力图中任一点的横坐标和纵坐标，prob(x,y)为关键点热力图中(x,y)点的值，π为圆周率，σ₁、σ₂分别为横坐标和纵坐标的标准差，exp为以自然常数为底的指数函数，μ₁、μ₂分别为关键点真实的横坐标和纵坐标；

所述步骤A2中，所述行人姿态估计深度神经网络由卷积层、最大池化层、快捷连接块层和平均池化层构成，其输出为预测的关键点热力图；

所述步骤A3中，结合真实和预测的关键点热力图，计算损失以训练网络，包括以下步骤：

步骤A31：按照下面的公式计算损失：

其中，loss为损失值，N为关键点数量，将标注数据随机分成若干组，每组构成一个训练批次，B为一个训练批次的图像数量，i表示批次内第i张图像，γ表示第γ个关键点，

和

分别是预测和真实的第i张图像的第γ个关键点的热力图，||·||₂为欧氏距离；

步骤A32：利用反向传播，根据损失值计算网络中各参数的梯度值，然后利用随机梯度下降方法更新参数，完成行人姿态估计深度神经网络的训练。

进一步地，所述步骤B中，根据行人姿态估计深度神经网络预测得到的姿态信息选取姿态关键帧，训练行人重识别深度神经网络，包括以下步骤：

步骤B1：将视频各帧输入行人姿态估计深度神经网络，预测关键点位置；

步骤B2：根据关键点位置选取视频中的姿态关键帧；

步骤B3：将姿态关键帧输入行人重识别深度神经网络中的特征提取子网络和判别子网络，获得预测的类标签向量；

步骤B4：计算分类损失以完成对行人重识别深度神经网络的训练。

进一步地，所述步骤B1中，将视频各帧输入行人姿态估计深度神经网络，预测关键点位置，包括以下步骤：

步骤B11：将视频各帧输入行人姿态估计深度神经网络，获得预测的关键点热力图；

步骤B12：选取热力图中数值最大的点作为预测的关键点，输出关键点的位置坐标；

所述步骤B2中，根据关键点位置选取视频中的姿态关键帧，包括以下步骤：

步骤B21：选取视频中的第一帧为姿态关键帧；

步骤B22：以第一帧为基准，按如下公式计算其余各帧的姿态变化衡量值：

其中，tran为当前帧的姿态变化衡量值，N为关键点数量，γ指的是第γ个关键点，λ_γ为第γ个关键点的权重系数，base_x_γ、base_y_γ分别是第一帧第γ个关键点的横坐标和纵坐标，pose_x_γ、pose_y_γ分别是当前帧第γ个关键点的横坐标和纵坐标；

步骤B23：按照姿态变化衡量值对各帧进行递减排序，选取前若干帧作为姿态关键帧；

所述步骤B3中，将姿态关键帧输入行人重识别深度神经网络中的特征提取子网络和判别子网络，获得预测的类标签向量，包括以下步骤：

步骤B31：将姿态关键帧输入特征提取子网络，所述特征提取子网络由卷积层、最大池化层、捷径连接块层和平均池化层构成，以获得各关键帧的特征；

步骤B32：将各关键帧的特征取平均后输入判别子网络，所述判别子网络包括全连接层和Dropout层，输出预测的类标签向量；

所述步骤B4中，计算分类损失以完成对行人重识别深度神经网络的训练，包括以下步骤：

步骤B41：按照下面的公式计算损失：

其中，iden_loss指的是分类损失，log和exp分别是以自然常数为底的对数函数和指数函数，fea是网络输出的特征向量，class是类标签，[·]指的是对向量的索引取值，j指的是特征向量中第j个元素；

步骤B42：利用反向传播，根据损失值计算网络中各参数的梯度值，然后利用随机梯度下降方法更新参数，完成行人重识别深度神经网络的训练。

进一步地，所述步骤C中，将查询集和检索集的视频输入行人重识别深度神经网络以提取特征，计算各视频间的特征距离，并对各特征距离进行排序，生成各查询视频的近邻列表，包括以下步骤：

步骤C1：对于检索集和查询集中的视频，随机选取若干帧输入行人重识别深度神经网络中，获取所述行人重识别深度神经网络在判别子网络前的输出作为该些视频的特征；

步骤C2：对所有视频的特征进行降维处理；

步骤C3：对于查询集中的各视频，计算其特征与检索集中各视频的特征之间的距离；

步骤C4：按照距离递增排序，生成各查询视频的近邻列表。

进一步地，所述步骤C1中，随机选取若干帧输入行人重识别深度神经网络中，包括以下步骤：

步骤C11：将视频按照时间顺序分割成若干个视频片段；

步骤C12：对于每个视频片段，随机抽取一帧作为目标帧；

步骤C13：整合所有目标帧，将其输入到行人重识别深度神经网络中；

所述步骤C2中，对所有视频的特征进行降维处理，包括以下步骤：

步骤C21：对特征的每一维计算其平均值，然后将每一维的值减去各自的平均值；

步骤C22：所有特征组成矩阵A＝{a₁,a₂,...,a_m}，a_m表示第m个特征向量，m为视频的数量，计算协方差矩阵

T表示矩阵转置，A^T为矩阵A的转置；

步骤C23：利用特征值分解方法计算协方差矩阵

的特征值和特征向量；

步骤C24：对特征值进行递减排序，选取前若干个，将其对应的特征向量组合成矩阵F；

步骤C25：根据公式D＝F·A，将特征矩阵A投影到较低维的特征空间中，D即是降维后的特征向量组成的矩阵；

所述步骤C3中，对于查询集中的各视频，计算其特征与检索集中各视频的特征之间的距离，包括以下步骤：

步骤C31：利用标注了行人分类的视频数据计算度量矩阵R；

步骤C32：根据度量矩阵R，计算查询集中各视频的特征与对应的检索集中各视频的特征的距离。

进一步地，所述步骤C31中，利用标注了行人分类的视频数据计算度量矩阵R，包括以下步骤：

步骤C311：对于标注了行人分类的视频数据，随机选取若干帧输入行人重识别深度神经网络中，获取所述行人重识别深度神经网络在判别子网络前的输出作为该些视频的特征，按照步骤C2对特征进行降维处理，并从同一行人的视频中抽取若干对组成相似样本对，从不同行人的视频中抽取若干对组成非相似样本对；

步骤C312：按照下面的公式计算两个协方差矩阵：

其中，

分别是相似样本对和非相似样本对的协方差矩阵，c和d表示样本对中的两个样本，η_c,d为指示变量，如果c和d是相似对则其值为1，若是非相似对则为0，fe是对应样本提取的特征向量；

步骤C313：计算矩阵

对其进行特征值分解H＝QΛQ^-1，得到特征值组成的对角矩阵Λ和分解矩阵Q，修改对角矩阵Λ中小于等于0的特征值为一个设定的正数，得矩阵

然后按照公式

进行重构，得到度量矩阵R；

所述步骤C32中，根据度量矩阵R，计算查询集中各视频的特征与对应的检索集中各视频的特征的距离的方法为：根据度量矩阵R，按照下面的公式计算特征之间的距离：

distance＝(fe_query-fe_gallery)^TR(fe_query-fe_gallery)

其中，distance为特征之间的距离，fe_query、fe_gallery分别是查询集视频的特征和检索集视频的特征，R为度量矩阵。

进一步地，所述步骤D中，利用重排序方法对近邻列表进行重新排序，选取近邻列表的前若干名为行人重识别结果，包括以下步骤：

步骤D1：对于每个近邻排序列表，遍历前τ个视频，生成各自的近邻列表；

步骤D2：对于前τ个视频，如果其近邻列表的前若干名包含当前查询视频，则将其列入可信视频，不对其进行重排序，否则列入不可信视频；

步骤D3：对于不可信视频，如果其近邻排序列表的前若干名包含了任一可信视频，则将其转成可信视频；

步骤D4：最后将剩余的不可信视频按顺序移至近邻排序列表末端，完成重排序过程，选取近邻列表的前若干名作为行人重识别结果。

本发明还提供了一种基于姿态关键帧的视频行人重识别系统，包括：

行人姿态估计神经网络训练模块，用于使用标注了行人姿态关键点位置信息的数据训练行人姿态估计深度神经网络；

行人重识别神经网络训练模块，用于根据行人姿态估计深度神经网络预测得到的姿态信息选取姿态关键帧，训练行人重识别深度神经网络；

近邻列表生成模块，用于将查询集和检索集的视频输入行人重识别深度神经网络以提取特征，计算各视频间的特征距离，并对各特征距离进行排序，生成各查询视频的近邻列表；以及

行人重识别模块，用于对近邻列表进行重新排序，并从中选取得到行人重识别结果。

相较于现有技术，本发明的有益效果是：提出了一种基于姿态关键帧的视频行人重识别方法及系统，该方法及系统首先利用姿态估计的方法选取视频的姿态关键帧，利用姿态关键帧提高行人重识别网络对姿态变化的适应性，提高其在姿态剧烈变化场景下的识别性能。然后，使用姿态关键帧训练重识别网络，通过视频帧融合方法进一步避免干扰帧对视频特征提取的影响。最后，利用提出的重排序方法筛选出近邻排序列表中的难负样本，提升排序的正确性。本发明高效地解决了难负样本对排序结果产生干扰的问题，具有对行人姿态变化自适应、提取视频特征鲁棒性较高、识别精度高、快速高效等优点，有较高的应用价值。

附图说明

图1是本发明实施例的方法实现流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的详细说明。

本发明提供一种基于姿态关键帧的视频行人重识别方法，如图1所示，包括以下步骤：

步骤A：使用标注了行人姿态关键点位置信息的数据训练行人姿态估计深度神经网络，具体包括以下步骤：

步骤A1：利用行人姿态关键点的位置信息生成真实的关键点热力图。具体方法为：对于每个关键点，利用高斯分布生成真实的关键点热力图，计算公式如下：

其中，x、y分别是关键点热力图中任一点的横坐标和纵坐标，prob(x,y)为关键点热力图中(x,y)点的值，π为圆周率，σ₁、σ₂分别为横坐标和纵坐标的标准差，exp为以自然常数为底的指数函数，μ₁、μ₂分别为关键点真实的横坐标和纵坐标。

步骤A2：将标注了行人姿态关键点位置信息的数据输入行人姿态估计深度神经网络，获得预测的关键点热力图。行人姿态估计深度神经网络由卷积层、最大池化层、快捷连接块层和平均池化层构成，其输出为预测的关键点热力图。

步骤A3：结合真实和预测的关键点热力图，计算损失以训练网络。具体包括以下步骤：

步骤A31：按照下面的公式计算损失：

和

分别是预测和真实的第i张图像的第γ个关键点的热力图，||·||₂为欧氏距离。

步骤B：根据行人姿态估计深度神经网络预测得到的姿态信息选取姿态关键帧，训练行人重识别深度神经网络，具体包括以下步骤：

步骤B1：将视频各帧输入行人姿态估计深度神经网络，预测关键点位置。包括以下步骤：

步骤B11：将视频各帧输入行人姿态估计深度神经网络，获得预测的关键点热力图。

步骤B12：选取热力图中数值最大的点作为预测的关键点，输出关键点的位置坐标。

步骤B2：根据关键点位置选取视频中的姿态关键帧。包括以下步骤：

步骤B21：选取视频中的第一帧为姿态关键帧。

其中，tran为当前帧的姿态变化衡量值，N为关键点数量，γ指的是第γ个关键点，λ_γ为第γ个关键点的权重系数，base_x_γ、base_y_γ分别是第一帧第γ个关键点的横坐标和纵坐标，pose_x_γ、pose_y_γ分别是当前帧第γ个关键点的横坐标和纵坐标。

步骤B23：按照姿态变化衡量值对各帧进行递减排序，选取前若干帧作为姿态关键帧。

步骤B3：将姿态关键帧输入行人重识别深度神经网络中的特征提取子网络和判别子网络，获得预测的类标签向量。包括以下步骤：

步骤B31：将姿态关键帧输入特征提取子网络，所述特征提取子网络由卷积层、最大池化层、捷径连接块层和平均池化层构成，以获得各关键帧的特征。

步骤B32：将各关键帧的特征取平均后输入判别子网络，所述判别子网络包括全连接层和Dropout层，输出预测的类标签向量。

步骤B4：计算分类损失以完成对行人重识别深度神经网络的训练。包括以下步骤：

步骤B41：按照下面的公式计算损失：

其中，iden_loss指的是分类损失，log和exp分别是以自然常数为底的对数函数和指数函数，fea是网络输出的特征向量，class是类标签，[·]指的是对向量的索引取值，j指的是特征向量中第j个元素。

步骤C：将查询集和检索集的视频输入行人重识别深度神经网络以提取特征，计算各视频间的特征距离，并对各特征距离进行排序，生成各查询视频的近邻列表，具体包括以下步骤：

步骤C1：对于检索集和查询集中的视频，随机选取若干帧输入行人重识别深度神经网络中，获取所述行人重识别深度神经网络在判别子网络前的输出作为该些视频的特征。其中，随机选取若干帧输入行人重识别深度神经网络中，包括以下步骤：

步骤C11：将视频按照时间顺序分割成若干个视频片段。

步骤C12：对于每个视频片段，随机抽取一帧作为目标帧。

步骤C13：整合所有目标帧，将其输入到行人重识别深度神经网络中。

步骤C2：对所有视频的特征进行降维处理。具体包括以下步骤：

步骤C21：对特征的每一维计算其平均值，然后将每一维的值减去各自的平均值。

T表示矩阵转置，A^T为矩阵A的转置。

步骤C23：利用特征值分解方法计算协方差矩阵

的特征值和特征向量。

步骤C24：对特征值进行递减排序，选取前若干个，将其对应的特征向量组合成矩阵F。

步骤C25：根据公式D＝F·A，将特征矩阵A投影到较低维的特征空间中，D即是降维后的特征向量组成的矩阵。

步骤C3：对于查询集中的各视频，计算其特征与检索集中各视频的特征之间的距离。具体包括以下步骤：

步骤C31：利用标注了行人分类的视频数据计算度量矩阵R，包括以下步骤：

步骤C311：对于标注了行人分类的视频数据，随机选取若干帧输入行人重识别深度神经网络中，获取所述行人重识别深度神经网络在判别子网络前的输出作为该些视频的特征，按照步骤C2对特征进行降维处理，并从同一行人的视频中抽取若干对组成相似样本对，从不同行人的视频中抽取若干对组成非相似样本对。

步骤C312：按照下面的公式计算两个协方差矩阵：

其中，

分别是相似样本对和非相似样本对的协方差矩阵，c和d表示样本对中的两个样本，η_c,d为指示变量，如果c和d是相似对则其值为1，若是非相似对则为0，fe是对应样本提取的特征向量。

步骤C313：计算矩阵

然后按照公式

进行重构，得到度量矩阵R。

步骤C32：根据度量矩阵R，计算查询集中各视频的特征与对应的检索集中各视频的特征的距离，其方法为：根据度量矩阵R，按照下面的公式计算特征之间的距离：

distance＝(fe_query-fe_gallery)^TR(fe_query-fe_gallery)

步骤C4：按照距离递增排序，生成各查询视频的近邻列表。

步骤D：利用重排序方法对近邻列表进行重新排序，选取近邻列表的前若干名为行人重识别结果，具体包括以下步骤：

步骤D1：对于每个近邻排序列表，遍历前τ个视频，生成各自的近邻列表。

步骤D2：对于前τ个视频，如果其近邻列表的前若干名包含当前查询视频，则将其列入可信视频，不对其进行重排序，否则列入不可信视频。

步骤D3：对于不可信视频，如果其近邻排序列表的前若干名包含了任一可信视频，则将其转成可信视频。

本发明还提供了用于实现上述方法的视频行人重识别系统，包括：

以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

Claims

1.一种基于姿态关键帧的视频行人重识别方法，其特征在于，包括以下步骤：

步骤D：利用重排序方法对近邻列表进行重新排序，选取近邻列表的前若干名为行人重识别结果；

所述步骤B中，根据行人姿态估计深度神经网络预测得到的姿态信息选取姿态关键帧，训练行人重识别深度神经网络，包括以下步骤：

步骤B2：根据关键点位置选取视频中的姿态关键帧；

步骤B4：计算分类损失以完成对行人重识别深度神经网络的训练；

所述步骤B1中，将视频各帧输入行人姿态估计深度神经网络，预测关键点位置，包括以下步骤：

步骤B21：选取视频中的第一帧为姿态关键帧；

步骤B41：按照下面的公式计算损失：

2.根据权利要求1所述的一种基于姿态关键帧的视频行人重识别方法，其特征在于，所述步骤A中，使用标注了行人姿态关键点位置信息的数据训练行人姿态估计深度神经网络，包括以下步骤：

3.根据权利要求2所述的一种基于姿态关键帧的视频行人重识别方法，其特征在于，所述步骤A1中，利用行人姿态关键点的位置信息生成真实的关键点热力图的具体方法为：对于每个关键点，利用高斯分布生成真实的关键点热力图，计算公式如下：

步骤A31：按照下面的公式计算损失：

和

4.根据权利要求1所述的一种基于姿态关键帧的视频行人重识别方法，其特征在于，所述步骤C中，将查询集和检索集的视频输入行人重识别深度神经网络以提取特征，计算各视频间的特征距离，并对各特征距离进行排序，生成各查询视频的近邻列表，包括以下步骤：

步骤C2：对所有视频的特征进行降维处理；

步骤C4：按照距离递增排序，生成各查询视频的近邻列表。

5.根据权利要求4所述的一种基于姿态关键帧的视频行人重识别方法，其特征在于，所述步骤C1中，随机选取若干帧输入行人重识别深度神经网络中，包括以下步骤：

步骤C11：将视频按照时间顺序分割成若干个视频片段；

步骤C12：对于每个视频片段，随机抽取一帧作为目标帧；

T表示矩阵转置，A^T为矩阵A的转置；

步骤C23：利用特征值分解方法计算协方差矩阵

的特征值和特征向量；

步骤C31：利用标注了行人分类的视频数据计算度量矩阵R；

6.根据权利要求5所述的一种基于姿态关键帧的视频行人重识别方法，其特征在于，所述步骤C31中，利用标注了行人分类的视频数据计算度量矩阵R，包括以下步骤：

步骤C312：按照下面的公式计算两个协方差矩阵：

其中，

步骤C313：计算矩阵

然后按照公式

进行重构，得到度量矩阵R；

distance＝(fe_query-fe_gallery)^TR(fe_query-fe_gallery)

7.根据权利要求1所述的一种基于姿态关键帧的视频行人重识别方法，其特征在于，所述步骤D中，利用重排序方法对近邻列表进行重新排序，选取近邻列表的前若干名为行人重识别结果，包括以下步骤：

8.一种用于实现如权利要求1-7任一项所述方法的基于姿态关键帧的视频行人重识别系统，其特征在于，包括：