CN117315576A

CN117315576A - 一种在监控视频中识别指定人员的方法

Info

Publication number: CN117315576A
Application number: CN202311232873.0A
Authority: CN
Inventors: 王丽园; 庄稼丰; 马天奕; 罗丰; 李正军; 杨晶; 熊文磊
Original assignee: CCCC Second Highway Consultants Co Ltd
Current assignee: CCCC Second Highway Consultants Co Ltd
Priority date: 2023-09-22
Filing date: 2023-09-22
Publication date: 2023-12-29
Anticipated expiration: 2043-09-22

Abstract

本发明公开了一种在监控视频中识别指定人员的方法，主要通过前景增强模块抑制待识别图像的背景，提取精确的前景增强的全局特征图和前景区域；然后语义单元自适应模块对前景增强的全局特征图进行像素级的分类，得到各身体语义单元对应的局部语义特征，最后通过结构化图卷积模块学习局部语义特征间的相关性特征，获得图结构特征。本发明对遮挡具有鲁棒性，在目标身体被部分遮挡的情况下仍然能够准确识别；本发明聚焦于目标本身，不会受到背景变化的影像；本发明除对行人外观重识别，也对目标的运动姿态和随身物品也敏感，重识别准确性高。

Description

一种在监控视频中识别指定人员的方法

技术领域

本发明属于人工智能的视频图像处理领域。具体涉及一种在监控视频中识别指定人员的方法，适用于监控视频中人员目标的识别和跟踪。

背景技术

随着智能视频监控系统的日益成熟，人工寻找视频中人员的方法，已经不再适用。基于行人重识别技术的智能监控系统，能在多个不重叠视角中搜索指定行人，实现了效率上的提高。实际应用中，相机视角固定，同一视角的图像包含相似的背景；而且，视频中出现的目标常常存在衣着相似的情况。无论是图像背景还是目标前景，视觉相似问题都给特征提取带来了困难。

目前基于深度学习的行人重识别技术使用的特征提取方法主要分为3种：基于语义特征的方法、基于局部特征的方法和基于注意机制特征的方法。基于语义特征的方法借助语义模块生成行人的骨架姿态图或语义分割图，从这些辅助信息中判断身体区域，再构建多个子特征以去除背景影响。这类方法依赖语义模型的准确率，目标身体被部分遮挡的情况下识别的准确率下降，并且会增加网络的构建成本。基于局部特征的方法将图像直接水平分割成多个子区域，提取子特征后再对齐。这类方法构建简单，但是会引入错误的背景信息。基于注意机制特征的方法引入加权参数，旨在抑制背景信息和增强辨识区域，能提高全局特征的有效性。但是，这类方法不能准确定位语义部分，也不能保证图像之间焦点区域的一致性。

发明内容

本发明的目的在于针对现有技术存在的上述问题，提出一种在监控视频中识别指定人员的方法，具体而言，提出了一个基于局部语义与图卷积的行人重识别网络，充分挖掘行人局部特征之间的相关性，从而解决视觉相似问题，实现准确的行人重识别。该方法不依赖语义模型，并且对于有遮挡图像可以仅使用可见特征实现匹配。

为实现上述目的，本发明提供如下技术方案：

一种在监控视频中识别指定人员的方法，包括以下步骤：

步骤1、获取用于训练的指定人员图像作为样本图像构成训练样本集；

步骤2、构建基于局部语义与图卷积的行人重识别网络，基于局部语义与图卷积的行人重识别网络包括主干网络、前景增强模块、语义单元自适应模块和结构化图卷积模块，

前景增强模块，用于提取输入图像的前景增强的全局特征图F_g和前景区域；

语义单元自适应模块，基于前景增强的全局特征图F_g和前景区域，提取前景特征F_f和身体部位的局部语义特征F_part-i，

结构化图卷积模块，用于输入身体部位的局部语义特征F_part-i，并依次经过包含随机初始化的邻接矩阵M的隐藏层的GCN网络，不断地在节点之间传递特征，最终输出图结构特征F_graph；

步骤3、将样本图像输入到基于局部语义与图卷积的行人重识别网络，以最小化网络总损失函数为目标，优化基于局部语义与图卷积的行人重识别网络；

步骤4、将视频帧输入到训练完成的基于局部语义与图卷积的行人重识别网络，获取对应的前景增强的全局特征图F_g、前景特征F_f、身体部位的局部语义特征F_part-i和图结构特征F_graph，计算样本图像和视频帧的前景增强的全局特征图F_g、前景特征F_f、身体部位的局部语义特征F_part-i和图结构特征F_graph的相似度，按照相似度从高到低对各个视频帧进行排列。

如上所述主干网络提取输入的图像的主干网络特征图，

所述前景增强模块，用于将主干网络特征图被馈送进空间注意力层，空间注意力层输出前景注意力掩膜，前景注意力掩膜与主干网络特征图像素相乘，生成前景增强的全局特征图F_g，基于前景增强的全局特征图F_g生成用于二分类的前景增强全局特征图F₁(x,y)，并对用于二分类的前景增强全局特征图F₁(x,y)进行分类，提取前景区域。

如上所述用于二分类的前景增强全局特征图F₁(x,y)基于以下公式获得：

其中，F_g(x,y)为像素点(x,y)处的前景增强的全局特征，F_g(x′,y′)为像素点(x′,y′)处的前景增强的全局特征，||||₂为l₂范数，max表示取最大值。

如上所述身体部位的局部语义特征F_part-i基于以下步骤获取：

对前景区域内的前景增强的全局特征图F_g进行l₂归一化处理，得到用于多分类的特征F₂(x,y)；

对多分类的特征F₂(x,y)进行分类，获得K个行人身体部位的语义标签作为伪标签；

通过卷积操作将前景增强的全局特征图F_g的通道数压缩为K+1维，对每个像素的K+1维特征进行Softmax分类处理，生成K+1个概率图K+1个概率图包括背景区域的概率图/>和K个身体部位的局部语义区域的概率图/>将各个身体部位的局部语义区域的概率图/>与前景增强的全局特征图F_g相乘，得到各个身体部位的局部语义特征F_part-i。

如上所述前景特征F_f基于以下步骤获取：

将各个身体部位的局部语义区域的概率图按照像素对齐并进行相加，得到前景概率图/>

前景概率图与前景增强的全局特征图F_g相乘，得到前景特征F_f。

如上所述邻接矩阵M由每个无向边相关联的权重构成，E表示无向边的集合，V为输入节点集合，V＝(v₁,v₂,...,v_K)＝(F_part-1,F_part-2,...,F_part-K)，无向边的集合E和节点集合V构成无向图G＝(V,E)，H⁽ⁱ⁺¹⁾表示将输入节点集合V传递到第i个GCN层后的特征矩阵，GCN层将节点特征H⁽ⁱ⁾和相应的相关矩阵M作为输入，并转换为输入节点集合V传递到第i个GCN层后的特征矩阵H⁽ⁱ⁺¹⁾：

其中，LeakyReLU是激活函数，θ⁽ⁱ⁾是第i层GCN层的可训练权重矩阵，是相关矩阵M的归一化矩阵，/>是相关矩阵M的归一化矩阵，H⁽¹⁾＝V，

最后一层GCN层输出的特征矩阵H^(K+1)即为图结构特征F_graph。

如上所述网络总损失L为：

L＝L_g+L_f+L_part+L_graph+αL_parsing

其中，L_g为前景增强的全局特征图的基础特征损失，L_f为前景特征的基础特征损失，L_part为所有身体部位的局部语义特征的基础特征损失L_part-i的总和，L_graph为图结构特征的基础特征损失，L_parsing为总的语义交叉熵损失，α为语义交叉熵损失的权值。

如上所述基础特征损失包括标签平滑的ID分类损失、三元组损失和中心损失。

如上所述总的语义交叉熵损失L_parsing基于以下公式：

其中，L_parsing(x,y)为像素点(x,y)处的语义交叉熵损失，d为像素点(x,y)点通过语义单元自适应模块SAM聚类生成的伪标签，q_k是符号函数，p_k为像素点属于第k种局部语义区域Class__k的概率。

本发明相对于现有技术，具有以下有益效果：

本发明对遮挡具有鲁棒性，在目标身体被部分遮挡的情况下仍然能够准确识别；本发明聚焦于目标本身，不会受到背景变化的影像；现有技术多以行人外观作为重识别依据，不同于此，本发明对目标的运动姿态和随身物品也敏感，重识别准确性高。

附图说明

图1是本发明一种在监控视频中识别指定人员的方法的网络架构图

图2是本发明一种在监控视频中识别指定人员的方法的检测效果图。

具体实施方式

实施例1

本发明所提出一种在监控视频中识别指定人员的方法，主要包括依次连接的主干网络、前景增强模块、语义单元自适应模块和结构化图卷积模块的基于局部语义与图卷积的行人重识别网络，基于局部语义与图卷积的行人重识别网络架构如图1所示。

一种在监控视频中识别指定人员的方法，具体如下：

步骤1、获取用于训练的指定人员图像作为样本图像构成训练样本集。

步骤2、构建基于局部语义与图卷积的行人重识别网络，基于局部语义与图卷积的行人重识别网络包括主干网络、前景增强模块、语义单元自适应模块和结构化图卷积模块；

语义单元自适应模块，基于前景增强的全局特征图F_g和前景区域，获取K个语义标签和对应的K个局部语义区域，进一步获取前景特征F_f和身体部位的局部语义特征F_part-i，

结构化图卷积模块，用于输入身体部位的局部语义特征F_part-i，并依次经过包含随机初始化的邻接矩阵M的隐藏层的GCN网络，不断地在节点之间传递特征，最终输出一维的图结构特征F_graph。

其中：

主干网络

本实施例主干网络采用ResNet50，主干网络用于从输入图像提取主干网络特征图。

对于输入的图像m，主干网络输出的主干网络特征图表示为:

其中，f_θ表示主干网络的映射函数，表示主干网络特征图，θ为主干网络参数，w、h和c分别为主干网络特征图的宽度、高度和通道数。

前景增强模块

前景增强模块(Foreground Enhancement Module，FEM)包括空间注意力层和l₂范数。向前景增强模块输入主干网络(ResNet50)提取的主干网络特征图，输出前景增强的全局特征图F_g和前景区域。具体处理过程为：

首先，主干网络特征图被馈送进空间注意力层，空间注意力层输出前景注意力掩膜；

空间注意力层的表达式f_FEM：表示卷积核大小为3×3、步长为2的卷积层，/>表示卷积核大小为3×3、步长为1的卷积层，UpSample表示边界对齐的双线性插值，Sigmoid表示Sigmoid函数。

然后，将前景注意力掩膜与主干网络特征图像素相乘，生成前景增强的全局特征图；

最后，使用l₂范数对前景增强的全局特征图进行二分类(将前景增强的全局特征图的每一个像素点划分到前景类或者背景类)，得到前景区域。

主干网络特征图通过与前景注意力掩膜A^w×h像素相乘，得到前景增强的全局特征图F_g：

A^w×h是前景注意力掩膜，其值在0和1之间，表示各个像素点属于前景的概率分数。g代表global表示全局，F_g为前景增强的全局特征图。

在前景增强阶段，对于行人ID相同的图像，将这些图像对应的前景增强的全局特征图F_g的像素分组到前景或背景中。具体操作是，针对像素点(x,y)处的前景增强的全局特征F_g(x,y)，其中x∈{1,2,…，w}，y∈{1,2,…，h}，F_g(x,y)是一个c-dim的向量，将F_g(x,y)的l₂范数视为像素点(x,y)的激活，并对激活进行最大值归一化，得到用于二分类的前景增强全局特征图F₁(x,y)：

其中，||||₂为l₂范数，F_g(x,y)为像素点(x,y)处的前景增强的全局特征，F_g(x′,y′)为像素点(x′,y′)处的前景增强的全局特征，(x′,y′)是前景增强的全局特征图F_g中的任意像素点位置，x′∈{1,2,…，w}，y′∈{1,2,…，h}，max表示取最大值。

然后，将同一行人ID的所有用于二分类的前景增强全局特征图F₁(x,y)作为K-means算法的输入，设置分类数为2，像素值大于阈值的像素点被归类为前景像素点，像素值小于阈值的像素点被归类为背景像素点，从而提取出前景区域，即所有前景像素点的集合，其中每个前景像素包含有c个通道。

语义单元自适应模块

语义单元自适应模块(Semantic Adaptive Module，SAM)判断前景增强的全局特征图F_g中前景像素点(x,y)属于哪一个部位，同时生成该前景像素点属于各个部位的概率值，从而实现像素级的自适应提取。语义单元自适应模块以上一阶段前景增强模块输出的同一行人ID的所有前景增强的全局特征图F_g的前景区域作为输入，将前景区域按照像素维度进行拆分，形成多个1×C大小的一维特征，然后使用K-means算法对这些一维特征进行多分类，形成K个语义标签。获取到前景增强的全局特征图F_g的前景区域所有像素点的语义标签后，再对应到每个前景像素点在前景增强的全局特征图F_g中的位置，就形成了K个局部语义区域。

当一个人被遮挡时，语义区域数量可能小于K。本发明将同一行人ID的所有前景增强的全局特征图F_g的前景像素点作为聚类样本来生成行人身体部位的语义标签，对遮挡具有鲁棒性，并保证了不同图像之间的部位分配在语义上的一致性。在进行多分类前，需要对前景区域内的前景增强的全局特征图F_g进行l₂归一化处理，得到用于多分类的特征F₂(x,y)：

将用于多分类的特征F₂(x,y)输入K-means算法中进行多分类，得到K个行人身体部位的语义标签，这K个语义标签均为伪标签，伪标签的序号取值为1～K。K是预先定义的值，取值范围大于2。根据从上到下的位置顺序，为身体部位分别分配伪标签d∈{1,...,K}，伪标签d对应不同身体部位的局部语义区域，forgrund表示前景区域对应的像素坐标范围。

然后，在前景增强的全局特征图F_g上映射出各个身体部位的局部语义区域，具体过程为：首先，通过卷积操作将前景增强的全局特征图F_g的通道数压缩为K+1维，压缩使通道数等于K+1是为了用K+1维特征生成K+1个概率图。对通道数卷积压缩的时候，卷积层的输出通道数应该设置为前面K-means多分类的类别数K+1，即对特征进行降维。

之后，对每个像素的K+1维特征进行Softmax分类处理，生成K+1个概率图(包括背景区域和各个身体部位的局部语义区域的概率图)。每个概率图表示了同一局部语义区域像素的集合。以f_conv来表示卷积过程，生成的K+1维通道的中间特征F₃ ^k ^×h×w为：

F₃ ^k×h×w＝f_conv(F_g) (6)

其中，k为通道序号，k∈{0,1,2...K}。然后，将F₃ ^k×h×w进行Softmax运算处理，分为K+1类，得到背景区域和各个身体部位的局部语义区域的概率图

为通道序号k对应的线性层的参数，k＝0时,/>代表背景区域的概率图，k＝1,...,K时，/>代表身体部位的局部语义区域的概率图。在本发明中，个人的随行物品也被当作行人的一个身体部位的局部语义区域。理想情况下，若某身体部位的局部语义区域Class__k(k≠0时)在图像中被遮挡，则对于在主干网络特征图的宽度和高度范围内任意像素点(x,y)，应该满足/>即将各个身体部位的局部语义区域的概率图与前景增强的全局特征图F_g相乘，得到各个身体部位的局部语义特征F_part-i：

前景概率图代表了除背景以外所有身体部位的局部语义区域的组合。将前景概率图/>与前景增强的全局特征图F_g相乘，得到前景特征F_f：

至此，便得到了行人的三个特征，即前景增强的全局特征图F_g、前景特征F_f和身体部位的局部语义特征F_part-i。

结构化图卷积模块

结构化图卷积模块首先输入语义单元自适应模块的身体部位的局部语义特征F_part-i，然后依次经过包含随机初始化的邻接矩阵M(随机初始化为0-1之间的小数)的隐藏层的GCN网络，不断地在节点之间传递特征，最终输出大小为1×2048的一维的图结构特征F_graph，作为行人的结构信息表示。

无向图G由G＝(V,E)表示，其中E表示无向边的集合。V为节点集合，V＝(v₁,v₂,...,v_K)，节点总数为K，节点总数为行人的身体部位的的局部语义区域数量。每个节点表示行人的身体部位的局部语义特征F_part-i(i＝1,2,...,K)，即v_i＝F_part-i。对于无向图G，每个无向边(v_i,v_j)∈E相关联的权重构成了无向图G的邻接矩阵，其形式如下：

邻接矩阵M中的任意元素v_i,j表示为：身体部位的局部语义特征F_part-i和另一个身体部位的局部语义特征F_part-j的连接权值，其中(i＝1,2,…，K)，(j＝1,2,…，K)，该v_i,j值最大为1。

GCN层在邻接矩阵M的指导下在输入节点V＝(v₁,v₂,...,v_K)＝(F_part-1,F_part-2,...,F_part-K)之间传播信息来更新节点表示，输入节点即为行人的身体部位的局部语义特征的集合(F_part-1,F_part-2,...,F_part-K)。另外，用H⁽ⁱ⁺¹⁾来表示将输入节点集合V传递到第i个GCN层后的特征矩阵，(i＝1,2,…，K)。GCN层将节点特征H⁽ⁱ⁾和相应的相关矩阵M作为输入，并转换为输入节点集合V传递到第i个GCN层后的特征矩阵H⁽ⁱ⁺¹⁾：

其中，H⁽¹⁾＝V，LeakyReLU是激活函数，θ⁽ⁱ⁾是第i层GCN层的可训练权重矩阵，是相关矩阵M的归一化矩阵。形式上，/>定义为：

其中，I是单位矩阵，D是M的对角矩阵。

最终，利用结构化图卷积模块进行图卷积提取相关特征的目的是学习一组权重矩阵参数组}这些权重矩阵参数组将输入节点V＝(F_part-1,F_part-2,...,F_part-K)映射为一维的图结构特征F_graph，最后一层GCN层输出的特征矩阵H^(K+1)即为图结构特征F_graph：

表示GCN网络，图结构特征F_graph代表了行人多个身体部位的局部语义特征之间的上下文关系，为相似行人提供了更有效和更具鉴别力的特征表达，用于行人独特的结构信息识别。

步骤3、将样本图像输入到基于局部语义与图卷积的行人重识别网络，以最小化网络总损失函数为目标，优化基于局部语义与图卷积的行人重识别网络。

网络总损失函数L

在训练阶段，损失函数分为两个部分：基础特征损失和语义交叉熵损失。对于基础特征损失L_BNNeck，包括：增加了标签平滑的ID分类损失、三元组损失和中心损失，可以表示为：

L_BNNeck＝L_ID+L_Tri+βL_C (15)

其中，L_ID、L_Tri、L_C分别代表分类损失、三元组损失和中心损失。另外，β代表中心损失对于总损失的贡献权重。

本发明包含了4类特征，即前景增强的全局特征图F_g、前景特征F_f、身体部位的局部语义特征F_part-i∈{F_part-1,F_part-2,...,F_part-K}和图结构特征F_graph。每类特征根据公式(15)构建基础特征损失，分别表示为：L_g(前景增强的全局特征图的基础特征损失)、L_f(前景特征的基础特征损失)、L_part-i(身体部位的局部语义特征的基础特征损失)和L_graph(图结构特征的基础特征损失)。并且，用L_part代表所有身体部位的局部语义特征的基础特征损失L_part-i的总和。

另外，为了指导语义单元自适应模块SAM中的概率图生成的准确性，使用了以伪标签(即本实施例中的语义标签)作为监督的交叉熵损失进行约束。对于语义单元自适应模块SAM的概率图，按照像素级别进行展开。假设(x,y)点处的1×(K+1)向量表示为：(p₀,p₁,p₂,...p_k,...p_K)，其中p_k表示该像素点属于第k种局部语义区域Class__k(其中k＝0,1,...K)的概率，然后用d代表(x,y)点通过语义单元自适应模块SAM聚类生成的伪标签，那么像素点(x,y)处的语义交叉熵损失为：

q_k是符号函数(0或1)，k，K的定义和前面相同。

于是，将所有像素点的语义交叉熵损失进行相加，总的语义交叉熵损失为：

其中L_parsing表示总的语义交叉熵损失。x∈{1,2,...,w},y∈{1,2,...,h}。

最后，联合由行人ID标签引导的基础特征损失，以及由语义伪标签引导的语义交叉熵损失，以α代表语义交叉熵损失的权值，网络总损失L为：

L＝L_g+L_f+L_part+L_graph+αL_parsing (18)

步骤4、选样本图像输入到训练完成的基于局部语义与图卷积的行人重识别网络，获得前景增强的全局特征图F_g、前景特征F_f、身体部位的局部语义特征F_part-i和图结构特征F_graph作为参考；在本实施例中，获取监控视频，并提取视频帧，将视频帧输入到训练完成的基于局部语义与图卷积的行人重识别网络，获取对应的前景增强的全局特征图F_g、前景特征F_f、身体部位的局部语义特征F_part-i和图结构特征F_graph，利用余弦距离衡量样本图像的前景增强的全局特征图F_g、前景特征F_f、身体部位的局部语义特征F_part-i和图特结构征F_graph和视频帧的前景增强的全局特征图F_g、前景特征F_f、身体部位的局部语义特征F_part-i和图结构特征F_graph的相似度，按照相似度从高到低对各个视频帧进行排列，实现视频人员的跟踪。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种在监控视频中识别指定人员的方法，其特征在于，包括以下步骤：

前景增强模块，用于提取输入图像的前景增强的全局特征图F_g和前景区域，

2.根据权利要求1所述的一种在监控视频中识别指定人员的方法，其特征在于，所述主干网络提取输入的图像的主干网络特征图，

所述前景增强模块，用于将主干网络特征图馈送进空间注意力层，空间注意力层输出前景注意力掩膜，前景注意力掩膜与主干网络特征图像素相乘，生成前景增强的全局特征图F_g，基于前景增强的全局特征图F_g生成用于二分类的前景增强全局特征图F₁(x,y)，并对用于二分类的前景增强全局特征图F₁(x,y)进行分类，提取前景区域。

3.根据权利要求2所述的一种在监控视频中识别指定人员的方法，其特征在于，所述用于二分类的前景增强全局特征图F₁(x,y)基于以下公式获得：

其中，F_g(x,y)为像素点(x,y)处的前景增强的全局特征，F_g(x′,y′)为像素点(x′,y′)处的前景增强的全局特征，|| ||₂为l₂范数，max表示取最大值。

4.根据权利要求1所述的一种在监控视频中识别指定人员的方法，其特征在于，所述身体部位的局部语义特征F_part-i基于以下步骤获取：

5.根据权利要求4所述的一种在监控视频中识别指定人员的方法，其特征在于，所述前景特征F_f基于以下步骤获取：

6.根据权利要求4所述的一种在监控视频中识别指定人员的方法，其特征在于，所述邻接矩阵M由每个无向边相关联的权重构成，E表示无向边的集合，V为输入节点集合，V＝(v₁,v₂,...,v_K)＝(F_part-1,F_part-2,...,F_part-K)，无向边的集合E和节点集合V构成无向图G＝(V,E)，H⁽ⁱ⁺¹⁾表示将输入节点集合V传递到第i个GCN层后的特征矩阵，GCN层将节点特征H⁽ⁱ⁾和相应的相关矩阵M作为输入，并转换为输入节点集合V传递到第i个GCN层后的特征矩阵H⁽ⁱ⁺¹⁾：

最后一层GCN层输出的特征矩阵H^(K+1)即为图结构特征F_graph。

7.根据权利要求1所述的一种在监控视频中识别指定人员的方法，其特征在于，所述网络总损失L为：

L＝L_g+L_f+L_part+L_graph+αL_parsing

8.根据权利要求7所述的一种在监控视频中识别指定人员的方法，其特征在于，所述基础特征损失包括标签平滑的ID分类损失、三元组损失和中心损失。

9.根据权利要求8所述的一种在监控视频中识别指定人员的方法，其特征在于，所述总的语义交叉熵损失L_parsing基于以下公式：