CN117315576A - 一种在监控视频中识别指定人员的方法 - Google Patents
一种在监控视频中识别指定人员的方法 Download PDFInfo
- Publication number
- CN117315576A CN117315576A CN202311232873.0A CN202311232873A CN117315576A CN 117315576 A CN117315576 A CN 117315576A CN 202311232873 A CN202311232873 A CN 202311232873A CN 117315576 A CN117315576 A CN 117315576A
- Authority
- CN
- China
- Prior art keywords
- foreground
- semantic
- features
- graph
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000012544 monitoring process Methods 0.000 title abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 38
- 238000012549 training Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 230000002708 enhancing effect Effects 0.000 claims description 5
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 239000000284 extract Substances 0.000 claims description 2
- 230000008859 change Effects 0.000 abstract description 2
- 230000002401 inhibitory effect Effects 0.000 abstract 1
- 238000005096 rolling process Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 7
- 230000000007 visual effect Effects 0.000 description 5
- 230000006978 adaptation Effects 0.000 description 4
- 238000007792 addition Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4007—Scaling of whole images or parts thereof, e.g. expanding or contracting based on interpolation, e.g. bilinear interpolation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种在监控视频中识别指定人员的方法,主要通过前景增强模块抑制待识别图像的背景,提取精确的前景增强的全局特征图和前景区域;然后语义单元自适应模块对前景增强的全局特征图进行像素级的分类,得到各身体语义单元对应的局部语义特征,最后通过结构化图卷积模块学习局部语义特征间的相关性特征,获得图结构特征。本发明对遮挡具有鲁棒性,在目标身体被部分遮挡的情况下仍然能够准确识别;本发明聚焦于目标本身,不会受到背景变化的影像;本发明除对行人外观重识别,也对目标的运动姿态和随身物品也敏感,重识别准确性高。
Description
技术领域
本发明属于人工智能的视频图像处理领域。具体涉及一种在监控视频中识别指定人员的方法,适用于监控视频中人员目标的识别和跟踪。
背景技术
随着智能视频监控系统的日益成熟,人工寻找视频中人员的方法,已经不再适用。基于行人重识别技术的智能监控系统,能在多个不重叠视角中搜索指定行人,实现了效率上的提高。实际应用中,相机视角固定,同一视角的图像包含相似的背景;而且,视频中出现的目标常常存在衣着相似的情况。无论是图像背景还是目标前景,视觉相似问题都给特征提取带来了困难。
目前基于深度学习的行人重识别技术使用的特征提取方法主要分为3种:基于语义特征的方法、基于局部特征的方法和基于注意机制特征的方法。基于语义特征的方法借助语义模块生成行人的骨架姿态图或语义分割图,从这些辅助信息中判断身体区域,再构建多个子特征以去除背景影响。这类方法依赖语义模型的准确率,目标身体被部分遮挡的情况下识别的准确率下降,并且会增加网络的构建成本。基于局部特征的方法将图像直接水平分割成多个子区域,提取子特征后再对齐。这类方法构建简单,但是会引入错误的背景信息。基于注意机制特征的方法引入加权参数,旨在抑制背景信息和增强辨识区域,能提高全局特征的有效性。但是,这类方法不能准确定位语义部分,也不能保证图像之间焦点区域的一致性。
发明内容
本发明的目的在于针对现有技术存在的上述问题,提出一种在监控视频中识别指定人员的方法,具体而言,提出了一个基于局部语义与图卷积的行人重识别网络,充分挖掘行人局部特征之间的相关性,从而解决视觉相似问题,实现准确的行人重识别。该方法不依赖语义模型,并且对于有遮挡图像可以仅使用可见特征实现匹配。
为实现上述目的,本发明提供如下技术方案:
一种在监控视频中识别指定人员的方法,包括以下步骤:
步骤1、获取用于训练的指定人员图像作为样本图像构成训练样本集;
步骤2、构建基于局部语义与图卷积的行人重识别网络,基于局部语义与图卷积的行人重识别网络包括主干网络、前景增强模块、语义单元自适应模块和结构化图卷积模块,
前景增强模块,用于提取输入图像的前景增强的全局特征图Fg和前景区域;
语义单元自适应模块,基于前景增强的全局特征图Fg和前景区域,提取前景特征Ff和身体部位的局部语义特征Fpart-i,
结构化图卷积模块,用于输入身体部位的局部语义特征Fpart-i,并依次经过包含随机初始化的邻接矩阵M的隐藏层的GCN网络,不断地在节点之间传递特征,最终输出图结构特征Fgraph;
步骤3、将样本图像输入到基于局部语义与图卷积的行人重识别网络,以最小化网络总损失函数为目标,优化基于局部语义与图卷积的行人重识别网络;
步骤4、将视频帧输入到训练完成的基于局部语义与图卷积的行人重识别网络,获取对应的前景增强的全局特征图Fg、前景特征Ff、身体部位的局部语义特征Fpart-i和图结构特征Fgraph,计算样本图像和视频帧的前景增强的全局特征图Fg、前景特征Ff、身体部位的局部语义特征Fpart-i和图结构特征Fgraph的相似度,按照相似度从高到低对各个视频帧进行排列。
如上所述主干网络提取输入的图像的主干网络特征图,
所述前景增强模块,用于将主干网络特征图被馈送进空间注意力层,空间注意力层输出前景注意力掩膜,前景注意力掩膜与主干网络特征图像素相乘,生成前景增强的全局特征图Fg,基于前景增强的全局特征图Fg生成用于二分类的前景增强全局特征图F1(x,y),并对用于二分类的前景增强全局特征图F1(x,y)进行分类,提取前景区域。
如上所述用于二分类的前景增强全局特征图F1(x,y)基于以下公式获得:
其中,Fg(x,y)为像素点(x,y)处的前景增强的全局特征,Fg(x′,y′)为像素点(x′,y′)处的前景增强的全局特征,||||2为l2范数,max表示取最大值。
如上所述身体部位的局部语义特征Fpart-i基于以下步骤获取:
对前景区域内的前景增强的全局特征图Fg进行l2归一化处理,得到用于多分类的特征F2(x,y);
对多分类的特征F2(x,y)进行分类,获得K个行人身体部位的语义标签作为伪标签;
通过卷积操作将前景增强的全局特征图Fg的通道数压缩为K+1维,对每个像素的K+1维特征进行Softmax分类处理,生成K+1个概率图K+1个概率图包括背景区域的概率图/>和K个身体部位的局部语义区域的概率图/>将各个身体部位的局部语义区域的概率图/>与前景增强的全局特征图Fg相乘,得到各个身体部位的局部语义特征Fpart-i。
如上所述前景特征Ff基于以下步骤获取:
将各个身体部位的局部语义区域的概率图按照像素对齐并进行相加,得到前景概率图/>
前景概率图与前景增强的全局特征图Fg相乘,得到前景特征Ff。
如上所述邻接矩阵M由每个无向边相关联的权重构成,E表示无向边的集合,V为输入节点集合,V=(v1,v2,...,vK)=(Fpart-1,Fpart-2,...,Fpart-K),无向边的集合E和节点集合V构成无向图G=(V,E),H(i+1)表示将输入节点集合V传递到第i个GCN层后的特征矩阵,GCN层将节点特征H(i)和相应的相关矩阵M作为输入,并转换为输入节点集合V传递到第i个GCN层后的特征矩阵H(i+1):
其中,LeakyReLU是激活函数,θ(i)是第i层GCN层的可训练权重矩阵,是相关矩阵M的归一化矩阵,/>是相关矩阵M的归一化矩阵,H(1)=V,
最后一层GCN层输出的特征矩阵H(K+1)即为图结构特征Fgraph。
如上所述网络总损失L为:
L=Lg+Lf+Lpart+Lgraph+αLparsing
其中,Lg为前景增强的全局特征图的基础特征损失,Lf为前景特征的基础特征损失,Lpart为所有身体部位的局部语义特征的基础特征损失Lpart-i的总和,Lgraph为图结构特征的基础特征损失,Lparsing为总的语义交叉熵损失,α为语义交叉熵损失的权值。
如上所述基础特征损失包括标签平滑的ID分类损失、三元组损失和中心损失。
如上所述总的语义交叉熵损失Lparsing基于以下公式:
其中,Lparsing(x,y)为像素点(x,y)处的语义交叉熵损失,d为像素点(x,y)点通过语义单元自适应模块SAM聚类生成的伪标签,qk是符号函数,pk为像素点属于第k种局部语义区域Class_k的概率。
本发明相对于现有技术,具有以下有益效果:
本发明对遮挡具有鲁棒性,在目标身体被部分遮挡的情况下仍然能够准确识别;本发明聚焦于目标本身,不会受到背景变化的影像;现有技术多以行人外观作为重识别依据,不同于此,本发明对目标的运动姿态和随身物品也敏感,重识别准确性高。
附图说明
图1是本发明一种在监控视频中识别指定人员的方法的网络架构图
图2是本发明一种在监控视频中识别指定人员的方法的检测效果图。
具体实施方式
实施例1
本发明所提出一种在监控视频中识别指定人员的方法,主要包括依次连接的主干网络、前景增强模块、语义单元自适应模块和结构化图卷积模块的基于局部语义与图卷积的行人重识别网络,基于局部语义与图卷积的行人重识别网络架构如图1所示。
一种在监控视频中识别指定人员的方法,具体如下:
步骤1、获取用于训练的指定人员图像作为样本图像构成训练样本集。
步骤2、构建基于局部语义与图卷积的行人重识别网络,基于局部语义与图卷积的行人重识别网络包括主干网络、前景增强模块、语义单元自适应模块和结构化图卷积模块;
前景增强模块,用于提取输入图像的前景增强的全局特征图Fg和前景区域;
语义单元自适应模块,基于前景增强的全局特征图Fg和前景区域,获取K个语义标签和对应的K个局部语义区域,进一步获取前景特征Ff和身体部位的局部语义特征Fpart-i,
结构化图卷积模块,用于输入身体部位的局部语义特征Fpart-i,并依次经过包含随机初始化的邻接矩阵M的隐藏层的GCN网络,不断地在节点之间传递特征,最终输出一维的图结构特征Fgraph。
其中:
主干网络
本实施例主干网络采用ResNet50,主干网络用于从输入图像提取主干网络特征图。
对于输入的图像m,主干网络输出的主干网络特征图表示为:
其中,fθ表示主干网络的映射函数,表示主干网络特征图,θ为主干网络参数,w、h和c分别为主干网络特征图的宽度、高度和通道数。
前景增强模块
前景增强模块(Foreground Enhancement Module,FEM)包括空间注意力层和l2范数。向前景增强模块输入主干网络(ResNet50)提取的主干网络特征图,输出前景增强的全局特征图Fg和前景区域。具体处理过程为:
首先,主干网络特征图被馈送进空间注意力层,空间注意力层输出前景注意力掩膜;
空间注意力层的表达式fFEM: 表示卷积核大小为3×3、步长为2的卷积层,/>表示卷积核大小为3×3、步长为1的卷积层,UpSample表示边界对齐的双线性插值,Sigmoid表示Sigmoid函数。
然后,将前景注意力掩膜与主干网络特征图像素相乘,生成前景增强的全局特征图;
最后,使用l2范数对前景增强的全局特征图进行二分类(将前景增强的全局特征图的每一个像素点划分到前景类或者背景类),得到前景区域。
主干网络特征图通过与前景注意力掩膜Aw×h像素相乘,得到前景增强的全局特征图Fg:
Aw×h是前景注意力掩膜,其值在0和1之间,表示各个像素点属于前景的概率分数。g代表global表示全局,Fg为前景增强的全局特征图。
在前景增强阶段,对于行人ID相同的图像,将这些图像对应的前景增强的全局特征图Fg的像素分组到前景或背景中。具体操作是,针对像素点(x,y)处的前景增强的全局特征Fg(x,y),其中x∈{1,2,…,w},y∈{1,2,…,h},Fg(x,y)是一个c-dim的向量,将Fg(x,y)的l2范数视为像素点(x,y)的激活,并对激活进行最大值归一化,得到用于二分类的前景增强全局特征图F1(x,y):
其中,||||2为l2范数,Fg(x,y)为像素点(x,y)处的前景增强的全局特征,Fg(x′,y′)为像素点(x′,y′)处的前景增强的全局特征,(x′,y′)是前景增强的全局特征图Fg中的任意像素点位置,x′∈{1,2,…,w},y′∈{1,2,…,h},max表示取最大值。
然后,将同一行人ID的所有用于二分类的前景增强全局特征图F1(x,y)作为K-means算法的输入,设置分类数为2,像素值大于阈值的像素点被归类为前景像素点,像素值小于阈值的像素点被归类为背景像素点,从而提取出前景区域,即所有前景像素点的集合,其中每个前景像素包含有c个通道。
语义单元自适应模块
语义单元自适应模块(Semantic Adaptive Module,SAM)判断前景增强的全局特征图Fg中前景像素点(x,y)属于哪一个部位,同时生成该前景像素点属于各个部位的概率值,从而实现像素级的自适应提取。语义单元自适应模块以上一阶段前景增强模块输出的同一行人ID的所有前景增强的全局特征图Fg的前景区域作为输入,将前景区域按照像素维度进行拆分,形成多个1×C大小的一维特征,然后使用K-means算法对这些一维特征进行多分类,形成K个语义标签。获取到前景增强的全局特征图Fg的前景区域所有像素点的语义标签后,再对应到每个前景像素点在前景增强的全局特征图Fg中的位置,就形成了K个局部语义区域。
当一个人被遮挡时,语义区域数量可能小于K。本发明将同一行人ID的所有前景增强的全局特征图Fg的前景像素点作为聚类样本来生成行人身体部位的语义标签,对遮挡具有鲁棒性,并保证了不同图像之间的部位分配在语义上的一致性。在进行多分类前,需要对前景区域内的前景增强的全局特征图Fg进行l2归一化处理,得到用于多分类的特征F2(x,y):
将用于多分类的特征F2(x,y)输入K-means算法中进行多分类,得到K个行人身体部位的语义标签,这K个语义标签均为伪标签,伪标签的序号取值为1~K。K是预先定义的值,取值范围大于2。根据从上到下的位置顺序,为身体部位分别分配伪标签d∈{1,...,K},伪标签d对应不同身体部位的局部语义区域,forgrund表示前景区域对应的像素坐标范围。
然后,在前景增强的全局特征图Fg上映射出各个身体部位的局部语义区域,具体过程为:首先,通过卷积操作将前景增强的全局特征图Fg的通道数压缩为K+1维,压缩使通道数等于K+1是为了用K+1维特征生成K+1个概率图。对通道数卷积压缩的时候,卷积层的输出通道数应该设置为前面K-means多分类的类别数K+1,即对特征进行降维。
之后,对每个像素的K+1维特征进行Softmax分类处理,生成K+1个概率图(包括背景区域和各个身体部位的局部语义区域的概率图)。每个概率图表示了同一局部语义区域像素的集合。以fconv来表示卷积过程,生成的K+1维通道的中间特征F3 k ×h×w为:
F3 k×h×w=fconv(Fg) (6)
其中,k为通道序号,k∈{0,1,2...K}。然后,将F3 k×h×w进行Softmax运算处理,分为K+1类,得到背景区域和各个身体部位的局部语义区域的概率图
为通道序号k对应的线性层的参数,k=0时,/>代表背景区域的概率图,k=1,...,K时,/>代表身体部位的局部语义区域的概率图。在本发明中,个人的随行物品也被当作行人的一个身体部位的局部语义区域。理想情况下,若某身体部位的局部语义区域Class_k(k≠0时)在图像中被遮挡,则对于在主干网络特征图的宽度和高度范围内任意像素点(x,y),应该满足/>即 将各个身体部位的局部语义区域的概率图与前景增强的全局特征图Fg相乘,得到各个身体部位的局部语义特征Fpart-i:
将各个身体部位的局部语义区域的概率图按照像素对齐并进行相加,得到前景概率图/>
前景概率图代表了除背景以外所有身体部位的局部语义区域的组合。将前景概率图/>与前景增强的全局特征图Fg相乘,得到前景特征Ff:
至此,便得到了行人的三个特征,即前景增强的全局特征图Fg、前景特征Ff和身体部位的局部语义特征Fpart-i。
结构化图卷积模块
结构化图卷积模块首先输入语义单元自适应模块的身体部位的局部语义特征Fpart-i,然后依次经过包含随机初始化的邻接矩阵M(随机初始化为0-1之间的小数)的隐藏层的GCN网络,不断地在节点之间传递特征,最终输出大小为1×2048的一维的图结构特征Fgraph,作为行人的结构信息表示。
无向图G由G=(V,E)表示,其中E表示无向边的集合。V为节点集合,V=(v1,v2,...,vK),节点总数为K,节点总数为行人的身体部位的的局部语义区域数量。每个节点表示行人的身体部位的局部语义特征Fpart-i(i=1,2,...,K),即vi=Fpart-i。对于无向图G,每个无向边(vi,vj)∈E相关联的权重构成了无向图G的邻接矩阵,其形式如下:
邻接矩阵M中的任意元素vi,j表示为:身体部位的局部语义特征Fpart-i和另一个身体部位的局部语义特征Fpart-j的连接权值,其中(i=1,2,…,K),(j=1,2,…,K),该vi,j值最大为1。
GCN层在邻接矩阵M的指导下在输入节点V=(v1,v2,...,vK)=(Fpart-1,Fpart-2,...,Fpart-K)之间传播信息来更新节点表示,输入节点即为行人的身体部位的局部语义特征的集合(Fpart-1,Fpart-2,...,Fpart-K)。另外,用H(i+1)来表示将输入节点集合V传递到第i个GCN层后的特征矩阵,(i=1,2,…,K)。GCN层将节点特征H(i)和相应的相关矩阵M作为输入,并转换为输入节点集合V传递到第i个GCN层后的特征矩阵H(i+1):
其中,H(1)=V,LeakyReLU是激活函数,θ(i)是第i层GCN层的可训练权重矩阵,是相关矩阵M的归一化矩阵。形式上,/>定义为:
其中,I是单位矩阵,D是M的对角矩阵。
最终,利用结构化图卷积模块进行图卷积提取相关特征的目的是学习一组权重矩阵参数组}这些权重矩阵参数组将输入节点V=(Fpart-1,Fpart-2,...,Fpart-K)映射为一维的图结构特征Fgraph,最后一层GCN层输出的特征矩阵H(K+1)即为图结构特征Fgraph:
表示GCN网络,图结构特征Fgraph代表了行人多个身体部位的局部语义特征之间的上下文关系,为相似行人提供了更有效和更具鉴别力的特征表达,用于行人独特的结构信息识别。
步骤3、将样本图像输入到基于局部语义与图卷积的行人重识别网络,以最小化网络总损失函数为目标,优化基于局部语义与图卷积的行人重识别网络。
网络总损失函数L
在训练阶段,损失函数分为两个部分:基础特征损失和语义交叉熵损失。对于基础特征损失LBNNeck,包括:增加了标签平滑的ID分类损失、三元组损失和中心损失,可以表示为:
LBNNeck=LID+LTri+βLC (15)
其中,LID、LTri、LC分别代表分类损失、三元组损失和中心损失。另外,β代表中心损失对于总损失的贡献权重。
本发明包含了4类特征,即前景增强的全局特征图Fg、前景特征Ff、身体部位的局部语义特征Fpart-i∈{Fpart-1,Fpart-2,...,Fpart-K}和图结构特征Fgraph。每类特征根据公式(15)构建基础特征损失,分别表示为:Lg(前景增强的全局特征图的基础特征损失)、Lf(前景特征的基础特征损失)、Lpart-i(身体部位的局部语义特征的基础特征损失)和Lgraph(图结构特征的基础特征损失)。并且,用Lpart代表所有身体部位的局部语义特征的基础特征损失Lpart-i的总和。
另外,为了指导语义单元自适应模块SAM中的概率图生成的准确性,使用了以伪标签(即本实施例中的语义标签)作为监督的交叉熵损失进行约束。对于语义单元自适应模块SAM的概率图,按照像素级别进行展开。假设(x,y)点处的1×(K+1)向量表示为:(p0,p1,p2,...pk,...pK),其中pk表示该像素点属于第k种局部语义区域Class_k(其中k=0,1,...K)的概率,然后用d代表(x,y)点通过语义单元自适应模块SAM聚类生成的伪标签,那么像素点(x,y)处的语义交叉熵损失为:
qk是符号函数(0或1),k,K的定义和前面相同。
于是,将所有像素点的语义交叉熵损失进行相加,总的语义交叉熵损失为:
其中Lparsing表示总的语义交叉熵损失。x∈{1,2,...,w},y∈{1,2,...,h}。
最后,联合由行人ID标签引导的基础特征损失,以及由语义伪标签引导的语义交叉熵损失,以α代表语义交叉熵损失的权值,网络总损失L为:
L=Lg+Lf+Lpart+Lgraph+αLparsing (18)
步骤4、选样本图像输入到训练完成的基于局部语义与图卷积的行人重识别网络,获得前景增强的全局特征图Fg、前景特征Ff、身体部位的局部语义特征Fpart-i和图结构特征Fgraph作为参考;在本实施例中,获取监控视频,并提取视频帧,将视频帧输入到训练完成的基于局部语义与图卷积的行人重识别网络,获取对应的前景增强的全局特征图Fg、前景特征Ff、身体部位的局部语义特征Fpart-i和图结构特征Fgraph,利用余弦距离衡量样本图像的前景增强的全局特征图Fg、前景特征Ff、身体部位的局部语义特征Fpart-i和图特结构征Fgraph和视频帧的前景增强的全局特征图Fg、前景特征Ff、身体部位的局部语义特征Fpart-i和图结构特征Fgraph的相似度,按照相似度从高到低对各个视频帧进行排列,实现视频人员的跟踪。
本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。
Claims (9)
1.一种在监控视频中识别指定人员的方法,其特征在于,包括以下步骤:
步骤1、获取用于训练的指定人员图像作为样本图像构成训练样本集;
步骤2、构建基于局部语义与图卷积的行人重识别网络,基于局部语义与图卷积的行人重识别网络包括主干网络、前景增强模块、语义单元自适应模块和结构化图卷积模块,
前景增强模块,用于提取输入图像的前景增强的全局特征图Fg和前景区域,
语义单元自适应模块,基于前景增强的全局特征图Fg和前景区域,提取前景特征Ff和身体部位的局部语义特征Fpart-i,
结构化图卷积模块,用于输入身体部位的局部语义特征Fpart-i,并依次经过包含随机初始化的邻接矩阵M的隐藏层的GCN网络,不断地在节点之间传递特征,最终输出图结构特征Fgraph;
步骤3、将样本图像输入到基于局部语义与图卷积的行人重识别网络,以最小化网络总损失函数为目标,优化基于局部语义与图卷积的行人重识别网络;
步骤4、将视频帧输入到训练完成的基于局部语义与图卷积的行人重识别网络,获取对应的前景增强的全局特征图Fg、前景特征Ff、身体部位的局部语义特征Fpart-i和图结构特征Fgraph,计算样本图像和视频帧的前景增强的全局特征图Fg、前景特征Ff、身体部位的局部语义特征Fpart-i和图结构特征Fgraph的相似度,按照相似度从高到低对各个视频帧进行排列。
2.根据权利要求1所述的一种在监控视频中识别指定人员的方法,其特征在于,所述主干网络提取输入的图像的主干网络特征图,
所述前景增强模块,用于将主干网络特征图馈送进空间注意力层,空间注意力层输出前景注意力掩膜,前景注意力掩膜与主干网络特征图像素相乘,生成前景增强的全局特征图Fg,基于前景增强的全局特征图Fg生成用于二分类的前景增强全局特征图F1(x,y),并对用于二分类的前景增强全局特征图F1(x,y)进行分类,提取前景区域。
3.根据权利要求2所述的一种在监控视频中识别指定人员的方法,其特征在于,所述用于二分类的前景增强全局特征图F1(x,y)基于以下公式获得:
其中,Fg(x,y)为像素点(x,y)处的前景增强的全局特征,Fg(x′,y′)为像素点(x′,y′)处的前景增强的全局特征,|| ||2为l2范数,max表示取最大值。
4.根据权利要求1所述的一种在监控视频中识别指定人员的方法,其特征在于,所述身体部位的局部语义特征Fpart-i基于以下步骤获取:
对前景区域内的前景增强的全局特征图Fg进行l2归一化处理,得到用于多分类的特征F2(x,y);
对多分类的特征F2(x,y)进行分类,获得K个行人身体部位的语义标签作为伪标签;
通过卷积操作将前景增强的全局特征图Fg的通道数压缩为K+1维,对每个像素的K+1维特征进行Softmax分类处理,生成K+1个概率图K+1个概率图包括背景区域的概率图/>和K个身体部位的局部语义区域的概率图/>将各个身体部位的局部语义区域的概率图/>与前景增强的全局特征图Fg相乘,得到各个身体部位的局部语义特征Fpart-i。
5.根据权利要求4所述的一种在监控视频中识别指定人员的方法,其特征在于,所述前景特征Ff基于以下步骤获取:
将各个身体部位的局部语义区域的概率图按照像素对齐并进行相加,得到前景概率图/>
前景概率图与前景增强的全局特征图Fg相乘,得到前景特征Ff。
6.根据权利要求4所述的一种在监控视频中识别指定人员的方法,其特征在于,所述邻接矩阵M由每个无向边相关联的权重构成,E表示无向边的集合,V为输入节点集合,V=(v1,v2,...,vK)=(Fpart-1,Fpart-2,...,Fpart-K),无向边的集合E和节点集合V构成无向图G=(V,E),H(i+1)表示将输入节点集合V传递到第i个GCN层后的特征矩阵,GCN层将节点特征H(i)和相应的相关矩阵M作为输入,并转换为输入节点集合V传递到第i个GCN层后的特征矩阵H(i+1):
其中,LeakyReLU是激活函数,θ(i)是第i层GCN层的可训练权重矩阵,是相关矩阵M的归一化矩阵,/>是相关矩阵M的归一化矩阵,H(1)=V,
最后一层GCN层输出的特征矩阵H(K+1)即为图结构特征Fgraph。
7.根据权利要求1所述的一种在监控视频中识别指定人员的方法,其特征在于,所述网络总损失L为:
L=Lg+Lf+Lpart+Lgraph+αLparsing
其中,Lg为前景增强的全局特征图的基础特征损失,Lf为前景特征的基础特征损失,Lpart为所有身体部位的局部语义特征的基础特征损失Lpart-i的总和,Lgraph为图结构特征的基础特征损失,Lparsing为总的语义交叉熵损失,α为语义交叉熵损失的权值。
8.根据权利要求7所述的一种在监控视频中识别指定人员的方法,其特征在于,所述基础特征损失包括标签平滑的ID分类损失、三元组损失和中心损失。
9.根据权利要求8所述的一种在监控视频中识别指定人员的方法,其特征在于,所述总的语义交叉熵损失Lparsing基于以下公式:
其中,Lparsing(x,y)为像素点(x,y)处的语义交叉熵损失,d为像素点(x,y)点通过语义单元自适应模块SAM聚类生成的伪标签,qk是符号函数,pk为像素点属于第k种局部语义区域Class_k的概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311232873.0A CN117315576B (zh) | 2023-09-22 | 一种在监控视频中识别指定人员的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311232873.0A CN117315576B (zh) | 2023-09-22 | 一种在监控视频中识别指定人员的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117315576A true CN117315576A (zh) | 2023-12-29 |
CN117315576B CN117315576B (zh) | 2024-06-28 |
Family
ID=
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110543841A (zh) * | 2019-08-21 | 2019-12-06 | 中科视语(北京)科技有限公司 | 行人重识别方法、系统、电子设备及介质 |
US20200226421A1 (en) * | 2019-01-15 | 2020-07-16 | Naver Corporation | Training and using a convolutional neural network for person re-identification |
CN112200111A (zh) * | 2020-10-19 | 2021-01-08 | 厦门大学 | 一种全局与局部特征融合的遮挡鲁棒行人重识别方法 |
CN113221625A (zh) * | 2021-03-02 | 2021-08-06 | 西安建筑科技大学 | 一种利用深度学习的局部特征对齐行人重识别方法 |
CN113361334A (zh) * | 2021-05-18 | 2021-09-07 | 山东师范大学 | 基于关键点优化和多跳注意图卷积行人重识别方法及系统 |
CN113378620A (zh) * | 2021-03-31 | 2021-09-10 | 中交第二公路勘察设计研究院有限公司 | 监控视频噪声环境下跨摄像头行人重识别方法 |
CN114758362A (zh) * | 2022-06-15 | 2022-07-15 | 山东省人工智能研究院 | 基于语义感知注意力和视觉屏蔽的换衣行人重识别方法 |
CN115482508A (zh) * | 2022-09-26 | 2022-12-16 | 天津理工大学 | 换装行人重识别方法、装置、设备和计算机可存储介质 |
CN115497122A (zh) * | 2022-09-26 | 2022-12-20 | 天津理工大学 | 遮挡行人重识别方法、装置、设备和计算机可存储介质 |
US20230162522A1 (en) * | 2022-07-29 | 2023-05-25 | Nanjing University Of Posts And Telecommunications | Person re-identification method of integrating global features and ladder-shaped local features and device thereof |
CN116310894A (zh) * | 2023-02-22 | 2023-06-23 | 中交第二公路勘察设计研究院有限公司 | 一种基于无人机遥感的小样本小目标藏羚羊智能识别方法 |
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200226421A1 (en) * | 2019-01-15 | 2020-07-16 | Naver Corporation | Training and using a convolutional neural network for person re-identification |
CN110543841A (zh) * | 2019-08-21 | 2019-12-06 | 中科视语(北京)科技有限公司 | 行人重识别方法、系统、电子设备及介质 |
CN112200111A (zh) * | 2020-10-19 | 2021-01-08 | 厦门大学 | 一种全局与局部特征融合的遮挡鲁棒行人重识别方法 |
CN113221625A (zh) * | 2021-03-02 | 2021-08-06 | 西安建筑科技大学 | 一种利用深度学习的局部特征对齐行人重识别方法 |
CN113378620A (zh) * | 2021-03-31 | 2021-09-10 | 中交第二公路勘察设计研究院有限公司 | 监控视频噪声环境下跨摄像头行人重识别方法 |
CN113361334A (zh) * | 2021-05-18 | 2021-09-07 | 山东师范大学 | 基于关键点优化和多跳注意图卷积行人重识别方法及系统 |
CN114758362A (zh) * | 2022-06-15 | 2022-07-15 | 山东省人工智能研究院 | 基于语义感知注意力和视觉屏蔽的换衣行人重识别方法 |
US20230162522A1 (en) * | 2022-07-29 | 2023-05-25 | Nanjing University Of Posts And Telecommunications | Person re-identification method of integrating global features and ladder-shaped local features and device thereof |
CN115482508A (zh) * | 2022-09-26 | 2022-12-16 | 天津理工大学 | 换装行人重识别方法、装置、设备和计算机可存储介质 |
CN115497122A (zh) * | 2022-09-26 | 2022-12-20 | 天津理工大学 | 遮挡行人重识别方法、装置、设备和计算机可存储介质 |
CN116310894A (zh) * | 2023-02-22 | 2023-06-23 | 中交第二公路勘察设计研究院有限公司 | 一种基于无人机遥感的小样本小目标藏羚羊智能识别方法 |
Non-Patent Citations (3)
Title |
---|
JIN X 等: "Semantics-Aligned Representation Learning for Person Re-identification", 《DOI:10.48550/ARXIV.1905.13143.》, 30 May 2019 (2019-05-30), pages 1 - 9 * |
江伟忠;余海铭;陈世峰;: "基于特征点相关性的行人重识别方法", 集成技术, no. 04, 15 July 2020 (2020-07-15), pages 70 - 80 * |
王丽园 等: "具有姿态变化鲁棒性的行人检测跟踪算法", 《计算机工程与设计》, 31 October 2022 (2022-10-31), pages 1 - 10 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhao et al. | A survey on deep learning-based fine-grained object classification and semantic segmentation | |
CN110532900B (zh) | 基于U-Net和LS-CNN的人脸表情识别方法 | |
CN111639544B (zh) | 基于多分支跨连接卷积神经网络的表情识别方法 | |
CN111898736B (zh) | 基于属性感知的高效行人重识别方法 | |
Oliveira et al. | On exploration of classifier ensemble synergism in pedestrian detection | |
Guo et al. | Improved hand tracking system | |
CN112464730B (zh) | 一种基于域无关前景特征学习的行人再识别方法 | |
Jiang et al. | Multi-feature tracking via adaptive weights | |
CN112396036B (zh) | 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法 | |
Kushal et al. | Id card detection with facial recognition using tensorflow and opencv | |
Huang et al. | DropRegion training of inception font network for high-performance Chinese font recognition | |
Gan et al. | Class-oriented weighted kernel sparse representation with region-level kernel for hyperspectral imagery classification | |
Teimouri et al. | A real-time ball detection approach using convolutional neural networks | |
Zhu et al. | A modified deep neural network enables identification of foliage under complex background | |
CN115497122A (zh) | 遮挡行人重识别方法、装置、设备和计算机可存储介质 | |
CN113808166A (zh) | 基于聚类差分和深度孪生卷积神经网络的单目标跟踪方法 | |
Sumalakshmi et al. | Fused deep learning based Facial Expression Recognition of students in online learning mode | |
CN110909678B (zh) | 一种基于宽度学习网络特征提取的人脸识别方法及系统 | |
CN108710836A (zh) | 一种基于级联特征提取的唇部检测及读取方法 | |
CN105844299B (zh) | 一种基于词袋模型的图像分类方法 | |
Srininvas et al. | A framework to recognize the sign language system for deaf and dumb using mining techniques | |
Bai et al. | An incremental structured part model for object recognition | |
Sujatha et al. | Enhancing Object Detection with Mask R-CNN: A Deep Learning Perspective | |
CN117315576B (zh) | 一种在监控视频中识别指定人员的方法 | |
CN117315576A (zh) | 一种在监控视频中识别指定人员的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |