CN114783003B - 一种基于局部特征注意力的行人重识别方法和装置 - Google Patents
一种基于局部特征注意力的行人重识别方法和装置 Download PDFInfo
- Publication number
- CN114783003B CN114783003B CN202210714468.1A CN202210714468A CN114783003B CN 114783003 B CN114783003 B CN 114783003B CN 202210714468 A CN202210714468 A CN 202210714468A CN 114783003 B CN114783003 B CN 114783003B
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- image
- sequence
- identification
- local
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012544 monitoring process Methods 0.000 claims abstract description 41
- 238000013528 artificial neural network Methods 0.000 claims abstract description 31
- 238000012549 training Methods 0.000 claims abstract description 30
- 239000011159 matrix material Substances 0.000 claims abstract description 26
- 230000007246 mechanism Effects 0.000 claims abstract description 19
- 238000012360 testing method Methods 0.000 claims abstract description 13
- 230000004913 activation Effects 0.000 claims abstract description 10
- 230000006870 function Effects 0.000 claims description 15
- 238000002372 labelling Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000001514 detection method Methods 0.000 claims description 9
- 238000004364 calculation method Methods 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 8
- 210000002569 neuron Anatomy 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 5
- 230000003213 activating effect Effects 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 230000000694 effects Effects 0.000 claims description 3
- 230000002708 enhancing effect Effects 0.000 claims description 3
- 230000001965 increasing effect Effects 0.000 claims description 3
- 238000009827 uniform distribution Methods 0.000 claims description 3
- 230000001131 transforming effect Effects 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000012545 processing Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 238000009432 framing Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
- G06V20/53—Recognition of crowd images, e.g. recognition of crowd congestion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/90—Dynamic range modification of images or parts thereof
- G06T5/92—Dynamic range modification of images or parts thereof based on global image properties
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
- G06T7/73—Determining position or orientation of objects or cameras using feature-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/90—Determination of colour characteristics
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10024—Color image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30196—Human being; Person
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/30—Subject of image; Context of image processing
- G06T2207/30232—Surveillance
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于局部特征注意力的行人重识别方法和装置,包括如下步骤:S1:获取原始监控视频图像数据集,并将原始监控视频图像数据集按比例划分训练集与测试集;S2:将原始监控视频图像训练集进行图像增强,得到增强图像,并将所述增强图像转化成序列数据;基于局部特征注意力的行人重识别技术,采用多头注意力机制神经网络对捕捉提取视频图像特征序列,使用多头注意力机制代替卷积神经网络中的卷积核,采用全连接层与激活函数,针对行人局部特征序列通过权值矩阵组合成完整行人特征序列,将已得到行人特征序列进行预测,输出行人在图像中位置坐标并框选出行人,实现行人重识别。
Description
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种基于局部特征注意力的行人重识别方法和装置。
背景技术
行人重识别,是利用计算机视觉技术检测识别监控视频或者图像中是否存在特定行人的技术,提供监控行人图像,搜索识别跨监控设备下的该行人图像。不同摄像头下行人的姿态、外观、拍摄距离等存在差别,多数情况下无法获取可用的人脸图像,此时使用行人重识别技术实现行人识别。多头注意力机制特征序列行人重识别技术,采用多头注意力机制神经网络对捕捉提取视频图像特征序列,采用全连接层与激活函数,对行人局部特征序列通过权值矩阵组合成完整行人特征序列,将已得到行人特征序列进行预测,并在图像中框选出行人,实现行人重识别。
发明内容
本发明的目的在于提供一种基于局部特征注意力的行人重识别方法和装置,以克服现有技术中的不足。
为实现上述目的,本发明提供如下技术方案:
本发明公开了一种基于局部特征注意力的行人重识别方法,包括如下步骤:
S1:获取原始监控视频图像数据集,并将原始监控视频图像数据集按比例划分训练集与测试集;
S2:将原始监控视频图像训练集进行图像增强得到增强图像,并将所述增强图像转化成序列数据;
S3:使用行人重识别神经网络对增强图像进行特征序列提取,得到图像中所有物体特征序列;
S4:针对已提取的图像中所有物体特征序列,采用多头注意力机制捕捉行人局部特征序列;
S5:采用全连接层与激活函数,将行人局部特征序列通过权值矩阵组合成完整行人特征序列;
S6:将已得到行人特征序列进行预测,确定行人在图像中的位置坐标;
S7:根据已得到的行人位置坐标和原始监控视频图像数据集中的图像标注样本坐标,计算行人特征序列预测交并比;
S8:采用残差连接对行人重识别神经网络迭代训练,得到行人重识别检测模型;
S9:将测试集输入行人重识别检测模型输出行人识别结果。
作为优选的,所述步骤S1中所述原始监控视频图像数据集包括图像标注样本、图像标注样本坐标文件、未标注样本。
作为优选的,所述步骤S2的具体子步骤如下:
S21:将彩色图像转变为灰度图像;
S22:采用直方图均衡将视频监控图像从相对集中的灰度间隔转变为整个灰度范围内的均匀分布,采用非线性拉伸图像并重新分配图像像素值,使灰度范围大致相同;
S23:使用伽玛校正检测图像信号部分和浅色部分中的暗色,并增加二者的比率以提高图像对比度效果;
S24:将增强图像按照图像的高度宽度通道数进行切割,得到网格图像序列,将网格图像大小转换成行人重识别神经网络的可接收的输入大小,将每个网格图像序列转换成二维矩阵,作为行人重识别神经网络的输入。
作为优选的,所述步骤S24中,所述网格图像序列长度等于网格图像大小乘以网格图像高度乘以网格图像宽度,采用线性网络将大小不相同的网格图像映射成可被行人重识别神经网络接收,且输入大小固定的带令牌特征的网格图像,把每个令牌特征的网格图像平铺构成序列,序列包含网格图像位置编码,再将每个网格图像序列转换成二维矩阵。
作为优选的,所述步骤S3的具体过程为:通过计算和统计图像局部区域的梯度方向直方图构成特征序列,通过梯度的方向密度分布描述局部目标的表象和形状。
作为优选的,所述步骤S4的具体过程为:针对网格图像每个像素,计算每个像素相邻的局部自注意力,采用局部多头自注意力机制,二维矩阵转换成并行矩阵计算,捕捉行人局部特征序列。
作为优选的,所述步骤S5的具体过程为:采用二层全连接层与激活函数方式,针对已捕捉的行人特征序列经过第一层全连接层并激活,得到符合行人局部特征序列存在的部分神经元,根据提取到的行人局部特征序列进行组合并输入到第二层全连接层神经元处,经过组合得到完整行人特征序列。
作为优选的,所述步骤S6的具体过程为:将行人特征序列输入行人重识别神经网络,采用多头注意力进行计算,检测行人特征序列元素有多少在网格图像中心点上,计算中心到网格图像边界的距离,从而得出行人位置坐标,根据得出的位置坐标画出行人在视频监控图像边界框。
本发明公开了一种基于局部特征注意力的行人重识别装置,包括以下模块:
获取原始监控视频图像样本集模块:用于获取原始数据集,包括标注样本、未标注样本、标注样本坐标文件;
图像预处理模块:用于对原始监控视频图像数据集进行图像预处理;
图像增强模块:用于训练集图像增强,得到对应的增强图像;
图像特征序列提取模块:用于提取增强图像特征序列;
行人特征序列捕捉模块:根据所述图像中所有物体特征序列,采用多头注意力机制捕捉得到行人局部特征序列;
全连接层模块:根据所述行人局部特征序列,通过权值矩阵组合成完整行人特征序列;
行人位置预测模块:根据所述完整行人特征序列,预测出所在图像中位置坐标;
交并比计算模块:根据所述行人在图像中的位置坐标,原始监控视频图像数据集中的图像标注样本坐标,计算两者坐标的交并比;
模型训练模块:采用残差连接,对所述行人重识别神经网络进行训练,得到行人重识别模型;
图像行人识别模块:输入测试集使用行人重识别模型识别出行人。
本发明还公开了一种基于局部特征注意力的行人重识别装置,所述装置包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述基于局部特征注意力的行人重识别方法。
本发明的有益效果:本发明一种基于局部特征注意力的行人重识别方法和装置,基于局部特征注意力的行人重识别技术,采用多头注意力机制神经网络对捕捉提取视频图像特征序列,使用多头注意力机制代替卷积神经网络中的卷积核,采用全连接层与激活函数,针对行人局部特征序列通过权值矩阵组合成完整行人特征序列,将已得到行人特征序列进行预测,输出行人在图像中位置坐标并框选出行人,实现行人重识别。
附图说明
图1是本发明实施例的整体流程图;
图2是本发明实施例的图像分割示意图;
图3是本发明实施例的多头注意力机制示意图:
图4是本发明实施例的装置示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
参阅图1,本发明提供了一种基于局部特征注意力的行人重识别方法,包括如下步骤:
S1:获取原始监控视频图像数据集,并将原始监控视频图像数据集按比例划分训练集与测试集;
S2:将原始监控视频图像训练集进行图像增强,得到增强图像,并将增强图像转化成序列数据;
S3:使用行人重识别神经网络对增强图像进行特征序列提取,得到图像中所有物体特征序列;
S4:针对已提取的图像中所有物体特征序列,采用多头注意力机制捕捉行人局部特征序列;
S5:采用全连接层与激活函数,将行人局部特征序列通过权值矩阵组合成完整行人特征序列;
S6:将已得到行人特征序列进行预测,确定行人在图像中的位置坐标;
S7:根据已得到的行人位置坐标和原始监控视频图像数据集中的图像标注样本坐标,计算行人特征序列预测交并比;
S8:采用残差连接,对行人重识别神经网络迭代训练,得到行人重识别检测模型;
S9:将测试集输入行人重识别检测模型输出行人识别结果。
另外,本发明还提供了一种基于局部特征注意力的行人重识别装置,包括以下模块:
获取原始监控视频图像样本集模块:用于获取原始数据集,包括标注样本、未标注样本、标注样本坐标文件;
图像预处理模块:用于对原始监控视频图像数据集进行图像预处理;
图像增强模块:用于训练集图像增强,得到对应的增强图像;
图像特征序列提取模块:用于提取增强图像特征序列;
行人特征序列捕捉模块:根据所述图像中所有物体特征序列,采用多头注意力机制捕捉得到行人局部特征序列;
全连接层模块:根据所述行人局部特征序列,通过权值矩阵组合成完整行人特征序列;
行人位置预测模块:根据所述完整行人特征序列,预测出所在图像中位置坐标;
交并比计算模块:根据所述行人在图像中的位置坐标,原始监控视频图像数据集中的图像标注样本坐标,计算两者坐标的交并比;
模型训练模块:采用残差连接,对所述行人重识别神经网络进行训练,得到行人重识别模型;
图像行人识别模块:输入测试集使用行人重识别模型识别出行人。
通过以下步骤对本发明进行详细说明:
本发明是一种基于局部特征注意力的行人重识别方法和装置,整个过程分为四个阶段:
第一阶段,监控视频图像增强与预处理:如图2所示,将原始监控视频图像训练集进行图像增强,得到增强图像,针对增强图像进行分割得到网格图像。
所述第一阶段具体为:获取视频图像数据集,包括图像标注样本、图像标注样本坐标文件、未标注样本;对视频图像进行图像增强得到增强图像;将增强图像转化成序列数据,包括以下子步骤:
步骤一:采用直方图均衡将视频监控图像从相对集中的灰度间隔转变为整个灰度范围内的均分布,采用非线性拉伸图像并重新分配图像像素值,使灰度范围大致相同。
步骤二:使用伽玛校正检测视频监控图像信号部分和浅色部分中的暗色,并增加二者的比率以提高图像对比度效果。
步骤三:将每张视频监控图像按照图像的高度宽度通道数进行切割,得到网格图像序列,网格图像序列长度等于网格图像大小乘以网格图像高度乘以网格图像宽度,采用线性网络将大小不相同的网格图像,映射成行人重识别神经网络的可接收的输入大小固定的带令牌特征的网格图像,把每个令牌特征的网格图像平铺构成序列,序列包含网格图像位置编码,再将序列转转换成二维矩阵,二维矩阵作为行人重识别神经网络(Transformer)的输入。
第二阶段,监控视频图像物体特征序列与行人特征序列捕捉:如图3所示,行人重识别神经网络(Transformer)对增强图像进行特征序列提取,采用多头注意力机制捕捉行人局部特征序。
所述第二阶段具体为:将二维矩阵输入行人重识别神经网络(Transformer)进行特征序列提取,包括以下子步骤:
步骤一:计算和统计图像局部区域的梯度方向直方图来构成特征序列,局部目标的表象和形状能够被梯度的方向密度分布描述出来。
步骤二:首先对二维矩阵进行整体特征提取,特征序列特征满足均值为0,方差为1的分布,得到网格图像中所有物体特征序列,特征序列包括网格图像中所有物体各部分之间的关系;
步骤三:针对已提取的网格图像中所有物体特征序列,采用多头注意力机制,将每个二维矩阵转换成并行矩阵计算,捕捉行人局部特征序列;首先整体特征序列输入嵌入层,得到长度相同的向量特征序列,计算方式如下:
1、将向量特征序列的查询矩阵Query,键矩阵Key,值矩阵Value输入多头层;
步骤四:采用二层全连接层,针对已捕捉的行人特征序列映射到第一层全连接层中,经过激活函数,得到符合行人局部特征序列存在的部分神经元,根据提取到的行人局部特征序列进行组合并输入到第二层全连接层神经元处,经过组合得到完整行人特征序列。激活函数公式如下:
第三阶段,监控视频图像行人特征序列位置坐标预测:行人特征序列坐标位置预测,在图像中框选出行人。
所述第三阶段具体为:预测出行人位置坐标,预测出行人边界框,包括以下子步骤:
步骤一:将行人特征序列输入行人重识别神经网络(Transformer) 采用多头注意力进行计算,每个行人特征序列元素有多少在网格图像中心点上,计算中心到网格图像边界的距离,从而得出行人位置坐标,行人位置坐标包括,左上角坐标,右上角坐标,左下角坐标,右下角坐标,根据得出的位置坐标画出行人在视频监控图像边界框。
步骤二:根据步骤一得出的行人位置坐标,原始监控视频图像数据集中的图像标注样本坐标,计算两者坐标的交并比,计算公式如下:
第四阶段,行人重识别神经网络(Transformer)模型训练与行人识别:采用残差连接,对行人重识别神经网络(Transformer)迭代训练,得到行人重识别检测模型并识别出行人。
所述第四阶段具体为,行人重识别神经网络(Transformer)模型训练与行人识别,包括以下子步骤:
步骤一:由于行人重识别神经网络(Transformer)模型较大,防止模型在训练过程中梯度爆炸,梯度消失,模型采用残差连接方式,加速模型收敛,迭代训练,调整训练参数,得到行人重识别检测模型。
步骤二:根据步骤一训练得到的行人重识别检测模型,输入原始监控视频图像测试集进行预测并在图像中款选出行人,实现行人重识别。
参见图4,本发明实施例还提供了一种基于局部特征注意力的行人重识别装置,还包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的基于局部特征注意力的行人重识别方法。
本发明一种基于局部特征注意力的行人重识别装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明一种基于局部特征注意力的行人重识别装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于局部特征注意力的行人重识别方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
基于本发明一种基于局部特征注意力的行人重识别方法和装置,进行了如下实验:
步骤一:获取Market-1501 数据集,数据集在清华大学校园中采集,由6个摄像头(其中5个高清摄像头和1个低清摄像头)拍摄到的1501个行人、32668个检测到的行人矩形框,训练集有751人,包含12936张图像,平均每个人有17.2张训练数据;测试集有750人,包含19732 张图像,平均每个人有26.3 张测试数据。
步骤二:采用本发明提供的基于注意力机制的行人重识别方法,采用步骤一数据集,按照本发明具体实施方式步骤,检测19732张图片,识别出700 个行人,行人重识别率达到87.36%,并且根据实验,在不同摄像头下行人的姿态、外观、拍摄距离等存在差别,多数情况下无法获取可用的人脸图像,此时使用基于注意力机制的行人重识别方法可以提升行人重识别效果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于局部特征注意力的行人重识别方法,其特征在于,包括如下步骤:
S1:获取原始监控视频图像数据集,并将原始监控视频图像数据集按比例划分训练集与测试集;
S2:将原始监控视频图像训练集进行图像增强得到增强图像,并将所述增强图像按照图像的高度宽度通道数进行切割,得到网格图像序列;
S3:使用行人重识别神经网络对增强图像进行特征序列提取,得到图像中所有物体特征序列;
S4:针对已提取的图像中所有物体特征序列,采用多头注意力机制捕捉行人局部特征序列;
S5:采用全连接层与激活函数,将行人局部特征序列通过权值矩阵组合成完整行人特征序列;
S6:将已得到行人特征序列进行预测,确定行人在图像中的位置坐标;
S7:根据已得到的行人位置坐标和原始监控视频图像数据集中的图像标注样本坐标,计算行人特征序列预测交并比;
S8:采用残差连接对行人重识别神经网络迭代训练,得到行人重识别检测模型;
S9:将测试集输入行人重识别检测模型输出行人识别结果。
2.如权利要求1所述的一种基于局部特征注意力的行人重识别方法,其特征在于:所述步骤S1中所述原始监控视频图像数据集包括图像标注样本、图像标注样本坐标文件、未标注样本。
3.如权利要求1所述的一种基于局部特征注意力的行人重识别方法,其特征在于:所述步骤S2的具体子步骤如下:
S21:将彩色图像转变为灰度图像;
S22:采用直方图均衡将视频监控图像从相对集中的灰度间隔转变为整个灰度范围内的均匀分布,采用非线性拉伸图像并重新分配图像像素值,使灰度范围大致相同;
S23:使用伽玛校正检测图像信号部分和浅色部分中的暗色,并增加二者的比率以提高图像对比度效果;
S24:将增强图像按照图像的高度宽度通道数进行切割,得到网格图像序列,将网格图像大小转换成行人重识别神经网络的可接收的输入大小,将每个网格图像序列转换成二维矩阵,作为行人重识别神经网络的输入。
4.如权利要求3所述的一种基于局部特征注意力的行人重识别方法,其特征在于:所述步骤S24中,所述网格图像序列长度等于网格图像大小乘以网格图像高度乘以网格图像宽度,采用线性网络将大小不相同的网格图像映射成可被行人重识别神经网络接收,且输入大小固定的带令牌特征的网格图像,把每个令牌特征的网格图像平铺构成序列,序列包含网格图像位置编码,再将每个网格图像序列转换成二维矩阵。
5.如权利要求1所述的一种基于局部特征注意力的行人重识别方法,其特征在于:所述步骤S3的具体过程为:通过计算和统计图像局部区域的梯度方向直方图构成特征序列,通过梯度的方向密度分布描述局部目标的表象和形状。
6.如权利要求1所述的一种基于局部特征注意力的行人重识别方法,其特征在于:所述步骤S4的具体过程为:针对网格图像每个像素,计算每个像素相邻的局部自注意力,采用局部多头自注意力机制,二维矩阵转换成并行矩阵计算,捕捉行人局部特征序列。
7.如权利要求1所述的一种基于局部特征注意力的行人重识别方法,其特征在于:所述步骤S5的具体过程为:采用二层全连接层与激活函数方式,针对已捕捉的行人特征序列经过第一层全连接层并激活,得到符合行人局部特征序列存在的部分神经元,根据提取到的行人局部特征序列进行组合并输入到第二层全连接层神经元处,经过组合得到完整行人特征序列。
8.如权利要求1所述的一种基于局部特征注意力的行人重识别方法,其特征在于:所述步骤S6的具体过程为:将行人特征序列输入行人重识别神经网络,采用多头注意力进行计算,检测行人特征序列元素有多少在网格图像中心点上,计算中心到网格图像边界的距离,从而得出行人位置坐标,根据得出的位置坐标画出行人在视频监控图像边界框。
9.一种基于局部特征注意力的行人重识别装置,其特征在于,包括以下模块:
获取原始监控视频图像样本集模块:用于获取原始数据集,包括标注样本、未标注样本、标注样本坐标文件;
图像预处理模块:用于对原始监控视频图像数据集进行图像预处理;
图像增强模块:用于训练集图像增强,得到对应的增强图像;
图像特征序列提取模块:用于将所述增强图像按照图像的高度宽度通道数进行切割,得到网格图像序列,并进行特征序列提取;
行人特征序列捕捉模块:根据所述图像中所有物体特征序列,采用多头注意力机制捕捉得到行人局部特征序列;
全连接层模块:根据所述行人局部特征序列,通过权值矩阵组合成完整行人特征序列;
行人位置预测模块:根据所述完整行人特征序列,预测出所在图像中位置坐标;
交并比计算模块:根据所述行人在图像中的位置坐标,原始监控视频图像数据集中的图像标注样本坐标,计算两者坐标的交并比;
模型训练模块:采用残差连接,对行人重识别神经网络进行训练,得到行人重识别模型;图像行人识别模块:输入测试集使用行人重识别模型识别出行人。
10.一种基于局部特征注意力的行人重识别装置,其特征在于:所述装置包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-8任一项所述基于局部特征注意力的行人重识别方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210714468.1A CN114783003B (zh) | 2022-06-23 | 2022-06-23 | 一种基于局部特征注意力的行人重识别方法和装置 |
PCT/CN2022/116176 WO2023082784A1 (zh) | 2022-06-23 | 2022-08-31 | 一种基于局部特征注意力的行人重识别方法和装置 |
US17/954,129 US11699290B1 (en) | 2022-06-23 | 2022-09-27 | Pedestrian re-identification method and apparatus based on local feature attention |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210714468.1A CN114783003B (zh) | 2022-06-23 | 2022-06-23 | 一种基于局部特征注意力的行人重识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114783003A CN114783003A (zh) | 2022-07-22 |
CN114783003B true CN114783003B (zh) | 2022-09-20 |
Family
ID=82422346
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210714468.1A Active CN114783003B (zh) | 2022-06-23 | 2022-06-23 | 一种基于局部特征注意力的行人重识别方法和装置 |
Country Status (3)
Country | Link |
---|---|
US (1) | US11699290B1 (zh) |
CN (1) | CN114783003B (zh) |
WO (1) | WO2023082784A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109784186B (zh) * | 2018-12-18 | 2020-12-15 | 深圳云天励飞技术有限公司 | 一种行人重识别方法、装置、电子设备及计算机可读存储介质 |
CN114783003B (zh) * | 2022-06-23 | 2022-09-20 | 之江实验室 | 一种基于局部特征注意力的行人重识别方法和装置 |
CN115240121B (zh) * | 2022-09-22 | 2023-01-03 | 之江实验室 | 一种用于增强行人局部特征的联合建模方法和装置 |
US11810366B1 (en) | 2022-09-22 | 2023-11-07 | Zhejiang Lab | Joint modeling method and apparatus for enhancing local features of pedestrians |
CN115830637B (zh) * | 2022-12-13 | 2023-06-23 | 杭州电子科技大学 | 一种基于姿态估计和背景抑制的遮挡行人重识别方法 |
CN116524602B (zh) * | 2023-07-03 | 2023-09-19 | 华东交通大学 | 基于步态特征的换衣行人重识别方法及系统 |
CN117830564B (zh) * | 2024-03-05 | 2024-06-11 | 之江实验室 | 一种姿态分布指导的三维虚拟人模型重建方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818790A (zh) * | 2021-01-25 | 2021-05-18 | 浙江理工大学 | 一种基于注意力机制与空间几何约束的行人重识别方法 |
CN114359970A (zh) * | 2022-01-12 | 2022-04-15 | 平安科技(深圳)有限公司 | 行人重识别方法、装置、电子设备及存储介质 |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9117147B2 (en) * | 2011-04-29 | 2015-08-25 | Siemens Aktiengesellschaft | Marginal space learning for multi-person tracking over mega pixel imagery |
US10395385B2 (en) * | 2017-06-27 | 2019-08-27 | Qualcomm Incorporated | Using object re-identification in video surveillance |
CN108229292A (zh) * | 2017-07-28 | 2018-06-29 | 北京市商汤科技开发有限公司 | 目标识别方法、装置、存储介质和电子设备 |
US11138469B2 (en) * | 2019-01-15 | 2021-10-05 | Naver Corporation | Training and using a convolutional neural network for person re-identification |
CN113361549A (zh) * | 2020-03-04 | 2021-09-07 | 华为技术有限公司 | 一种模型更新方法以及相关装置 |
CN111652066B (zh) * | 2020-04-30 | 2022-07-26 | 北京航空航天大学 | 基于多自注意力机制深度学习的医疗行为识别方法 |
US20220121953A1 (en) * | 2020-10-21 | 2022-04-21 | Nec Laboratories America, Inc. | Multi-task learning via gradient split for rich human analysis |
US11270124B1 (en) * | 2020-11-16 | 2022-03-08 | Branded Entertainment Network, Inc. | Temporal bottleneck attention architecture for video action recognition |
CN114550022A (zh) * | 2020-11-25 | 2022-05-27 | 京东方科技集团股份有限公司 | 模型训练方法及装置、电子设备和可读存储介质 |
CN112528812A (zh) * | 2020-12-04 | 2021-03-19 | 京东方科技集团股份有限公司 | 行人跟踪的方法、行人跟踪装置以及行人跟踪系统 |
CN113221625B (zh) * | 2021-03-02 | 2023-04-07 | 西安建筑科技大学 | 一种利用深度学习的局部特征对齐行人重识别方法 |
CN113627266B (zh) * | 2021-07-15 | 2023-08-18 | 武汉大学 | 基于Transformer时空建模的视频行人重识别方法 |
US20230095533A1 (en) * | 2021-09-28 | 2023-03-30 | The Hong Kong University of Science and Technoloy | Enriched and discriminative convolutional neural network features for pedestrian re-identification and trajectory modeling |
CN113989838A (zh) * | 2021-10-26 | 2022-01-28 | 中山大学 | 行人重识别模型训练方法、识别方法、系统、装置及介质 |
CN113936339B (zh) * | 2021-12-16 | 2022-04-22 | 之江实验室 | 基于双通道交叉注意力机制的打架识别方法和装置 |
CN114783003B (zh) * | 2022-06-23 | 2022-09-20 | 之江实验室 | 一种基于局部特征注意力的行人重识别方法和装置 |
-
2022
- 2022-06-23 CN CN202210714468.1A patent/CN114783003B/zh active Active
- 2022-08-31 WO PCT/CN2022/116176 patent/WO2023082784A1/zh unknown
- 2022-09-27 US US17/954,129 patent/US11699290B1/en active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112818790A (zh) * | 2021-01-25 | 2021-05-18 | 浙江理工大学 | 一种基于注意力机制与空间几何约束的行人重识别方法 |
CN114359970A (zh) * | 2022-01-12 | 2022-04-15 | 平安科技(深圳)有限公司 | 行人重识别方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114783003A (zh) | 2022-07-22 |
WO2023082784A1 (zh) | 2023-05-19 |
US11699290B1 (en) | 2023-07-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114783003B (zh) | 一种基于局部特征注意力的行人重识别方法和装置 | |
CN110110601B (zh) | 基于多时空注意力模型的视频行人重识别方法及装置 | |
US9569694B2 (en) | Detection of objects in an image using self similarities | |
US9104914B1 (en) | Object detection with false positive filtering | |
Kim et al. | Spatiotemporal saliency detection and its applications in static and dynamic scenes | |
CN111783576B (zh) | 基于改进型YOLOv3网络和特征融合的行人重识别方法 | |
CN113065558A (zh) | 一种结合注意力机制的轻量级小目标检测方法 | |
CN111767882A (zh) | 一种基于改进yolo模型的多模态行人检测方法 | |
WO2021051545A1 (zh) | 基于行为识别模型的摔倒动作判定方法、装置、计算机设备及存储介质 | |
CN108009493B (zh) | 基于动作增强的人脸防欺骗识别方法 | |
Bedagkar-Gala et al. | Multiple person re-identification using part based spatio-temporal color appearance model | |
CN110838119B (zh) | 人脸图像质量评估方法、计算机装置及计算机可读存储介质 | |
CN112183468A (zh) | 一种基于多注意力联合多级特征的行人再识别方法 | |
CN110929593A (zh) | 一种基于细节辨别区别的实时显著性行人检测方法 | |
CN114067444A (zh) | 基于元伪标签和光照不变特征的人脸欺骗检测方法和系统 | |
WO2019033570A1 (zh) | 嘴唇动作分析方法、装置及存储介质 | |
CN114972976B (zh) | 基于频域自注意力机制的夜间目标检测、训练方法及装置 | |
CN115240121B (zh) | 一种用于增强行人局部特征的联合建模方法和装置 | |
Prasad et al. | Passive copy-move forgery detection using SIFT, HOG and SURF features | |
Qi et al. | A real-time face detection method based on blink detection | |
Khan et al. | Dimension invariant model for human head detection | |
Li et al. | A self-attention feature fusion model for rice pest detection | |
Zhang et al. | A robust chinese license plate detection and recognition systemin natural scenes | |
Xie et al. | Learning visual-spatial saliency for multiple-shot person re-identification | |
Yang et al. | Pedestrian detection in thermal infrared image using extreme learning machine |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |