CN114783003A - 一种基于局部特征注意力的行人重识别方法和装置 - Google Patents

一种基于局部特征注意力的行人重识别方法和装置 Download PDF

Info

Publication number
CN114783003A
CN114783003A CN202210714468.1A CN202210714468A CN114783003A CN 114783003 A CN114783003 A CN 114783003A CN 202210714468 A CN202210714468 A CN 202210714468A CN 114783003 A CN114783003 A CN 114783003A
Authority
CN
China
Prior art keywords
pedestrian
image
sequence
identification
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210714468.1A
Other languages
English (en)
Other versions
CN114783003B (zh
Inventor
王宏升
陈�光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202210714468.1A priority Critical patent/CN114783003B/zh
Publication of CN114783003A publication Critical patent/CN114783003A/zh
Priority to PCT/CN2022/116176 priority patent/WO2023082784A1/zh
Application granted granted Critical
Publication of CN114783003B publication Critical patent/CN114783003B/zh
Priority to US17/954,129 priority patent/US11699290B1/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • G06V20/53Recognition of crowd images, e.g. recognition of crowd congestion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/90Dynamic range modification of images or parts thereof
    • G06T5/92Dynamic range modification of images or parts thereof based on global image properties
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/90Determination of colour characteristics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10024Color image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30232Surveillance

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于局部特征注意力的行人重识别方法和装置,包括如下步骤:S1:获取原始监控视频图像数据集,并将原始监控视频图像数据集按比例划分训练集与测试集;S2:将原始监控视频图像训练集进行图像增强,得到增强图像,并将所述增强图像转化成序列数据;基于局部特征注意力的行人重识别技术,采用多头注意力机制神经网络对捕捉提取视频图像特征序列,使用多头注意力机制代替卷积神经网络中的卷积核,采用全连接层与激活函数,针对行人局部特征序列通过权值矩阵组合成完整行人特征序列,将已得到行人特征序列进行预测,输出行人在图像中位置坐标并框选出行人,实现行人重识别。

Description

一种基于局部特征注意力的行人重识别方法和装置
技术领域
本发明涉及计算机视觉技术领域,特别涉及一种基于局部特征注意力的行人重识别方法和装置。
背景技术
行人重识别,是利用计算机视觉技术检测识别监控视频或者图像中是否存在特定行人的技术,提供监控行人图像,搜索识别跨监控设备下的该行人图像。不同摄像头下行人的姿态、外观、拍摄距离等存在差别,多数情况下无法获取可用的人脸图像,此时使用行人重识别技术实现行人识别。多头注意力机制特征序列行人重识别技术,采用多头注意力机制神经网络对捕捉提取视频图像特征序列,采用全连接层与激活函数,对行人局部特征序列通过权值矩阵组合成完整行人特征序列,将已得到行人特征序列进行预测,并在图像中框选出行人,实现行人重识别。
发明内容
本发明的目的在于提供一种基于局部特征注意力的行人重识别方法和装置,以克服现有技术中的不足。
为实现上述目的,本发明提供如下技术方案:
本发明公开了一种基于局部特征注意力的行人重识别方法,包括如下步骤:
S1:获取原始监控视频图像数据集,并将原始监控视频图像数据集按比例划分训练集与测试集;
S2:将原始监控视频图像训练集进行图像增强得到增强图像,并将所述增强图像转化成序列数据;
S3:使用行人重识别神经网络对增强图像进行特征序列提取,得到图像中所有物体特征序列;
S4:针对已提取的图像中所有物体特征序列,采用多头注意力机制捕捉行人局部特征序列;
S5:采用全连接层与激活函数,将行人局部特征序列通过权值矩阵组合成完整行人特征序列;
S6:将已得到行人特征序列进行预测,确定行人在图像中的位置坐标;
S7:根据已得到的行人位置坐标和原始监控视频图像数据集中的图像标注样本坐标,计算行人特征序列预测交并比;
S8:采用残差连接对行人重识别神经网络迭代训练,得到行人重识别检测模型;
S9:将测试集输入行人重识别检测模型输出行人识别结果。
作为优选的,所述步骤S1中所述原始监控视频图像数据集包括图像标注样本、图像标注样本坐标文件、未标注样本。
作为优选的,所述步骤S2的具体子步骤如下:
S21:将彩色图像转变为灰度图像;
S22:采用直方图均衡将视频监控图像从相对集中的灰度间隔转变为整个灰度范围内的均匀分布,采用非线性拉伸图像并重新分配图像像素值,使灰度范围大致相同;
S23:使用伽玛校正检测图像信号部分和浅色部分中的暗色,并增加二者的比率以提高图像对比度效果;
S24:将增强图像按照图像的高度宽度通道数进行切割,得到网格图像序列,将网格图像大小转换成行人重识别神经网络的可接收的输入大小,将每个网格图像序列转换成二维矩阵,作为行人重识别神经网络的输入。
作为优选的,所述步骤S24中,所述网格图像序列长度等于网格图像大小乘以网格图像高度乘以网格图像宽度,采用线性网络将大小不相同的网格图像映射成可被行人重识别神经网络接收,且输入大小固定的带令牌特征的网格图像,把每个令牌特征的网格图像平铺构成序列,序列包含网格图像位置编码,再将每个网格图像序列转换成二维矩阵。
作为优选的,所述步骤S3的具体过程为:通过计算和统计图像局部区域的梯度方向直方图构成特征序列,通过梯度的方向密度分布描述局部目标的表象和形状。
作为优选的,所述步骤S4的具体过程为:针对网格图像每个像素,计算每个像素相邻的局部自注意力,采用局部多头自注意力机制,二维矩阵转换成并行矩阵计算,捕捉行人局部特征序列。
作为优选的,所述步骤S5的具体过程为:采用二层全连接层与激活函数方式,针对已捕捉的行人特征序列经过第一层全连接层并激活,得到符合行人局部特征序列存在的部分神经元,根据提取到的行人局部特征序列进行组合并输入到第二层全连接层神经元处,经过组合得到完整行人特征序列。
作为优选的,所述步骤S6的具体过程为:将行人特征序列输入行人重识别神经网络,采用多头注意力进行计算,检测行人特征序列元素有多少在网格图像中心点上,计算中心到网格图像边界的距离,从而得出行人位置坐标,根据得出的位置坐标画出行人在视频监控图像边界框。
本发明公开了一种基于局部特征注意力的行人重识别装置,包括以下模块:
获取原始监控视频图像样本集模块:用于获取原始数据集,包括标注样本、未标注样本、标注样本坐标文件;
图像预处理模块:用于对原始监控视频图像数据集进行图像预处理;
图像增强模块:用于训练集图像增强,得到对应的增强图像;
图像特征序列提取模块:用于提取增强图像特征序列;
行人特征序列捕捉模块:根据所述图像中所有物体特征序列,采用多头注意力机制捕捉得到行人局部特征序列;
全连接层模块:根据所述行人局部特征序列,通过权值矩阵组合成完整行人特征序列;
行人位置预测模块:根据所述完整行人特征序列,预测出所在图像中位置坐标;
交并比计算模块:根据所述行人在图像中的位置坐标,原始监控视频图像数据集中的图像标注样本坐标,计算两者坐标的交并比;
模型训练模块:采用残差连接,对所述行人重识别神经网络进行训练,得到行人重识别模型;
图像行人识别模块:输入测试集使用行人重识别模型识别出行人。
本发明还公开了一种基于局部特征注意力的行人重识别装置,所述装置包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述基于局部特征注意力的行人重识别方法。
本发明的有益效果:本发明一种基于局部特征注意力的行人重识别方法和装置,基于局部特征注意力的行人重识别技术,采用多头注意力机制神经网络对捕捉提取视频图像特征序列,使用多头注意力机制代替卷积神经网络中的卷积核,采用全连接层与激活函数,针对行人局部特征序列通过权值矩阵组合成完整行人特征序列,将已得到行人特征序列进行预测,输出行人在图像中位置坐标并框选出行人,实现行人重识别。
附图说明
图1是本发明实施例的整体流程图;
图2是本发明实施例的图像分割示意图;
图3是本发明实施例的多头注意力机制示意图:
图4是本发明实施例的装置示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
参阅图1,本发明提供了一种基于局部特征注意力的行人重识别方法,包括如下步骤:
S1:获取原始监控视频图像数据集,并将原始监控视频图像数据集按比例划分训练集与测试集;
S2:将原始监控视频图像训练集进行图像增强,得到增强图像,并将增强图像转化成序列数据;
S3:使用行人重识别神经网络对增强图像进行特征序列提取,得到图像中所有物体特征序列;
S4:针对已提取的图像中所有物体特征序列,采用多头注意力机制捕捉行人局部特征序列;
S5:采用全连接层与激活函数,将行人局部特征序列通过权值矩阵组合成完整行人特征序列;
S6:将已得到行人特征序列进行预测,确定行人在图像中的位置坐标;
S7:根据已得到的行人位置坐标和原始监控视频图像数据集中的图像标注样本坐标,计算行人特征序列预测交并比;
S8:采用残差连接,对行人重识别神经网络迭代训练,得到行人重识别检测模型;
S9:将测试集输入行人重识别检测模型输出行人识别结果。
另外,本发明还提供了一种基于局部特征注意力的行人重识别装置,包括以下模块:
获取原始监控视频图像样本集模块:用于获取原始数据集,包括标注样本、未标注样本、标注样本坐标文件;
图像预处理模块:用于对原始监控视频图像数据集进行图像预处理;
图像增强模块:用于训练集图像增强,得到对应的增强图像;
图像特征序列提取模块:用于提取增强图像特征序列;
行人特征序列捕捉模块:根据所述图像中所有物体特征序列,采用多头注意力机制捕捉得到行人局部特征序列;
全连接层模块:根据所述行人局部特征序列,通过权值矩阵组合成完整行人特征序列;
行人位置预测模块:根据所述完整行人特征序列,预测出所在图像中位置坐标;
交并比计算模块:根据所述行人在图像中的位置坐标,原始监控视频图像数据集中的图像标注样本坐标,计算两者坐标的交并比;
模型训练模块:采用残差连接,对所述行人重识别神经网络进行训练,得到行人重识别模型;
图像行人识别模块:输入测试集使用行人重识别模型识别出行人。
通过以下步骤对本发明进行详细说明:
本发明是一种基于局部特征注意力的行人重识别方法和装置,整个过程分为四个阶段:
第一阶段,监控视频图像增强与预处理:如图2所示,将原始监控视频图像训练集进行图像增强,得到增强图像,针对增强图像进行分割得到网格图像。
所述第一阶段具体为:获取视频图像数据集,包括图像标注样本、图像标注样本坐标文件、未标注样本;对视频图像进行图像增强得到增强图像;将增强图像转化成序列数据,包括以下子步骤:
步骤一:采用直方图均衡将视频监控图像从相对集中的灰度间隔转变为整个灰度范围内的均分布,采用非线性拉伸图像并重新分配图像像素值,使灰度范围大致相同。
步骤二:使用伽玛校正检测视频监控图像信号部分和浅色部分中的暗色,并增加二者的比率以提高图像对比度效果。
步骤三:将每张视频监控图像按照图像的高度宽度通道数进行切割,得到网格图像序列,网格图像序列长度等于网格图像大小乘以网格图像高度乘以网格图像宽度,采用线性网络将大小不相同的网格图像,映射成行人重识别神经网络的可接收的输入大小固定的带令牌特征的网格图像,把每个令牌特征的网格图像平铺构成序列,序列包含网格图像位置编码,再将序列转转换成二维矩阵,二维矩阵作为行人重识别神经网络(Transformer)的输入。
第二阶段,监控视频图像物体特征序列与行人特征序列捕捉:如图3所示,行人重识别神经网络(Transformer)对增强图像进行特征序列提取,采用多头注意力机制捕捉行人局部特征序。
所述第二阶段具体为:将二维矩阵输入行人重识别神经网络(Transformer)进行特征序列提取,包括以下子步骤:
步骤一:计算和统计图像局部区域的梯度方向直方图来构成特征序列,局部目标的表象和形状能够被梯度的方向密度分布描述出来。
步骤二:首先对二维矩阵进行整体特征提取,特征序列特征满足均值为0,方差为1的分布,得到网格图像中所有物体特征序列,特征序列包括网格图像中所有物体各部分之间的关系;
步骤三:针对已提取的网格图像中所有物体特征序列,采用多头注意力机制,将每个二维矩阵转换成并行矩阵计算,捕捉行人局部特征序列;首先整体特征序列输入嵌入层,得到长度相同的向量特征序列,计算方式如下:
1、将向量特征序列的查询矩阵Query,键矩阵Key,值矩阵Value输入多头层;
2、使用
Figure 260876DEST_PATH_IMAGE001
表示输入权重向量特征序列;
3、计算注意力分布
Figure 37071DEST_PATH_IMAGE002
:通过计算 Query 和 Key 进行点积相乘计算相关度,并通过激活函数Softmax计算分数;
4、
Figure 770803DEST_PATH_IMAGE003
通过激活函数Softmax 计算注意力权重:
Figure 103695DEST_PATH_IMAGE005
其中
Figure 370597DEST_PATH_IMAGE006
为注意力概率分布,
Figure 130743DEST_PATH_IMAGE007
为注意力打分机制。
步骤四:采用二层全连接层,针对已捕捉的行人特征序列映射到第一层全连接层中,经过激活函数,得到符合行人局部特征序列存在的部分神经元,根据提取到的行人局部特征序列进行组合并输入到第二层全连接层神经元处,经过组合得到完整行人特征序列。激活函数公式如下:
Figure DEST_PATH_IMAGE008
其中:
Figure 23875DEST_PATH_IMAGE009
为激活函数,
Figure 409726DEST_PATH_IMAGE010
为行人特征序列,
Figure 907965DEST_PATH_IMAGE011
为概率分布,
Figure 839012DEST_PATH_IMAGE012
为整体特征序列,
Figure 780292DEST_PATH_IMAGE013
是正太分布的概率函数。
第三阶段,监控视频图像行人特征序列位置坐标预测:行人特征序列坐标位置预测,在图像中框选出行人。
所述第三阶段具体为:预测出行人位置坐标,预测出行人边界框,包括以下子步骤:
步骤一:将行人特征序列输入行人重识别神经网络(Transformer) 采用多头注意力进行计算,每个行人特征序列元素有多少在网格图像中心点上,计算中心到网格图像边界的距离,从而得出行人位置坐标,行人位置坐标包括,左上角坐标,右上角坐标,左下角坐标,右下角坐标,根据得出的位置坐标画出行人在视频监控图像边界框。
步骤二:根据步骤一得出的行人位置坐标,原始监控视频图像数据集中的图像标注样本坐标,计算两者坐标的交并比,计算公式如下:
Figure 314042DEST_PATH_IMAGE014
其中
Figure 775110DEST_PATH_IMAGE015
为交并比,
Figure DEST_PATH_IMAGE016
为:行人位置坐标,原始监控视频图像数据集中的图像标注样本坐标,两者矩形框面积的交集,
Figure 221266DEST_PATH_IMAGE016
为:行人位置坐标,原始监控视频图像数据集中的图像标注样本坐标,两者矩形框面积的并集。
第四阶段,行人重识别神经网络(Transformer)模型训练与行人识别:采用残差连接,对行人重识别神经网络(Transformer)迭代训练,得到行人重识别检测模型并识别出行人。
所述第四阶段具体为,行人重识别神经网络(Transformer)模型训练与行人识别,包括以下子步骤:
步骤一:由于行人重识别神经网络(Transformer)模型较大,防止模型在训练过程中梯度爆炸,梯度消失,模型采用残差连接方式,加速模型收敛,迭代训练,调整训练参数,得到行人重识别检测模型。
步骤二:根据步骤一训练得到的行人重识别检测模型,输入原始监控视频图像测试集进行预测并在图像中款选出行人,实现行人重识别。
参见图4,本发明实施例还提供了一种基于局部特征注意力的行人重识别装置,还包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的基于局部特征注意力的行人重识别方法。
本发明一种基于局部特征注意力的行人重识别装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图4所示,为本发明一种基于局部特征注意力的行人重识别装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图4所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的基于局部特征注意力的行人重识别方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
基于本发明一种基于局部特征注意力的行人重识别方法和装置,进行了如下实验:
步骤一:获取Market-1501 数据集,数据集在清华大学校园中采集,由6个摄像头(其中5个高清摄像头和1个低清摄像头)拍摄到的1501个行人、32668个检测到的行人矩形框,训练集有751人,包含12936张图像,平均每个人有17.2张训练数据;测试集有750人,包含19732 张图像,平均每个人有26.3 张测试数据。
步骤二:采用本发明提供的基于注意力机制的行人重识别方法,采用步骤一数据集,按照本发明具体实施方式步骤,检测19732张图片,识别出700 个行人,行人重识别率达到87.36%,并且根据实验,在不同摄像头下行人的姿态、外观、拍摄距离等存在差别,多数情况下无法获取可用的人脸图像,此时使用基于注意力机制的行人重识别方法可以提升行人重识别效果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种基于局部特征注意力的行人重识别方法,其特征在于,包括如下步骤:
S1:获取原始监控视频图像数据集,并将原始监控视频图像数据集按比例划分训练集与测试集;
S2:将原始监控视频图像训练集进行图像增强得到增强图像,并将所述增强图像转化成序列数据;
S3:使用行人重识别神经网络对增强图像进行特征序列提取,得到图像中所有物体特征序列;
S4:针对已提取的图像中所有物体特征序列,采用多头注意力机制捕捉行人局部特征序列;
S5:采用全连接层与激活函数,将行人局部特征序列通过权值矩阵组合成完整行人特征序列;
S6:将已得到行人特征序列进行预测,确定行人在图像中的位置坐标;
S7:根据已得到的行人位置坐标和原始监控视频图像数据集中的图像标注样本坐标,计算行人特征序列预测交并比;
S8:采用残差连接对行人重识别神经网络迭代训练,得到行人重识别检测模型;
S9:将测试集输入行人重识别检测模型输出行人识别结果。
2.如权利要求1所述的一种基于局部特征注意力的行人重识别方法,其特征在于:所述步骤S1中所述原始监控视频图像数据集包括图像标注样本、图像标注样本坐标文件、未标注样本。
3.如权利要求1所述的一种基于局部特征注意力的行人重识别方法,其特征在于:所述步骤S2的具体子步骤如下:
S21:将彩色图像转变为灰度图像;
S22:采用直方图均衡将视频监控图像从相对集中的灰度间隔转变为整个灰度范围内的均匀分布,采用非线性拉伸图像并重新分配图像像素值,使灰度范围大致相同;
S23:使用伽玛校正检测图像信号部分和浅色部分中的暗色,并增加二者的比率以提高图像对比度效果;
S24:将增强图像按照图像的高度宽度通道数进行切割,得到网格图像序列,将网格图像大小转换成行人重识别神经网络的可接收的输入大小,将每个网格图像序列转换成二维矩阵,作为行人重识别神经网络的输入。
4.如权利要求3所述的一种基于局部特征注意力的行人重识别方法,其特征在于:所述步骤S24中,所述网格图像序列长度等于网格图像大小乘以网格图像高度乘以网格图像宽度,采用线性网络将大小不相同的网格图像映射成可被行人重识别神经网络接收,且输入大小固定的带令牌特征的网格图像,把每个令牌特征的网格图像平铺构成序列,序列包含网格图像位置编码,再将每个网格图像序列转换成二维矩阵。
5.如权利要求1所述的一种基于局部特征注意力的行人重识别方法,其特征在于:所述步骤S3的具体过程为:通过计算和统计图像局部区域的梯度方向直方图构成特征序列,通过梯度的方向密度分布描述局部目标的表象和形状。
6.如权利要求1所述的一种基于局部特征注意力的行人重识别方法,其特征在于:所述步骤S4的具体过程为:针对网格图像每个像素,计算每个像素相邻的局部自注意力,采用局部多头自注意力机制,二维矩阵转换成并行矩阵计算,捕捉行人局部特征序列。
7.如权利要求1所述的一种基于局部特征注意力的行人重识别方法,其特征在于:所述步骤S5的具体过程为:采用二层全连接层与激活函数方式,针对已捕捉的行人特征序列经过第一层全连接层并激活,得到符合行人局部特征序列存在的部分神经元,根据提取到的行人局部特征序列进行组合并输入到第二层全连接层神经元处,经过组合得到完整行人特征序列。
8.如权利要求1所述的一种基于局部特征注意力的行人重识别方法,其特征在于:所述步骤S6的具体过程为:将行人特征序列输入行人重识别神经网络,采用多头注意力进行计算,检测行人特征序列元素有多少在网格图像中心点上,计算中心到网格图像边界的距离,从而得出行人位置坐标,根据得出的位置坐标画出行人在视频监控图像边界框。
9.一种基于局部特征注意力的行人重识别装置,其特征在于,包括以下模块:
获取原始监控视频图像样本集模块:用于获取原始数据集,包括标注样本、未标注样本、标注样本坐标文件;
图像预处理模块:用于对原始监控视频图像数据集进行图像预处理;
图像增强模块:用于训练集图像增强,得到对应的增强图像;
图像特征序列提取模块:用于提取增强图像特征序列;
行人特征序列捕捉模块:根据所述图像中所有物体特征序列,采用多头注意力机制捕捉得到行人局部特征序列;
全连接层模块:根据所述行人局部特征序列,通过权值矩阵组合成完整行人特征序列;
行人位置预测模块:根据所述完整行人特征序列,预测出所在图像中位置坐标;
交并比计算模块:根据所述行人在图像中的位置坐标,原始监控视频图像数据集中的图像标注样本坐标,计算两者坐标的交并比;
模型训练模块:采用残差连接,对所述行人重识别神经网络进行训练,得到行人重识别模型;图像行人识别模块:输入测试集使用行人重识别模型识别出行人。
10.一种基于局部特征注意力的行人重识别装置,其特征在于:所述装置包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-8任一项所述基于局部特征注意力的行人重识别方法。
CN202210714468.1A 2022-06-23 2022-06-23 一种基于局部特征注意力的行人重识别方法和装置 Active CN114783003B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202210714468.1A CN114783003B (zh) 2022-06-23 2022-06-23 一种基于局部特征注意力的行人重识别方法和装置
PCT/CN2022/116176 WO2023082784A1 (zh) 2022-06-23 2022-08-31 一种基于局部特征注意力的行人重识别方法和装置
US17/954,129 US11699290B1 (en) 2022-06-23 2022-09-27 Pedestrian re-identification method and apparatus based on local feature attention

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210714468.1A CN114783003B (zh) 2022-06-23 2022-06-23 一种基于局部特征注意力的行人重识别方法和装置

Publications (2)

Publication Number Publication Date
CN114783003A true CN114783003A (zh) 2022-07-22
CN114783003B CN114783003B (zh) 2022-09-20

Family

ID=82422346

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210714468.1A Active CN114783003B (zh) 2022-06-23 2022-06-23 一种基于局部特征注意力的行人重识别方法和装置

Country Status (3)

Country Link
US (1) US11699290B1 (zh)
CN (1) CN114783003B (zh)
WO (1) WO2023082784A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115240121A (zh) * 2022-09-22 2022-10-25 之江实验室 一种用于增强行人局部特征的联合建模方法和装置
WO2023082784A1 (zh) * 2022-06-23 2023-05-19 之江实验室 一种基于局部特征注意力的行人重识别方法和装置
US11810366B1 (en) 2022-09-22 2023-11-07 Zhejiang Lab Joint modeling method and apparatus for enhancing local features of pedestrians

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109784186B (zh) * 2018-12-18 2020-12-15 深圳云天励飞技术有限公司 一种行人重识别方法、装置、电子设备及计算机可读存储介质
CN115830637B (zh) * 2022-12-13 2023-06-23 杭州电子科技大学 一种基于姿态估计和背景抑制的遮挡行人重识别方法
CN116524602B (zh) * 2023-07-03 2023-09-19 华东交通大学 基于步态特征的换衣行人重识别方法及系统
CN117830564A (zh) * 2024-03-05 2024-04-05 之江实验室 一种姿态分布指导的三维虚拟人模型重建方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200226421A1 (en) * 2019-01-15 2020-07-16 Naver Corporation Training and using a convolutional neural network for person re-identification
CN111652066A (zh) * 2020-04-30 2020-09-11 北京航空航天大学 基于多自注意力机制深度学习的医疗行为识别方法
CN112818790A (zh) * 2021-01-25 2021-05-18 浙江理工大学 一种基于注意力机制与空间几何约束的行人重识别方法
CN113221625A (zh) * 2021-03-02 2021-08-06 西安建筑科技大学 一种利用深度学习的局部特征对齐行人重识别方法
CN113627266A (zh) * 2021-07-15 2021-11-09 武汉大学 基于Transformer时空建模的视频行人重识别方法
CN113936339A (zh) * 2021-12-16 2022-01-14 之江实验室 基于双通道交叉注意力机制的打架识别方法和装置
CN113989838A (zh) * 2021-10-26 2022-01-28 中山大学 行人重识别模型训练方法、识别方法、系统、装置及介质
US11270124B1 (en) * 2020-11-16 2022-03-08 Branded Entertainment Network, Inc. Temporal bottleneck attention architecture for video action recognition
CN114220124A (zh) * 2021-12-16 2022-03-22 华南农业大学 一种近红外-可见光跨模态双流行人重识别方法及系统
CN114359970A (zh) * 2022-01-12 2022-04-15 平安科技(深圳)有限公司 行人重识别方法、装置、电子设备及存储介质

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9117147B2 (en) * 2011-04-29 2015-08-25 Siemens Aktiengesellschaft Marginal space learning for multi-person tracking over mega pixel imagery
US10395385B2 (en) * 2017-06-27 2019-08-27 Qualcomm Incorporated Using object re-identification in video surveillance
CN108229292A (zh) * 2017-07-28 2018-06-29 北京市商汤科技开发有限公司 目标识别方法、装置、存储介质和电子设备
CN113361549A (zh) * 2020-03-04 2021-09-07 华为技术有限公司 一种模型更新方法以及相关装置
US20220121953A1 (en) * 2020-10-21 2022-04-21 Nec Laboratories America, Inc. Multi-task learning via gradient split for rich human analysis
CN114550022A (zh) * 2020-11-25 2022-05-27 京东方科技集团股份有限公司 模型训练方法及装置、电子设备和可读存储介质
CN112528812A (zh) * 2020-12-04 2021-03-19 京东方科技集团股份有限公司 行人跟踪的方法、行人跟踪装置以及行人跟踪系统
US20230095533A1 (en) * 2021-09-28 2023-03-30 The Hong Kong University of Science and Technoloy Enriched and discriminative convolutional neural network features for pedestrian re-identification and trajectory modeling
CN114783003B (zh) * 2022-06-23 2022-09-20 之江实验室 一种基于局部特征注意力的行人重识别方法和装置

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200226421A1 (en) * 2019-01-15 2020-07-16 Naver Corporation Training and using a convolutional neural network for person re-identification
CN111652066A (zh) * 2020-04-30 2020-09-11 北京航空航天大学 基于多自注意力机制深度学习的医疗行为识别方法
US11270124B1 (en) * 2020-11-16 2022-03-08 Branded Entertainment Network, Inc. Temporal bottleneck attention architecture for video action recognition
CN112818790A (zh) * 2021-01-25 2021-05-18 浙江理工大学 一种基于注意力机制与空间几何约束的行人重识别方法
CN113221625A (zh) * 2021-03-02 2021-08-06 西安建筑科技大学 一种利用深度学习的局部特征对齐行人重识别方法
CN113627266A (zh) * 2021-07-15 2021-11-09 武汉大学 基于Transformer时空建模的视频行人重识别方法
CN113989838A (zh) * 2021-10-26 2022-01-28 中山大学 行人重识别模型训练方法、识别方法、系统、装置及介质
CN113936339A (zh) * 2021-12-16 2022-01-14 之江实验室 基于双通道交叉注意力机制的打架识别方法和装置
CN114220124A (zh) * 2021-12-16 2022-03-22 华南农业大学 一种近红外-可见光跨模态双流行人重识别方法及系统
CN114359970A (zh) * 2022-01-12 2022-04-15 平安科技(深圳)有限公司 行人重识别方法、装置、电子设备及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HONGCHEN TAN 等: ""MHSA-Net: Multi-Head Self-Attention Network for Occluded Person Re-Identification"", 《ARXIV》 *
罗慧诚 等: ""Transformer框架下面向车辆重识别的特征对齐与判别性增强"", 《电视技术》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023082784A1 (zh) * 2022-06-23 2023-05-19 之江实验室 一种基于局部特征注意力的行人重识别方法和装置
US11699290B1 (en) 2022-06-23 2023-07-11 Zhejiang Lab Pedestrian re-identification method and apparatus based on local feature attention
CN115240121A (zh) * 2022-09-22 2022-10-25 之江实验室 一种用于增强行人局部特征的联合建模方法和装置
US11810366B1 (en) 2022-09-22 2023-11-07 Zhejiang Lab Joint modeling method and apparatus for enhancing local features of pedestrians
WO2024060321A1 (zh) * 2022-09-22 2024-03-28 之江实验室 一种用于增强行人局部特征的联合建模方法和装置

Also Published As

Publication number Publication date
US11699290B1 (en) 2023-07-11
WO2023082784A1 (zh) 2023-05-19
CN114783003B (zh) 2022-09-20

Similar Documents

Publication Publication Date Title
CN114783003B (zh) 一种基于局部特征注意力的行人重识别方法和装置
US9569694B2 (en) Detection of objects in an image using self similarities
US9104914B1 (en) Object detection with false positive filtering
US10534957B2 (en) Eyeball movement analysis method and device, and storage medium
Kim et al. Spatiotemporal saliency detection and its applications in static and dynamic scenes
Yuan A double mapping framework for extraction of shape-invariant features based on multi-scale partitions with AdaBoost for video smoke detection
Zhang et al. Pedestrian detection in infrared images based on local shape features
CN113065558A (zh) 一种结合注意力机制的轻量级小目标检测方法
Kawai et al. Person re-identification using view-dependent score-level fusion of gait and color features
WO2021051545A1 (zh) 基于行为识别模型的摔倒动作判定方法、装置、计算机设备及存储介质
Grundmann et al. 3D shape context and distance transform for action recognition
CN110580428A (zh) 图像处理方法、装置、计算机可读存储介质和电子设备
CN108009493B (zh) 基于动作增强的人脸防欺骗识别方法
KR101781358B1 (ko) 디지털 영상 내의 얼굴 인식을 통한 개인 식별 시스템 및 방법
WO2019033570A1 (zh) 嘴唇动作分析方法、装置及存储介质
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
CN114067444A (zh) 基于元伪标签和光照不变特征的人脸欺骗检测方法和系统
CN112580576A (zh) 基于多尺度光照不变性纹理特征的人脸欺骗检测方法及系统
CN114972976B (zh) 基于频域自注意力机制的夜间目标检测、训练方法及装置
US8094971B2 (en) Method and system for automatically determining the orientation of a digital image
Saranya et al. Face Mask Detection using CNN
Qi et al. A real-time face detection method based on blink detection
Chen et al. Head-shoulder detection using joint HOG features for people counting and video surveillance in library
Wang et al. Effective multi-resolution background subtraction
CN113240611B (zh) 一种基于图片序列的异物检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant