CN115240121A - 一种用于增强行人局部特征的联合建模方法和装置 - Google Patents

一种用于增强行人局部特征的联合建模方法和装置 Download PDF

Info

Publication number
CN115240121A
CN115240121A CN202211155651.9A CN202211155651A CN115240121A CN 115240121 A CN115240121 A CN 115240121A CN 202211155651 A CN202211155651 A CN 202211155651A CN 115240121 A CN115240121 A CN 115240121A
Authority
CN
China
Prior art keywords
image
pedestrian
neural network
pedestrians
convolution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211155651.9A
Other languages
English (en)
Other versions
CN115240121B (zh
Inventor
王宏升
陈�光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202211155651.9A priority Critical patent/CN115240121B/zh
Priority to PCT/CN2022/124009 priority patent/WO2024060321A1/zh
Publication of CN115240121A publication Critical patent/CN115240121A/zh
Priority to US18/072,002 priority patent/US11810366B1/en
Application granted granted Critical
Publication of CN115240121B publication Critical patent/CN115240121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种用于增强行人局部特征的联合建模方法和装置,包括以下步骤:S1:获取原始监控视频图像数据集,将原始监控视频图像数据集按比例划分训练集与测试集;S2:将监控视频图像训练集进行切割得到图像块向量序列;本发明采用多头注意力神经网络提取视频图像行人局部特征,使用通道卷积核学习图像通道权重参数,利用空间卷积在图像上扫描空间特征,增强行人局部特征提高行人识别率,采用前馈神经网络与激活函数,输入前馈神经网络经过线性层变换,并采用激活函数将行人概率分布映射成分类,识别出行人,输出行人在图像中位置坐标并框选出行人,实现行人重识别,使得能够获取可用的人脸图像。

Description

一种用于增强行人局部特征的联合建模方法和装置
技术领域
本发明涉及计算机视觉领域,特别涉及一种用于增强行人局部特征的联合建模方法和装置。
背景技术
行人重识别,是一种利用计算机视觉技术检测识别监控视频或图像中是否存在特定行人的技术。不同摄像头下行人的姿态、外观、拍摄距离等存在差别,通常情况下摄像头拍摄行人的姿态、外观、距离、清晰度等存在差别,多数情况下无法获取可用的人脸图像,无法识别行人,多数情况下无法获取可用的人脸图像,此时使用增强行人局部特征的联合建模方法和装置行人重识别技术实现行人识别与跟踪,广泛用于视频监控与安防领域。
发明内容
本发明的目的在于提供一种用于增强行人局部特征的联合建模方法和装置,以克服现有技术中的不足。
为实现上述目的,本发明提供如下技术方案:
本发明公开了一种用于增强行人局部特征的联合建模方法,包括以下步骤:
S1:获取原始监控视频图像数据集,将原始监控视频图像数据集按比例划分训练集与测试集;
S2:将监控视频图像训练集进行切割得到图像块向量序列;
S3:构建多头注意力神经网络,将图像块向量序列输入多头注意力神经网络,提取行人局部特征;
S4:构建增强通道特征神经网络,将图像输入增强通道特征神经网络,采用三通道图像卷积,捕捉行人图像通道之间差异特征;
S5:构建增强空间特征神经网络,将图像输入增强空间特征神经网络,采用空间卷积,扫描得到行人图像空间差异特征;
S6:将多头注意力神经网络的行人局部特征、增强通道特征神经网络的行人图像通道之间差异特征、增强空间特征神经网络的行人图像空间差异特征,交互拼接,进行联合建模,增强行人局部特征;
S7:将增强行人局部特征输入前馈神经网络,在图像中识别出行人;
S8:对联合建模得到的神经网络迭代训练,得到行人重识别联合模型并识别出行人。
作为优选的,所述步骤S1中原始监控视频图像数据集包括图像标注样本、图像标注样本坐标文件、未标注样本。
作为优选的,所述步骤S2包括如下子步骤:
S21:将监控视频图像按照图像的通道数进行分割,得到图像块;
S22:将图像块的高度与宽度转换成多头注意力神经网络固定的输入大小;
S23:将图像块平铺构成序列,得到图像块向量序列。
作为优选的,所述图像块向量序列的长度等于图像大小乘以图像高度乘以图像宽度,所述图像块向量序列包含图像块位置坐标,将序列转转换成矩阵,所述矩阵作为多头注意力神经网络的输入。
作为优选的,S31:计算单个注意力:对于步骤S3中图像块向量序列存在的查询矩阵、键矩阵、值矩阵,通过查询矩阵与键矩阵进行矩阵相乘得出注意力分数矩阵,将注意力分数矩阵作用于值矩阵,将两者矩阵相乘后经过激活函数得出单个注意力;
S32:构建多头注意力:针对图像块向量序列,分别计算每一个图像块向量序列的单个注意力,将每个图像块向量序列计算得出的单个注意力进行交互计算得到多头注意力;
S33:利用多头注意力提取行人局部特征:将图像块向量序列输入已构建的多头注意力神经网络,采用局部多头自注意力机制,计算每个图像的像素与相邻图像的像素局部自注意力,通过并行矩阵乘法计算,提取行人局部特征。
作为优选的,所述步骤S4包括如下子步骤:
S41:针对输入图像的三个通道,构建三通道增强图像卷积神经网络,三通道增强图像卷积神经网络包括三个卷积核,三个卷积核分别对应图像的三个通道;
S42:三个卷积核分别学习相对应图像通道的权重参数,输出三组不同的权重参数;
S43:三个卷积核之间独立计算,学习三个同通道之间的差异参数权重,得到三个通道特征空间图,将三个通道特征空间图交互计算得出行人图像通道特征。
作为优选的,所述步骤S5包括如下子步骤:
S51:定义一个二维卷积,将二维卷积在空间上分为两个子卷积核;
S52:使用两个子卷积核分别扫描图像空间特征,得到两个空间特征,将两个空间特征进行矩阵相乘得到行人图像空间差异特征。
作为优选的,所述步骤S6包括如下子步骤:
S61:增强通道特征神经网络至多头注意力神经网络的交互拼接:首先卷积网络的输出经过全局平均池化层,使用第一层三通道卷积进行图像通道间的权重参数学习,经过第一层激活函数之后再使用第二层三通道卷积变换维度,最后经过激活函数将特征值转化为概率分布,并将概率分布输入多头自注意力分支中计算;
S62:多头注意力神经网络至增强通道特征神经网络的交互拼接:多头注意力计算的输出经过第一层三通道卷积,学习三通道之间不同的权重参数,并将图像道数转换为一,经过第一层激活函数之后再经过第二层三通道卷积,减少学习到的权重参数,经过第二层激活函数,变为空间维度上的概率分布,作为增强通道特征卷积网络分支中的输出;
S63:增强空间特征神经网络至增强通道特征神经网络的交互拼接:增强空间特征神经网络的二维卷积的两个子卷积输出行人多维卷积空间特征矩阵,将行人多维空间特征矩阵转换成二维空间特征矩阵,通过矩阵乘法再经过激活函数,作为增强通道特征神经网络的输出;
S64:将多头注意力的输出、增强通道特征卷积的输出、空间卷积的输出输入多层感知机,行人局部特征通过线性层映射到并行分支进行特征融合计算,得到增强行人局部特征。
作为优选的,所述步骤S7包括如下子步骤:
S71:采用前馈神经网络与激活函数方式,针对已得出的增强行人局部特征输入前馈神经网络中,经过线性层变换,并采用激活函数将行人概率分布映射成分类,识别出行人;
S72:根据已识别的行人和原始监控视频图像数据集中的图像标注样本坐标,计算两者坐标的交并比、计算精确率与召回率,其中精确率是针对已识别出的行人,表示预测为正的样本中真正的行人的比例;召回率是针对原始监控视频图像数据集中的图像标注样本,表示样本中的正例中被正确识别行人比例。
作为优选的,所述步骤S8包括如下子步骤:
S81:对联合建模得到的神经网络采用残差连接方式,加速模型收敛,迭代训练,调整训练参数,得到行人重识别联合模型;
S82:根据步骤S81训练得到的行人重识别联合模型,输入原始监控视频图像测试集进行预测,并在图像中框选出行人,实现行人重识别。
本发明公开了一种用于增强行人局部特征的联合建模装置,包括以下模块:
获取原始监控视频图像样本集模块,用于获取原始数据集;
图像分割模块,将图像按照通分割得到图像块;
行人局部特征模块,用于构建多头注意力神经网络,提取行人局部特征;
行人图像通道之间差异特征模块,用于构建增强通道特征神经网络,采用卷积神经网络,捕捉行人图像通道之间差异特征;
行人图像空间差异特征模块,用于构建增强空间特征神经网络,扫描行人图像空间差异特征;
增强行人局部特征模块,用于将多头注意力神经网络的行人局部特征、增强通道特征神经网络的行人图像通道之间差异特征、增强空间特征神经网络的行人图像空间差异特征,交互拼接,进行联合建模;
行人识别模块,用于构建前馈神经网络,增强行人局部特征经过线性变换映射成行人概率输出;
模型训练模块:用于对联合建模得到的神经网络迭代训练,更新模型参数,直到模型训练收敛,得到行人识别职合模型;
图像行人识别模块:将测试集行人识别职合模型中识别出行人。
本发明公开了一种用于增强行人局部特征的联合建模装置,所述装置包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述用于增强行人局部特征的联合建模方法。
本发明的有益效果:本发明一种用于增强行人局部特征的联合建模方法和装置实现行人重识别,采用多头注意力神经网络提取视频图像行人局部特征,使用通道卷积核学习图像通道权重参数,利用空间卷积在图像上扫描空间特征,增强行人局部特征提高行人识别率,采用前馈神经网络与激活函数,输入前馈神经网络经过线性层变换,并采用激活函数将行人概率分布映射成分类,识别出行人,输出行人在图像中位置坐标并框选出行人,实现行人重识别,使得能够获取可用的人脸图像。
附图说明
图1是本发明实施例的整体流程图;
图2是本发明实施例监控视频图像行人局部特提取示意图;
图3是本发明实施例行人图像通道特征捕捉示意图;
图4是本发明实施例行人图像空间特征扫描示意图;
图5是本发明实施例增强行人局部特征示意图;
图6是本发明实施例装置示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面通过附图及实施例,对本发明进行进一步详细说明。但是应该理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
参阅图1,本发明一种用于增强行人局部特征的联合建模的行人重识别方法,针对视频图像进进行分割得到图像块;将图像块序列输入多头注意力神经网络,提取行人局部特征;图像块输入三通道卷积神经网络,捕捉行人图像通道特征;构建增强通道特征神经网络,捕捉行人图像通道之间差异特征;局部特征、图通道特、空间特征交互拼接,联合建模;将增强行人局部特征输入前馈神经网络,在图像中识别出行人;对多头注意力神经网络与卷积神经网络迭代训练,得到行人重识别联合模型;将测试集输入行人重识别联合模型输出行人识别结果。使用该方法和装置能够跨多个摄像头监控视频与图像,对目标行人进行跟踪并识别。
通过以下步骤对本发明进行详细说明。
本发明是一种用于增强行人局部特征的联合建模方法,整个过程分为八个阶段:
第一阶段,获取原始监控视频图像数据集,将原始监控视频图像数据集按比例划分训练集与测试集;
第二阶段,监控视频图像分割:将原始监控视频图像训练集图像按照图像通道进行分割得到图像块;
第三阶段,监控视频图像行人局部特提取:采用多头注意力神经网络(Transformer)对图像块进行特征提取;
第四阶段,行人图像通道特征捕捉:采用三通道图像卷积,捕捉图像通道特征;
第五阶段,行人图像空间特征扫描:采用空间卷积,扫描图像空间特征;
第六阶段,增强行人局部特征:局部特征、图通道特、空间特征交互拼接,进行联合建模,增强行人局部特征;
第七阶段,图像中识别出行人:采用前馈神经网络与激活函数,针对已得出的增强行人局部特征输入前馈神经网络中,经过线性层变换,并采用激活函数将行人概率分布映射成分类,识别出行人;
第八阶段,行人重识别联合模型与行人识别:对行人重识别联合模型迭代训练,得到行人重识别联合模型并识别出行人。
进一步地,所述第一阶段中原始监控视频图像数据集包括图像标注样本、图像标注样本坐标文件、未标注样本。
进一步地,所述第二阶段具体为:将训练集中每张视频监控图像按照图像高度乘以宽度乘以通道数得出数量,并按照得出的数量进行图像分割,并且每个图像块拥有唯一的标识,采用线性变换将大小不相同的图像块,映射成多头注意力神经网络的指定的输入大小,把每个拥有唯一的标识的图像块平铺构成序列,得到图像块序列,序列长度等于图像块数量乘以图像块高度乘以图像块宽度,序列包含图像块位置坐标,再将序列转转换成矩阵,矩阵作为多头注意力神经网络(Transformer)的输入。
进一步地,所述第三阶段具体为:将矩阵输入多头注意力神经网络(Transformer)行人局部特征提取,参阅图2,包括以下子步骤:
步骤一:首先计算单个注意力,对于图像块向量序列存在查询(Query)矩阵、键(Key)矩阵、值(Value)矩阵,通过查询(Query)矩阵与键(Key)矩阵进行矩阵相乘得出注意力分数矩阵,将注意力分数矩阵作用于值(Value)矩阵,两者矩阵相乘之后经过激活函数得出单个注意力;计算多头注意力,针对图像块向量序列,分别计算每一个图像块向量序列的单个注意力,将每个图像块向量序列计算得出的单个注意力进行交互计算得到多头注意力。
步骤二:将图像块向量序列输入多头注意力神经网络,计算每个图像的像素与相邻图像的像素局部自注意力,通过并行矩阵乘法计算,捕捉行人局部特征,计算方式如下:
1、将向量特征Query,Key,Value输入多头层,采用
Figure DEST_PATH_IMAGE002
表示输入权重向量,通过Query和Key 进行矩阵相乘计算,并通过激活函数(Softmax)计算向量注意力分布;
2、
Figure DEST_PATH_IMAGE004
通过激活函数(Softmax)计算多头注意力权重;
3、
Figure DEST_PATH_IMAGE006
,其中
Figure DEST_PATH_IMAGE008
为注意力概率分布,
Figure DEST_PATH_IMAGE010
为注意力评分;
4、计算单个注意力:
Figure DEST_PATH_IMAGE012
5、多头注意力:
Figure DEST_PATH_IMAGE014
其中
Figure DEST_PATH_IMAGE016
表示多个注意力头。
进一步地,所述第四阶段具体为:将图像输入三通道图像卷积神经网络,捕捉行人图像通道特征,参阅图3,分为以下子步骤:
步骤一:针对输入图像的三个通道,构建三通道图像卷积神经网络,三通道图像卷积神经网络包括三个卷积核,三个卷积核分别对应图像的三个通道;三个卷积核分别学习相对应图像通道的权重参数,输出三组不同的权重参数,卷积核的尺寸为 1×1×3,其中3为输入的图像的通道数;将图像输入三通道图像卷积神经网络中,输入的图像在卷积深度方向上进行加权组合,经过3个1×1×3的卷积核后,输出3个局部特征,局部特征包含3个通道之间的权重参数,计算公式如下:
Figure DEST_PATH_IMAGE018
其中:
Figure DEST_PATH_IMAGE020
为输出矩阵,I为输入矩阵,K为卷积核矩阵,卷积核矩阵K形状为
Figure DEST_PATH_IMAGE022
Figure DEST_PATH_IMAGE024
表示输入矩阵的元素
Figure DEST_PATH_IMAGE026
与核矩阵的元素
Figure DEST_PATH_IMAGE028
相乘,
Figure DEST_PATH_IMAGE030
分别在矩阵的横向和纵向累加求和。
步骤二:三个卷积核之间独立计算,学习三个同通道之间的差异参数权重,得到三个通道特征空间图,将三个通道特征空间图交互计算得出行人图像通道特征。
进一步地,所述第五阶段具体为:构建增强空间特征神经网络,扫描行人图像空间差异特征,参阅图4,分为以下子步骤:
步骤一:将二维卷积3×3在空间上分为两个子卷积核,第一个卷积核大小为3×1,第二个卷积核大小为1×3;
步骤二:使用两个子卷积核分别扫描图像空间特征,得到两个空间特征图,将两个子卷积矩阵相乘得到图像空间特征。
进一步地,所述第六阶段具体为:多头注意力神经网络的输出、通道卷积神经网络的输出、增强空间特征神经网络的输出,交互拼接,联合建模,参阅图5,分为以下子步骤:
步骤一:卷积至多头注意力的交互拼接,卷积网络的输出先经过全局平均池化层,首先经过第一层三通道卷积并使用1×1卷积核进行通道间的权重特征提取,采用激活函数(GELU),其次经过第二层1×1三通道卷积变换维度减少参数,最后经过激活函数(Softmax)将特征值转化为概率分布,将概率分布作为多头自注意力Value输入并计算。
步骤二:多头注意力至卷积分支的交互拼接,多头注意力计算的输出,经过第一层三通道1×1卷积,捕捉局部特征,采用激活函数(GELU),接着经过第二层1×1三通道卷积变换维度减少参数,并将图像道数转换为一,通过激活函数(Softmax)之后变为空间维度上的概率分布,作为卷积分支中的输出。
步骤三:增强空间特征神经网络至增强通道特征神经网络的交互拼接,增强空间特征神经网络的二维卷积的两个子卷积输出行人多维卷积空间特征矩阵,将行人多维空间特征矩阵转换成二维空间特征矩阵,通过矩阵乘法再经过激活函数(Softmax),作为增强通道特征神经网络的输出。
步骤四:将多头注意力的输出、通道卷积的输出、空间卷积的输出输入多层感知机,行人局部特征通过线性层映射到并行分支进行特征融合计算,得到增强行人局部特征,计算公式如下:
Figure DEST_PATH_IMAGE032
Figure DEST_PATH_IMAGE034
其中:
Figure DEST_PATH_IMAGE036
为多头注意力输出,
Figure DEST_PATH_IMAGE038
为卷积输出,
Figure DEST_PATH_IMAGE040
为拼接,
Figure DEST_PATH_IMAGE042
为权重,
Figure DEST_PATH_IMAGE044
为损失,
Figure DEST_PATH_IMAGE046
为卷积,
Figure DEST_PATH_IMAGE048
Figure DEST_PATH_IMAGE050
为特征向量,
Figure DEST_PATH_IMAGE052
为线性层,
Figure DEST_PATH_IMAGE054
为多层感知机。
进一步地,所述第七阶段具体为:图像中识别出行人,分为以下子步骤:
步骤一:采用前馈神经网络与激活函数(Softmax),针对已得出的增强行人局部特征输入前馈神经网络中,经过线性层变换,并采用激活函数(Softmax)将行人概率分布映射成分类,识别出行人;
步骤二:根据已识别的行人,原始监控视频图像数据集中的图像标注样本坐标,计算两者坐标的交并比;计算精确率与召回率,精确率是针已识别出的行人,表示预测为正的样本中有多少是真正的行人;召回率是针对原始监控视频图像数据集中的图像标注样本,表示样本中的正例有多少行人被正确识别。
进一步地,所述第八阶段具体为:行人重识别联合模型与行人识别,分为以下子步骤:
步骤一:防止行人重识别联合模型在训练过程中梯度爆炸,梯度消失,采用残差连接方式,加速模型收敛,迭代训练,调整训练参数,得到行人重识别联合模型;
步骤二:根据步骤一训练得到的行人重识别联合模型,输入原始监控视频图像测试集进行预测并在图像中框选出行人,实现行人重识别。
本发明实施例还提供了一种用于增强行人局部特征的联合建模装置,包括以下模块:获取原始监控视频图像样本集模块,用于获取原始数据集;图像分割模块,将图像按照通分割得到图像块;行人局部特征模块,构建多头注意力神经网络,提取行人局部特征;行人图像通道之间差异特征模块,构建增强通道特征神经网络,捕捉行人图像通道之间差异特征;行人图像空间差异特征模块,构建增强空间特征神经网络,扫描行人图像空间差异特征;增强行人局部特征模块,将多头注意力神经网络的行人局部特征、增强通道特征神经网络的行人图像通道之间差异特征、增强空间特征神经网络的行人图像空间差异特征,交互拼接,进行联合建模;行人识别模块,构建前馈神经网络,增强行人局部特征经过线性变换映射成行人概率输出;模型训练模块:将卷积神经网络与多头注意力神经网络迭代训练,更新模型参数,直到模型训练收敛,得到行人识别职合模型;图像行人识别模块:将测试集行人识别职合模型中识别出行人。
参见图6,本发明实施例还提供了一种用于增强行人局部特征的联合建模装置,还包括存储器和一个或多个处理器,存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现上述实施例中的用于增强行人局部特征的联合建模方法。
本发明一种用于增强行人局部特征的联合建模装置的实施例可以应用在任意具备数据处理能力的设备上,该任意具备数据处理能力的设备可以为诸如计算机等设备或装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在任意具备数据处理能力的设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图6所示,为本发明一种用于增强行人局部特征的联合建模装置所在任意具备数据处理能力的设备的一种硬件结构图,除了图6所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本发明实施例还提供一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述实施例中的用于增强行人局部特征的联合建模方法。
所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是任意具备数据处理能力的设备的外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介质还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换或改进等,均应包含在本发明的保护范围之内。

Claims (12)

1.一种用于增强行人局部特征的联合建模方法,其特征在于:包括以下步骤:
S1:获取原始监控视频图像数据集,将原始监控视频图像数据集按比例划分训练集与测试集;
S2:将监控视频图像训练集进行切割得到图像块向量序列;
S3:构建多头注意力神经网络,将图像块向量序列输入多头注意力神经网络,提取行人局部特征;
S4:构建增强通道特征神经网络,将图像输入增强通道特征神经网络,采用三通道图像卷积,捕捉行人图像通道之间差异特征;
S5:构建增强空间特征神经网络,将图像输入增强空间特征神经网络,采用空间卷积,扫描得到行人图像空间差异特征;
S6:将多头注意力神经网络的行人局部特征、增强通道特征神经网络的行人图像通道之间差异特征、增强空间特征神经网络的行人图像空间差异特征,交互拼接,进行联合建模,增强行人局部特征;
S7:将增强行人局部特征输入前馈神经网络,在图像中识别出行人;
S8:对联合建模得到的神经网络迭代训练,得到行人重识别联合模型并识别出行人。
2.如权利要求1所述的一种用于增强行人局部特征的联合建模方法,其特征在于:所述步骤S1中原始监控视频图像数据集包括图像标注样本、图像标注样本坐标文件、未标注样本。
3.如权利要求1所述的一种用于增强行人局部特征的联合建模方法,其特征在于:所述步骤S2包括如下子步骤:
S21:将监控视频图像按照图像的通道数进行分割,得到图像块;
S22:将图像块的高度与宽度转换成多头注意力神经网络固定的输入大小;
S23:将图像块平铺构成序列,得到图像块向量序列。
4.如权利要求1所述的一种用于增强行人局部特征的联合建模方法,其特征在于:所述图像块向量序列的长度等于图像大小乘以图像高度乘以图像宽度,所述图像块向量序列包含图像块位置坐标,将序列转转换成矩阵,所述矩阵作为多头注意力神经网络的输入。
5.如权利要求1所述的一种用于增强行人局部特征的联合建模方法,其特征在于:所述步骤S3包括如下子步骤:
S31:计算单个注意力:对于步骤S3中图像块向量序列存在的查询矩阵、键矩阵、值矩阵,通过查询矩阵与键矩阵进行矩阵相乘得出注意力分数矩阵,将注意力分数矩阵作用于值矩阵,将两者矩阵相乘后经过激活函数得出单个注意力;
S32:构建多头注意力:针对图像块向量序列,分别计算每一个图像块向量序列的单个注意力,将每个图像块向量序列计算得出的单个注意力进行交互计算得到多头注意力;
S33:利用多头注意力提取行人局部特征:将图像块向量序列输入已构建的多头注意力神经网络,采用局部多头自注意力机制,计算每个图像的像素与相邻图像的像素局部自注意力,通过并行矩阵乘法计算,提取行人局部特征。
6.如权利要求1所述的一种用于增强行人局部特征的联合建模方法,其特征在于:所述步骤S4包括如下子步骤:
S41:针对输入图像的三个通道,构建三通道增强图像卷积神经网络,三通道增强图像卷积神经网络包括三个卷积核,三个卷积核分别对应图像的三个通道;
S42:三个卷积核分别学习相对应图像通道的权重参数,输出三组不同的权重参数;
S43:三个卷积核之间独立计算,学习三个同通道之间的差异参数权重,得到三个通道特征空间图,将三个通道特征空间图交互计算得出行人图像通道特征。
7.如权利要求1所述的一种用于增强行人局部特征的联合建模方法,其特征在于:所述步骤S5包括如下子步骤:
S51:定义一个二维卷积,将二维卷积在空间上分为两个子卷积核;
S52:使用两个子卷积核分别扫描图像空间特征,得到两个空间特征,将两个空间特征进行矩阵相乘得到行人图像空间差异特征。
8.如权利要求1所述的一种用于增强行人局部特征的联合建模方法,其特征在于:所述步骤S6包括如下子步骤:
S61:增强通道特征神经网络至多头注意力神经网络的交互拼接:首先卷积网络的输出经过全局平均池化层,使用第一层三通道卷积进行图像通道间的权重参数学习,经过第一层激活函数之后再使用第二层三通道卷积变换维度,最后经过激活函数将特征值转化为概率分布,并将概率分布输入多头自注意力分支中计算;
S62:多头注意力神经网络至增强通道特征神经网络的交互拼接:多头注意力计算的输出经过第一层三通道卷积,学习三通道之间不同的权重参数,并将图像道数转换为一,经过第一层激活函数之后再经过第二层三通道卷积,减少学习到的权重参数,经过第二层激活函数,变为空间维度上的概率分布,作为增强通道特征卷积网络分支中的输出;
S63:增强空间特征神经网络至增强通道特征神经网络的交互拼接:增强空间特征神经网络的二维卷积的两个子卷积输出行人多维卷积空间特征矩阵,将行人多维空间特征矩阵转换成二维空间特征矩阵,通过矩阵乘法再经过激活函数,作为增强通道特征神经网络的输出;
S64:将多头注意力的输出、增强通道特征卷积的输出、空间卷积的输出输入多层感知机,行人局部特征通过线性层映射到并行分支进行特征融合计算,得到增强行人局部特征。
9.如权利要求1所述的一种用于增强行人局部特征的联合建模方法,其特征在于:所述步骤S7包括如下子步骤:
S71:采用前馈神经网络与激活函数方式,针对已得出的增强行人局部特征输入前馈神经网络中,经过线性层变换,并采用激活函数将行人概率分布映射成分类,识别出行人;
S72:根据已识别的行人和原始监控视频图像数据集中的图像标注样本坐标,计算两者坐标的交并比、计算精确率与召回率,其中精确率是针对已识别出的行人,表示预测为正的样本中真正的行人的比例;召回率是针对原始监控视频图像数据集中的图像标注样本,表示样本中的正例中被正确识别行人比例。
10.如权利要求1所述的一种用于增强行人局部特征的联合建模方法,其特征在于:所述步骤S8包括如下子步骤:
S81:对联合建模得到的神经网络采用残差连接方式,加速模型收敛,迭代训练,调整训练参数,得到行人重识别联合模型;
S82:根据步骤S81训练得到的行人重识别联合模型,输入原始监控视频图像测试集进行预测,并在图像中框选出行人,实现行人重识别。
11.一种用于增强行人局部特征的联合建模装置,其特征在于,包括以下模块:
获取原始监控视频图像样本集模块,用于获取原始数据集;
图像分割模块,将图像按照通分割得到图像块;
行人局部特征模块,用于构建多头注意力神经网络,提取行人局部特征;
行人图像通道之间差异特征模块,用于构建增强通道特征神经网络,采用卷积神经网络,捕捉行人图像通道之间差异特征;
行人图像空间差异特征模块,用于构建增强空间特征神经网络,扫描行人图像空间差异特征;
增强行人局部特征模块,用于将多头注意力神经网络的行人局部特征、增强通道特征神经网络的行人图像通道之间差异特征、增强空间特征神经网络的行人图像空间差异特征,交互拼接,进行联合建模;
行人识别模块,用于构建前馈神经网络,增强行人局部特征经过线性变换映射成行人概率输出;
模型训练模块:用于对联合建模得到的神经网络迭代训练,更新模型参数,直到模型训练收敛,得到行人识别职合模型;
图像行人识别模块:将测试集行人识别职合模型中识别出行人。
12.一种用于增强行人局部特征的联合建模装置,其特征在于:所述装置包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-10任一项所述用于增强行人局部特征的联合建模方法。
CN202211155651.9A 2022-09-22 2022-09-22 一种用于增强行人局部特征的联合建模方法和装置 Active CN115240121B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202211155651.9A CN115240121B (zh) 2022-09-22 2022-09-22 一种用于增强行人局部特征的联合建模方法和装置
PCT/CN2022/124009 WO2024060321A1 (zh) 2022-09-22 2022-10-09 一种用于增强行人局部特征的联合建模方法和装置
US18/072,002 US11810366B1 (en) 2022-09-22 2022-11-30 Joint modeling method and apparatus for enhancing local features of pedestrians

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211155651.9A CN115240121B (zh) 2022-09-22 2022-09-22 一种用于增强行人局部特征的联合建模方法和装置

Publications (2)

Publication Number Publication Date
CN115240121A true CN115240121A (zh) 2022-10-25
CN115240121B CN115240121B (zh) 2023-01-03

Family

ID=83667112

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211155651.9A Active CN115240121B (zh) 2022-09-22 2022-09-22 一种用于增强行人局部特征的联合建模方法和装置

Country Status (2)

Country Link
CN (1) CN115240121B (zh)
WO (1) WO2024060321A1 (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111507217A (zh) * 2020-04-08 2020-08-07 南京邮电大学 一种基于局部分辨特征融合的行人重识别方法
CN111539370A (zh) * 2020-04-30 2020-08-14 华中科技大学 一种基于多注意力联合学习的图像行人重识别方法和系统
CN112818931A (zh) * 2021-02-26 2021-05-18 中国矿业大学 基于多粒度深度特征融合的多尺度行人重识别方法
US20210201010A1 (en) * 2019-12-31 2021-07-01 Wuhan University Pedestrian re-identification method based on spatio-temporal joint model of residual attention mechanism and device thereof
CN113516012A (zh) * 2021-04-09 2021-10-19 湖北工业大学 一种基于多层级特征融合的行人重识别方法及系统
CN113723366A (zh) * 2021-10-25 2021-11-30 山东力聚机器人科技股份有限公司 一种行人重识别方法、装置及计算机设备
CN114783003A (zh) * 2022-06-23 2022-07-22 之江实验室 一种基于局部特征注意力的行人重识别方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180150704A1 (en) * 2016-11-28 2018-05-31 Kwangwoon University Industry-Academic Collaboration Foundation Method of detecting pedestrian and vehicle based on convolutional neural network by using stereo camera
CN111368815B (zh) * 2020-05-28 2020-09-04 之江实验室 一种基于多部件自注意力机制的行人重识别方法
CN112836646B (zh) * 2021-02-05 2023-04-28 华南理工大学 一种基于通道注意力机制的视频行人重识别方法及应用
CN113221625B (zh) * 2021-03-02 2023-04-07 西安建筑科技大学 一种利用深度学习的局部特征对齐行人重识别方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210201010A1 (en) * 2019-12-31 2021-07-01 Wuhan University Pedestrian re-identification method based on spatio-temporal joint model of residual attention mechanism and device thereof
CN111507217A (zh) * 2020-04-08 2020-08-07 南京邮电大学 一种基于局部分辨特征融合的行人重识别方法
CN111539370A (zh) * 2020-04-30 2020-08-14 华中科技大学 一种基于多注意力联合学习的图像行人重识别方法和系统
CN112818931A (zh) * 2021-02-26 2021-05-18 中国矿业大学 基于多粒度深度特征融合的多尺度行人重识别方法
CN113516012A (zh) * 2021-04-09 2021-10-19 湖北工业大学 一种基于多层级特征融合的行人重识别方法及系统
CN113723366A (zh) * 2021-10-25 2021-11-30 山东力聚机器人科技股份有限公司 一种行人重识别方法、装置及计算机设备
CN114783003A (zh) * 2022-06-23 2022-07-22 之江实验室 一种基于局部特征注意力的行人重识别方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HAO XIA等: ""Pedestrian detection algorithm based on multi-scale feature extraction and attention feature fusion"", 《DIGITAL SIGNAL PROCESSING》 *
陈勇等: ""基于特征通道和空间联合注意机制的遮挡行人检测方法"", 《电子与信息学报》 *

Also Published As

Publication number Publication date
WO2024060321A1 (zh) 2024-03-28
CN115240121B (zh) 2023-01-03

Similar Documents

Publication Publication Date Title
Mou et al. Relation matters: Relational context-aware fully convolutional network for semantic segmentation of high-resolution aerial images
US11810366B1 (en) Joint modeling method and apparatus for enhancing local features of pedestrians
CN114783003B (zh) 一种基于局部特征注意力的行人重识别方法和装置
CN114202672A (zh) 一种基于注意力机制的小目标检测方法
CN110781350B (zh) 一种面向全画面监控场景的行人检索方法及系统
CN110782420A (zh) 一种基于深度学习的小目标特征表示增强方法
CN112183468A (zh) 一种基于多注意力联合多级特征的行人再识别方法
CN110751018A (zh) 一种基于混合注意力机制的群组行人重识别方法
CN110390308B (zh) 一种基于时空对抗生成网络的视频行为识别方法
CN114120363A (zh) 基于背景及姿态归一化的行人跨镜重识别方法及系统
CN115578378A (zh) 红外与可见光图像融合的光伏缺陷检测方法
CN112396036A (zh) 一种结合空间变换网络和多尺度特征提取的遮挡行人重识别方法
CN115578590A (zh) 基于卷积神经网络模型的图像识别方法、装置及终端设备
Wu et al. SRCANet: Stacked residual coordinate attention network for infrared ship detection
CN111368637A (zh) 一种基于多掩模卷积神经网络的搬运机器人识别目标方法
CN114037046A (zh) 神经网络模型的蒸馏方法、装置及电子系统
Zheng et al. Template-aware transformer for person reidentification
CN117576724A (zh) 一种无人机飞鸟检测方法、系统、设备和介质
CN116503399A (zh) 基于yolo-afps的绝缘子污闪检测方法
CN115240121B (zh) 一种用于增强行人局部特征的联合建模方法和装置
CN115690488A (zh) 基于卷积神经网络模型的图像识别方法、装置及终端设备
CN112633089B (zh) 一种视频行人重识别方法、智能终端及存储介质
Huang et al. Temporally-aggregating multiple-discontinuous-image saliency prediction with transformer-based attention
Wang et al. Insulator defect detection based on improved you-only-look-once v4 in complex scenarios
CN116030272B (zh) 一种基于信息抽取的目标检测方法、系统和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant