CN112560831B - 一种基于多尺度空间校正的行人属性识别方法 - Google Patents

一种基于多尺度空间校正的行人属性识别方法 Download PDF

Info

Publication number
CN112560831B
CN112560831B CN202110222454.3A CN202110222454A CN112560831B CN 112560831 B CN112560831 B CN 112560831B CN 202110222454 A CN202110222454 A CN 202110222454A CN 112560831 B CN112560831 B CN 112560831B
Authority
CN
China
Prior art keywords
scale
pedestrian
features
image data
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110222454.3A
Other languages
English (en)
Other versions
CN112560831A (zh
Inventor
尚天淇
彭德中
陈琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan University
Original Assignee
Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan University filed Critical Sichuan University
Priority to CN202110222454.3A priority Critical patent/CN112560831B/zh
Publication of CN112560831A publication Critical patent/CN112560831A/zh
Application granted granted Critical
Publication of CN112560831B publication Critical patent/CN112560831B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/259Fusion by voting

Abstract

本发明公开了一种基于多尺度空间校正的行人属性识别方法,该方法包括获取行人图像数据,并进行预处理;构建包含特征金字塔结构、空间校正模块和多尺度特征融合模块的行人属性识别网络模型,采用预处理后的行人图像数据进行模型训练;利用训练后的行人属性识别网络模型对待识别行人图像中的行人属性进行识别。本发明利用空间校正模块将特征金字塔中的相邻特征同时输入,利用小尺度的高层语义信息指导大尺度的低层进行特征转换;并利用特征融合模块,将特征金字塔中所有尺度的特征融合,建立多尺度空间关联依赖关系,显著提高小目标、低分辨率图像识别效果。

Description

一种基于多尺度空间校正的行人属性识别方法
技术领域
本发明涉及行人属性识别技术领域,具体涉及一种基于多尺度空间校正的行人属性识别方法。
背景技术
随着社会对安防领域的重视和安防领域的不断发展,安防和AI结合得日益紧密。其中,智能视频分析受到广泛的关注,视频图像是当今社会最广泛的信息载体,特别是在视频监控中,发挥着重要的信息采集和记录的作用。视频是典型的非结构化数据,需要智能化算法来辅助进行结构化分析。在视频监控中,人是安防工作的主体,在安防工作中实现对行人目标和其属性特征的有效识别,那将会极大提高安防工作的应对能力。
更具体来说,行人属性是一种关于人的可检索语义描述,可作为软生物特征应用在视频监控中。对于给定的人物图像,行人属性识别的目的是从预先定义的属性列表中预测一组描述该人物特征的属性。与方向梯度直方图、局部二值模式等低级特征不同,属性可以看作是高级语义信息,对视角变化和观察条件的变化具有更强的鲁棒性。因此,计算机视觉领域许多算法,如行人重识别、行人检测,都会集成行人的属性以提升算法的鲁棒性。
局部区域特征对于细粒度属性分类十分重要,但由于细粒度属性(例如鞋子、眼镜等)在图像中占比较小,识别比较困难。同时,高质量的监控摄像头价格昂贵,图像的分辨率通常很低,加之开放环境应用中存在人像遮挡、镜头模糊等问题,使得有效提取小区域的特征更加困难。因此在这种复杂场景低分辨率情况的图片下,有效提取小区域属性特征是一个关键问题。
发明内容
针对现有技术中的上述不足,本发明提供了一种基于多尺度空间校正的行人属性识别方法。
为了达到上述发明目的,本发明采用的技术方案为:
一种基于多尺度空间校正的行人属性识别方法,包括以下步骤:
S1、获取行人图像数据,并进行预处理;
S2、构建包含特征金字塔结构、空间校正模块和多尺度特征融合模块的行人属性识别网络模型,采用预处理后的行人图像数据进行模型训练;
S3、利用训练后的行人属性识别网络模型对待识别行人图像中的行人属性进行识别。
该方案的技术效果是:本发明利用空间校正模块将特征金字塔中的相邻特征同时输入,利用小尺度的高层语义信息指导大尺度的低层进行特征转换;并利用特征融合模块,将特征金字塔中所有尺度的特征融合,建立多尺度空间关联依赖关系,显著提高小目标、低分辨率图像识别效果。
进一步地,所述步骤S1具体包括以下分步骤:
S11、采集视频监控图像,并利用行人目标检测算法进行目标裁剪,得到行人图像数据;
S12、对行人图像数据进行人工标注;
S13、对标注后的行人图像数据进行归一化、尺度放缩、填充、随机裁剪、水平翻转或垂直翻转以及图片格式张量转换的图像预处理。
该进一步方案的有益效果是:对训练进行有效扩充,有效避免深度卷积网络过拟合,从而实现更好的泛化性能。
进一步地,所述步骤S2采用预处理后的行人图像数据进行模型训练具体包括以下分步骤:
S21、利用特征金字塔结构提取预处理后的行人图像数据的多尺度图像特征;
S22、利用空间校正模块将特征金字塔结构中相邻的不同尺度特征进行初步融合和空间校准;
S23、利用多尺度特征融合模块将经过空间校准后的多尺度图像特征进行多尺度特征融合;
S24、将经过多尺度特征融合的不同尺度输出特征和主分支输出特征通过SE-Net的通道注意力子网络进行分类预测。
该进一步方案的有益效果是:利用不同分辨率下特征进行卷积矫正和特征加强,从而提高深度网络对于小目标和低分辨率属性的特征提取能力。
进一步地,所述步骤S21具体包括以下分步骤:
S211、构建主网络对预处理后的行人图像数据提取不同尺度的图像特征
Figure 368180DEST_PATH_IMAGE001
i为尺度序号;
S212、分别对各个尺度的图像特征经过卷积层进行通道转换,得到转换后的特征
Figure 322230DEST_PATH_IMAGE002
该进一步方案的有益效果是:提取不同尺度下特征,为下一步进行多尺度融合和特征增强提供多尺度输入基础。
进一步地,所述步骤S22具体包括以下分步骤:
S221、选取相邻的两个不同尺度特征
Figure 178190DEST_PATH_IMAGE003
,将特征
Figure 282412DEST_PATH_IMAGE004
进行上采样后再将两个特征进行初步融合,得到融合特征
Figure 517216DEST_PATH_IMAGE005
,表示为
Figure 783112DEST_PATH_IMAGE006
其中,
Figure 985423DEST_PATH_IMAGE007
表示上采样操作,
Figure 627757DEST_PATH_IMAGE008
表示Sigmoid激活函数;
S222、根据特征
Figure 746761DEST_PATH_IMAGE009
和融合特征
Figure 183558DEST_PATH_IMAGE005
进行特征变换,得到权重
Figure 14111DEST_PATH_IMAGE010
,表示为
Figure 319190DEST_PATH_IMAGE011
Figure 918799DEST_PATH_IMAGE012
其中,
Figure 401864DEST_PATH_IMAGE013
表示卷积操作,
Figure 719713DEST_PATH_IMAGE014
表示逐元素乘运算;
S223、根据特征
Figure 438270DEST_PATH_IMAGE009
和权重
Figure 282598DEST_PATH_IMAGE010
进行特征聚合,得到权重
Figure 61198DEST_PATH_IMAGE015
,表示为
Figure 974665DEST_PATH_IMAGE016
其中,
Figure 762493DEST_PATH_IMAGE017
表示卷积操作,
Figure 71114DEST_PATH_IMAGE018
表示聚合函数;
S224、对最小尺度特征进行降维处理。
该进一步方案的有益效果是:针对深度卷积网络中不同层的输出结果进行上下文关联和卷积特征矫正,从而实现相邻两层之间的不同分辨率的特征融合。
进一步地,所述步骤S23具体包括:
利用Non-local自注意力机制将经过空间校准后的多尺度图像特征进行多尺度特征融合,表示为
Figure 410829DEST_PATH_IMAGE019
其中,x表示输入特征图,
Figure 172112DEST_PATH_IMAGE020
表示响应因子,
Figure 763630DEST_PATH_IMAGE021
表示当前关注位置的信息,
Figure 802124DEST_PATH_IMAGE022
表示全局信息,
Figure 188106DEST_PATH_IMAGE023
表示输出位置,j表示特征图位置,
Figure 826898DEST_PATH_IMAGE024
表示计算特征图在
Figure 690949DEST_PATH_IMAGE023
Figure 974163DEST_PATH_IMAGE025
位置的相似度函数,
Figure 904947DEST_PATH_IMAGE026
表示计算特征图在
Figure 906401DEST_PATH_IMAGE025
位置的表示函数。
该进一步方案的有益效果是:利用非局部(Non-local)注意力机制,建立多层特征间的关联能力,从而将多个分辨率结果进行了有效融合。
进一步地,所述步骤S24具体包括:
将经过多尺度特征融合的不同尺度输出和主分支输出通过SE-Net的通道注意力子网络的Squeeze操作对各个通道进行权重分配,得到全局描述特征;
再通过SE-Net的通道注意力子网络的Excitation操作抓取通道之间的关系,然后将学习到的各个通道的激活值乘以原始特征,再分别经过全连接层和批标准化,获得每个分支的输出;
最后对各个尺度输出和主分支输出通过取最大值进行投票,从各个分支中选择针对某一属性的最精确的区域进行分类预测。
该进一步方案的有益效果是:利用SE-NET的通道注意力机制,对不同属性敏感的通道进行选择,使不同属性能够获取到属于自身最优的特征通道,进一步提高识别率。
进一步地,所述模型训练还包括
将所有的属性分别进行one-hot编码,转换成多个二分类属性 ;
采用加权的Sigmoid交叉熵损失函数,将五个分支的损失之和作为最终的损失。
该进一步方案的有益效果是:利用多分辨率输出建立多个独立的损失函数,从而让不同分辨率下的分类器能够学习到该分辨率下的识别结果。进一步地,所述加权的Sigmoid交叉熵损失函数表示为
Figure 698777DEST_PATH_IMAGE027
其中,M表示总的属性数目,
Figure 570918DEST_PATH_IMAGE028
表示不同尺度输出和主分支输出,
Figure 564282DEST_PATH_IMAGE029
表示第m个属性的不同尺度输出和主分支输出,
Figure 662819DEST_PATH_IMAGE030
为第m个属性的真实标签值,
Figure 134251DEST_PATH_IMAGE031
为真实标签值,
Figure 251112DEST_PATH_IMAGE032
为第m个属性在损失函数中的权重,
Figure 149798DEST_PATH_IMAGE033
Figure 860265DEST_PATH_IMAGE034
表示第
Figure 243711DEST_PATH_IMAGE035
个属性取正值时在训练样本中出现的概率。
该进一步方案的有益效果是:针对多分辨率识别结果,利用投票机制进一步进行多个属性识别结果融合,从而将不同分辨率识别信息进行了整合和加强,进一步提高小目标和低分辨率属性识别率。
附图说明
图1为本发明基于多尺度空间校正的行人属性识别方法流程示意图;
图2为本发明实施例中行人属性识别网络模型结构示意图;
图3为本发明实施例中空间校正模块结构示意图;
图4为本发明实施例中SE-Net的通道注意力子网络结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
如图1所示,本发明实施例提供了一种基于多尺度空间校正的行人属性识别方法,包括以下步骤S1至S3:
S1、获取行人图像数据,并进行预处理;
在本实施例中,步骤S1具体包括以下分步骤:
S11、采集视频监控图像,并利用行人目标检测算法进行目标裁剪,得到行人图像数据;其中行人目标检测算法可以采用常规目标识别算法来得到行人图像数据,这里不做赘述。
S12、采用人工筛选方式选择符合要求的行人图像数据并进行人工标注;
S13、对标注后的行人图像数据进行归一化、尺度放缩、填充、随机裁剪、水平翻转或垂直翻转以及图片格式张量转换的图像预处理,得到预处理后的行人图像I。
S2、构建包含特征金字塔结构、空间校正模块和多尺度特征融合模块的行人属性识别网络模型,采用预处理后的行人图像数据进行模型训练;
在本实施例中,本发明首先构建包含特征金字塔结构、空间校正模块和多尺度特征融合模块的行人属性识别网络模型,模型结构如图2所示。
本发明构建的行人属性识别网络模型由一个具有特征金字塔结构的主网络、空间校正模块(SCM)和多尺度特征融合模块(MSFF)组成。以采用ResNet50为骨干网络为例,自顶向下将网络层resnet_layer1、resnet_layer2、resnet_layer3、 resnet_layer4四个尺度的输出特征取出构建多尺度特征,这四个尺度的特征的空间尺寸相对于输入图片的步长stride分别为
Figure 621602DEST_PATH_IMAGE036
。具体的实现为:在给定输入图像I的基础上,将自顶向下的特征表示为
Figure 550244DEST_PATH_IMAGE037
,
Figure 13586DEST_PATH_IMAGE038
,其中,
Figure 561242DEST_PATH_IMAGE039
表示第i个尺度下的特征图,i为尺度序号,H i 、W i 、C i 分别对应于第i个尺度的特征图的高度、宽度和通道数。四个尺度的输出特征分别使用
Figure 669007DEST_PATH_IMAGE040
的小卷积,将其通道数变为256,得到
Figure 643916DEST_PATH_IMAGE041
。对于256×192的RGB输入图像,空间大小分别为
Figure 453609DEST_PATH_IMAGE042
。此外,自上而下的路径包含四个横向连接和三个自上而下的连接,横向连接用于将自顶向下特征的通道降到
Figure 70535DEST_PATH_IMAGE043
。更高级的特征通过自底向上的空间校正模块进行传输。相邻层的特征连接为:
Figure 891861DEST_PATH_IMAGE044
,其中
Figure 677152DEST_PATH_IMAGE045
是3x3卷积层,用于将维度降为
Figure 849507DEST_PATH_IMAGE046
Figure 863600DEST_PATH_IMAGE047
为空间校正变换,
Figure 70590DEST_PATH_IMAGE048
为最近邻插值。由于最高层次的特征
Figure 387302DEST_PATH_IMAGE049
没有自底向上的连接,只对它进行降维。
本发明采用预处理后的行人图像数据进行模型训练具体包括以下分步骤:
S21、利用特征金字塔结构提取预处理后的行人图像数据的多尺度图像特征,具体包括以下分步骤:
S211、构建主网络对预处理后的行人图像数据提取不同尺度的图像特征
Figure 656740DEST_PATH_IMAGE037
S212、分别对各个尺度的图像特征经过卷积层进行通道转换,得到转换后的特征
Figure 615469DEST_PATH_IMAGE002
本发明先利用ResNet50作为骨干网络,提取四个不同尺度的特征,这四个尺度的特征的空间尺寸相对于输入图片的步长stride分别为
Figure 536020DEST_PATH_IMAGE036
。将自顶向下的特征表示为
Figure 554792DEST_PATH_IMAGE037
,
Figure 436160DEST_PATH_IMAGE038
Figure 64760DEST_PATH_IMAGE039
表示第i个尺度下的特征图。对四个尺度的输出特征分别使用
Figure 980764DEST_PATH_IMAGE040
的小卷积,将其通道数变为256,得到
Figure 29491DEST_PATH_IMAGE041
。对于256×192的RGB输入图像,空间大小分别为
Figure 663735DEST_PATH_IMAGE042
S22、利用空间校正模块将特征金字塔结构中相邻的不同尺度特征进行初步融合和空间校准,如图3所示,具体包括以下分步骤:
S221、选取相邻的两个不同尺度特征
Figure 698687DEST_PATH_IMAGE003
,将特征
Figure 344563DEST_PATH_IMAGE004
进行上采样后再将两个特征进行初步融合,得到融合特征
Figure 439558DEST_PATH_IMAGE005
,表示为
Figure 154573DEST_PATH_IMAGE006
其中,
Figure 727637DEST_PATH_IMAGE007
表示线性插值实现上采样操作,
Figure 992134DEST_PATH_IMAGE008
表示Sigmoid激活函数;
该步骤中对于选择的相邻的两个不同尺度特征
Figure 258030DEST_PATH_IMAGE003
,由于
Figure 460342DEST_PATH_IMAGE009
的尺度为的
Figure 368255DEST_PATH_IMAGE004
的两倍,故要先将
Figure 847778DEST_PATH_IMAGE004
进行上采样,实现从小尺度空间映射到统一尺度空间的映射;再将两个特征进行初步融合,得到融合特征
Figure 425521DEST_PATH_IMAGE005
S222、根据特征
Figure 990494DEST_PATH_IMAGE009
和融合特征
Figure 170940DEST_PATH_IMAGE005
进行特征变换,得到权重
Figure 895182DEST_PATH_IMAGE010
,表示为
Figure 502881DEST_PATH_IMAGE011
Figure 194631DEST_PATH_IMAGE012
其中,
Figure 913188DEST_PATH_IMAGE013
表示卷积操作,
Figure 632883DEST_PATH_IMAGE014
表示逐元素乘运算;
该步骤通过特征变换来建立权重,用于进行上下级联的空间校准。
S223、根据特征
Figure 536117DEST_PATH_IMAGE009
和权重
Figure 341262DEST_PATH_IMAGE010
进行特征聚合,得到权重
Figure 738876DEST_PATH_IMAGE015
,表示为
Figure 313077DEST_PATH_IMAGE016
其中,
Figure 262578DEST_PATH_IMAGE017
表示卷积操作,
Figure 148495DEST_PATH_IMAGE018
表示聚合函数;
该步骤通过
Figure 740013DEST_PATH_IMAGE050
保留原始的空间信息,再将输出结果进行特征聚合,得到输出权重
Figure 277043DEST_PATH_IMAGE015
S224、对最小尺度特征进行降维处理。
该步骤中由于最小尺度特征,即底部最高层次的特征
Figure 397445DEST_PATH_IMAGE049
没有自底向上的连接,只对特征
Figure 177182DEST_PATH_IMAGE049
进行降维处理。
S23、利用多尺度特征融合模块将经过空间校准后的多尺度图像特征进行多尺度特征融合;
该步骤将经过空间校正模块处理的
Figure 165867DEST_PATH_IMAGE051
以及
Figure 183502DEST_PATH_IMAGE049
分别位于四个不同尺度的分支,每个分支通过多尺度特征融合模块建立多尺度空间关联依赖关系。
本发明利用非局部(Non-local)自注意力机制将经过空间校准后的多尺度图像特征进行多尺度特征融合,表示为
Figure 615751DEST_PATH_IMAGE019
其中,x表示输入特征图,
Figure 617205DEST_PATH_IMAGE020
表示响应因子,
Figure 144001DEST_PATH_IMAGE021
表示当前关注位置的信息,
Figure 547301DEST_PATH_IMAGE022
表示全局信息,
Figure 275086DEST_PATH_IMAGE023
表示输出位置,如空间、时间或时空的索引,j表示特征图位置,
Figure 606579DEST_PATH_IMAGE024
表示计算特征图在
Figure 78011DEST_PATH_IMAGE023
Figure 460451DEST_PATH_IMAGE025
位置的相似度函数,
Figure 93558DEST_PATH_IMAGE026
表示计算特征图在
Figure 69604DEST_PATH_IMAGE025
位置的表示函数。
本发明将相似度作为权重对特征图的所有位置表示进行加权求和,并通过响应因子
Figure 954515DEST_PATH_IMAGE020
进行标准化处理得到
Figure 66827DEST_PATH_IMAGE052
Figure 261048DEST_PATH_IMAGE024
函数选择点乘(dot function)形式,具体公式为:
Figure 193232DEST_PATH_IMAGE053
,其中
Figure 380368DEST_PATH_IMAGE054
函数通过
Figure 612767DEST_PATH_IMAGE055
卷积将通道维度减半。
S24、将经过多尺度特征融合的不同尺度输出特征和主分支输出特征通过SE-Net的通道注意力子网络进行分类预测,如图4所示,具体包括:
将经过多尺度特征融合的不同尺度输出和主分支输出通过SE-Net的通道注意力子网络的压缩(Squeeze)操作对各个通道进行权重分配,得到全局描述特征;
在该步骤中,本发明首先将输入特征图像进行映射,表示为
Figure 587676DEST_PATH_IMAGE056
若卷积核为
Figure 662948DEST_PATH_IMAGE057
,那么
Figure 14295DEST_PATH_IMAGE058
,其中
Figure 710987DEST_PATH_IMAGE059
代表一个3D卷积核。
然后通过Squeeze操作将一个通道上整个空间特征编码为一个全局特征,采用全局平均池化来实现,即
Figure 856797DEST_PATH_IMAGE060
再通过SE-Net的通道注意力子网络的激活(Excitation)操作抓取通道之间的关系,然后将学习到的各个通道的激活值乘以原始特征,再分别经过全连接层和批标准化,获得每个分支的输出;
在该步骤中,本发明采用包含两个全连接层的瓶颈层(bottleneck)结构,即:
Figure 29153DEST_PATH_IMAGE061
,其中
Figure 308824DEST_PATH_IMAGE062
Figure 984656DEST_PATH_IMAGE063
为降维系数。最后将学习到的各个通道的激活值乘以U上的原始特征,即:
Figure 940849DEST_PATH_IMAGE064
。再分别经过全连接层和批标准化,获得每个分支的输出。
最后对各个尺度输出和主分支输出通过取最大值进行投票,从各个分支中选择针对某一属性的最精确的区域进行分类预测。
在该步骤中,本发明对四个尺度的输出和主分支输出
Figure 600500DEST_PATH_IMAGE065
取最大值,通过取最大值进行投票,从五个分支中选择针对某一属性的最精确的区域。
本发明在模型训练过程中,还包括
将所有的属性分别进行一位有效(one-hot)编码,转换成多个二分类属性 ;
采用加权的Sigmoid交叉熵损失函数,表示为
Figure 418283DEST_PATH_IMAGE027
其中,M表示总的属性数目,
Figure 479780DEST_PATH_IMAGE028
表示不同尺度输出和主分支输出,
Figure 232973DEST_PATH_IMAGE029
表示第m个属性的不同尺度输出和主分支输出,
Figure 724128DEST_PATH_IMAGE030
为第m个属性的真实标签值,
Figure 486548DEST_PATH_IMAGE031
为真实标签值,
Figure 261606DEST_PATH_IMAGE032
为第m个属性在损失函数中的权重,权重计算公式为:
Figure 185699DEST_PATH_IMAGE066
Figure 819943DEST_PATH_IMAGE067
表示第
Figure 228796DEST_PATH_IMAGE035
个属性取正值时在训练样本中出现的概率,权重越大,则该属性在训练时则获得更多的关注。
将五个分支的损失之和作为最终的损失,即
Figure 733727DEST_PATH_IMAGE068
。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。

Claims (8)

1.一种基于多尺度空间校正的行人属性识别方法,其特征在于,包括以下步骤:
S1、获取行人图像数据,并进行预处理;
S2、构建包含特征金字塔结构、空间校正模块和多尺度特征融合模块的行人属性识别网络模型,采用预处理后的行人图像数据进行模型训练,具体包括以下分步骤:
S21、利用特征金字塔结构提取预处理后的行人图像数据的多尺度图像特征;
S22、利用空间校正模块将特征金字塔结构中相邻的不同尺度特征进行初步融合和空间校准;
S23、利用多尺度特征融合模块将经过空间校准后的多尺度图像特征进行多尺度特征融合;
S24、将经过多尺度特征融合的不同尺度输出特征和主分支输出特征通过SE-Net的通道注意力子网络进行分类预测;
S3、利用训练后的行人属性识别网络模型对待识别行人图像中的行人属性进行识别。
2.根据权利要求1所述的基于多尺度空间校正的行人属性识别方法,其特征在于,所述步骤S1具体包括以下分步骤:
S11、采集视频监控图像,并利用行人目标检测算法进行目标裁剪,得到行人图像数据;
S12、对行人图像数据进行人工标注;
S13、对标注后的行人图像数据进行归一化、尺度放缩、填充、随机裁剪、水平翻转或垂直翻转以及图片格式张量转换的图像预处理。
3.根据权利要求1所述的基于多尺度空间校正的行人属性识别方法,其特征在于,所述步骤S21具体包括以下分步骤:
S211、构建主网络对预处理后的行人图像数据提取不同尺度的图像特征
Figure 512185DEST_PATH_IMAGE001
i为尺度序号;
S212、分别对各个尺度的图像特征经过卷积层进行通道转换,得到转换后的特征
Figure 418961DEST_PATH_IMAGE002
4.根据权利要求1所述的基于多尺度空间校正的行人属性识别方法,其特征在于,所述步骤S22具体包括以下分步骤:
S221、选取相邻的两个不同尺度特征
Figure 777261DEST_PATH_IMAGE003
,将特征
Figure 718673DEST_PATH_IMAGE004
进行上采样后再将两个特征进行初步融合,得到融合特征
Figure 566543DEST_PATH_IMAGE005
,表示为
Figure 429457DEST_PATH_IMAGE006
其中,
Figure 322939DEST_PATH_IMAGE007
表示上采样操作,
Figure 118857DEST_PATH_IMAGE008
表示Sigmoid激活函数;
S222、根据特征
Figure 75311DEST_PATH_IMAGE009
和融合特征
Figure 222259DEST_PATH_IMAGE005
进行特征变换,得到权重
Figure 922362DEST_PATH_IMAGE010
,表示为
Figure 838365DEST_PATH_IMAGE011
Figure 700142DEST_PATH_IMAGE012
其中,
Figure 334385DEST_PATH_IMAGE013
表示卷积操作,
Figure 572600DEST_PATH_IMAGE014
表示逐元素乘运算;
S223、根据特征
Figure 608689DEST_PATH_IMAGE009
和权重
Figure 632578DEST_PATH_IMAGE010
进行特征聚合,得到权重
Figure 957380DEST_PATH_IMAGE015
,表示为
Figure 61602DEST_PATH_IMAGE016
其中,
Figure 624302DEST_PATH_IMAGE017
表示卷积操作,
Figure 155777DEST_PATH_IMAGE018
表示聚合函数;
S224、对最小尺度特征进行降维处理。
5.根据权利要求1所述的基于多尺度空间校正的行人属性识别方法,其特征在于,所述步骤S23具体包括:
利用Non-local自注意力机制将经过空间校准后的多尺度图像特征进行多尺度特征融合,表示为
Figure 436717DEST_PATH_IMAGE019
其中,x表示输入特征图,
Figure 344630DEST_PATH_IMAGE020
表示响应因子,
Figure 27415DEST_PATH_IMAGE021
表示当前关注位置的信息,
Figure 729792DEST_PATH_IMAGE022
表示全局信息,
Figure 498028DEST_PATH_IMAGE023
表示输出位置,j表示特征图位置,
Figure 944053DEST_PATH_IMAGE024
表示计算特征图在
Figure 478415DEST_PATH_IMAGE023
Figure 351693DEST_PATH_IMAGE025
位置的相似度函数,
Figure 607225DEST_PATH_IMAGE026
表示计算特征图在
Figure 591362DEST_PATH_IMAGE025
位置的表示函数。
6.根据权利要求1所述的基于多尺度空间校正的行人属性识别方法,其特征在于,所述步骤S24具体包括:
将经过多尺度特征融合的不同尺度输出和主分支输出通过SE-Net的通道注意力子网络的Squeeze操作对各个通道进行权重分配,得到全局描述特征;
再通过SE-Net的通道注意力子网络的Excitation操作抓取通道之间的关系,然后将学习到的各个通道的激活值乘以原始特征,再分别经过全连接层和批标准化,获得每个分支的输出;
最后对各个尺度输出和主分支输出通过取最大值进行投票,从各个分支中选择针对某一属性的最精确的区域进行分类预测。
7.根据权利要求6所述的基于多尺度空间校正的行人属性识别方法,其特征在于,所述模型训练还包括
将所有的属性分别进行one-hot编码,转换成多个二分类属性;
采用加权的Sigmoid交叉熵损失函数,将五个分支的损失之和作为最终的损失。
8.根据权利要求7所述的基于多尺度空间校正的行人属性识别方法,其特征在于,所述加权的Sigmoid交叉熵损失函数表示为
Figure 248739DEST_PATH_IMAGE027
其中,M表示总的属性数目,
Figure 292918DEST_PATH_IMAGE028
表示不同尺度输出和主分支输出,
Figure 35746DEST_PATH_IMAGE029
表示第m个属性的不同尺度输出和主分支输出,
Figure 823574DEST_PATH_IMAGE030
为第m个属性的真实标签值,
Figure 335458DEST_PATH_IMAGE031
为真实标签值,
Figure 550538DEST_PATH_IMAGE032
为第m个属性在损失函数中的权重,
Figure 518013DEST_PATH_IMAGE033
Figure 109531DEST_PATH_IMAGE034
表示第
Figure 475922DEST_PATH_IMAGE035
个属性取正值时在训练样本中出现的概率。
CN202110222454.3A 2021-03-01 2021-03-01 一种基于多尺度空间校正的行人属性识别方法 Active CN112560831B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110222454.3A CN112560831B (zh) 2021-03-01 2021-03-01 一种基于多尺度空间校正的行人属性识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110222454.3A CN112560831B (zh) 2021-03-01 2021-03-01 一种基于多尺度空间校正的行人属性识别方法

Publications (2)

Publication Number Publication Date
CN112560831A CN112560831A (zh) 2021-03-26
CN112560831B true CN112560831B (zh) 2021-05-04

Family

ID=75034833

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110222454.3A Active CN112560831B (zh) 2021-03-01 2021-03-01 一种基于多尺度空间校正的行人属性识别方法

Country Status (1)

Country Link
CN (1) CN112560831B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011377B (zh) * 2021-04-06 2023-04-07 新疆爱华盈通信息技术有限公司 行人属性识别方法、装置、电子设备及存储介质
CN113159144B (zh) * 2021-04-06 2023-06-16 新疆爱华盈通信息技术有限公司 行人属性分类方法、装置、电子设备及存储介质
CN113239784B (zh) * 2021-05-11 2022-09-30 广西科学院 一种基于空间序列特征学习的行人重识别系统及方法
CN113392875B (zh) * 2021-05-20 2023-03-24 广东工业大学 一种图像细粒度分类的方法、系统和设备
CN113283414A (zh) * 2021-07-26 2021-08-20 深圳市安软科技股份有限公司 行人属性识别方法、相关设备及计算机可读存储介质
CN114239754B (zh) * 2022-02-24 2022-05-03 中国科学院自动化研究所 基于属性特征学习解耦的行人属性识别方法及系统
CN114694177B (zh) * 2022-03-10 2023-04-28 电子科技大学 基于多尺度特征和属性关联挖掘的细粒度人物属性识别方法
CN115527123B (zh) * 2022-10-21 2023-05-05 河北省科学院地理科学研究所 一种基于多源特征融合的土地覆被遥感监测方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049751A (zh) * 2013-01-24 2013-04-17 苏州大学 一种改进的加权区域匹配高空视频行人识别方法
CN107169455A (zh) * 2017-05-16 2017-09-15 中山大学 基于深度局部特征的人脸属性识别方法
CN108090472A (zh) * 2018-01-12 2018-05-29 浙江大学 基于多通道一致性特征的行人重识别方法及其系统
CN110383288A (zh) * 2019-06-06 2019-10-25 深圳市汇顶科技股份有限公司 人脸识别的方法、装置和电子设备
CN111339849A (zh) * 2020-02-14 2020-06-26 北京工业大学 一种融合行人属性的行人重识别的方法
CN111555781A (zh) * 2020-04-27 2020-08-18 天津大学 一种基于深度学习注意力机制的大规模mimo信道状态信息压缩及重建方法
CN111814863A (zh) * 2020-07-03 2020-10-23 南京信息工程大学 一种轻量级车辆与行人的检测方法
CN112307332A (zh) * 2020-10-16 2021-02-02 四川大学 基于用户画像聚类的协同过滤推荐方法、系统及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11127163B2 (en) * 2015-06-24 2021-09-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Skinned multi-infant linear body model
WO2017182225A1 (en) * 2016-04-21 2017-10-26 Osram Gmbh Training method and detection method for object recognition
CN106204629A (zh) * 2016-08-17 2016-12-07 西安电子科技大学 天基雷达与红外数据融合在轨动目标检测方法
CN108563767B (zh) * 2018-04-19 2020-11-27 深圳市商汤科技有限公司 图像检索方法及装置
CN111401132B (zh) * 2020-02-14 2022-11-08 北京航空航天大学 监控场景下高层语义指导的行人属性识别方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103049751A (zh) * 2013-01-24 2013-04-17 苏州大学 一种改进的加权区域匹配高空视频行人识别方法
CN107169455A (zh) * 2017-05-16 2017-09-15 中山大学 基于深度局部特征的人脸属性识别方法
CN108090472A (zh) * 2018-01-12 2018-05-29 浙江大学 基于多通道一致性特征的行人重识别方法及其系统
CN110383288A (zh) * 2019-06-06 2019-10-25 深圳市汇顶科技股份有限公司 人脸识别的方法、装置和电子设备
CN111339849A (zh) * 2020-02-14 2020-06-26 北京工业大学 一种融合行人属性的行人重识别的方法
CN111555781A (zh) * 2020-04-27 2020-08-18 天津大学 一种基于深度学习注意力机制的大规模mimo信道状态信息压缩及重建方法
CN111814863A (zh) * 2020-07-03 2020-10-23 南京信息工程大学 一种轻量级车辆与行人的检测方法
CN112307332A (zh) * 2020-10-16 2021-02-02 四川大学 基于用户画像聚类的协同过滤推荐方法、系统及存储介质

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Adaptive Weighted Multi-Level Fusion of Multi-Scale Features: A New Approach to Pedestrian Detection;Yao Xu等;《Future Internet》;20210202;第13卷(第8期);1-16 *
Pedestrian Attribute Recognition :A Survey;Xiao Wang等;《JOURNAL OF LATEX CLASS FILES》;20190122;第14卷(第8期);1-32 *
基于无监督学习的聚类合并行人重识别;王泓蒴;《中国优秀硕士学位论文全文数据库_信息科技辑》;20200815;I138-698 *
基于注意力机制修正网络的行人属性识别;李辰征等;《计算机工程与设计》;20200528;第41卷(第5期);1404-1410 *
视频监控中人物属性识别方法的研究;杨德培;《中国优秀硕士学位论文全文数据库_信息科技辑》;20170215;I136-1787 *

Also Published As

Publication number Publication date
CN112560831A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN112560831B (zh) 一种基于多尺度空间校正的行人属性识别方法
CN111259786B (zh) 一种基于视频的外观和运动信息同步增强的行人重识别方法
Nandhini Abirami et al. Deep CNN and deep GAN in computational visual perception-driven image analysis
CN110084108A (zh) 基于gan神经网络的行人重识别系统及方法
CN111444881A (zh) 伪造人脸视频检测方法和装置
CN107239730B (zh) 智能汽车交通标志识别的四元数深度神经网络模型方法
CN113642634A (zh) 一种基于混合注意力的阴影检测方法
CN110929593A (zh) 一种基于细节辨别区别的实时显著性行人检测方法
KR101777601B1 (ko) 초서체 또는 흘림체로 작성된 문자의 판별 방법 및 시스템
CN113221641A (zh) 基于生成对抗网络和注意力机制的视频行人重识别方法
CN111310766A (zh) 基于编解码和二维注意力机制的车牌识别方法
CN109657582A (zh) 人脸情绪的识别方法、装置、计算机设备及存储介质
CN111191654A (zh) 道路数据生成方法、装置、电子设备及存储介质
WO2023030182A1 (zh) 图像生成方法及装置
CN114724155A (zh) 基于深度卷积神经网络的场景文本检测方法、系统及设备
CN114387641A (zh) 基于多尺度卷积网络和ViT的虚假视频检测方法及系统
CN114882599A (zh) 基于双分支神经网络的离线手写签名分割系统和方法
CN116129291A (zh) 一种面向无人机畜牧的图像目标识别方法及其装置
CN116012395A (zh) 一种基于深度可分离卷积的多尺度融合烟雾分割方法
Yu et al. WaterHRNet: A multibranch hierarchical attentive network for water body extraction with remote sensing images
CN111062347A (zh) 一种自动驾驶中交通要素分割方法、电子设备及存储介质
CN114494786A (zh) 一种基于多层协调卷积神经网络的细粒度图像分类方法
CN114445620A (zh) 一种改进Mask R-CNN的目标分割方法
CN112016592B (zh) 基于交叉领域类别感知的领域适应语义分割方法及装置
CN113688821A (zh) 一种基于深度学习的ocr文字识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant