CN113283414A - 行人属性识别方法、相关设备及计算机可读存储介质 - Google Patents
行人属性识别方法、相关设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN113283414A CN113283414A CN202110843147.7A CN202110843147A CN113283414A CN 113283414 A CN113283414 A CN 113283414A CN 202110843147 A CN202110843147 A CN 202110843147A CN 113283414 A CN113283414 A CN 113283414A
- Authority
- CN
- China
- Prior art keywords
- pedestrian
- model
- training
- attribute
- pedestrian attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/23—Recognition of whole body movements, e.g. for sport training
- G06V40/25—Recognition of walking or running movements, e.g. gait recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Biology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Psychiatry (AREA)
- Social Psychology (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明实施例提供了一种行人属性识别方法,其包括步骤:S1、获取行人图像,并生成行人图像数据;S2、数据增强处理和均值化处理,生成输入行人图像;S3、通过特征提取模型进行特征提取并生成特征图;S4、通过预测模型处理;S5、通过加权的分类损失函数计算,将计算结果监督训练模型的训练学习,返回S3;S6、判断准确率是否达到预设标准:若否,则进入S7;若是,则结束所述训练模型的训练学习;S7、对特征提取模型的超参数进行调整,返回S3。本发明实施例还提供了一种行人属性识别设备和计算机可读存储介质。采用本发明的技术方案可采集和标注大规模行人属性识别数据集,且行人属性识别的效果好。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种行人属性识别方法、行人属性识别设备以及计算机可读存储介质。
背景技术
近年视频监控应用越来越广,通过监控视频采集的行人图像可以应用于治安、统计等方面,行人图像的识别越来越重要。
目前,行人属性识别非常具有挑战性:首先,行人图像质量差,如分辨率低,遮挡,光线不足以及尺度变换等。第二,通过多摄像头拍摄的监控视频往往存在多角度、跨场景以及跨时间等问题,导致即使是对于同一个行人,在不同角度,场景和时间下,所采集的行人图像差异较大。第三,目前业界行人属性识别数据集的标注多样,具体表现为数据集量级、行人属性类别以及行人属性分布均不一致。业界中常用的行人属性识别数据集有PETA,RAP以及PA-100k等,其中PETA数据集包含8704个行人,共19000张行人图像,每个行人标注了61个二分类属性和4个多分类属性,该数据集行人属性标注丰富,但数据量较少。RAP数据集包含41585张行人图像,每个行人标注了69个二分类属性和3个多分类属性,该数据集同样行人属性标注丰富,但数据量较少。PA-100k数据集包含100000张行人图像,每个人行人标注了26个二分类属性,该数据集行人属性标注较少,但数据量较大。由此可以看出,各个行人属性识别数据集差异较大且存在多种问题。除此之外,由于行人图像采集困难,对行人图像的采集和标注造成较大的困难,导致数据集规模不足以及属性分布不均衡,即存在长尾现象。
现有技术中,行人属性识别任务主要围绕着手工提取低级的视觉特征展开,利用多种分类模型取得行人属性结果表示,例如方向梯度直方图(HOG)、尺度不变特征转换(SIFT)、条件随机场模型(CRF)以及支持向量机(SVM)等。Layne和HOSPEDALES等人首先使用支持向量模型解决了行人属性识别问题。这些传统方法在小规模数据集上取得了一定的成功,但是对于大规模的数据集,这些基于人工标注特征的方法受到了重重限制,而且传统的算法忽略了行人属性之间高阶联系,不能有效提取行人图像属性特征,因此无法满足实际场景中的应用要求。
随着深度卷积神经网络(CNN)的快速发展,研究员开始着手于将深度卷积神经网络应用于行人属性识别任务中,并取得了一定成果。例如:Li等人提出使用CNN模型进行行人属性识别,运用CNN对行人图像进行特征提取,设计DeepMAR网络对行人多属性进行联合学习,同时设计加权分类函数,一定程度上解决类别不均衡问题。Liu等人提出了一种基于注意力机制的深度神经网络HP-Net,该模型能够从浅层到语义层补货注意力,挖掘到多尺度的注意力特征,有效的对行人特征进行表示,同时还能学习到行人的局部细粒度特征,从而充实全局特征,进一步提升行人特征表示。Tang等人提出了一个基于SENet模块的行人属性定位模型以及STN网络,提取不同层,不同部位的行人特征并进行融合,使得有效的特征权重大,无效或者效果弱的特征权重小,最后对行人属性识别结果进行融合,有效的表示了行人属性。Guo等人提出了一个图像变化下,模型注意力一致性的模型,学习行人图像的不变性,例如反转、缩放等操作,对原始行人图像以及经过数据增强后的行人图像输入模型,将两部分特征进行融合,以此得到一个有效的行人特征表示。
然而,上述的深度卷积神经网络应用于行人属性识别任务的技术方案都是应用在小规模数据集上,该规模一般小于1万,无法比拟现实场景数据,对于现实场景中的大规模数据无法得到很好的验证。同时大部分模型都是针对特定的数据集而设定,且比较复杂,鲁棒性不够强,不能满足实际应用场景中复杂多变的情形;同时无法很好的对遮挡,模糊的行人图像进行识别,还有无法很好的解决类别分布不均衡等问题。
因此,实有必要提供一种新的方法和设备来解决上述技术问题。
发明内容
本发明的目的是克服上述技术问题,提供一种可采集和标注大规模行人属性识别数据集,且行人属性识别的效果好的行人属性识别方法、行人属性识别设备以及计算机可读存储介质。
第一方面,本发明实施例提供一种行人属性识别方法,应用于神经网络,所述神经网络包括主干网络和与所述主干网络通信连接的全连接层,所述神经网络设置为训练模型,所述训练模型包括由所述主干网络设置的用于提取特征的特征提取模型和由所述全连接层中由N个神经元设置形成的预测模型,N为行人属性的类别数;该方法包括如下步骤:
步骤S1、获取行人图像,将所述行人图像标注多类行人属性并生成行人图像数据,所述行人图像数据包括所述行人图像的文件名和与所述行人图像相对应的行人属性标注;
步骤S2、将所述行人图像数据依次进行数据增强处理和均值化处理,再将处理后的所述行人图像数据转换生成预设格式的输入行人图像;
步骤S3、将所述输入行人图像输入至所述主干网络,再通过所述特征提取模型将所述输入行人图像进行特征提取并生成特征图,以用于预测行人属性,所述特征图为一维图像;
步骤S4、将所述特征图输入至所述全连接层,再通过所述预测模型将所述特征图进行训练学习,所述预测模型将训练学习完成后的所述全连接层中的每个神经元的输出行人属性分类数,并将输出的所述行人属性分类数作为一个行人属性预测概率,再将所有的所述行人属性预测概率中概率最大的一个作为当前行人属性预测值,所述训练学习为所述预测模型学习神经元参数;
步骤S5、将所述当前行人属性预测值输入至预设的加权的分类损失函数进行计算得到计算结果,并根据所述计算结果分别训练所述训练模型的模型参数和调整所述训练模型的模式结构,以用于监督所述训练模型的训练学习,并返回所述步骤S3,所述监督为所述训练模型根据训练误差更新所述模型参数的权重;
步骤S6、获取所述当前行人属性预测值在预设的验证集中相对应的准确率,并判断所述准确率是否达到预设标准:
若否,则进入步骤S7;若是,则结束所述特征提取模型的训练学习;
步骤S7、根据预设规则对所述特征提取模型的超参数进行调整,并返回所述步骤S3。
更优的,所述步骤S1中,所述行人属性包括性别、骑车状态、服装及口罩状态。
更优的,所述步骤S2中,所述数据增强处理包括尺度变换、随机裁剪、随机亮度变化、填充、随机翻折以及随机擦除。
更优的,所述步骤S3中,所述主干网络为Resnet-50,所述特征图为将所述特征提取模型中的最后一个残差模块输出的特征图拉伸到一维形成。
更优的,所述步骤S4中,所述预测模型通过修改最后一层所述全连接层的神经元数量作为行人属性分类数。
更优的,所述步骤S5中,所述加权的分类损失函数为加权的二分类交叉熵损失函数,满足以下公式:
更优的,所述步骤S5中,所述训练模型通过反向传播和Adam优化器更新所述训练模型的模型参数。
更优的,所述步骤S7中,所述超参数包括学习率、批大小以及训练次数。
第二方面,本发明实施例还提供一种行人属性识别设备,包括处理器和存储器,所述处理器用于读取所述存储器中的程序,所述处理器读取所述存储器中的程序时执行上中任一项所述的行人属性识别方法中的步骤。
第三方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现如上中任意一项所述的行人属性识别方法中的步骤。
与现有技术相比,本发明的行人属性识别方法通过如下步骤:步骤S1、获取行人图像,并生成行人图像数据;步骤S2、数据增强处理和均值化处理,生成输入行人图像;步骤S3、通过特征提取模型进行特征提取并生成特征图;步骤S4、通过预测模型处理;步骤S5、通过加权的分类损失函数计算,将计算结果监督训练模型的训练学习,返回步骤S3;步骤S6、判断准确率是否达到预设标准:若否,则进入步骤S7;若是,则结束所述特征提取模型的训练学习;步骤S7、对特征提取模型的超参数进行调整,返回S3。上述步骤中,本发明的行人属性识别方法通过步骤S2的数据增强处理和均值化处理,可以有效地解决模糊和遮挡等噪声给特征提取模型的影响,增强了特征提取模型的鲁棒性,使得特征提取模型的泛化能力更强;再通过步骤S5的加权的分类损失函数计算,对于占比不同的类别标签,赋予不同的权重,使得训练模型不完全倾向于占比较大的类别,从而可以均衡不同比例类别之间的关系,有效解决长尾问题;再通过步骤S7的对特征提取模型的超参数进行调整,增强了预测模型输出的准确率。综上所述,实施本发明的行人属性识别方法的步骤,针对现实场景,多角度,多场景,多时间段采集并标注大规模行人数据集,可采集和标注大规模行人属性识别数据集;通过训练学习大规模数据集,使得训练模型的更加适用于现实场景,可以有效应对实际应用中复杂多变的情况,更好的对行人属性进行识别,从而使得行人属性识别的效果好。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中,
图1为本发明实施例提供的一种行人属性识别方法的流程框图;
图2为本发明实施例提供的一种行人属性识别设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
本申请的说明书和权利要求书及附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。在本文中提及“实施例或本实施方式”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
本发明提供一种行人属性识别方法。所述行人属性识别方法应用于神经网络。所述神经网络包括主干网络和与所述主干网络通信连接的全连接层。本实施方式中,所述行人属性识别方法用于视频监控系统。
所述神经网络设置为训练模型。所述训练模型包括由所述主干网络设置的用于提取特征的特征提取模型和由所述全连接层中由N个神经元设置形成的预测模型。N为行人属性的类别数,其中,N为大于1的正整数。
请参照图1所示,图1为本发明行人属性识别方法的流程框图。
所述行人属性识别方法包括如下步骤:
步骤S1、获取行人图像,将所述行人图像标注多类行人属性并生成行人图像数据。
具体的,所述行人图像通过监控视频设备获取。例如通过监控摄像头获取所述行人图像。
其中,所述步骤S1中通过大量的监控视频设备获取行人图像,并通过图像标注软件将所述行人图像标注,再通过图像标注软件整流标注数据,从而生成行所述人图像数据。所述行人图像数据包括所述行人图像的文件名和与所述行人图像相对应的行人属性标注。所述人图像数据用于后续步骤中的所述特征提取模型的数据输入。
本实施方式中,所述图像标注软件为makesense.ai。当然,其他图像标注软件也是可以的。
本实施方式中,所述行人属性包括性别、骑车状态、服装及口罩状态。其中,所述服装包括上衣颜色、上衣款式。所述行人属性一共7个二分类属性和14个多分类属性,其中包含了10万张行人图像。本发明行人属性识别方法可以现实场景,多角度,多场景,多时间段采集并标注大规模行人属性数据集。也就是说,可以实现规模大于1万的行人属性数据集。
当然,不限于此,所述行人属性不仅仅局限于行人,还可以包括其他图像多标签分类任务,例如在另外一个实施例中,所述行人属性为服装。如上衣的多标签分类,其包括颜色、款式等等。该实施例可以应用于服装生产的场景。
步骤S2、将所述行人图像数据依次进行数据增强处理和均值化处理,再将处理后的所述行人图像数据转换生成预设格式的输入行人图像。
所述数据增强处理包括尺度变换、随机裁剪、随机亮度变化、填充、随机翻折以及随机擦除。
在本实施方式中,所述尺度变换、所述随机裁剪、所述随机亮度变化、所述填充、所述随机翻折以及所述随机擦除相互结合进行实施所述数据增强处理。更优的,所述数据增强处理根据不同的使用场景采用不同的数据增强处理,例如,对于黑暗场景下,对亮度较低的所述行人图像进行亮度增强,而在前面的已经采用的数据增强处理,已经采取随机亮度增强。因此,两次增亮处理的数据增强处理使得黑暗场景下所述行人图像的亮度增强处理效果好。
所述数据增强处理可以有效地解决模糊和遮挡等噪声给后续步骤中的神经网络的特征提取模型的影响,增强了特征提取模型的鲁棒性,使得特征提取模型的泛化能力更强。
所述均值化处理为将所述数据增强处理的所述行人图像数据进行均值化计算。
本实施方式中,所述均值化处理后的所述行人图像数据的文件后缀格式为PNG或者JPG的图像文件,通过图像处理转换软件(英文:transform)转换为张量(英文:tensor),该张量作为预设格式的所述输入行人图像。
步骤S3、将所述输入行人图像输入至所述主干网络,再通过所述特征提取模型将所述输入行人图像进行特征提取并生成特征图,以用于预测行人属性。
所述特征图为一维图像。
本实施方式中,所述主干网络为Resnet-50。所述特征图为将所述特征提取模型中的最后一个残差模块输出的特征图拉伸到一维形成。
所述步骤S3中,所述特征提取模型将所述输入行人图像进行特征提取过程,该过程为所述特征提取模型的模型训练学习。通过所述特征提取模型的模型训练学习可以对行人图像数据的行人属性进行有效识别。
当然,不限于此,在另外的实施例中,还可以选择特征提取能力更强的backbone模型,例如Resnet-101,EfficientNet,HRNet等。
步骤S4、将所述特征图输入至所述全连接层,再通过所述预测模型将所述特征图进行训练学习,所述预测模型将训练学习完成后的所述全连接层中的每个神经元的输出行人属性分类数,并将输出的所述行人属性分类数作为一个行人属性预测概率,再将所有的所述行人属性预测概率中概率最大的一个作为当前行人属性预测值。
所述训练学习为所述预测模型学习神经元参数。也就是说,所述预测模型需要训练。
本实施方式中,所述预测模型通过修改最后一层所述全连接层的神经元数量作为行人属性分类数。
所述步骤S4中的所述预测模型只使用了一个模型训练学习并同时对所有的行人属性进行预测,并不是对于每个行人属性都训练一个模型并预测,因此,在模型训练学习过程中,每个行人属性之间是权值共享的,在训练过程中自动的学习到行人属性之间的联系。对此,为验证该观点,本实施方式中的一个实验如下:单独训练了多个模型分别对单个行人属性进行预测,即A模型训练并预测性别属性,B模型训练并预测上衣颜色属性等。最后实验结果表明:单个行人属性单独训练预测的结果均比多个行人属性共同训练预测结果低。
因此,所述步骤S4中的所述预测模型可以有效应对实际应用中复杂多变的情况,更好的对行人属性进行识别。
步骤S5、将所述当前行人属性预测值输入至预设的加权的分类损失函数进行计算得到计算结果,并根据所述计算结果分别训练所述训练模型的模型参数和调整所述训练模型的模式结构,以用于监督所述训练模型的训练学习,并返回所述步骤S3。
所述加权的分类损失函数为加权的二分类交叉熵损失函数,满足以下公式:
当然,不限于此,在另外的实施例中,还可以选择更有效的针对类别不均衡的损失函数,例如FocalLoss。
所述步骤S5中采用加权的分类损失函数进行计算,可以有效解决行人属性识别中的类别不均衡的问题。即对于占比不同的类别标签,赋予不同的权重,使得特征提取模型不完全倾向于占比较大的类别,从而可以均衡不同比例类别之间的关系,有效解决长尾问题。
所述计算结果监督所述训练模型的训练学习中,所述训练模型通过反向传播和Adam优化器更新所述训练模型的模型参数。
所述监督为所述训练模型根据训练误差更新所述模型参数的权重。具体的,在所述训练模型的训练过程中,前向传播时,所述训练模型通过特征提取并输入到所述预测模型,所述预测模型生成预测值,将预测值输入到所述加权的分类损失函数中,从而求得训练误差的误差值,根据该误差值对所述模型参数求导并更新所述模型参数的权重,该过程就是所说的监督所述训练模型。Adam优化器参与到所述训练模型的模型参数的更新过程中,使得所述加权的分类损失函数的损失函数值最小,即误差值为最大值且为最优解。
监督所述训练模型的训练学习采用现有的神经网络技术,pytorch框架自动计算反向传播(即自动求导),不需要人工操作。步骤S6、获取所述当前行人属性预测值在预设的验证集中相对应的准确率,并判断所述准确率是否达到预设标准:
若否,则进入步骤S7;若是,则结束所述训练模型的训练学习。
步骤S7、根据预设规则对所述特征提取模型的超参数进行调整,并返回所述步骤S3。
超参数(英文为:hyperparameters)一般就是根据经验确定的变量。在深度学习中,所述超参数一般包括学习率、迭代次数、所述全连接层的层数以及每层所述全连接层的神经元个数。
本实施方式中,所述超参数包括学习率、批大小(英文:Batch Size)以及训练次数。其中,批(英文:Batch)为将神经网络的整个训练样本分成若干个,批大小则为每批样本的大小。例如:学习率的范围为0.1到0.0001不等。批大小的范围为8、16、32等。训练次数的范围为50epoch到200epoch不等,epoch为计数单位,当一个完整的数据集通过了神经网络一次并且返回了一次,这个过程称为一次epoch。
参数的调整影响特征提取模型对数据学习,例如是学习率太小是否陷入局部最优,Loss不再下降,准确率较低;太大导致模型训练难以收敛,Loss以及准确率震荡;批大小太大或者太小导致模型无法很好的拟合数据;训练次数太少特征提取模型无法充分学习数据等等,最终影响准确率的高低。具体调整可以通过不断的数据积累,找到合适的学习率、批大小以及训练次数与所述准确率之间的关系,再进行增大或减少处理形成映射表,具体的调整通过映射表以查表方式实施,当然可以采用函数方式实现也可。
综上所述,本发明的行人属性识别方法针对现实场景,多角度,多场景,多时间段采集并标注大规模行人数据集,可采集和标注大规模行人属性识别数据集;通过训练学习大规模数据集,使得特征提取模型的更加适用于现实场景,特征提取模型的鲁棒性和泛化能力更强,从而可以有效应对实际应用中复杂多变的情况,更好的对行人属性进行识别,从而使得行人属性识别的效果好。
本发明还提供一种行人属性识别设备1000。请参照图2所示,图2为本发明视频监控设备1000的结构示意图。
所述行人属性识别设备1000包括处理器1001、存储器1002、网络接口1003及存储在存储器1002上并可在处理器1001上运行的计算机程序,所述处理器1001用于读取所述存储器中1002的程序,处理器1001执行计算机程序时实现实施例提供的行人属性识别方法中的步骤。即处理器1001执行所述行人属性识别方法中的步骤。
具体的,处理器1001用于执行以下步骤:
步骤S1、获取行人图像,将所述行人图像标注多类行人属性并生成行人图像数据。所述行人图像数据包括所述行人图像的文件名和与所述行人图像相对应的行人属性标注。
步骤S2、将所述行人图像数据依次进行数据增强处理和均值化处理,再将处理后的所述行人图像数据转换生成预设格式的输入行人图像。
步骤S3、将所述输入行人图像输入至所述主干网络,再通过所述特征提取模型将所述输入行人图像进行特征提取并生成特征图,以用于预测行人属性。所述特征图为一维图像。
步骤S4、将所述特征图输入至所述全连接层,再通过所述预测模型将所述特征图进行训练学习,所述预测模型将训练学习完成后的所述全连接层中的每个神经元的输出行人属性分类数,并将输出的所述行人属性分类数作为一个行人属性预测概率,再将所有的所述行人属性预测概率中概率最大的一个作为当前行人属性预测值。所述训练学习为所述预测模型学习神经元参数。
步骤S5、将所述当前行人属性预测值输入至预设的加权的分类损失函数进行计算得到计算结果,并根据所述计算结果分别训练所述训练模型的模型参数和调整所述训练模型的模式结构,以用于监督所述训练模型的训练学习,并返回所述步骤S3。所述监督为所述训练模型根据训练误差更新所述模型参数的权重。
步骤S6、获取所述当前行人属性预测值在预设的验证集中相对应的准确率,并判断所述准确率是否达到预设标准:
若否,则进入步骤S7;若是,则结束所述训练模型的训练学习。
步骤S7、根据预设规则对所述特征提取模型的超参数进行调整,并返回所述步骤S3。本发明实施例提供的所述行人属性识别设备1000能够实现行人属性识别方法实施例中的各个实施方式,以及相应有益效果,为避免重复,这里不再赘述。
需要指出的是,图中仅示出了具有组件的1001-1003,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的所述行人属性识别设备1000是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable GateArray,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述存储器1002至少包括一种类型的可读存储介质,可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器1002可以是所述行人属性识别设备1000的内部存储单元,例如所述行人属性识别设备1000的硬盘或内存。在另一些实施例中,所述存储器1002也可以是所述行人属性识别设备1000的外部存储设备,例如该行人属性识别设备1000上配备的插接式硬盘,智能存储卡(Smart Media Card, SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。当然,所述存储器1002还可以既包括所述行人属性识别设备1000的内部存储单元也包括其外部存储设备。本实施例中,所述存储器1002通常用于存储安装于所述行人属性识别设备1000的操作系统和各类应用软件,例如行人属性识别设备1000的行人属性识别方法的程序代码等。此外,所述存储器1002还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器1001在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该所述处理器1001通常用于控制所述行人属性识别设备1000的总体操作。本实施例中,所述处理器1001用于运行所述存储器1002中存储的程序代码或者处理数据,例如运行行人属性识别设备1000的行人属性识别方法的程序代码。
网络接口1003可包括无线网络接口或有线网络接口,该网络接口1003通常用于在行人属性识别设备1000与其他电子设备之间建立通信连接。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器1001执行时实现如上所述的行人属性识别方法中的步骤。
本领域普通技术人员可以理解实现实施例行人属性识别设备的行人属性识别方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如各方法的实施例的流程。其中,存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存取存储器(Random Access Memory,简称RAM)等。
在本发明实施例中提到的本实施方式为了便于表述。以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
与现有技术相比,本发明的行人属性识别方法通过如下步骤:步骤S1、获取行人图像,并生成行人图像数据;步骤S2、数据增强处理和均值化处理,生成输入行人图像;步骤S3、通过特征提取模型进行特征提取并生成特征图;步骤S4、通过预测模型处理;步骤S5、通过加权的分类损失函数计算,将计算结果监督训练模型的训练学习,返回步骤S3;步骤S6、判断准确率是否达到预设标准:若否,则进入步骤S7;若是,则结束所述特征提取模型的训练学习;步骤S7、对特征提取模型的超参数进行调整,返回S3。上述步骤中,本发明的行人属性识别方法通过步骤S2的数据增强处理和均值化处理,可以有效地解决模糊和遮挡等噪声给特征提取模型的影响,增强了特征提取模型的鲁棒性,使得特征提取模型的泛化能力更强;再通过步骤S5的加权的分类损失函数计算,对于占比不同的类别标签,赋予不同的权重,使得训练模型不完全倾向于占比较大的类别,从而可以均衡不同比例类别之间的关系,有效解决长尾问题;再通过步骤S7的对特征提取模型的超参数进行调整,增强了预测模型输出的准确率。综上所述,实施本发明的行人属性识别方法的步骤,针对现实场景,多角度,多场景,多时间段采集并标注大规模行人数据集,可采集和标注大规模行人属性识别数据集;通过训练学习大规模数据集,使得训练模型的更加适用于现实场景,可以有效应对实际应用中复杂多变的情况,更好的对行人属性进行识别,从而使得行人属性识别的效果好。
以上所述的仅是本发明的实施方式,在此应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出改进,但这些均属于本发明的保护范围。
Claims (10)
1.一种行人属性识别方法,应用于神经网络,所述神经网络包括主干网络和与所述主干网络通信连接的全连接层,其特征在于,所述神经网络设置为训练模型,所述训练模型包括由所述主干网络设置的用于提取特征的特征提取模型和由所述全连接层中由N个神经元设置形成的预测模型,N为行人属性的类别数;该方法包括如下步骤:
步骤S1、获取行人图像,将所述行人图像标注多类行人属性并生成行人图像数据,所述行人图像数据包括所述行人图像的文件名和与所述行人图像相对应的行人属性标注;
步骤S2、将所述行人图像数据依次进行数据增强处理和均值化处理,再将处理后的所述行人图像数据转换生成预设格式的输入行人图像;
步骤S3、将所述输入行人图像输入至所述主干网络,再通过所述特征提取模型将所述输入行人图像进行特征提取并生成特征图,以用于预测行人属性,所述特征图为一维图像;
步骤S4、将所述特征图输入至所述全连接层,再通过所述预测模型将所述特征图进行训练学习,所述预测模型将训练学习完成后的所述全连接层中的每个神经元的输出行人属性分类数,并将输出的所述行人属性分类数作为一个行人属性预测概率,再将所有的所述行人属性预测概率中概率最大的一个作为当前行人属性预测值,所述训练学习为所述预测模型学习神经元参数;
步骤S5、将所述当前行人属性预测值输入至预设的加权的分类损失函数进行计算得到计算结果,并根据所述计算结果分别训练所述训练模型的模型参数和调整所述训练模型的模式结构,以用于监督所述训练模型的训练学习,并返回所述步骤S3,所述监督为所述训练模型根据训练误差更新所述模型参数的权重;
步骤S6、获取所述当前行人属性预测值在预设的验证集中相对应的准确率,并判断所述准确率是否达到预设标准:
若否,则进入步骤S7;若是,则结束所述训练模型的训练学习;
步骤S7、根据预设规则对所述特征提取模型的超参数进行调整,并返回所述步骤S3。
2.根据权利要求1所述的行人属性识别方法,其特征在于,所述步骤S1中,所述行人属性包括性别、骑车状态、服装及口罩状态。
3.根据权利要求1所述的行人属性识别方法,其特征在于,所述步骤S2中,所述数据增强处理包括尺度变换、随机裁剪、随机亮度变化、填充、随机翻折以及随机擦除。
4.根据权利要求1所述的行人属性识别方法,其特征在于,所述步骤S3中,所述主干网络为Resnet-50,所述特征图为将所述特征提取模型中的最后一个残差模块输出的特征图拉伸到一维形成。
5.根据权利要求1所述的行人属性识别方法,其特征在于,所述步骤S4中,所述预测模型通过修改最后一层所述全连接层的神经元数量作为行人属性分类数。
7.根据权利要求1所述的行人属性识别方法,其特征在于,所述步骤S5中,所述训练模型通过反向传播和Adam优化器更新所述训练模型的模型参数。
8.根据权利要求1所述的行人属性识别方法,其特征在于,所述步骤S7中,所述超参数包括学习率、批大小以及训练次数。
9.一种行人属性识别设备,其特征在于,包括处理器和存储器,所述处理器用于读取所述存储器中的程序,执行如权利要求1至8中任一项所述的行人属性识别方法中的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时实现如权利要求1-8中任意一项所述的行人属性识别方法中的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110843147.7A CN113283414A (zh) | 2021-07-26 | 2021-07-26 | 行人属性识别方法、相关设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110843147.7A CN113283414A (zh) | 2021-07-26 | 2021-07-26 | 行人属性识别方法、相关设备及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113283414A true CN113283414A (zh) | 2021-08-20 |
Family
ID=77281355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110843147.7A Pending CN113283414A (zh) | 2021-07-26 | 2021-07-26 | 行人属性识别方法、相关设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113283414A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743497A (zh) * | 2021-09-02 | 2021-12-03 | 南京理工大学 | 基于注意力机制与多尺度特征的细粒度识别方法及系统 |
CN114067183A (zh) * | 2021-11-24 | 2022-02-18 | 北京百度网讯科技有限公司 | 神经网络模型训练方法、图像处理方法、装置和设备 |
CN114708437A (zh) * | 2022-06-02 | 2022-07-05 | 深圳比特微电子科技有限公司 | 目标检测模型的训练方法、目标检测方法、装置和介质 |
CN117649408A (zh) * | 2024-01-29 | 2024-03-05 | 天津博思特医疗科技有限责任公司 | 一种基于肺部ct图像的肺结节识别处理方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871444A (zh) * | 2019-01-16 | 2019-06-11 | 北京邮电大学 | 一种文本分类方法及系统 |
CN110210542A (zh) * | 2019-05-24 | 2019-09-06 | 厦门美柚信息科技有限公司 | 图片文字识别模型训练方法、装置及文字识别系统 |
CN110222636A (zh) * | 2019-05-31 | 2019-09-10 | 中国民航大学 | 基于背景抑制的行人属性识别方法 |
CN111695500A (zh) * | 2020-06-11 | 2020-09-22 | 齐鲁工业大学 | 基于迁移学习的脑卒中患者运动想象任务识别方法及系统 |
CN111783870A (zh) * | 2020-06-29 | 2020-10-16 | 北京百度网讯科技有限公司 | 人体属性的识别方法、装置、设备及存储介质 |
CN111833906A (zh) * | 2020-07-25 | 2020-10-27 | 江南大学 | 基于多路声学特征数据增强的声场景分类方法 |
CN111932824A (zh) * | 2020-08-07 | 2020-11-13 | 深圳技术大学 | 弱势群体人员的识别控制系统 |
CN112560831A (zh) * | 2021-03-01 | 2021-03-26 | 四川大学 | 一种基于多尺度空间校正的行人属性识别方法 |
CN112749654A (zh) * | 2020-12-31 | 2021-05-04 | 南京恩瑞特实业有限公司 | 一种用于视频大雾监测的深度神经网络模型构建方法、系统及装置 |
-
2021
- 2021-07-26 CN CN202110843147.7A patent/CN113283414A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109871444A (zh) * | 2019-01-16 | 2019-06-11 | 北京邮电大学 | 一种文本分类方法及系统 |
CN110210542A (zh) * | 2019-05-24 | 2019-09-06 | 厦门美柚信息科技有限公司 | 图片文字识别模型训练方法、装置及文字识别系统 |
CN110222636A (zh) * | 2019-05-31 | 2019-09-10 | 中国民航大学 | 基于背景抑制的行人属性识别方法 |
CN111695500A (zh) * | 2020-06-11 | 2020-09-22 | 齐鲁工业大学 | 基于迁移学习的脑卒中患者运动想象任务识别方法及系统 |
CN111783870A (zh) * | 2020-06-29 | 2020-10-16 | 北京百度网讯科技有限公司 | 人体属性的识别方法、装置、设备及存储介质 |
CN111833906A (zh) * | 2020-07-25 | 2020-10-27 | 江南大学 | 基于多路声学特征数据增强的声场景分类方法 |
CN111932824A (zh) * | 2020-08-07 | 2020-11-13 | 深圳技术大学 | 弱势群体人员的识别控制系统 |
CN112749654A (zh) * | 2020-12-31 | 2021-05-04 | 南京恩瑞特实业有限公司 | 一种用于视频大雾监测的深度神经网络模型构建方法、系统及装置 |
CN112560831A (zh) * | 2021-03-01 | 2021-03-26 | 四川大学 | 一种基于多尺度空间校正的行人属性识别方法 |
Non-Patent Citations (3)
Title |
---|
DANGWEI LI ET AL: "Multi-attribute learning for pedestrian attribute recognition in surveillance scenarios", 《2015 3RD IAPR ASIAN CONFERENCE ON PATTERN RECOGNITION》 * |
吴锐 等: "基于双域自注意力机制的行人属性识别", 《计算机应用》 * |
李辰征 等: "基于注意力机制修正网络的行人属性识别", 《计算机工程与设计》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743497A (zh) * | 2021-09-02 | 2021-12-03 | 南京理工大学 | 基于注意力机制与多尺度特征的细粒度识别方法及系统 |
CN114067183A (zh) * | 2021-11-24 | 2022-02-18 | 北京百度网讯科技有限公司 | 神经网络模型训练方法、图像处理方法、装置和设备 |
CN114708437A (zh) * | 2022-06-02 | 2022-07-05 | 深圳比特微电子科技有限公司 | 目标检测模型的训练方法、目标检测方法、装置和介质 |
CN114708437B (zh) * | 2022-06-02 | 2022-09-06 | 深圳比特微电子科技有限公司 | 目标检测模型的训练方法、目标检测方法、装置和介质 |
CN117649408A (zh) * | 2024-01-29 | 2024-03-05 | 天津博思特医疗科技有限责任公司 | 一种基于肺部ct图像的肺结节识别处理方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Han et al. | A unified metric learning-based framework for co-saliency detection | |
Bartz et al. | See: towards semi-supervised end-to-end scene text recognition | |
CN110866140B (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
Liu et al. | Localization guided learning for pedestrian attribute recognition | |
WO2022000426A1 (zh) | 基于孪生深度神经网络的动目标分割方法及系统 | |
CN112966691B (zh) | 基于语义分割的多尺度文本检测方法、装置及电子设备 | |
CN113283414A (zh) | 行人属性识别方法、相关设备及计算机可读存储介质 | |
CN108288051B (zh) | 行人再识别模型训练方法及装置、电子设备和存储介质 | |
CN107683469A (zh) | 一种基于深度学习的产品分类方法及装置 | |
Bianco et al. | Predicting image aesthetics with deep learning | |
US11803971B2 (en) | Generating improved panoptic segmented digital images based on panoptic segmentation neural networks that utilize exemplar unknown object classes | |
CN112183672A (zh) | 图像分类方法、特征提取网络的训练方法和装置 | |
CN113011568B (zh) | 一种模型的训练方法、数据处理方法及设备 | |
Farag | Traffic signs classification by deep learning for advanced driving assistance systems | |
CN112990378B (zh) | 基于人工智能的场景识别方法、装置及电子设备 | |
CN113283282B (zh) | 一种基于时域语义特征的弱监督时序动作检测方法 | |
Mehrjardi et al. | A survey on deep learning-based image forgery detection | |
Al-Huda et al. | Weakly supervised pavement crack semantic segmentation based on multi-scale object localization and incremental annotation refinement | |
CN112597324A (zh) | 一种基于相关滤波的图像哈希索引构建方法、系统及设备 | |
Nikolopoulos et al. | Evidence-driven image interpretation by combining implicit and explicit knowledge in a bayesian network | |
CN117676099B (zh) | 基于物联网的安全预警方法及系统 | |
Kumari et al. | Deep learning techniques for remote sensing image scene classification: A comprehensive review, current challenges, and future directions | |
Wang et al. | Detecting action-relevant regions for action recognition using a three-stage saliency detection technique | |
CN115797701A (zh) | 目标分类方法、装置、电子设备及存储介质 | |
Qi et al. | Class-aware dual-supervised aggregation network for video object detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210820 |