CN110458215B - 基于多时态注意力模型的行人属性识别方法 - Google Patents
基于多时态注意力模型的行人属性识别方法 Download PDFInfo
- Publication number
- CN110458215B CN110458215B CN201910699525.1A CN201910699525A CN110458215B CN 110458215 B CN110458215 B CN 110458215B CN 201910699525 A CN201910699525 A CN 201910699525A CN 110458215 B CN110458215 B CN 110458215B
- Authority
- CN
- China
- Prior art keywords
- attribute
- pedestrian
- image
- feature
- hidden layer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/30—Scenes; Scene-specific elements in albums, collections or shared content, e.g. social network photos or video
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Abstract
一种基于多时态注意力模型的行人属性识别方法,包括:获取图像特征和属性特征;构造文本监督特征,是将图像特征和属性特征的两种组合结果进行融合,并级联属性特征作为属性监督;构造多时态注意力机制,是利用两个时刻的隐藏层向量构造注意力机制的对齐模型,然后共同对图像特征进行权重优化;将文本监督特征和上下文向量作为长短期记忆模型的额外输入,获得含有行人属性信息的隐藏层向量;获取行人属性识别概率;对行人属性识别概率进行优化。本发明能够快速且有效识别真实监控场景下的不同行人的属性,对其他深度学习领域,比如行人检索和行人重识别有重要的推动作用,此外对于建成平安城市和城市监控系统的完善也有很多积极作用。
Description
技术领域
本发明涉及一种行人属性识别方法。特别是涉及一种基于多时态注意力模型的行人属性识别方法。
背景技术
现代城市中,每时每刻都有数以百万计的监控摄像头收集着行人和交通等视频和图片信息,为了保障人民的生命财产和城市安全,需要对这些海量数据进行实时的分析,早期的监控系统需要人工筛选数据,耗费大量的人力物力。随着机器学习的发展,尤其是深度学习的兴起,愈发方便处理海量数据。行人属性识别任务旨在给定一张含有行人的图像时,能够预测中行人所具有的属性,比如性别、年龄、衣服类型等,对于监控领域处理海量行人图像和行人重识别等任务有重要的作用。在监控领域中,行人属性识别任务能够从监控视频得到的图像中甄别可能对人民生命财产造成威胁的人或物品。此外行人属性识别任务对建成智慧城市有重要的促进作用,因此行人属性识别有着非常重要的研究价值和现实意义。
早期的行人属性识别任务利用人工提取的特征,并利用SVM分类器进行分类,该方法需要耗费相当高的人力物力,而且行人属性识别的性能也不能满足人们的要求,随着深度学习的兴起,利用卷积神经网络进行特征提取和循环神经网络进行属性识别,极大地促进了识别性能的提高。此外研究人员还提出了一种能够优化图像特征权重分配的注意力机制,能够让模型更多的关注与属性相关的图像特征,从而有效提升了属性识别的性能。
但是,目前利用LSTM进行属性识别的方法中,往往只在初始状态时输入一次图像,之后每个时刻都只输入属性信息,这样避免了多次利用图像的噪声造成模型过拟合的问题。然而,这种方式也造成了属性和图像的分离,在训练过程中不能有效的相互映射;此外,传统的注意力模型,只是考虑当前属性的隐藏层状态,忽略了下一个属性的隐藏层对性能的影响,下一个属性的隐藏层携带着即将预测的信息,能够有效的引导模型去关注图像与下一个属性相关的特征位置,增加对应特征的权重,如果预测的属性不正确,将进一步减少即将分配的权重。达到进一步优化模型的效果;最后,以往的基于属性的权重的目标函数认为属性占总比少的就一定是识别性别比较差的,进而设计目标函数。目前存在着行人属性识别任务中特殊的情况,即一些占整体比例较少的属性,识别精度也比较高,相反,一些占整体比例较多的属性,识别精度却比较低。
发明内容
本发明所要解决的技术问题是,提供一种能够快速且有效的识别出不同行人属性的基于多时态注意力模型的行人属性识别方法。
本发明所采用的技术方案是:一种基于多时态注意力模型的行人属性识别方法,包括如下步骤:
1)获取图像特征和属性特征;
2)构造文本监督特征,是将图像特征和属性特征的两种组合结果进行融合,并级联属性特征作为属性监督;
3)构造多时态注意力机制,是利用两个时刻的隐藏层向量构造注意力机制的对齐模型,然后共同对图像特征进行权重优化;
4)将文本监督特征和上下文向量作为长短期记忆模型的额外输入,获得含有行人属性信息的隐藏层向量;
5)获取行人属性识别概率pt=softmax(ht-1);
6)对行人属性识别概率pt进行优化。
步骤1)中所述的获取图像特征,是将图像输入到卷积神经网络中获取图像特征V={v1,…vi,…vN}。
步骤1)中所述的获取属性特征,是使用One-Hot的向量yt来表示属性特征,设定行人属性的特征有L个,即图像的属性特征Y=[y1,y2,…,yt,…,yL]。
步骤2)中所述的将图像特征和属性特征的两种组合结果进行特征融合,是采用如下公式:
mt=Φ(V⊙W1yt)+Ψ(V⊙W2yt) (1)
式中,mt为图像和文本的融合特征,Ф和Ψ分别为线性整流函数和双曲正切函数,V为图像特征,为了利用属性信息,引入两个不同属性嵌入矩阵W1和W2与属性特征向量yt构成两个不同的词向量,t表示时刻。
步骤2)中所述的级联属性特征作为属性监督,是利用属性嵌入矩阵W3构造一个词向量W3yt,然后将词向量W3yt与融合特征mt级联构成文本监督特征st,其中词向量W3yt起属性监督作用。
步骤3)是通过如下公式进行:
式中,和/>代表两个时刻解码端隐藏层向量和编码端图像特征的对齐模型,fatt为注意力函数,/>和/>表示两个时刻得到的权重分配系数,/>为解码端在t-1时刻的隐藏层向量,/>为解码端在t时刻的隐藏层向量,vi为图像特征向量;
式中,N为图像特征向量的个数。
步骤4)是通过如下公式进行:
式中,不同下标的W表示训练学习到的不同参数,ft表示遗忘门,it表示输入门,ot表示输出门,ct表示t时刻细胞状态,ct-1表示t-1时刻细胞状态,ht表示t时刻隐藏层,ht-1表示t-1时刻隐藏层,σ表示Sigmoid函数,st表示文本监督特征,zt表示上下文向量。
步骤6)包括对不同时刻的行人属性识别概率pt根据数据集的属性顺序进行汇总,设定pm表示汇总后的第m个行人属性的识别概率,采用如下目标函数对行人属性识别概率pm进行优化:
ωm=exp(-am) (9)
式中,pm表示输出第m个属性的概率,am表示第m个属性在所有属性中的占比,ωm表示占比越多的属性,受关注程度越少,ωm(1-pm)表示如果第m个属性占比少,难以识别,则提高对该属性关注程度,L表示行人属性特征的个数;
优化后的pm为行人属性识别的最佳结果。
本发明的基于多时态注意力模型的行人属性识别方法,优势主要体现在:
(1)有效性:通过在RAP和PETA两个行人属性识别数据集上进行实验,本发明的识别性能处于当下领先水平,能够快速且有效的识别出不同行人的属性。
(2)新颖性:该发明首次在行人属性识别方向加入下一个属性的隐藏层信息,利用下一个属性的隐藏层携带的属性信息与编码端特征进行映射,能够有效优化编码端的特征分布。
(3)实用性:该发明能够有效识别真实监控场景下的行人属性,对其他深度学习领域,比如行人检索和行人重识别有重要的推动作用,此外对于建成平安城市和城市监控系统的完善也有很多积极作用。
附图说明
图1是本发明基于多时态注意力模型的行人属性识别方法的示意图。
具体实施方式
下面结合实施例和附图对本发明的基于多时态注意力模型的行人属性识别方法做出详细说明。
如图1所示,本发明的基于多时态注意力模型的行人属性识别方法,包括如下步骤:
1)获取图像特征和属性特征;其中,
所述的获取图像特征,是将图像输入到卷积神经网络(CNN)中获取图像特征V={v1,…vi,…vN},例如使用VGGNet,GoogleNet,ResNet等卷积神经网络模型提取图像特征,本发明使用ResNet-152网络对图像特征进行提取。
所述的获取属性特征,是使用One-Hot的向量yt来表示属性特征,设定行人属性的特征有L个,即图像的属性特征Y=[y1,y2,…,yt,…,yL]。
2)构造文本监督特征,是将图像特征和属性特征的两种组合结果进行融合,并级联属性特征作为属性监督,避免因多次利用图像特征而引入噪声;其中,
所述的将图像特征和属性特征的两种组合结果进行特征融合,是采用如下公式:
mt=Φ(V⊙W1yt)+Ψ(V⊙W2yt) (1)
式中,mt为图像和文本的融合特征,Φ和Ψ分别为线性整流函数(ReLU)和双曲正切函数(Tanh),V为图像特征,为了利用属性信息,引入两个不同属性嵌入矩阵W1和W2与属性特征向量yt构成两个不同的词向量,t表示时刻。
所述的级联属性特征作为属性监督,是利用属性嵌入矩阵W3构造一个词向量W3yt,然后将词向量W3yt与融合特征mt级联构成文本监督特征st,其中词向量W3yt起属性监督作用。
3)构造多时态注意力机制,是利用两个时刻的隐藏层向量构造注意力机制的对齐模型,然后共同对图像特征进行权重优化,是通过如下公式进行:
式中,和/>代表两个时刻解码端隐藏层向量和编码端图像特征的对齐模型,fatt为注意力函数,该发明使用Tanh函数,/>和/>表示两个时刻得到的权重分配系数,为解码端在t-1时刻的隐藏层向量,/>为解码端在t时刻的隐藏层向量,vi为图像特征向量;
式中,N为图像特征向量的个数。
4)将文本监督特征和上下文向量作为长短期记忆模型(LSTM)的额外输入,获得含有行人属性信息的隐藏层向量;文本监督特征能够在避免引入噪声的情况下,多次利用图像特征。通过多时态注意力模型得到的上下文向量不但能够通过t-1时刻的隐藏层优化图像特征的权重分布,而且能够利用t时刻的隐藏层携带的下一个属性的信息进一步优化当前属性对应的特征分布。是通过如下公式获得含有行人属性信息的隐藏层向量:
式中,不同下标的W表示训练学习到的不同参数,ft表示遗忘门,it表示输入门,ot表示输出门,ct表示t时刻细胞状态,ct-1表示t-1时刻细胞状态,ht表示t时刻隐藏层,ht-1表示t-1时刻隐藏层,σ表示Sigmoid函数,st表示文本监督特征,zt表示上下文向量。
5)获取行人属性识别概率pt=softmax(ht-1);
6)在PETA数据集中,通过对属性识别的结果的研究发现,一些属性占比较少,但是其识别精度也较好,例如“Plaid”占所有属性的2.7%,但是识别精度能够达到80%以上;相反,有些属性占比较高,但是识别精度却比较低。例如“CarryingOther”占所有属性的20%,但是识别精度只有60%-75%,以往的方法只考虑属性占比的问题,认为少的属性一定是难识别的,却忽略了某些属性占比多却难识别问题。该发明针对这一问题,综合考虑了属性占比少和属性难识别提出一种新的目标函数,能够同时缓解两种挑战导致的识别精度低的问题。所以,需要对行人属性识别概率pt进行优化,包括对不同时刻的行人属性识别概率pt根据数据集的属性顺序进行汇总,设定pm表示汇总后的第m个行人属性的识别概率,采用如下目标函数对行人属性识别概率pm进行优化,优化后的pm为行人属性识别的最佳结果:
ωm=exp(-am) (9)
式中,pm表示输出第m个属性的概率,am表示第m个属性在所有属性中的占比,ωm表示占比越多的属性,受关注程度越少,ωm(1-pm)表示如果第m个属性占比少,难以识别,则提高对该属性关注程度,L表示行人属性特征的个数。
Claims (7)
1.一种基于多时态注意力模型的行人属性识别方法,其特征在于,包括如下步骤:
1)获取图像特征和属性特征;
2)构造文本监督特征,是将图像特征和属性特征的两种组合结果进行融合,并级联属性特征作为属性监督;
3)构造多时态注意力机制,是利用两个时刻的隐藏层向量构造注意力机制的对齐模型,然后共同对图像特征进行权重优化;
4)将文本监督特征和上下文向量作为长短期记忆模型的额外输入,获得含有行人属性信息的隐藏层向量;是通过如下公式进行:
式中,不同下标的W表示训练学习到的不同参数,ft表示遗忘门,it表示输入门,ot表示输出门,ct表示t时刻细胞状态,ct-1表示t-1时刻细胞状态,ht表示t时刻隐藏层,ht-1表示t-1时刻隐藏层,σ表示Sigmoid函数,st表示文本监督特征,zt表示上下文向量;
5)获取行人属性识别概率pt=softmax(ht-1);
6)对行人属性识别概率pt进行优化。
2.根据权利要求1所述的基于多时态注意力模型的行人属性识别方法,其特征在于,步骤1)中所述的获取图像特征,是将图像输入到卷积神经网络中获取图像特征V={v1,…vt,…vN}。
3.根据权利要求1所述的基于多时态注意力模型的行人属性识别方法,其特征在于,步骤1)中所述的获取属性特征,是使用One-Hot的向量yt来表示属性特征,设定行人属性的特征有L个,即图像的属性特征Y=[y1,y2,…,yt,…,yL]。
4.根据权利要求1所述的基于多时态注意力模型的行人属性识别方法,其特征在于,步骤2)中所述的将图像特征和属性特征的两种组合结果进行特征融合,是采用如下公式:
mt=Φ(V⊙W1yt)+Ψ(V⊙W2yt) (1)
式中,mt为图像和文本的融合特征,Φ和Ψ分别为线性整流函数和双曲正切函数,V为图像特征,为了利用属性信息,引入两个不同属性嵌入矩阵W1和W2与属性特征向量yt构成两个不同的词向量,t表示时刻。
5.根据权利要求1所述的基于多时态注意力模型的行人属性识别方法,其特征在于,步骤2)中所述的级联属性特征作为属性监督,是利用属性嵌入矩阵W3构造一个词向量W3yt,然后将词向量W3yt与融合特征mt级联构成文本监督特征st,其中词向量W3yt起属性监督作用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910699525.1A CN110458215B (zh) | 2019-07-30 | 2019-07-30 | 基于多时态注意力模型的行人属性识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910699525.1A CN110458215B (zh) | 2019-07-30 | 2019-07-30 | 基于多时态注意力模型的行人属性识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110458215A CN110458215A (zh) | 2019-11-15 |
CN110458215B true CN110458215B (zh) | 2023-03-24 |
Family
ID=68484145
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910699525.1A Active CN110458215B (zh) | 2019-07-30 | 2019-07-30 | 基于多时态注意力模型的行人属性识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110458215B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222167A (zh) * | 2020-02-06 | 2021-08-06 | 浙江大学 | 一种图像处理方法及其装置 |
CN112270578B (zh) * | 2020-11-23 | 2023-10-27 | 支付宝(杭州)信息技术有限公司 | 一种对象展示方法、装置及电子设备 |
CN114612927B (zh) * | 2020-12-09 | 2023-05-09 | 四川大学 | 一种基于图像文本双通道联合的行人重识别方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2311970A1 (en) * | 1999-08-26 | 2001-02-26 | Toppan Printing Co., Ltd. | Message providing apparatus |
CN108921051A (zh) * | 2018-06-15 | 2018-11-30 | 清华大学 | 基于循环神经网络注意力模型的行人属性识别网络及技术 |
CN109389091A (zh) * | 2018-10-22 | 2019-02-26 | 重庆邮电大学 | 基于神经网络和注意力机制结合的文字识别系统及方法 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106971154A (zh) * | 2017-03-16 | 2017-07-21 | 天津大学 | 基于长短记忆型递归神经网络的行人属性预测方法 |
CN106951872B (zh) * | 2017-03-24 | 2020-11-06 | 江苏大学 | 一种基于无监督深度模型与层次属性的行人再识别方法 |
US20190005387A1 (en) * | 2017-07-02 | 2019-01-03 | Ants Technology (Hk) Limited | Method and system for implementation of attention mechanism in artificial neural networks |
CN109190472B (zh) * | 2018-07-28 | 2021-09-14 | 天津大学 | 基于图像与属性联合引导的行人属性识别方法 |
-
2019
- 2019-07-30 CN CN201910699525.1A patent/CN110458215B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2311970A1 (en) * | 1999-08-26 | 2001-02-26 | Toppan Printing Co., Ltd. | Message providing apparatus |
CN108921051A (zh) * | 2018-06-15 | 2018-11-30 | 清华大学 | 基于循环神经网络注意力模型的行人属性识别网络及技术 |
CN109389091A (zh) * | 2018-10-22 | 2019-02-26 | 重庆邮电大学 | 基于神经网络和注意力机制结合的文字识别系统及方法 |
Non-Patent Citations (2)
Title |
---|
《Appearance based pedestrians’ gender recognition by employing stacked auto encoders in deep learning》;Mudassar Raza;《Future Generation Computer Systems》;20181130;第28页-第39页 * |
<人像属性识别关键技术研究进展及应用探索>;康运锋;《警察技术》;20180307(第2期);第12页-第16页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110458215A (zh) | 2019-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Liu et al. | Attentive crowd flow machines | |
WO2020221278A1 (zh) | 视频分类方法及其模型的训练方法、装置和电子设备 | |
CN110443143B (zh) | 多分支卷积神经网络融合的遥感图像场景分类方法 | |
CN111931684B (zh) | 一种基于视频卫星数据鉴别特征的弱小目标检测方法 | |
WO2020232905A1 (zh) | 基于超对象信息的遥感图像目标提取方法、装置、电子设备及介质 | |
CN110458215B (zh) | 基于多时态注意力模型的行人属性识别方法 | |
Workman et al. | A unified model for near and remote sensing | |
CN110569814B (zh) | 视频类别识别方法、装置、计算机设备及计算机存储介质 | |
CN109886330B (zh) | 文本检测方法、装置、计算机可读存储介质和计算机设备 | |
CN109190472B (zh) | 基于图像与属性联合引导的行人属性识别方法 | |
CN109492610B (zh) | 一种行人重识别方法、装置及可读存储介质 | |
CN113515669A (zh) | 基于人工智能的数据处理方法和相关设备 | |
CN109472733A (zh) | 基于卷积神经网络的图像隐写分析方法 | |
CN115240024A (zh) | 一种联合自监督学习和半监督学习的地外图片分割方法和系统 | |
CN114943937A (zh) | 行人重识别方法、装置、存储介质及电子设备 | |
CN114495004A (zh) | 一种基于无监督跨模态的行人重识别方法 | |
CN110751191A (zh) | 一种图像的分类方法及系统 | |
CN111783688B (zh) | 一种基于卷积神经网络的遥感图像场景分类方法 | |
CN113297936A (zh) | 一种基于局部图卷积网络的排球群体行为识别方法 | |
CN113010705A (zh) | 标签预测方法、装置、设备及存储介质 | |
CN112052722A (zh) | 行人身份再识别方法及存储介质 | |
CN116704433A (zh) | 基于上下文感知关系预测编码的自监督群体行为识别方法 | |
CN116721458A (zh) | 一种基于跨模态时序对比学习的自监督动作识别方法 | |
WO2018203551A1 (ja) | 信号検索装置、方法、及びプログラム | |
CN116091946A (zh) | 一种基于YOLOv5的无人机航拍图像目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |