CN115439884A - 一种基于双分支自注意力网络的行人属性识别方法 - Google Patents
一种基于双分支自注意力网络的行人属性识别方法 Download PDFInfo
- Publication number
- CN115439884A CN115439884A CN202210978456.XA CN202210978456A CN115439884A CN 115439884 A CN115439884 A CN 115439884A CN 202210978456 A CN202210978456 A CN 202210978456A CN 115439884 A CN115439884 A CN 115439884A
- Authority
- CN
- China
- Prior art keywords
- attribute
- self
- attention
- branch
- pedestrian
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/50—Context or environment of the image
- G06V20/52—Surveillance or monitoring of activities, e.g. for recognising suspicious objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于双分支自注意力网络的行人属性识别方法,属于模式识别技术领域,包括如下步骤:图像数据采集及处理,构建并划分数据集;图像特征提取;构建双分支自注意力行人属性识别网络模型获取图像属性相关信息和上下文区域信息;训练输出性能良好的双分支自注意力网络模型;通过监控视频实时采集行人图像,利用训练完成的两分支自注意力网络模型进行行人属性的自动识别。本发明采用双分支自注意力网络获取属性相关信息和上下文关系,并结合约束损失等对属性特征分类进行限制,提升了属性分类性能,能够在大规模监控场景下稳定实现行人属性识别。
Description
技术领域
本发明属于模式识别技术领域,具体涉及一种基于双分支自注意力网络的行人属性识别方法。
背景技术
行人属性是一系列人类高级的视觉语义特征,包含人口统计信息(性别、年龄等)以及外观属性(如发型、发色、衣服类型及颜色)等广泛的抽象特征。行人属性识别任务主要内容是给定一幅人的图像,从一个预定义的属性列表中描述这个人的特征,对行人分析、检测具有重要意义。行人属性识别可以在很多领域应用,例如,在城市安全和安防方面,可以快速从海量监控视频中寻找关键目标,对性别、年龄、衣着、步行姿态等属性进行解析;在商业方面的应用,现代城市服务提供商依靠大数据等信息技术,正逐渐为每个人提供智能化、个性化服务,从每个人外观、衣服风格中为其匹配更为精准的适用商品等;在图像检索方面,由于现代城市摄像头数量的日渐增多,每天都会产生大量图片视频数据,如何从这些数据中实现分类存储、图像检索面临巨大挑战,因此可以利用相关属性信息对其进行自动标注和分类,为缓解数据存储压力、高效检索图像提供重要依据。
行人属性识别在真实监控场景中仍然是一项具有挑战性的任务,在这些场景中,诸如遮挡、复杂背景和各种视图等噪声会降低识别精度。基于图片的行人属性识别分类算法的一般流程如下:1)数据划分,将图片裁剪成统一像素的图片集并进行数据集划分,2)输入图片,利用ResNet等骨干网络模型算法进行行人图像特征提取,使用分类器进行属性特征分类,3) 进行迭代训练,寻找最优值,并保存模型参数。目前属性识别技术大多是基于标准卷积神经网络设计的,通过采集监控场景下得到的行人样本并人工赋予标签,对识别模型进行训练,使模型从样本中学习到有用的外观表达和动作特征,并能够依据这些特征进行识别。
以往的工作主要从以下几个方面解决行人属性识别的任务:
1)在行人属性识别领域,通常需要同时分析几十个属性。在这些属性中,有些属性密切相关。比如,当“裙子”“长发”属性出现时往往会联系到“性别为女性”这一属性,服装类型的属性可以为判断年龄提供一定的信息。通过探索不同属性之间的相关性可以有效提升属性识别性能,先前方法大都忽略了这一点。
2)另外一方面,探索不同图像区域中的空间上下文关系也有助于属性识别。一个可以想象的例子是,当识别行人的性别时,人们倾向于关注多个区域,如头部周围、着装和携带物品的区域等,即需要考虑图片中存在的区域上下文关系。虽然深度卷积网络在行人属性识别方面取得了巨大成功,但上下文关系尚未得到充分利用。这是因为深度卷积网络中单元的感受野受到严重限制,可能无法了解全局背景并捕捉不同区域的长距离依赖性。
发明内容
为了解决上述问题,本发明提出了一种基于双分支自注意力网络的行人属性识别方法,首先挖掘属性之间的高阶信息,结合一阶信息并利用属性自注意力模块和约束函数获取属性相关性信息,然后利用聚合上下文信息和上下文自注意模块实现捕捉不同区域长期依赖性,从获取属性相关性特征、属性上下文关系两方面高性能地实现行人属性识别,在提高检测准确性同时,拓宽属性识别应用场景,预期创造可观的经济价值。
本发明的技术方案如下:
一种基于双分支自注意力网络的行人属性识别方法,包括如下步骤:
步骤1、图像数据采集及处理,构建并划分数据集;
步骤2、图像特征提取;
步骤3、构建双分支自注意力行人属性识别网络模型获取图像属性相关信息和上下文区域信息,双分支包括属性分支和上下文分支,属性分支包括二阶自注意力模块和属性自注意力模块,上下文分支包括区域特征映射模块和上下文自注意力模块;
步骤4.训练输出性能良好的双分支自注意力网络模型;
步骤5、通过监控视频实时采集行人图像,利用训练完成的两分支自注意力网络模型进行行人属性的自动识别。
进一步地,步骤1的具体过程为:从监控视频中提取行人图像,并进行属性标注和裁剪;将图像统一裁剪成大小为256×128像素的图片,构成图片数据集D,并将数据集D划分为训练集Dtrain和测试集Dtest。
进一步地,步骤2的具体过程为:使用ResNet50作为骨干网络,利用批处理方法批量输入图片,得到特征图X∈RC×H×W,其中H、W和C分别代表特征图的长度、宽度和维度。
进一步地,步骤3的具体过程为:
进一步地,步骤3.1的具体过程为:
二阶自注意力模块的计算过程如下:
步骤3.1.1、特征图X通过1×1卷积得到维度为的三维张量,再改变该张量的维度变换成二维矩阵Q=H×W,相同操作重复三次生成特征图X的三个投影,分别为KS、 QS和VS,维度均为其中,输入通道为C维,输出通道为维,r表示采样降低倍率;
其中,I和1分别是Q维单位矩阵和全一矩阵;
步骤3.1.3、采用Softmax函数处理协方差矩阵Σ并采用Q作为协方差矩阵的缩放因子;
属性自注意力模块的计算过程如下:
步骤3.1.6、输入形状为的特征图通过不同的1×1卷积并将最后两维数据维度变换成一维以获得KA、QA和VA,KA、QA和VA分别表示属性自注意力模块的三个输入投影,其中QA,NH和M分别是注意力头数和属性个数,DA表示属性特征映射的维度;
其中,ωj表示训练数据集中第j个属性所占的权重,M代表属性个数;pij、yij分别表示第i个样本的第j个属性的预测值和标签值;
其中,WA∈RM×M表示线性化处理分类器参数。
进一步地,步骤3.2的具体过程为:
步骤3.2.1、首先采用标记化方案将特征图聚合成K个紧凑视觉标记,其中K<<H×W;对于输入特征图X∈RH×W×C,通过局部聚合描述符向量计算核进行标记软分配,并计算第k 个视觉标记Tk∈RK×C,如式(6)所示,
其中,αk(xl)表示将第l个局部特征xl分配给第k个视觉标记的加权值,ck是第k个可学习的锚点;
步骤3.2.2、利用自注意模块来捕获不同视觉标记之间的上下文关系;采用多头自注意力层和前馈神经网络在所有视觉标记之间传播消息,它们的状态通过等式(7)更新,
步骤3.2.3、然后,将Qc,Kc进行矩阵相乘,再通过Softmax操作和Dropout操作,随机裁剪50%参数得到上下文注意力分数,通过与Vc相加引入残差结构来加速收敛;最后,通过线性层和批标准化操作获得上下文分支预测值如式(8)所示,
其中,BN代表批标准化操作,WC∈RM×C代表线性化处理中分类器参数。
进一步地,步骤4的具体过程为:
首先采用训练集Dtrain训练模型,学习率设置为0.0001,迭代次数为30次,优化器采用 Adam优化器,每迭代一次输入64幅图像;
其中,ωj表示训练数据集中第j个属性所占的权重;M代表属性个数;pij、yij表示第i 个样本的第j个属性的预测值和标签值;
其中,λ1,λ2,λ3分别为两个分支损失函数和约束损失函数的权重;
最后利用Dtest测试模型,每次训练之后都在测试集Dtest上进行测试,比较各测试结果,并保存测试集结果最好的网络模型参数。
本发明所带来的有益技术效果:
本发明采用两分支自注意力网络获取属性相关信息和上下文关系,并结合约束损失等对属性特征分类进行限制,提升了属性分类性能。本发明能够在大规模监控场景下稳定实现行人属性识别,可以应用于人员图像检索、安全安防检测、商业广告投放等领域,提高属性识别技术的性能和实用性,对加快科技发展,提高人民生活水平,促进社会生产力提高具有重要意义。
附图说明
图1为本发明基于双分支自注意力网络的行人属性识别方法的流程图;
图2为本发明双分支自注意力网络模型的整体结构示意图;
图3为本发明二阶自注意力模块模型的计算过程示意图;
图4为本发明属性自注意力模块的计算过程示意图;
图5为本发明上下文自注意力模块的计算过程示意图。
具体实施方式
下面结合附图以及具体实施方式对本发明作进一步详细说明:
在行人属性识别领域中,常常需要将性别、年龄、太阳镜、服装类型、发型等数个属性集中分析。在这些属性中,有些密切相关,例如,“裙子”属性通常与“女性”属性相关联,服装类型属性可以提供一定的信息来判断年龄,因此探索属性间关系有助于提升属性识别性能。探索不同图像区域的上下文关系同样有助于属性识别。例如,当识别一个行人的性别时,人们倾向于关注多个区域,如头部周围区域、身体穿着等,并考虑它们的上下文关系,因此本发明阐述一种基于双分支自注意力网络的行人属性识别方法,综合获取输入图片属性相关信息和上下文区域信息,高性能实现行人属性识别所必需的“图片特征提取”、“属性特征分类”等关键算法。
本发明为行人属性识别提出一种新颖的双分支网络(即属性分支和上下文分支),属性分支提出二阶自注意力模块来充分利用有限特征维度信息,进一步提高特征表示能力;上下文分支使用标记化方案来聚合特征图,并提出上下文自注意模块来探索基于多个视觉标记的上下文关系。
如图1所示,一种基于双分支自注意力网络的行人属性识别方法,包括如下步骤:
步骤1、图像数据采集及处理,构建并划分数据集。从监控视频中提取行人图像,并进行属性标注和裁剪;将图像统一裁剪成大小为256×128像素的图片,构成图片数据集D,并将数据集D划分为训练集Dtrain和测试集Dtest。
步骤2、图像特征提取。使用ResNet50作为骨干网络,利用批处理方法批量输入图片,得到特征图X∈RC×H×W,其中H、W和C分别代表特征图的长度、宽度和维度,在本发明实施例中分别设为8、4和2048。或者,使用层数更深、参数更多的ResNet101网络模型进行图像特征提取,从而达到更好的识别精度。
步骤3、构建如图2所示的双分支自注意力行人属性识别网络模型获取图像属性相关信息和上下文区域信息;双分支包括属性分支和上下文分支,属性分支包括二阶自注意力模块和属性自注意力模块,上下文分支包括区域特征映射模块和上下文自注意力模块。模型总损失包含三部分,其中属性分支损失、上下文分支损失分别用表示,属性分支中约束损失则用表示。
步骤3.1、基于二阶自注意力模块和属性自注意力模块计算属性分支的预测值;具体过程如下:
二阶自注意力模块的计算过程如图3所示,
步骤3.1.1、特征图X通过1×1卷积(输入通道为C维,输出通道为维,其中r表示采样降低倍率,在本发明实施例中r设为8)得到维度为的张量,再改变该张量的维度变换成二维张量Q=H×W,相同操作重复三次便生成了特征图X的三个投影,表示为KS、QS和VS,维度均为
其中,I和1分别是Q维单位矩阵和全一矩阵;
步骤3.1.3、采用Softmax函数处理协方差矩阵Σ并采用Q作为协方差矩阵的缩放因子,此步骤可以起到调节的作用;
上述二阶自注意力模块输出将作为下面介绍的属性自注意力模块的输入,属性自注意力模块的计算过程如图4所示,
步骤3.1.6、将步骤3.1.5的输出特征图(形状为)通过不同的1×1卷积并将最后两维数据维度变换(Reshape)成一维以获得KA、QA和VA三个矩阵,KA、QA和VA分别表示属性自注意力模块的三个输入投影,其中QA,NH和M分别是注意力头数和属性个数,DA表示属性特征映射的维度,本发明实施例中设为256;
其中,ωj表示训练数据集中第j个属性所占的权重,M代表属性个数;pij、yi j分别表示第i个样本的第j个属性的预测值和标签值;
其中WA∈RM×M表示线性化处理分类器参数。
步骤3.2、基于上下文自注意力模块计算上下文分支的预测值;
由于现实场景中监控相机视角的影响,图像经常会发生变形,但身体部位的位置和附带物品的位置往往有一定的关系,因此有必要探索上下文区域关系。在上下文分支中,从特征图中提取视觉标记,并进一步用于探索不同区域之间的上下文关系。具体过程如下,
步骤3.2.1、首先采用标记化方案将特征图聚合成K个紧凑视觉标记,其中K<<H×W。对于输入特征图X∈RH×W×C,通过局部聚合描述符向量(Vector of LocallyAggregated Descriptors,VLAD)计算核(VLAD core)进行标记软分配,并计算第k个视觉标记Tk∈RK×C,如式(6)所示。
其中,αk(xl)表示将第l个局部特征xl分配给第k个视觉标记的加权值,ck是第k个可学习的锚点。
步骤3.2.2、如附图5所示,利用自注意模块来捕获不同视觉标记之间的上下文关系。采用多头自注意力层和前馈神经网络(FFN)在所有视觉标记之间传播消息,它们的状态通过等式(7)更新,
其中,d1表示调节因子,指输入维度除以多头注意力头数,本发明实施例中为256;Qc,是通过对输出全局特征Tk进行线性变换得到,本发明实施示例中的中间特征维度nc1=256,nc2=64,Qc,Kc,Vc表示上下文自注意力的三个输入投影;WT∈RM×M代表线性化处理中分类器参数。
步骤3.2.3、然后,利用Qc,Kc矩阵相乘以及Softmax操作并通过Dropout随机裁剪50%参数得到上下文注意力分数,通过与Vc相加引入残差结构来加速收敛。最后,通过使用线性层(FC)和批标准化操作(BN)获得上下文分支预测值如式(8)所示,
其中,BN代表批标准化操作,WC∈RM×C代表线性化处理中分类器参数。
步骤4.训练输出性能良好的双分支自注意力网络模型。本发明通过迭代训练,寻找模型最优值,具体过程为:
首先采用训练集Dtrain训练模型,学习率设置为0.0001,迭代次数为30次,优化器采用 Adam优化器,每迭代一次输入64幅图像;
其中,ωj表示训练数据集中第j个属性所占的权重;M代表属性个数;pij、yij表示第i 个样本的第j个属性的预测值和标签值;
其中,λ1,λ2,λ3分别为两个分支损失函数和约束损失函数的权重,本发明实施例中设λ1=1,λ2=1,λ3=0.1。
最后利用Dtest测试模型,每次训练之后都在测试集Dtest上进行测试,比较各测试结果,并保存测试集结果最好的网络模型参数。
或者,也可以使用AdamW优化器算法进一步加速迭代过程。
步骤5、通过监控视频实时采集行人图像,利用训练完成的两分支自注意力网络模型进行行人属性的自动识别。
为了证明本发明的可行性与优越性,采用三个常用属性识别数据集(PETA、PA00K、RAP) 上进行对比实验,基准模型采用ResNet50和线性分类器,本模型测试结果在上述数据集上的识别准确率分别达到了87.70%、82.27%、83.68%,相较于基准模型的准确率分别提升了2.59%、 2.89%、5.20%,充分说明了本发明能够有效改善行现有人属性识别方法的应用效果。
当然,上述说明并非是对本发明的限制,本发明也并不仅限于上述举例,本技术领域的技术人员在本发明的实质范围内所做出的变化、改型、添加或替换,也应属于本发明的保护范围。
Claims (7)
1.一种基于双分支自注意力网络的行人属性识别方法,其特征在于,包括如下步骤:
步骤1、图像数据采集及处理,构建并划分数据集;
步骤2、图像特征提取;
步骤3、构建双分支自注意力行人属性识别网络模型获取图像属性相关信息和上下文区域信息,双分支包括属性分支和上下文分支,属性分支包括二阶自注意力模块和属性自注意力模块,上下文分支包括区域特征映射模块和上下文自注意力模块;
步骤4.训练输出性能良好的双分支自注意力网络模型;
步骤5、通过监控视频实时采集行人图像,利用训练完成的两分支自注意力网络模型进行行人属性的自动识别。
2.根据权利要求1所述基于双分支自注意力网络的行人属性识别方法,其特征在于,所述步骤1的具体过程为:从监控视频中提取行人图像,并进行属性标注和裁剪;将图像统一裁剪成大小为256×128像素的图片,构成图片数据集D,并将数据集D划分为训练集Dtrain和测试集Dtest。
3.根据权利要求1所述基于双分支自注意力网络的行人属性识别方法,其特征在于,所述步骤2的具体过程为:使用ResNet50作为骨干网络,利用批处理方法批量输入图片,得到特征图X∈RC×H×W,其中H、W和C分别代表特征图的长度、宽度和维度。
5.根据权利要求4所述基于双分支自注意力网络的行人属性识别方法,其特征在于,所述步骤3.1的具体过程为:
二阶自注意力模块的计算过程如下:
步骤3.1.1、特征图X通过1×1卷积得到维度为的三维张量,再改变该张量的维度变换成二维矩阵Q=H×W,相同操作重复三次生成特征图X的三个投影矩阵,分别为KS、QS和VS,维度均为其中,输入通道为C维,输出通道为维,r表示采样降低倍率;
其中,I和1分别是Q维单位矩阵和全一矩阵;
步骤3.1.3、采用Softmax函数处理协方差矩阵Σ并采用Q作为协方差矩阵的缩放因子;
属性自注意力模块的计算过程如下:
步骤3.1.6、输入形状为的三维特征图通过不同的1×1卷积并将最后两维数据维度变换成一维以获得KA、QA和VA,分别表示属性自注意力模块的三个输入投影矩阵,其中NH和M分别是注意力头数和属性个数,DA表示属性特征映射的维度;
其中,ωj表示训练数据集中第j个属性所占的权重,pij、yij分别表示第i个样本的第j个属性的预测值和标签值;
其中,WA∈RM×M表示线性化处理分类器参数。
6.根据权利要求4所述基于双分支自注意力网络的行人属性识别方法,其特征在于,所述步骤3.2的具体过程为:
步骤3.2.1、首先采用标记化方案将特征图聚合成K个紧凑视觉标记,其中K<<H×W;对于输入特征图X∈RH×W×C,通过局部聚合描述符向量计算核进行标记软分配,并计算第k个视觉标记Tk∈RK×C,如式(6)所示,
其中,αk(xl)表示将第l个局部特征xl分配给第k个视觉标记的加权值,ck是第k个可学习的锚点;
步骤3.2.2、利用自注意模块来捕获不同视觉标记之间的上下文关系;采用多头自注意力层和前馈神经网络在所有视觉标记之间传播消息,它们的状态通过等式(7)更新,
步骤3.2.3、然后,将Qc,Kc进行矩阵相乘,再通过Softmax操作和Dropout操作,随机裁剪50%参数得到上下文注意力分数,通过与Vc相加引入残差结构来加速收敛;最后,通过线性层和批标准化操作获得上下文分支预测值如式(8)所示,
其中,BN代表批标准化操作,WC∈RM×C代表线性层中的参数。
7.根据权利要求1所述基于双分支自注意力网络的行人属性识别方法,其特征在于,所述步骤4的具体过程为:
首先采用训练集Dtrain训练模型,学习率设置为0.0001,迭代次数为30次,优化器采用Adam优化器,每迭代一次输入64幅图像;
其中,ωj表示训练数据集中第j个属性所占的权重;M代表属性个数;pij、yij表示第i个样本的第j个属性的预测值和标签值;
其中,λ1,λ2,λ3分别为两个分支损失函数和约束损失函数的权重;
最后利用Dtest测试模型,每次训练之后都在测试集Dtest上进行测试,比较各测试结果,并保存测试集结果最好的网络模型参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210978456.XA CN115439884A (zh) | 2022-08-16 | 2022-08-16 | 一种基于双分支自注意力网络的行人属性识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210978456.XA CN115439884A (zh) | 2022-08-16 | 2022-08-16 | 一种基于双分支自注意力网络的行人属性识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115439884A true CN115439884A (zh) | 2022-12-06 |
Family
ID=84242336
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210978456.XA Pending CN115439884A (zh) | 2022-08-16 | 2022-08-16 | 一种基于双分支自注意力网络的行人属性识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115439884A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117095447A (zh) * | 2023-10-18 | 2023-11-21 | 杭州宇泛智能科技有限公司 | 一种跨域人脸识别方法、装置、计算机设备及存储介质 |
CN117152552A (zh) * | 2023-07-27 | 2023-12-01 | 至本医疗科技(上海)有限公司 | 用于训练模型的方法、设备和介质 |
-
2022
- 2022-08-16 CN CN202210978456.XA patent/CN115439884A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117152552A (zh) * | 2023-07-27 | 2023-12-01 | 至本医疗科技(上海)有限公司 | 用于训练模型的方法、设备和介质 |
CN117095447A (zh) * | 2023-10-18 | 2023-11-21 | 杭州宇泛智能科技有限公司 | 一种跨域人脸识别方法、装置、计算机设备及存储介质 |
CN117095447B (zh) * | 2023-10-18 | 2024-01-12 | 杭州宇泛智能科技有限公司 | 一种跨域人脸识别方法、装置、计算机设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111639544B (zh) | 基于多分支跨连接卷积神经网络的表情识别方法 | |
Zhao et al. | Recurrent attention model for pedestrian attribute recognition | |
Wang et al. | Multi-scale dilated convolution of convolutional neural network for crowd counting | |
Parkhi et al. | Deep face recognition | |
CN111523462B (zh) | 基于自注意增强cnn的视频序列表情识别系统及方法 | |
Liong et al. | Evaluation of the spatio-temporal features and gan for micro-expression recognition system | |
Chai et al. | Boosting palmprint identification with gender information using DeepNet | |
CN105975932B (zh) | 基于时间序列shapelet的步态识别分类方法 | |
Yang et al. | Rankboost with l1 regularization for facial expression recognition and intensity estimation | |
CN115439884A (zh) | 一种基于双分支自注意力网络的行人属性识别方法 | |
CN112464730B (zh) | 一种基于域无关前景特征学习的行人再识别方法 | |
CN111199212B (zh) | 基于注意力模型的行人属性识别方法 | |
CN111444488A (zh) | 一种基于动态手势的身份认证方法 | |
CN115830637B (zh) | 一种基于姿态估计和背景抑制的遮挡行人重识别方法 | |
CN112541421A (zh) | 一种开放空间的行人换装重识别方法 | |
Agbo-Ajala et al. | A lightweight convolutional neural network for real and apparent age estimation in unconstrained face images | |
Ma et al. | Landmark‐Based Facial Feature Construction and Action Unit Intensity Prediction | |
Li et al. | Multi-scale joint feature network for micro-expression recognition | |
Singh et al. | Automation of surveillance systems using deep learning and facial recognition | |
Ma et al. | Bottleneck feature extraction-based deep neural network model for facial emotion recognition | |
CN116434010A (zh) | 一种多视图的行人属性识别方法 | |
Zhao et al. | Research on human behavior recognition in video based on 3DCCA | |
Stylianou-Nikolaidou et al. | A novel CNN-LSTM hybrid architecture for the recognition of human activities | |
Xie et al. | Micro-expression recognition based on deep capsule adversarial domain adaptation network | |
Dembani et al. | UNSUPERVISED FACIAL EXPRESSION DETECTION USING GENETIC ALGORITHM. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |