CN115294353A - 基于多层属性引导的人群场景图像字幕描述方法 - Google Patents

基于多层属性引导的人群场景图像字幕描述方法 Download PDF

Info

Publication number
CN115294353A
CN115294353A CN202210837834.2A CN202210837834A CN115294353A CN 115294353 A CN115294353 A CN 115294353A CN 202210837834 A CN202210837834 A CN 202210837834A CN 115294353 A CN115294353 A CN 115294353A
Authority
CN
China
Prior art keywords
feature
mlp
input
level
visual
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210837834.2A
Other languages
English (en)
Inventor
王岚晓
邱荷茜
赵泰锦
李宏亮
孟凡满
吴庆波
许林峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202210837834.2A priority Critical patent/CN115294353A/zh
Publication of CN115294353A publication Critical patent/CN115294353A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出了一种基于多层属性引导的人群场景图像字幕描述方法,从输入图像中提取出区域级视觉特征、对应的位置信息以及人的动作特征;利用多层感知机得到完成特征嵌入映射后的视觉特征、位置特征和动作特征;通过设置的特征处理层与多层感知机依次得到全局视觉特征、局部特征、对象层次特征、动作层次特征和状态层次特征;利用全局视觉特征、对象层次特征、动作层次特征、状态层次特征和上一时刻的隐藏层状态得到融合特征;利用全局视觉特征、融合特征和上一时刻的语义特征得到当前时刻的语义特征;最后根据当前时刻的语义特征预测当前单词的概率分布并输出。本发明提取不同的层次人群属性特征,从而生成更具有人群特定的生动细节的描述。

Description

基于多层属性引导的人群场景图像字幕描述方法
技术领域
本发明涉及深度学习、计算机视觉、图像场景解析、语言与图像联合处理技术,特别涉及一个以人群场景为主题的图像字幕描述技术。
背景技术
随着全球科技的发展,如何高效的利用大量与人群场景相关的数字视觉信息,并为人们生产生活提供服务具有深远的意义。然而,依靠人工处理和分析大量的人群场景相关的图像和视频信息是十分复杂、费时费力的。因此,要完成从信息化城市到数字化城市再到智慧城市的转变,需要强有力的技术支持。在这种时代背景下,让机器能够有效地理解和分析人群场景,并用于对密集人群的引导和管理,以及预防拥挤、踩踏等事故的发生至关重要。对于建设为人类服务的智慧城市、智能交通等具有深远意义。
然而,现有的图像字幕数据集在人群场景理解研究中存在四个限制:1)只有少数图像与人群场景相关,2)忽略了对同一图像的描述角度多样性,3)句子结构和描述对象单一,无法适用于描述复杂的人群场景,4)图像通常包含一个显著性的对象和简单干净的背景,这与人类实际生活有巨大差异。因此,由于缺乏与人群场景相关数据集的多模态字幕数据集,相关的研究受到了极大的限制。此外,现有的方法通常针对简单背景下的单一显著性对象进行描述,尽管在公开数据集中取得了先进的性能,但它们由于忽略了人群场景的特殊性,不足以应对复杂的现实世界人群场景的挑战。
发明内容
本发明所要解决的技术问题是,针对人群属性特性提出了一种基于人群对象、动作和状态(如位置、着装、姿态等)的多层属性引导的图像字幕描述方法。
本发明为解决上述技术问题所采用的技术方案是,基于多层属性引导的人群场景图像字幕描述方法,包括步骤:
1.图像特征提取步骤:从输入图像中提取出区域级视觉特征Fr、对应的位置信息Fp以及人的动作特征Fc
2.视觉特征嵌入步骤:
利用多层感知机MLP将区域级视觉特征Fr、位置信息Fp以及动作特征Fc映射到同一特征空间中,分得得到完成映射后的视觉特征Vr、位置特征Vp和动作特征Vc
3.多层次密集人群感知处理步骤:
设置特征处理层,所述特征处理层从区域级和通道级的注意力两个方面对输入的特征进行处理输出多层次特征,定义查询向量Q和值向量V为特征处理层的输入,特征处理层的输出Vout定义为:
βr=softmax(W3tanh(W1Q+W2V))
βc=softmax(W6tanh(W4AvgPool(Q)+W5V))
Vout=βc⊙(βrV)
其中,W1、W2、W3、W4、W5、W6均为特征处理层的权值,βr为区域级注意力特征,βc为通道级注意力特征,AvgPool为平均池化,tanh为双曲正切激活函数,⊙为哈达玛乘积,softmax为归一化指数函数;
3.1包含有N个特征向量的视觉特征Vr通过平均池化得到特征向量Vg,特征向量Vg进行N倍复制后与视觉特征Vr进行哈达玛积,将该哈达玛积的结果作为查询向量Q输入特征处理层,视觉特征Vr作为值向量V输入特征处理层,特征处理层的输出作为第一MLPSC的输入,第一MLPSC的输出为全局视觉特征Vglobal
3.2先对全局视觉特征Vglobal进行N倍复制后与视觉特征Vr进行特征级联后作为第二MLP的输入,第二MLP的输出为局部特征Vlocal
3.3全局视觉特征Vglobal进行N倍复制后和局部特征Vlocal进行哈达玛积,该哈达玛积的结果作为对象层次的查询向量Q输入至特征处理层,局部特征Vlocal作为对象层次的值向量V输入至特征处理层,特征处理层的输出作为第三MLPSC的输入,第三MLP输出对象层次特征Vobject
3.4动作特征Vc和对象层次特征Vobject进行哈达玛积,该哈达玛积的结果作为动作层次的查询向量Q输入至特征处理层,动作特征Vc作为动作层次的值向量V输入至特征处理层,特征处理层的输出作为第四MLP的输入,第四MLP输出动作层次特征Vaction
3.5位置特征Vp和局部特征Vlocal通过矩阵加法得到的加法结果作为状态层次的查询向量Q输入至特征处理层,对象层次特征Vobject和动作层次特征Vaction进行哈达玛积,该哈达玛积的结果作为状态层次的值向量V输入至特征处理层,特征处理层的输出作为第五MLP的输入,第五MLP输出状态层次特征Vstatus
4.特征融合步骤:在每一时刻t均进行特征融合:将全局视觉特征Vglobal、对象层次特征Vobject、动作层次特征Vaction和状态层次特征Vstatus级联起来得到总特征V,再利用上一时刻的隐藏层状态ht-1和总特征V计算出权值,将总特征V与权值对应相乘进行加权,加权的结果再加上总特征通过平均池化处理得到的平均值,相加后的结果为当前时刻融合后的特征Vh
5.密集人群导向的解码步骤:将全局视觉特征Vglobal、融合特征Vh和上一时刻的语义特征相加得到融合视觉特征;将上一单词的词嵌入向量与融合视觉特征在通道维度级联,将级联后的特征向量输入多层感知机MPL,多层感知机MPL输出特征Vin;再将特征Vin输入长短期记忆人工神经网络LSTM,LSTM输出当前时刻的隐藏层状态ht;将隐藏层状态ht和局部特征Vlocal经哈达玛乘积得到特征的查询向量,根据查询向量对局部特征进行加权得到优化后的局部特征V′local;将V′local、ht和Vin在通道维度级联,将级联后的特征输入至多层感知机MLP,MLP输出当前时刻的语义特征
Figure BDA0003749417320000031
最后将语义特征
Figure BDA0003749417320000032
进行全连接FC后输入Softmax函数预测当前单词的概率分布并输出。
本发明的有益效果是,根据人群属性损失提取不同的层次人群属性特征,并利用动态融合模块来获得当前解码阶段所关注的多层次视觉信息,获得的更高级视觉特征,以实现从视觉到语言的精细映射,从而生成更具有人群特定的生动细节的描述。
附图说明
图1为实施例实现本发明方法使用的网络结构图。
具体实施方式
如图1所示,实现本实施例方法的网络系统包括Faster R-CNN网络、HRNet网络、多层次密集人群感知模块、特征融合模块以及密集人群导向的解码器分别实现以下5个步骤。Faster R-CNN网络为一个现有的用于目标检测的网络,能够自动完成候选区域生成与特征提取。HRNet网络为通过并行多个分辨率的分支,加上不断进行不同分支之间的信息交互,实现高分辨率丰富语义的特征输出,能同时达到强语义信息和精准位置信息的目的。
步骤1:图像特征提取
对于每一张输入图像,通过预训练的Faster R-CNN网络提取一组区域级视觉特征Fr以及这些区域的位置信息Fp,区域级视觉特征为图1中的Faster R-CNN网络输出的候选框中的视觉特征;通过预训练的HRNet网络提取一组人的动作特征Fc
步骤2:视觉特征嵌入
利用多层感知机将上一步骤中得到的区域级视觉特征Fr、位置信息Fp以及动作特征Fc通过多层感知机MLP映射到同一特征空间中。图1的网络系统中高级语义特征的映射采用带短连接的特殊的多层感知机MLPSC,本领域技术人员可以采用其他的MLP。
区域级视觉特征Fr和位置特征Fp的嵌入通过单层的MLP实现,得到处理后的视觉特征Vr和位置特征Vp,Vr=MLP(Fr),Vp=MLP(Fp),而动作特征Vc则通过三层的感知机MLP3,Vc=MLP3(flatten(Fc))。其中,单层的MLP处理方式如下:
MLP(*)=LayerNorm(ReLU(FC(*)))
FC表示全连接,ReLU为整流线性单元激活函数,LayerNorm为一种归一化处理,*表示输入。
带短连接的多层感知机MLPSC处理方式如下:
MLPSC(*1,*2)=LayerNorm(ReLU(FC(*1)+*2))
*1为MLPSC的第一输入,*2的第二输入。
步骤3:多层次密集人群感知处理
在多层次密集人群感知处理模块中,特征处理层(Feature Layer)是一个基础模块单元。特征处理层从区域级和通道级的注意力两个方面对输入的特征进行处理,提取多层次特征。定义查询向量Q和值向量V,查询向量Q和值向量V均为特征处理层的输入,特征处理层的输出Vout定义为:
βr=softmax(W3tanh(W1Q+W2V))
βc=softmax(W6tanh(W4AvgPool(Q)+W5V))
Vout=βc⊙(βrV)
其中,W1、W2、W3、W4、W5、W6均为特征处理层的权值,AvgPool为平均池化,tanh为双曲正切激活函数,⊙为哈达玛乘积。
多层次密集人群感知处理具体可分为如下流程:
3.1为获取低层次的特征,直接对包含有N个特征向量的视觉特征Vr通过池化进行平均得到特征向量Vg,特征向量Vg进行N倍复制后与视觉特征Vr进行哈达玛积,将该哈达玛积的结果作为查询向量Q输入特征处理层,视觉特征Vr为值向量V输入特征处理层,特征处理层的输出作为第一MLPSC的第一输入,特征向量Vg作为第一MLPSC的第二输入,第一MLPSC的输出为全局视觉特征Vglobal。如果网络系统采用MLP的形式,则不需要第二输入。
3.2将全局视觉特征Vglobal进行扩展,先对Vglobal进行N倍复制后与视觉特征Vr进行特征级联后作为第二MLPSC的第一输入,另一方面,视觉特征Vr直接作为第二MLPSC的第二输入,第二MLPSC的输出为局部特征Vlocal
3.3全局视觉特征Vglobal进行N倍复制后和局部特征Vlocal进行哈达玛积,该哈达玛积的结果作为对象层次的查询向量Q输入至特征处理层,局部特征Vlocal作为对象层次的值向量V输入至特征处理层,特征处理层的输出作为第三MLPSC的第一输入,全局视觉特征Vglobal作为第三MLPSC的第二输入,第三MLPSC输出对象层次特征Vobject
3.4动作特征Vc和对象层次特征Vobject进行哈达玛积,该哈达玛积的结果作为动作层次的查询向量Q输入至特征处理层,动作特征Vc作为动作层次的值向量V输入至特征处理层,特征处理层的输出作为第四MLPSC的第一输入,全局视觉特征Vglobal作为第四MLPSC的第二输入,第四MLPSC输出动作层次特征Vaction
3.5位置特征Vp和局部特征Vlocal通过矩阵加法得到的加法结果作为状态层次的查询向量Q输入至特征处理层,对象层次特征Vobject和动作层次特征Vaction进行哈达玛积,该哈达玛积的结果作为状态层次的值向量V输入至特征处理层,特征处理层的输出作为第五MLPSC的第一输入,全局视觉特征Vglobal作为第五MLPSC的第二输入,第五MLPSC输出状态层次特征Vstatus
3.6将对象层次特征Vobject、动作层次特征Vaction和状态层次特征Vstatus三个层次的特征通过sigmoid函数,预测各层次的对应单词的概率分布,并使用二元交叉熵损失对分布进行约束。
多层次密集人群感知处理模块为针对人群场景,创新性地将图像特征基于人体属性进行分层,提取更具有针对性的特征,首先生成对象层次特征Vobject,即人的特征,再根据对象层次特征Vobject和动作特征Vc生成动作层次特征Vaction,体现了有人才会有人的动作的客观逻辑,最后根据位置特征Vp、对象层次特征Vobject和动作层次特征Vaction生成状态层次特征Vstatus
步骤4:特征融合
在解码时,网络模型需要根据视觉特征生成单词,那么在生成不同单词时,视觉特征也应不同。因此,需要在每一时刻t均进行特征融合:
4.1将全局视觉特征Vglobal、对象层次特征Vobject、动作层次特征Vaction和状态层次特征Vstatus级联起来得到总特征,作为总特征值V和键值K;
4.2已知上一时刻的隐藏层状态ht-1,将ht-1作为查询值Q经4倍复制扩展之后与键值K通过矩阵加法相加,对相加结果用softmax函数进行权值计算。
4.3将总特征值V与权值对应相乘进行加权,再加上总特征通过平均池化处理得到的平均值,相加后的结果即得到当前时刻融合后的特征Vh,即高层次密级人群视觉特征。
步骤5:密集人群导向的解码器
5.1将全局视觉特征Vglobal、上步得到的融合特征Vh和上一时刻的语义特征
Figure BDA0003749417320000063
相加,得到融合视觉特征。
5.2将上一单词的词嵌入向量wt-1与融合视觉特征在通道维度级联,将级联后的特征向量输入多层感知机MPL,多层感知机MPL输出特征Vin
5.3将特征Vin输入长短期记忆人工神经网络LSTM,LSTM输出当前时刻新的隐藏层状态ht
5.4由于局部特征Vlocal中包含丰富的视觉特征,将隐藏层状态ht和局部特征Vlocal经哈达玛乘积得到特征的查询向量,根据查询向量对局部特征进行加权得到优化后的局部特征V′local,具体为:查询向量一方面经过区域级预测得到权值β1,另一个方面经过池化与通道级预测得到权值β2,局部特征Vlocal前与权值β1相乘后,将乘法结果再与权值β2进行哈达玛积得到优化后的局部特征V′local
5.5将V′local、ht和Vin在通道维度级联,将级联后的特征输入至多层感知机MLP,MLP输出当前时刻的语义特征
Figure BDA0003749417320000061
5.6将语义特征
Figure BDA0003749417320000062
进行全连接FC后输入Softmax函数预测当前单词的概率分布,在训练过程中,用交叉熵损失约束。如图1所示的,系统最终输出的对当前输入图片生成的字幕描述为:“Some people are holding cameras they are taking photos of thebeautiful scenery.”人们正拿着相机,拍摄着美丽的风景。
再给出一个字幕描述方法的具体应用实例:
1.获取数据库。使用本发明构建的人群场景图像字幕数据集CrowdCaption。
2.数据预处理。使用预训练网络提取图像特征,使用词嵌入方法将单词转化为高维向量。
3.搭建深度网络模型。按照上述技术方案搭建网络模型,其中图像的区域个数为36,区域对应矩形框的特征为中心点坐标、宽、高、置信度打分,人体姿态选取的关节点个数为34。
4.模型初始化。除去使用的预训练网络,模型中的所有参数均随机初始化。
5.设置超参数。视觉特征维度和隐藏层状态维度均为1024,词嵌入向量维度为512。选用Adam优化器进行优化,学习率变化方式为热身变化,热身1000次迭代,初始值设置为0.0005。
6.训练模型。确定上述超参数后,将数据集中的数据依次分批送入网络模型,用交叉熵损失优化80个epoch后,改用强化学习策略继续训练40个epoch。
7.测试模型。模型训练完毕后,将测试数据送入网络,得到模型的测试结果。

Claims (6)

1.基于多层属性引导的人群场景图像字幕描述方法,其特征在于,包括以下步骤:
1.图像特征提取步骤:从输入图像中提取出区域级视觉特征Fr、对应的位置信息Fp以及人的动作特征Fc
2.视觉特征嵌入步骤:
利用多层感知机MLP将区域级视觉特征Fr、位置信息Fp以及动作特征Fc映射到同一特征空间中,分得得到完成映射后的视觉特征Vr、位置特征Vp和动作特征Vc
3.多层次密集人群感知处理步骤:
设置特征处理层,所述特征处理层从区域级和通道级的注意力两个方面对输入的特征进行处理输出多层次特征,定义查询向量Q和值向量V为特征处理层的输入,特征处理层的输出Vout定义为:
βr=softmax(W3tanh(W1Q+W2V))
βc=softmax(W6tanh(W4AvgPool(Q)+W5V))
Vout=βc⊙(βrV)
其中,W1、W2、W3、W4、W5、W6均为特征处理层的权值,βr为区域级注意力特征,βc为通道级注意力特征,AvgPool为平均池化,tanh为双曲正切激活函数,⊙为哈达玛乘积,softmax为归一化指数函数;
3.1包含有N个特征向量的视觉特征Vr通过平均池化得到特征向量Vg,特征向量Vg进行N倍复制后与视觉特征Vr进行哈达玛积,将该哈达玛积的结果作为查询向量Q输入特征处理层,视觉特征Vr作为值向量V输入特征处理层,特征处理层的输出作为第一MLP的输入,第一MLP的输出为全局视觉特征Vglobal
3.2对全局视觉特征Vglobal进行N倍复制后与视觉特征Vr进行特征级联后的特征作为第二MLP的输入,第二MLP的输出为局部特征Vlocal
3.3全局视觉特征Vglobal进行N倍复制后和局部特征Vlocal进行哈达玛积,该哈达玛积的结果作为对象层次的查询向量Q输入至特征处理层,局部特征Vlocal作为对象层次的值向量V输入至特征处理层,特征处理层的输出作为第三MLP的输入,第三MLP输出对象层次特征Vobject
3.4动作特征Vc和对象层次特征Vobject进行哈达玛积,该哈达玛积的结果作为动作层次的查询向量Q输入至特征处理层,动作特征Vc作为动作层次的值向量V输入至特征处理层,特征处理层的输出作为第四MLP的输入,第四MLP输出动作层次特征Vaction
3.5位置特征Vp和局部特征Vlocal通过矩阵加法得到的加法结果作为状态层次的查询向量Q输入至特征处理层,对象层次特征Vobject和动作层次特征Vaction进行哈达玛积,该哈达玛积的结果作为状态层次的值向量V输入至特征处理层,特征处理层的输出作为第五MLP的输入,第五MLP输出状态层次特征Vstatus
4.特征融合步骤:在每一时刻t均进行特征融合:将全局视觉特征Vglobal、对象层次特征Vobject、动作层次特征Vaction和状态层次特征Vstatus级联起来得到总特征V,再利用上一时刻的隐藏层状态ht-1和总特征V计算出权值,将总特征V与权值对应相乘进行加权,加权的结果再加上总特征通过平均池化处理得到的平均值,相加后的结果为当前时刻融合后的特征Vh
5.密集人群导向的解码步骤:将全局视觉特征Vglobal、融合特征Vh和上一时刻的语义特征相加得到融合视觉特征;将上一单词的词嵌入向量与融合视觉特征在通道维度级联,将级联后的特征向量输入多层感知机MPL,多层感知机MPL输出特征Vin;再将特征Vin输入长短期记忆人工神经网络LSTM,LSTM输出当前时刻的隐藏层状态ht;将隐藏层状态ht和局部特征Vlocal经哈达玛乘积得到特征的查询向量,根据查询向量对局部特征进行加权得到优化后的局部特征V′local;将V′local、ht和Vin在通道维度级联,将级联后的特征输入至多层感知机MLP,MLP输出当前时刻的语义特征
Figure FDA0003749417310000021
最后将语义特征
Figure FDA0003749417310000022
进行全连接FC后输入Softmax函数预测当前单词的概率分布并输出。
2.如权利要求1所述方法,其特征在于,通过预训练的Faster R-CNN网络提取区域级视觉特征Fr以及对应的位置信息Fp;通过预训练的HRNet网络提取人的动作特征Fc
3.如权利要求1所述方法,其特征在于,视觉特征嵌入步骤中,区域级视觉特征Fr和位置特征Fp的嵌入通过单层的MLP实现,得到处理后的视觉特征Vr和位置特征Vp,Vr=MLP(Fr),Vp=MLP(Fp),而动作特征Vc则通过三层的感知机MLP3,Vc=MLP3(flatten(Fc))。
4.如权利要求3所述方法,其特征在于,单层的MLP处理方式如下:
MLP(*)=LayerNorm(ReLU(FC(*)))
FC表示全连接,ReLU为整流线性单元激活函数,LayerNorm为一种归一化处理,*表示输入。
5.如权利要求3所述方法,其特征在于,所述MLP具体采用带短连接的多层感知机MLPSC的形式,单层的MLPSC处理方式如下:
MLPSC(*1,*2)=LayerNorm(ReLU(FC(*1)+*2))
*1为MLPSC的第一输入,*2的第二输入。
6.如权利要求5所述方法,其特征在于,采用MLPSC的多层次密集人群感知处理步骤的3.1中特征处理层的输出作为第一MLPSC的第一输入,特征向量Vg作为第一MLPSC的第二输入;
3.2中对Vglobal进行N倍复制后与视觉特征Vr进行特征级联后的特征作为第二MLPSC的第一输入,视觉特征Vr直接作为第二MLPSC的第二输入;
3.3中特征处理层的输出作为第三MLPSC的第一输入,全局视觉特征Vglobal作为第三MLPSC的第二输入;
3.4中特征处理层的输出作为第四MLPSC的第一输入,全局视觉特征Vglobal作为第四MLPSC的第二输入;
3.5中特征处理层的输出作为第五MLPSC的第一输入,全局视觉特征Vglobal作为第五MLPSC的第二输入。
CN202210837834.2A 2022-07-16 2022-07-16 基于多层属性引导的人群场景图像字幕描述方法 Pending CN115294353A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210837834.2A CN115294353A (zh) 2022-07-16 2022-07-16 基于多层属性引导的人群场景图像字幕描述方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210837834.2A CN115294353A (zh) 2022-07-16 2022-07-16 基于多层属性引导的人群场景图像字幕描述方法

Publications (1)

Publication Number Publication Date
CN115294353A true CN115294353A (zh) 2022-11-04

Family

ID=83824046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210837834.2A Pending CN115294353A (zh) 2022-07-16 2022-07-16 基于多层属性引导的人群场景图像字幕描述方法

Country Status (1)

Country Link
CN (1) CN115294353A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116132756A (zh) * 2023-01-06 2023-05-16 重庆大学 一种基于深度学习的端到端视频字幕生成方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116132756A (zh) * 2023-01-06 2023-05-16 重庆大学 一种基于深度学习的端到端视频字幕生成方法
CN116132756B (zh) * 2023-01-06 2024-05-03 重庆大学 一种基于深度学习的端到端视频字幕生成方法

Similar Documents

Publication Publication Date Title
Dai et al. Human action recognition using two-stream attention based LSTM networks
CN110472531B (zh) 视频处理方法、装置、电子设备及存储介质
Khan et al. Automatic shadow detection and removal from a single image
Ge et al. An attention mechanism based convolutional LSTM network for video action recognition
CN113628249B (zh) 基于跨模态注意力机制与孪生结构的rgbt目标跟踪方法
CN109743642B (zh) 基于分层循环神经网络的视频摘要生成方法
CN108427740B (zh) 一种基于深度度量学习的图像情感分类与检索算法
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN111178284A (zh) 基于地图数据的时空联合模型的行人重识别方法及系统
CN115222998B (zh) 一种图像分类方法
Zhao et al. JSNet++: Dynamic filters and pointwise correlation for 3D point cloud instance and semantic segmentation
CN113158861A (zh) 一种基于原型对比学习的运动分析方法
CN112801068A (zh) 一种视频多目标跟踪与分割系统和方法
CN116596966A (zh) 一种基于注意力和特征融合的分割与跟踪方法
CN114780767A (zh) 一种基于深度卷积神经网络的大规模图像检索方法及系统
CN115294353A (zh) 基于多层属性引导的人群场景图像字幕描述方法
Su et al. Low-rank deep convolutional neural network for multitask learning
Ben Mahjoub et al. An efficient end-to-end deep learning architecture for activity classification
Ke et al. Spatial, structural and temporal feature learning for human interaction prediction
CN110942463B (zh) 一种基于生成对抗网络的视频目标分割方法
CN117197632A (zh) 一种基于Transformer的电镜花粉图像目标检测方法
Li Dance art scene classification based on convolutional neural networks
CN116682178A (zh) 密集场景下的多人姿态检测方法
Yi et al. An Effective Lightweight Crowd Counting Method Based on an Encoder-Decoder Network for the Internet of Video Things
CN113627245B (zh) Crts目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination