CN116259075A - 基于提示微调预训练大模型的行人属性识别方法 - Google Patents
基于提示微调预训练大模型的行人属性识别方法 Download PDFInfo
- Publication number
- CN116259075A CN116259075A CN202310081570.7A CN202310081570A CN116259075A CN 116259075 A CN116259075 A CN 116259075A CN 202310081570 A CN202310081570 A CN 202310081570A CN 116259075 A CN116259075 A CN 116259075A
- Authority
- CN
- China
- Prior art keywords
- text
- pedestrian
- encoder
- visual
- attribute
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
一种基于提示微调预训练大模型的行人属性识别方法,属于计算机视觉技术领域,解决现有技术中没有充分利用行人图像与属性标签之间的关系而导致的次优以及泛化能力差的问题。本发明采用CLIP的视觉和文本编码器提取图像特征和属性特征,通过多模态Transformer模块对两个模态特征融合后,经过前馈网络得到预测结果,通过将行人属性识别问题建模为视觉语言融合问题,使用预训练的视觉语言大模型作为主干网络,提取模态间联系更好的视觉和文本特征,再通过多模态的Transformer建模视觉和文本之间的联系,充分利用了属性语义信息,并且可以看出通过提示微调的方式保留了预训练大模型较好的泛化能力,模型实用性更强。
Description
技术领域
本发明属于计算机视觉技术领域,涉及一种基于提示微调预训练大模型的行人属性识别方法。
背景技术
行人属性识别的目标是使用一组预定义的属性(如年龄、身高、发型、服装)来描述人的中间层语义信息。它在计算机视觉领域,特别是智能视频监控和自动驾驶领域发挥着重要作用,同时也促进了其他视觉任务的研究,包括行人重识别、行人搜索和行人检测。在人工智能的帮助下,如CNN(卷积神经网络)和RNN(递归神经网络),这一研究领域受到了广泛的关注并取得了很大的进展。然而,由于在极端情况下(包括运动模糊、阴影、遮挡、低分辨率、多视图和夜间)成像质量较差,行人属性识别仍然是一项具有挑战性的任务。
现有大多数行人属性方法是基于CNN和RNN网络的,难以利用行人的高级语义信息导致识别精度低,并且基于CNN的方法没有考虑到行人属性的语义相关性,导致性能次优,而基于RNN的方法过度依赖于人工预定义的属性顺序而难以达到最好的性能。例如,在论文《Deep-camp:Deep convolutional action&attribute mid-level patterns》中,结合了基于部件的模型和基于CNN的行人属性识别,并加速了CNN的训练,以便从较小的数据集中学习更强的规范化特征。此种通过CNN网络作为主干网络的方式存在着缺陷,由于行人属性之间存在内部关联,比如“长头发”和“女性”这两个属性高度相关,因而采用这类纯视觉的行人属性方法,存在忽略了属性的语义信息导致次优的问题;虽然现有技术中已经有基于Transformer的工作融合了视觉和文本信息,一定程度解决了上述问题,但由于采用的是独立预训练的视觉文本的编码器,导致视觉文本的特征之前存在较大差异,这样在后续的视觉文本模态融合过程中,可能因此受到限制导致识别精度会降低。另外,现有的行人属性识别方法大多采用在单模态数据集上预训练的模型,这导致模型的泛化能力较差,并且图像和文本的特征之间存在较大差异。
发明内容
本发明的目的在于如何设计一种基于提示微调预训练大模型的行人属性识别方法,以解决现有技术中没有充分利用行人图像与属性标签之间的关系而导致的次优以及泛化能力差的问题。
本发明是通过以下技术方案解决上述技术问题的:
基于添加提示微调的预训练大模型的行人属性识别方法,所述的预训练大模型包括:CLIP视觉编码器、CLIP文本编码器、多模态Transformer模块和分类器模块;所述的CLIP视觉编码器以及CLIP文本编码器是视觉语言模型CLIP的视觉和文本特征提取器;所述的多模态Transformer模块通过多头自注意力机制对属性进行自适应融合和长距离建模,经过多层Transformer编码器层后得到融合后的特征;所述的分类器模块采用FFN,用于得到每个属性的得分并输出分类结果;
所述的行人属性识别方法包括以下步骤:
步骤一:对输入的待分类的行人图像和需要评估的行人属性进行预处理;
步骤二:将待分类的行人图像和需要评估的行人属性分别送入预训练大模型中,从而分别得到视觉特征和文本特征;
步骤三:将得到视觉特征和文本特征连接后送入多模态Transformer模块,对连接的视觉特征和文本特征进行模态融合和信息交互,得到融合交互后的特征;
步骤四:取出其中文本特征对应位置的融合后的令牌(Token),送入分类器后得到每个属性的得分;
步骤五:判断得分是否大于阈值,大于阈值的属性视为属性存在,否则视为属性不存在,每个属性均与阈值进行对比后输出预测结果。
进一步地,所述的CLIP视觉编码器采用ResNet或者视觉Transformer编码器;所述的CLIP文本编码器是基于Transformer的编码器设计的,使用的是CLIP ViT-L/14的模型参数。
进一步地,步骤一中所述的对输入的待分类的行人图像和需要评估的行人属性进行预处理的方法如下:对输入的行人图像进行预处理:提前将行人图像进行黑边填充,以防止在后续的大小调整过程中导致行人特征畸变,将行人图像大小调整到224*224,在训练过程中执行随机水平翻转,随机裁剪的数据增强;对输入的行人图像进行预处理:对输入的行人属性集使用提示模板将属性短语扩展为语言描述,以适应CLIP文本编码器。
进一步地,步骤二中所述的预训练大模型的训练方法如下:所述的CLIP视觉编码器和CLIP文本编码器加载CLIP ViT-L/14的模型参数,多模态Tranformer模块加载在ImageNet-21K数据集上进行预训练,并在ImageNet-1K数据集上进行微调ViT-B/16的模型参数。
进一步地,步骤二中所述的得到视觉特征的方法如下:在CLIP视觉编码器每一层的Transformer编码器层的输入令牌中都加入多个可学习的提示令牌,位置是在分类令牌和图像块令牌之间,以此来微调CLIP视觉编码器,经过多层Transformer编码器层后得到视觉特征。
进一步地,步骤二中所述的得到文本特征的方法如下:将分割和扩充后属性句子令牌化后,经过嵌入层后得到文本的嵌入并送入CLIP文本编码器,在CLIP文本编码器每一层的Transformer编码器层的输入令牌中都加入多个可学习的提示令牌,位置是在文本令牌之后,以此来微调CLIP文本编码器,经过多层Transformer编码器层后得到文本的特征。
本发明的优点在于:
(1)本发明针对现有行人属性识别方法无法充分利用属性语义信息,泛化性差的特点,采用CLIP的视觉和文本编码器提取图像特征和属性特征,通过多模态Transformer模块对两个模态特征融合后,经过前馈网络得到预测结果,通过将行人属性识别问题建模为视觉语言融合问题,使用预训练的视觉语言大模型作为主干网络,提取模态间联系更好的视觉和文本特征,再通过多模态的Transformer建模视觉和文本之间的联系,充分利用了属性语义信息,并且可以看出通过提示微调的方式保留了预训练大模型较好的泛化能力,模型实用性更强。
(2)本发明的方法通过Transformer的全局建模能力,对连接起来的视觉文本特征进行融合,较好的利用了属性的语义信息。
(3)本发明的方法选择使用在4亿图像文本对上预训练的CLIP大模型来缓解这些问题,但是使用大模型作为主干网络会带来的计算量的提升,通过引入提示微调(PromptTuning)的方法来减少调整的参数量。
附图说明
图1是本发明实施例一的基于提示微调预训练大模型的行人属性识别方法的流程图;
图2是本发明实施例一的基于提示微调预训练大模型的行人属性识别方法的网络模型结构示意图;
图3是本发明实施例一的基于提示微调预训练大模型的行人属性识别方法的在PETA和PA100k行人属性数据集上进行测试的实验结果及与其他方法的对比图;
图4是本发明实施例一的基于提示微调预训练大模型的行人属性识别方法的在RAPv1和RAPv2行人属性数据集上进行测试的实验结果及与其他方法的对比图;
图5是本发明实施例一的基于提示微调预训练大模型的行人属性识别方法的在WIDER行人属性数据集上进行测试的实验结果及与其他方法的对比图;
图6是本发明实施例一的基于提示微调预训练大模型的行人属性识别方法的在PETA-ZS和RAP-ZS行人属性数据集上进行测试的实验结果及与其他方法的对比图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合说明书附图以及具体的实施例对本发明的技术方案作进一步描述:
实施例一
如图1所示,为本发明实施例的基于提示微调预训练大模型的行人属性识别方法的流程图,包括以下步骤:
步骤一:对输入的待分类的行人图像和需要评估的行人属性进行预处理;
步骤二:将待分类的行人图像和需要评估的行人属性分别送入添加了提示的CLIP视觉编码器和CLIP文本编码器的预训练大模型中,从而分别得到视觉特征和文本特征;
步骤三:将得到视觉特征和文本特征连接后送入多模态Transformer模块,对连接的视觉特征和文本特征进行模态融合和信息交互,得到融合交互后的特征;
步骤四:取出其中文本特征位置的融合后的特征,送入分类器后得到每个属性的得分;
步骤五:判断得分是否大于阈值,大于阈值的属性视为属性存在,否则视为属性不存在,每个属性均与阈值进行对比后输出预测结果。
如图2所示,本发明采用的网络模型结构示意图,所述的网络模型包括:CLIP视觉编码器、CLIP文本编码器、多模态Transformer模块和FFN(前馈神经网络)模块;图2中属性集是需要评估的属性列表,F.E是特征嵌入,P.E是位置嵌入,提示是加入的可学习提示向量,CLIP视觉编码器和CLIP文本编码器是视觉语言模型CLIP的视觉和文本特征提取器,其中CLIP视觉编码器采用ResNet或者视觉Transformer;CLIP文本编码器是基于Transformer的编码器设计的,使用的是CLIP ViT-L/14的模型参数;多模态Transformer模块是12层的Transformer;Add&Norm是残差连接和层归一化;CLIP(Contrastive Language-Image Pre-Training)模型是OpenAI在2021年初发布的用于匹配图像和文本的预训练神经网络模型。
模型的训练过程和测试过程具体如下:
(1)训练过程
1)CLIP视觉编码器和CLIP文本编码器加载CLIP ViT-L/14的模型参数,多模态Tranformer模块加载在ImageNet-21K数据集上进行预训练,并在ImageNet-1K数据集上进行微调ViT-B/16的模型参数。
2)对输入的行人图像进行预处理,提前将行人图像进行黑边填充,以防止在后续的大小调整过程中导致行人特征畸变,将行人图像大小调整到224*224,在训练过程中执行随机水平翻转,随机裁剪的数据增强。将输入的行人属性集进行分割和扩充,得到属性句子,以适应CLIP文本编码器。
3)将预处理后的行人图像经过嵌入层后得到图像的嵌入,并送入CLIP视觉编码器,所述的嵌入层包括特征嵌入F.E和位置嵌入P.E;在CLIP视觉编码器每一层的Transformer编码器层的输入令牌(Token)中都加入25个可学习的提示令牌,位置是在分类令牌和图像块令牌之间,以此来微调CLIP视觉编码器,经过24层Transformer编码器层后,得到图像的特征。同时,也将分割和扩充后属性句子令牌化后,经过嵌入层后得到文本的嵌入并送入CLIP文本编码器。在CLIP文本编码器每一层的Transformer编码器层的输入令牌(Token)中都加入3个可学习的提示令牌,位置是在文本令牌之后,以此来微调CLIP文本编码器,经过12层Transformer编码器层后,得到文本的特征。
4)将图像特征和文本的特征连接起来,送入多模态Transformer模块中,进行模态融合和信息交互,通过多头自注意力机制对属性进行自适应融合和长距离建模,经过12层Transformer编码器层后,得到融合后的特征,最后将文本特征对应位置的令牌送入FFN后得到每个属性的得分并输出分类结果。
5)只训练模型中的提示令牌以及FFN,其余部分的模型参数都保持冻结,并且随机初始化提示令牌,对所有数据集都使用随机梯度下降优化器训练20个周期,基于余弦学习率调度器将预热过程设置为5个周期,在预热期间,初始学习速率以0.01的比率减小,并且权重衰减为0.0001,批处理大小设置为16。在PETA、PA100k、RAPv1、RAPv2数据集上对提示令牌使用0.016的学习率,对FFN使用0.008的学习率,在WIDER、PETA-ZS和RAP-ZS上对提示令牌使用0.002的学习率,对FFN使用0.001的学习率;
6)最后保存模型,用于测试过程。
(2)测试过程
1)让CLIP视觉和文本编码器加载CLIP ViT-L/14的模型参数,多模态Tranformer加载在ImageNet-21K数据集上进行预训练,并在ImageNet-1K数据集上进行微调的ViT-B/16的模型参数,加载训练阶段保存的提示令牌和FFN参数。
2)对输入的行人图像进行预处理,将行人图像进行黑边填充,将行人图像大小调整到224*224,将输入的行人属性进行分割和扩充,得到属性句子,以适应CLIP的文本编码器。
3)将预处理后的行人图像和需要评估的行人属性分别送入加入加载好参数的提示的CLIP视觉编码器和文本编码器,得到视觉和文本特征,将得到视觉和文本特征连接后送入多模态Transformer,进行融合后,得到交互后的特征,将文本特征对应的部分送入FFN后得到每个属性的得分并输出分类结果。
实验结果
图3、图4、图5、图6是本发明方法的实验结果及与其他方法的对比图,分别是在PETA和PA100k、RAPv1和RAPv2、WIDER、PETA-ZS和RAP-ZS这5个主流行人属性数据集上进行了测试,其中PETA-ZS和RAP-ZS是PETA和RAPv2数据集在零样本分割方法下的数据集,并将测试结果与其他的行人属性识别方法在mA(所有属性平均精度)、Acc(所有样本的平均精度)、Prec(准确度)、Recall(召回率)和F1分数上进行了评估,其中PromptPAR表示本发明的评估结果,其分类精度取得了较好的成绩。
本发明通过将行人属性识别当作视觉语言融合问题,充分利用行人图像和属性之间的关系,首先将属性短语扩展为句子,采用预训练视觉语言模型作为主干网络,进行图像和属性的特征提取。在图像文本对数据集上对比学习的CLIP模型在特征空间中很好的连接了视觉和语言模态,CLIP中使用的视觉Transformer很好的建模了像素的长距离关系。然后采用多模态Transformer对两个模态特征进行有效融合,并采用前馈网络进行属性预测。为了有效优化框架,采用了一种提示微调技术,仅调整提示向量和分类头,并固定视觉语言模型和多模态Transformer模块的参数,有效的减少了需调整的参数;通过使用提示微调的方式微调预训练大模型缩小视觉语言特征之间的差距,提高模型泛化性,以及通过多模态的Transformer建模视觉和文本之间的联系,充分利用了属性语义信息。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.基于提示微调预训练大模型的行人属性识别方法,其特征在于,所述的预训练大模型包括:CLIP视觉编码器、CLIP文本编码器、多模态Transformer模块和分类器模块;所述的CLIP视觉编码器以及CLIP文本编码器是视觉语言模型CLIP的视觉和文本特征提取器;所述的多模态Transformer模块通过多头自注意力机制对属性进行自适应融合和长距离建模,经过多层Transformer编码器层后得到融合后的特征;所述的分类器模块采用FFN,用于得到每个属性的得分并输出分类结果;
所述的行人属性识别方法包括以下步骤:
步骤一:对输入的待分类的行人图像和需要评估的行人属性进行预处理;
步骤二:将待分类的行人图像和需要评估的行人属性分别送入预训练大模型中,从而分别得到视觉特征和文本特征;
步骤三:将得到视觉特征和文本特征连接后送入多模态Transformer模块,对连接的视觉特征和文本特征进行模态融合和信息交互,得到融合交互后的特征;
步骤四:取出其中文本特征对应位置的融合后的令牌(Token),送入分类器后得到每个属性的得分;
步骤五:判断得分是否大于阈值,大于阈值的属性视为属性存在,否则视为属性不存在,每个属性均与阈值进行对比后输出预测结果。
2.根据权利要求1所述的基于提示微调预训练大模型的行人属性识别方法,其特征在于,所述的CLIP视觉编码器采用ResNet或者视觉Transformer编码器;所述的CLIP文本编码器是基于Transformer的编码器设计的,使用的是CLIP ViT-L/14的模型参数。
3.根据权利要求1所述的基于提示微调预训练大模型的行人属性识别方法,其特征在于,步骤一中所述的对输入的待分类的行人图像和需要评估的行人属性进行预处理的方法如下:对输入的行人图像进行预处理:提前将行人图像进行黑边填充,以防止在后续的大小调整过程中导致行人特征畸变,将行人图像大小调整到224*224,在训练过程中执行随机水平翻转,随机裁剪的数据增强;对输入的行人图像进行预处理:对输入的行人属性集使用提示模板将属性短语扩展为语言描述。
4.根据权利要求3所述的基于提示微调预训练大模型的行人属性识别方法,其特征在于,步骤二中所述的预训练大模型的训练方法如下:所述的CLIP视觉编码器和CLIP文本编码器加载CLIP ViT-L/14的模型参数,多模态Tranformer模块加载在ImageNet-21K数据集上进行预训练,并在ImageNet-1K数据集上进行微调ViT-B/16的模型参数。
5.根据权利要求4所述的基于提示微调预训练大模型的行人属性识别方法,其特征在于,步骤二中所述的得到视觉特征的方法如下:在CLIP视觉编码器每一层的Transformer编码器层的输入令牌中都加入多个可学习的提示令牌,位置是在分类令牌和图像块令牌之间,以此来微调CLIP视觉编码器,经过多层Transformer编码器层后得到视觉特征。
6.根据权利要求5所述的基于提示微调预训练大模型的行人属性识别方法,其特征在于,步骤二中所述的得到文本特征的方法如下:将分割和扩充后属性句子令牌化后,经过嵌入层后得到文本的嵌入并送入CLIP文本编码器,在CLIP文本编码器每一层的Transformer编码器层的输入令牌中都加入多个可学习的提示令牌,位置是在文本令牌之后,以此来微调CLIP文本编码器,经过多层Transformer编码器层后得到文本的特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310081570.7A CN116259075A (zh) | 2023-01-16 | 2023-01-16 | 基于提示微调预训练大模型的行人属性识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310081570.7A CN116259075A (zh) | 2023-01-16 | 2023-01-16 | 基于提示微调预训练大模型的行人属性识别方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116259075A true CN116259075A (zh) | 2023-06-13 |
Family
ID=86678729
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310081570.7A Pending CN116259075A (zh) | 2023-01-16 | 2023-01-16 | 基于提示微调预训练大模型的行人属性识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116259075A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116702091A (zh) * | 2023-06-21 | 2023-09-05 | 中南大学 | 基于多视图clip的多模态讽刺意图识别方法、装置和设备 |
CN116758591A (zh) * | 2023-08-18 | 2023-09-15 | 厦门瑞为信息技术有限公司 | 基于图像语义识别的场站特殊旅客识别和交互系统及方法 |
CN116824278A (zh) * | 2023-08-29 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 图像内容分析方法、装置、设备和介质 |
CN116994098A (zh) * | 2023-09-27 | 2023-11-03 | 西南交通大学 | 基于类别属性知识增强的大模型提示学习方法 |
-
2023
- 2023-01-16 CN CN202310081570.7A patent/CN116259075A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116702091A (zh) * | 2023-06-21 | 2023-09-05 | 中南大学 | 基于多视图clip的多模态讽刺意图识别方法、装置和设备 |
CN116702091B (zh) * | 2023-06-21 | 2024-03-08 | 中南大学 | 基于多视图clip的多模态讽刺意图识别方法、装置和设备 |
CN116758591A (zh) * | 2023-08-18 | 2023-09-15 | 厦门瑞为信息技术有限公司 | 基于图像语义识别的场站特殊旅客识别和交互系统及方法 |
CN116758591B (zh) * | 2023-08-18 | 2023-11-21 | 厦门瑞为信息技术有限公司 | 基于图像语义识别的场站特殊旅客识别和交互系统及方法 |
CN116824278A (zh) * | 2023-08-29 | 2023-09-29 | 腾讯科技(深圳)有限公司 | 图像内容分析方法、装置、设备和介质 |
CN116824278B (zh) * | 2023-08-29 | 2023-12-19 | 腾讯科技(深圳)有限公司 | 图像内容分析方法、装置、设备和介质 |
CN116994098A (zh) * | 2023-09-27 | 2023-11-03 | 西南交通大学 | 基于类别属性知识增强的大模型提示学习方法 |
CN116994098B (zh) * | 2023-09-27 | 2023-12-05 | 西南交通大学 | 基于类别属性知识增强的大模型提示学习方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110427867B (zh) | 基于残差注意力机制的面部表情识别方法及系统 | |
CN116259075A (zh) | 基于提示微调预训练大模型的行人属性识别方法 | |
CN111738251B (zh) | 一种融合语言模型的光学字符识别方法、装置和电子设备 | |
CN111160350B (zh) | 人像分割方法、模型训练方法、装置、介质及电子设备 | |
CN111159454A (zh) | 基于Actor-Critic生成式对抗网络的图片描述生成方法及系统 | |
CN111950453A (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
CN110276248B (zh) | 一种基于样本权值分配和深度学习的人脸表情识别方法 | |
US11908457B2 (en) | Orthogonally constrained multi-head attention for speech tasks | |
CN114495129B (zh) | 文字检测模型预训练方法以及装置 | |
CN113035311A (zh) | 一种基于多模态注意力机制的医学图像报告自动生成方法 | |
Bilkhu et al. | Attention is all you need for videos: Self-attention based video summarization using universal transformers | |
KR20210151773A (ko) | 대상 재인식 방법 및 장치, 단말 및 저장 매체 | |
CN112733942A (zh) | 一种基于多级特征自适应融合的变尺度目标检测方法 | |
CN110991515B (zh) | 一种融合视觉上下文的图像描述方法 | |
CN116363712A (zh) | 一种基于模态信息度评估策略的掌纹掌静脉识别方法 | |
CN113255829B (zh) | 基于深度学习的零样本图像目标检测方法和装置 | |
CN113128284A (zh) | 一种多模态情感识别方法和装置 | |
CN113870863A (zh) | 声纹识别方法及装置、存储介质及电子设备 | |
CN112613474B (zh) | 一种行人重识别的方法和装置 | |
CN112738555B (zh) | 视频处理方法及装置 | |
CN111242114B (zh) | 文字识别方法及装置 | |
CN115018884B (zh) | 基于多策略融合树的可见光红外视觉跟踪方法 | |
CN115905613A (zh) | 音视频多任务学习、评估方法、计算机设备及介质 | |
CN115588227A (zh) | 情绪识别方法、装置、电子设备和存储介质 | |
CN114565804A (zh) | 一种nlp模型训练识别系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |