CN116259075A

CN116259075A - 基于提示微调预训练大模型的行人属性识别方法

Info

Publication number: CN116259075A
Application number: CN202310081570.7A
Authority: CN
Inventors: 李成龙; 金建东; 王逍; 汤进; 章程
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2023-01-16
Filing date: 2023-01-16
Publication date: 2023-06-13

Abstract

一种基于提示微调预训练大模型的行人属性识别方法，属于计算机视觉技术领域，解决现有技术中没有充分利用行人图像与属性标签之间的关系而导致的次优以及泛化能力差的问题。本发明采用CLIP的视觉和文本编码器提取图像特征和属性特征，通过多模态Transformer模块对两个模态特征融合后，经过前馈网络得到预测结果，通过将行人属性识别问题建模为视觉语言融合问题，使用预训练的视觉语言大模型作为主干网络，提取模态间联系更好的视觉和文本特征，再通过多模态的Transformer建模视觉和文本之间的联系，充分利用了属性语义信息，并且可以看出通过提示微调的方式保留了预训练大模型较好的泛化能力，模型实用性更强。

Description

基于提示微调预训练大模型的行人属性识别方法

技术领域

本发明属于计算机视觉技术领域，涉及一种基于提示微调预训练大模型的行人属性识别方法。

背景技术

行人属性识别的目标是使用一组预定义的属性(如年龄、身高、发型、服装)来描述人的中间层语义信息。它在计算机视觉领域，特别是智能视频监控和自动驾驶领域发挥着重要作用，同时也促进了其他视觉任务的研究，包括行人重识别、行人搜索和行人检测。在人工智能的帮助下，如CNN(卷积神经网络)和RNN(递归神经网络)，这一研究领域受到了广泛的关注并取得了很大的进展。然而，由于在极端情况下(包括运动模糊、阴影、遮挡、低分辨率、多视图和夜间)成像质量较差，行人属性识别仍然是一项具有挑战性的任务。

现有大多数行人属性方法是基于CNN和RNN网络的，难以利用行人的高级语义信息导致识别精度低，并且基于CNN的方法没有考虑到行人属性的语义相关性，导致性能次优，而基于RNN的方法过度依赖于人工预定义的属性顺序而难以达到最好的性能。例如，在论文《Deep-camp:Deep convolutional action&attribute mid-level patterns》中，结合了基于部件的模型和基于CNN的行人属性识别，并加速了CNN的训练，以便从较小的数据集中学习更强的规范化特征。此种通过CNN网络作为主干网络的方式存在着缺陷，由于行人属性之间存在内部关联，比如“长头发”和“女性”这两个属性高度相关，因而采用这类纯视觉的行人属性方法，存在忽略了属性的语义信息导致次优的问题；虽然现有技术中已经有基于Transformer的工作融合了视觉和文本信息，一定程度解决了上述问题，但由于采用的是独立预训练的视觉文本的编码器，导致视觉文本的特征之前存在较大差异，这样在后续的视觉文本模态融合过程中，可能因此受到限制导致识别精度会降低。另外，现有的行人属性识别方法大多采用在单模态数据集上预训练的模型，这导致模型的泛化能力较差，并且图像和文本的特征之间存在较大差异。

发明内容

本发明的目的在于如何设计一种基于提示微调预训练大模型的行人属性识别方法，以解决现有技术中没有充分利用行人图像与属性标签之间的关系而导致的次优以及泛化能力差的问题。

本发明是通过以下技术方案解决上述技术问题的：

基于添加提示微调的预训练大模型的行人属性识别方法，所述的预训练大模型包括：CLIP视觉编码器、CLIP文本编码器、多模态Transformer模块和分类器模块；所述的CLIP视觉编码器以及CLIP文本编码器是视觉语言模型CLIP的视觉和文本特征提取器；所述的多模态Transformer模块通过多头自注意力机制对属性进行自适应融合和长距离建模，经过多层Transformer编码器层后得到融合后的特征；所述的分类器模块采用FFN，用于得到每个属性的得分并输出分类结果；

所述的行人属性识别方法包括以下步骤：

步骤一：对输入的待分类的行人图像和需要评估的行人属性进行预处理；

步骤二：将待分类的行人图像和需要评估的行人属性分别送入预训练大模型中，从而分别得到视觉特征和文本特征；

步骤三：将得到视觉特征和文本特征连接后送入多模态Transformer模块，对连接的视觉特征和文本特征进行模态融合和信息交互，得到融合交互后的特征；

步骤四：取出其中文本特征对应位置的融合后的令牌(Token)，送入分类器后得到每个属性的得分；

步骤五：判断得分是否大于阈值，大于阈值的属性视为属性存在，否则视为属性不存在，每个属性均与阈值进行对比后输出预测结果。

进一步地，所述的CLIP视觉编码器采用ResNet或者视觉Transformer编码器；所述的CLIP文本编码器是基于Transformer的编码器设计的，使用的是CLIP ViT-L/14的模型参数。

进一步地，步骤一中所述的对输入的待分类的行人图像和需要评估的行人属性进行预处理的方法如下：对输入的行人图像进行预处理：提前将行人图像进行黑边填充，以防止在后续的大小调整过程中导致行人特征畸变，将行人图像大小调整到224*224，在训练过程中执行随机水平翻转，随机裁剪的数据增强；对输入的行人图像进行预处理：对输入的行人属性集使用提示模板将属性短语扩展为语言描述，以适应CLIP文本编码器。

进一步地，步骤二中所述的预训练大模型的训练方法如下：所述的CLIP视觉编码器和CLIP文本编码器加载CLIP ViT-L/14的模型参数，多模态Tranformer模块加载在ImageNet-21K数据集上进行预训练，并在ImageNet-1K数据集上进行微调ViT-B/16的模型参数。

进一步地，步骤二中所述的得到视觉特征的方法如下：在CLIP视觉编码器每一层的Transformer编码器层的输入令牌中都加入多个可学习的提示令牌,位置是在分类令牌和图像块令牌之间，以此来微调CLIP视觉编码器，经过多层Transformer编码器层后得到视觉特征。

进一步地，步骤二中所述的得到文本特征的方法如下：将分割和扩充后属性句子令牌化后，经过嵌入层后得到文本的嵌入并送入CLIP文本编码器，在CLIP文本编码器每一层的Transformer编码器层的输入令牌中都加入多个可学习的提示令牌,位置是在文本令牌之后，以此来微调CLIP文本编码器，经过多层Transformer编码器层后得到文本的特征。

本发明的优点在于：

(1)本发明针对现有行人属性识别方法无法充分利用属性语义信息，泛化性差的特点，采用CLIP的视觉和文本编码器提取图像特征和属性特征，通过多模态Transformer模块对两个模态特征融合后，经过前馈网络得到预测结果，通过将行人属性识别问题建模为视觉语言融合问题，使用预训练的视觉语言大模型作为主干网络，提取模态间联系更好的视觉和文本特征，再通过多模态的Transformer建模视觉和文本之间的联系，充分利用了属性语义信息，并且可以看出通过提示微调的方式保留了预训练大模型较好的泛化能力，模型实用性更强。

(2)本发明的方法通过Transformer的全局建模能力，对连接起来的视觉文本特征进行融合，较好的利用了属性的语义信息。

(3)本发明的方法选择使用在4亿图像文本对上预训练的CLIP大模型来缓解这些问题，但是使用大模型作为主干网络会带来的计算量的提升，通过引入提示微调(PromptTuning)的方法来减少调整的参数量。

附图说明

图1是本发明实施例一的基于提示微调预训练大模型的行人属性识别方法的流程图；

图2是本发明实施例一的基于提示微调预训练大模型的行人属性识别方法的网络模型结构示意图；

图3是本发明实施例一的基于提示微调预训练大模型的行人属性识别方法的在PETA和PA100k行人属性数据集上进行测试的实验结果及与其他方法的对比图；

图4是本发明实施例一的基于提示微调预训练大模型的行人属性识别方法的在RAPv1和RAPv2行人属性数据集上进行测试的实验结果及与其他方法的对比图；

图5是本发明实施例一的基于提示微调预训练大模型的行人属性识别方法的在WIDER行人属性数据集上进行测试的实验结果及与其他方法的对比图；

图6是本发明实施例一的基于提示微调预训练大模型的行人属性识别方法的在PETA-ZS和RAP-ZS行人属性数据集上进行测试的实验结果及与其他方法的对比图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合说明书附图以及具体的实施例对本发明的技术方案作进一步描述：

实施例一

如图1所示，为本发明实施例的基于提示微调预训练大模型的行人属性识别方法的流程图，包括以下步骤：

步骤二：将待分类的行人图像和需要评估的行人属性分别送入添加了提示的CLIP视觉编码器和CLIP文本编码器的预训练大模型中，从而分别得到视觉特征和文本特征；

步骤四：取出其中文本特征位置的融合后的特征，送入分类器后得到每个属性的得分；

如图2所示，本发明采用的网络模型结构示意图，所述的网络模型包括：CLIP视觉编码器、CLIP文本编码器、多模态Transformer模块和FFN(前馈神经网络)模块；图2中属性集是需要评估的属性列表，F.E是特征嵌入，P.E是位置嵌入，提示是加入的可学习提示向量，CLIP视觉编码器和CLIP文本编码器是视觉语言模型CLIP的视觉和文本特征提取器，其中CLIP视觉编码器采用ResNet或者视觉Transformer；CLIP文本编码器是基于Transformer的编码器设计的，使用的是CLIP ViT-L/14的模型参数；多模态Transformer模块是12层的Transformer；Add&Norm是残差连接和层归一化；CLIP(Contrastive Language-Image Pre-Training)模型是OpenAI在2021年初发布的用于匹配图像和文本的预训练神经网络模型。

模型的训练过程和测试过程具体如下：

(1)训练过程

1)CLIP视觉编码器和CLIP文本编码器加载CLIP ViT-L/14的模型参数，多模态Tranformer模块加载在ImageNet-21K数据集上进行预训练，并在ImageNet-1K数据集上进行微调ViT-B/16的模型参数。

2)对输入的行人图像进行预处理，提前将行人图像进行黑边填充，以防止在后续的大小调整过程中导致行人特征畸变，将行人图像大小调整到224*224，在训练过程中执行随机水平翻转，随机裁剪的数据增强。将输入的行人属性集进行分割和扩充，得到属性句子，以适应CLIP文本编码器。

3)将预处理后的行人图像经过嵌入层后得到图像的嵌入，并送入CLIP视觉编码器，所述的嵌入层包括特征嵌入F.E和位置嵌入P.E；在CLIP视觉编码器每一层的Transformer编码器层的输入令牌(Token)中都加入25个可学习的提示令牌,位置是在分类令牌和图像块令牌之间，以此来微调CLIP视觉编码器，经过24层Transformer编码器层后，得到图像的特征。同时，也将分割和扩充后属性句子令牌化后，经过嵌入层后得到文本的嵌入并送入CLIP文本编码器。在CLIP文本编码器每一层的Transformer编码器层的输入令牌(Token)中都加入3个可学习的提示令牌,位置是在文本令牌之后，以此来微调CLIP文本编码器，经过12层Transformer编码器层后，得到文本的特征。

4)将图像特征和文本的特征连接起来，送入多模态Transformer模块中，进行模态融合和信息交互，通过多头自注意力机制对属性进行自适应融合和长距离建模，经过12层Transformer编码器层后，得到融合后的特征，最后将文本特征对应位置的令牌送入FFN后得到每个属性的得分并输出分类结果。

5)只训练模型中的提示令牌以及FFN，其余部分的模型参数都保持冻结，并且随机初始化提示令牌，对所有数据集都使用随机梯度下降优化器训练20个周期，基于余弦学习率调度器将预热过程设置为5个周期，在预热期间，初始学习速率以0.01的比率减小，并且权重衰减为0.0001，批处理大小设置为16。在PETA、PA100k、RAPv1、RAPv2数据集上对提示令牌使用0.016的学习率，对FFN使用0.008的学习率，在WIDER、PETA-ZS和RAP-ZS上对提示令牌使用0.002的学习率，对FFN使用0.001的学习率；

6)最后保存模型，用于测试过程。

(2)测试过程

1)让CLIP视觉和文本编码器加载CLIP ViT-L/14的模型参数，多模态Tranformer加载在ImageNet-21K数据集上进行预训练，并在ImageNet-1K数据集上进行微调的ViT-B/16的模型参数，加载训练阶段保存的提示令牌和FFN参数。

2)对输入的行人图像进行预处理，将行人图像进行黑边填充，将行人图像大小调整到224*224，将输入的行人属性进行分割和扩充，得到属性句子，以适应CLIP的文本编码器。

3)将预处理后的行人图像和需要评估的行人属性分别送入加入加载好参数的提示的CLIP视觉编码器和文本编码器，得到视觉和文本特征，将得到视觉和文本特征连接后送入多模态Transformer，进行融合后，得到交互后的特征，将文本特征对应的部分送入FFN后得到每个属性的得分并输出分类结果。

实验结果

图3、图4、图5、图6是本发明方法的实验结果及与其他方法的对比图，分别是在PETA和PA100k、RAPv1和RAPv2、WIDER、PETA-ZS和RAP-ZS这5个主流行人属性数据集上进行了测试，其中PETA-ZS和RAP-ZS是PETA和RAPv2数据集在零样本分割方法下的数据集，并将测试结果与其他的行人属性识别方法在mA(所有属性平均精度)、Acc(所有样本的平均精度)、Prec(准确度)、Recall(召回率)和F1分数上进行了评估，其中PromptPAR表示本发明的评估结果，其分类精度取得了较好的成绩。

本发明通过将行人属性识别当作视觉语言融合问题，充分利用行人图像和属性之间的关系，首先将属性短语扩展为句子，采用预训练视觉语言模型作为主干网络，进行图像和属性的特征提取。在图像文本对数据集上对比学习的CLIP模型在特征空间中很好的连接了视觉和语言模态，CLIP中使用的视觉Transformer很好的建模了像素的长距离关系。然后采用多模态Transformer对两个模态特征进行有效融合，并采用前馈网络进行属性预测。为了有效优化框架，采用了一种提示微调技术，仅调整提示向量和分类头，并固定视觉语言模型和多模态Transformer模块的参数，有效的减少了需调整的参数；通过使用提示微调的方式微调预训练大模型缩小视觉语言特征之间的差距，提高模型泛化性，以及通过多模态的Transformer建模视觉和文本之间的联系，充分利用了属性语义信息。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.基于提示微调预训练大模型的行人属性识别方法，其特征在于，所述的预训练大模型包括：CLIP视觉编码器、CLIP文本编码器、多模态Transformer模块和分类器模块；所述的CLIP视觉编码器以及CLIP文本编码器是视觉语言模型CLIP的视觉和文本特征提取器；所述的多模态Transformer模块通过多头自注意力机制对属性进行自适应融合和长距离建模，经过多层Transformer编码器层后得到融合后的特征；所述的分类器模块采用FFN，用于得到每个属性的得分并输出分类结果；

所述的行人属性识别方法包括以下步骤：

2.根据权利要求1所述的基于提示微调预训练大模型的行人属性识别方法，其特征在于，所述的CLIP视觉编码器采用ResNet或者视觉Transformer编码器；所述的CLIP文本编码器是基于Transformer的编码器设计的，使用的是CLIP ViT-L/14的模型参数。

3.根据权利要求1所述的基于提示微调预训练大模型的行人属性识别方法，其特征在于，步骤一中所述的对输入的待分类的行人图像和需要评估的行人属性进行预处理的方法如下：对输入的行人图像进行预处理：提前将行人图像进行黑边填充，以防止在后续的大小调整过程中导致行人特征畸变，将行人图像大小调整到224*224，在训练过程中执行随机水平翻转，随机裁剪的数据增强；对输入的行人图像进行预处理：对输入的行人属性集使用提示模板将属性短语扩展为语言描述。

4.根据权利要求3所述的基于提示微调预训练大模型的行人属性识别方法，其特征在于，步骤二中所述的预训练大模型的训练方法如下：所述的CLIP视觉编码器和CLIP文本编码器加载CLIP ViT-L/14的模型参数，多模态Tranformer模块加载在ImageNet-21K数据集上进行预训练，并在ImageNet-1K数据集上进行微调ViT-B/16的模型参数。

5.根据权利要求4所述的基于提示微调预训练大模型的行人属性识别方法，其特征在于，步骤二中所述的得到视觉特征的方法如下：在CLIP视觉编码器每一层的Transformer编码器层的输入令牌中都加入多个可学习的提示令牌,位置是在分类令牌和图像块令牌之间，以此来微调CLIP视觉编码器，经过多层Transformer编码器层后得到视觉特征。

6.根据权利要求5所述的基于提示微调预训练大模型的行人属性识别方法，其特征在于，步骤二中所述的得到文本特征的方法如下：将分割和扩充后属性句子令牌化后，经过嵌入层后得到文本的嵌入并送入CLIP文本编码器，在CLIP文本编码器每一层的Transformer编码器层的输入令牌中都加入多个可学习的提示令牌,位置是在文本令牌之后，以此来微调CLIP文本编码器，经过多层Transformer编码器层后得到文本的特征。