CN114743217A

CN114743217A - 一种基于局部特征感知图文跨模态模型的行人识别方法和模型的训练方法

Info

Publication number: CN114743217A
Application number: CN202210318598.3A
Authority: CN
Inventors: 陈裕豪; 张国庆
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-03-29
Filing date: 2022-03-29
Publication date: 2022-07-12

Abstract

本发明公开了模式识别技术领域的一种基于局部特征感知图文跨模态模型的行人识别方法和模型的训练方法，所述行人识别方法包括：获取行人的图文数据，将行人的图文数据输入到预先训练好的局部特征感知图文跨模态模型中进行特征提取，输出对行人的识别结果。所述局部特征感知图文跨模态模型包括视觉特征提取模块和文本特征提取模块，在视觉特征提取上引入PCB局部特征学习，在文本特征提取上引入多分支卷积的结构，无需引入语义分割、属性学习等额外即可高效提取图文局部特征。在浅层特征、局部特征、全局特征三个层面进行跨模态匹配，逐步拉进图文特征分布。该方法结构简洁，准确率高，能推动图文跨模态行人检索领域在实际场景中的应用。

Description

一种基于局部特征感知图文跨模态模型的行人识别方法和模型的训练方法

技术领域

本发明涉及一种基于局部特征感知图文跨模态模型的行人识别方法和模型的训练方法，属于模式识别技术领域。

背景技术

人工查阅监控摄像头寻找目标行人可能存在时间成本高昂、容易遗漏、可信度低等问题。此外，在某些特定场景中，无法通过行人再识别、人脸识别等技术进行智能检索，例如目击证人没有拍摄下目标照片，只能通过口述来描绘行人外貌。

现有与之相关的技术如下：(1)申请号为CN202010590313.2的一种基于文本的行人检索自监督视觉表示学习系统及方法：该算法通过构建辅助任务(性别判断和行人相似性回归)使得模型关注行人的细节信息，并学习到具有鲁棒性的视觉特征；此外该方法也提取行人与物体之间的关系，并且对这些关系进行筛选和汇总。该方法解决了现有方法忽略图片中行人细节信息，无法获取样本之间具体的相似度值，缺少监督信息等问题。(2)申请号为CN202110454724.3的一种基于文本动态引导视觉特征提炼的文本行人检索方法：该方法通过划分条带区域精炼视觉特征，通过文本过滤器指示文本输入中对所提到的图像区域的重要程度，再运用一个文本动态引导的视觉特征精炼器动态地对每个文本描述进行部分视觉特征的融合。该方法能够实现跨模态信息之间的交互，进一步提高行人检索任务的准确率。然而上述方法依然存在特征提取过程复杂、精度不足的问题，难以投入实际应用场景。

发明内容

本发明的目的在于克服现有技术中的不足，提供一种特征提取过程简单、精度高的基于局部特征感知图文跨模态模型的行人识别方法和模型的训练方法。

为达到上述目的，本发明是采用下述技术方案实现的：

一种基于局部特征感知图文跨模态模型的行人识别方法，包括：

所述局部特征感知图文跨模态模型包括视觉特征提取模块和文本特征提取模块，视觉特征提取模块包括用于提取局部图像的PCB结构，文本特征提取模块包括用于提取文本特征的多分支卷积结构，所述多分支卷积结构的每个分支与一个所述局部图像对齐；

所述行人识别方法包括：

获取行人的图文数据，

将行人的图文数据输入到预先训练好的局部特征感知图文跨模态模型中进行特征提取，输出对行人的识别结果。

本发明还提供了一种局部特征感知图文跨模态模型的训练方法，所述局部特征感知图文跨模态模型用于上述的行人识别方法，所述训练方法包括：

构建图文数据集，所述图文数据集包括训练集和测试集；

将训练集内的图文数据输入到预先建立好的局部特征感知图文跨模态模型中进行迭代训练，直至模型损失函数值不再下降，完成训练。

进一步的，图文数据集包括图像和文本一一对应的图文跨模态行人检索数据集CUHK-PEDES。

进一步的，所述视觉特征提取模块包括依次连接的单层卷积层、多层 ResBlock层和单层ResBlock层；

所述单层卷积层包括依次连接的卷积层、BN层和最大池化层，输入的图像经单层卷积层处理，得到预处理特征图；

所述多层ResBlock层包括三层ResBlock层，输入的预处理特征图经过多层ResBlock层处理，得到图像浅层特征图，图像浅层特征图进行全局最大池化得到图像浅层特征；

所述单层ResBlock层包括一层ResBlock层和Segment层，输入的浅层特征图经过单层ResBlock层处理，得到图像深层特征图，并将图像深层特征图在纵向上进行划分，得到图像局部特征图，对每个图像局部特征图分别进行全局最大池化得到视觉局部特征；

将视觉局部特征按通道位置取最大值，融合各个通道的最大值得到视觉最终特征。

进一步的，所述文本特征提取模块包括依次连接的词向量提取器、维度转换层和多分支卷积层；

输入的待测文本经词向量提取器处理，得到文本编译后的二维词向量；

所述维度转换层包括Expand层、卷积层和BN层，输入的二维词向量经过维度转换层处理后得到文本浅层特征图，文本浅层特征图通过全局最大池化得到文本浅层特征；

所述多分支卷积层中每一个分支均包括多个残差卷积块，输入的文本浅层特征图经过残差卷积块处理后得到与图像局部特征图一一对应的文本局部特征图；

对每个文本局部特征图分别进行全局最大池化得到文本局部特征；

将文本局部特征按通道位置取最大值，融合各个通道的最大值得到文本最终特征。

进一步的，所述残差卷积块包括两条支线，第一条支线包括依次连接的1 ×1卷积层、1×3卷积层和1×1卷积层，每个卷积层后都设置BN层，各个卷积层之间设置ReLu激活函数层；

第二条支线中，若输入的文本浅层特征图的通道数与图像局部特征图通道数不同，则输入的文本浅层特征图依次经过1×1的卷积层和BN层提取特征，再进行输出；若输入的文本浅层特征图的通道数与图像局部特征图通道数相同，则直接进行输出；

第一条支线的输出与第二条支线的输出直接相加，最终输出通道数与图像局部特征图通道数对应的文本局部特征图。

进一步的，所述损失函数的的计算方法为：

计算单向CMPM损失

式中，p_i,j为图像特征向对应文本特征投影的相似度；q_i,j为正则化处理后的真实匹配标签；ε为用于避免出现除零问题的极小参数；其中，所述图像特征包括图像浅层特征、图像局部特征和视觉最终特征；

计算双向CMPM损失

L_CMPM＝L_I2T+l_T2I

式中L_I2T和L_T2I分别为图像特征到文本特征映射时的单向CMPM损失和文本特征到图像特征映射时的单向CMPM损失；

计算最终损失函数

式中，

为图像浅层特征和文本浅层特征之间的双向CMPM损失；

为图像局部特征和文本局部特征之间的双向CMPM损失；

为视觉最终特征和文本最终特征之间的双向CMPM损失；λ₁、λ₂和λ₃为各个双向CMPM 损失的权重。

进一步的，所述视觉特征提取模块采用的ResNet-50或者VGG-16，均加载ImageNet上的预训练模型，再进行训练。

进一步的，所述文本特征提取模块的词向量提取器包括BERT、Bi-LSTM或 Bi-GRU中的任意一个；

当采用BERT作为词向量提取器时，固定BERT参数，直接加载在Toronto BookCorpus和Wikipedia上的预训练模型而不用进行训练；

当采用Bi-LSTM或Bi-GRU作为词向量提取器时，需要将其加入模型的训练中。

进一步的，训练时，学习率设置为3×10^-3，前10次迭代周期采用预热技巧，并在20次、40次和/或50次迭代周期后进行学习率0.1倍衰减。

与现有技术相比，本发明所达到的有益效果：

在视觉特征提取上引入PCB局部特征学习，在文本特征提取上引入多分支卷积的结构，无需引入语义分割、属性学习等额外即可高效提取图文局部特征。在浅层特征、局部特征、全局特征三个层面进行跨模态匹配，逐步拉进图文特征分布。该方法结构简洁，准确率高，能推动图文跨模态行人检索领域在实际场景中的应用。

附图说明

图1是实施例1中局部特征感知图文跨模态模型的网络结构图；

图2是实施例1中文本特征提取模块中的多分支卷积结构图；

图3是实施例2中行人识别方法的流程图；

图4是实施例2中行人识别实验样例图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

实施例一

本实施例提供了一种局部特征感知图文跨模态模型的训练方法，其中局部特征感知图文跨模态模型基于Pytorch深度学习框架，用于挖掘行人图像和文本描述的特征信息，局部特征感知图文跨模态模型包括视觉特征提取模块和文本特征提取模块，视觉特征提取模块包括用于提取局部图像的PCB结构，文本特征提取模块包括用于提取文本特征的多分支卷积结构，所述多分支卷积结构的每个分支与一个所述局部图像对齐。

具体的，如图1所示，局部特征感知图文跨模态模型的训练方法如下。

一、准备图文数据集

构建图文数据集，所述图文数据集包括训练集和测试集；本实施例中图文数据集采用图文跨模态行人检索数据集CUHK-PEDES，CUHK-PEDES数据集中的图像和文本一一对应。

二、构建局部特征感知图文跨模态模型

本实施例中局部特征感知图文跨模态模型包括视觉特征提取模块和文本特征提取模块。

视觉特征提取模块的主干网络主要采用ResNet-50或者VGG-16，ResNet-50 或者VGG-16均加载ImageNet上的预训练模型，再进行训练。本实施例中视觉特征提取模块的主干网络主要采用ResNet-50，视觉特征提取模块包括依次连接的单层卷积层、多层ResBlock层和单层ResBlock层。其中单层卷积层包括依次连接的卷积层、BN层和最大池化层；多层ResBlock层包括三层ResBlock层；单层ResBlock层包括一层ResBlock层和Segment层。

视觉特征提取模块的工作原理为：

选取训练集内的图像，将图像输入到视觉特征提取模块内，图像先经过单层卷积层的预处理，得到预处理特征图；

得到的预处理特征图经过多层ResBlock层的特征提取，输出得到图像浅层特征图：

式中，H、W和C₁分别为浅层特征图的高、宽、通道维度；f_l ^I为生成的图像浅层特征图；

同时，图像浅层特征图通过全局最大池化得到浅层特征，其表达式为：

式中，

为输出的图像浅层特征；C₁为图像浅层特征图的通道维度；

得到的图像浅层特征图经过单层ResBlock层的特征提取，得到图像深层特征图：

式中，

为输出的图像深层特征图；C₂为图像深层特征图的通道维度，且C₂通道数比C₁更大；

将特征提取后的图像深层特征图在纵向上进行划分，共划分为K个局部，得到图像局部特征图：

式中，

为图像局部特征图；K为局部的个数；

为图像局部特征图的高维度；

图像局部特征图经过全局最大池化得到图像局部特征：

式中，

为图像局部特征；

将视觉局部特征按通道位置取最大值，融合各个通道的最大值得到视觉最终特征，其表达式为：

式中，

为视觉最终特征；Max为通道最大值计算函数；

文本特征提取模块主要采用多分支卷积的结构，每个分支分别与一个局部图像对齐，包括依次连接的词向量提取器、维度转换层和多分支卷积层。其中词向量提取器采用BERT、Bi-LSTM或者Bi-GRU，当文本特征提取模块采用 BERT作为词向量提取器时，固定BERT参数，直接加载在Toronto Book Corpus 和Wikipedia上的预训练模型而不进行训练；当采用Bi-LSTM或者Bi-GRU作为词向量提取器时，需要将其纳入整体训练框架，而在本实施例中词向量提取器采用BERT。维度转换层包括Expand层、卷积层和BN层；多分支卷积层包括多个残差分支，且每一个残差分支均包括多个残差卷积块。

残差分支包括依次连接的1×1的卷积层、BN层和P个残差卷积块，其中首个残差卷积块将特征图的通道数修改为C₂，后续残差卷积块保持特征图通道维度不变。

残差卷积块包括两条支线，第一条支线包括依次连接的1×1卷积层、1×3 卷积层和1×1卷积层，来保证特征图在空间上信息不被压缩，每个卷积层后都设置BN层，各个卷积层之间设置ReLu激活函数层；第二条支线中，若输入的文本浅层特征图的通道数与图像局部特征图通道数不同，则输入的文本浅层特征图依次经过1×1的卷积层和BN层提取特征，再进行输出；若输入的文本浅层特征图的通道数与图像局部特征图通道数相同，则直接进行输出。第一条支线的输出与第二条支线的输出直接相加，最终输出通道数与图像局部特征图通道数对应的文本局部特征图。

文本特征提取模块的工作原理为：

选取训练集中与视觉特征提取模块输入图像相对应的文本，作为文本特征提取模块的输入，文本先经过词向量提取器进行编译，首先将文本语句划分为单词，在句首句尾分别插入[CLS]和[SEP]，输入到预训练的编码器中获取每个单词的编号，若文本长度超过L，则只保留L个单词；若文本长度短于L，则在空余位置补零。最终获得文本编译后的二维词向量：

式中，D为二维词向量通道数；

将二维词向量经过维度转换层进行维度转换并进行特征提取，得到文本浅层特征图，其中二维词向量转换为三维向量：

文本浅层特征图经过全局最大池化得到浅层特征

将文本浅层特征输入到多分支卷积层中，多分支卷积层的每个残差分支均生成一个与图像局部特征图对应的文本局部特征图，对每个文本局部特征图分别进行全局最大池化得到文本局部特征：

将文本局部特征按通道位置取最大值，融合各个通道的最大值得到文本最终特征

三、模型损失函数的构建和计算

本实施例采用多阶段跨模态匹配损失，首先定义每个相互对应的图像和文本为样本对，其表达式为：

式中，

为视觉特征；

为文本特征；y_i,j为第i个图像和第j个文本样本是否匹配的真实标签；N为样本对数量；

其中y_i,j＝1表示

和

来自同一个行人，而y_i,j＝0表示两者不是同一个行人，由此计算图像特征向对应文本特征投影的相似度：

式中，

为正则化后的文本特征，其中

为文本特征，||||为特征二维范式计算；

为输出的正则化后的文本特征；

由于可能存在多个匹配样本，真实标签需要进行权重计算，即：

式中：y_i,j为第i个图像和第j个文本样本是否匹配的真实标签；q_i,j为第 i个图像和第j个文本样本间权重计算后的匹配度标签。

计算单向CMPM损失

计算双向CMPM损失

L_CMPM＝L_I2T+l_T2I

计算最终损失函数

式中，

为图像浅层特征和文本浅层特征之间的双向CMPM损失；

为图像局部特征和文本局部特征之间的双向CMPM损失；

本实施例中训练参数的设置：每帧图像的尺寸设置为384×128；文本长度设置为L＝64；局部区域数量设置为K＝6；多分支卷积层中的残差卷积块数量设置为P＝3；视觉特征图的尺寸设置为H＝24、W＝8；训练批次设置为N＝64，优化器采用Adam，并设置权重衰减为4×10^-5；学习率设置为3×10^-3，前10次迭代周期采用预热技巧，并在一定迭代周期后进行学习率0.1倍衰减；此外，根据不同的主干网络，需要设置如下不同的参数，具体见表1：

表1.不同主干网络下的部分参数设置

四、训练局部特征感知图文跨模态模型

所述训练方法包括：

构建图文数据集，所述图文数据集包括训练集和测试集；

其中，采用训练集对模型训练后，需对模型进行测试，测试采用图文数据集中的测试集，通过计算图像、文本特征之间的余弦距离来衡量相似度，采用 CMC评估方法计算Rank-1、Rank-5和Rank-10。选择性能最高的模型应用到实际场景测试中。通过广泛实验，可以得到以下的效益：

(1)技术方面：在不同主干网络下，本方法均能取得当前最高性能，对比实验结果如下表2，其中方法类型的G和L分别代表全局特征方法和局部特征方法：

表2本方法与其他图文跨模态行人检索方法的准确率对比

(2)社会方面：本发明能在图像缺失的特定场景下，辅助进行行人检索。

(3)经济方面：本发明采用自动化的方式对行人进行检索，减少了人工查阅的工作量，节约了大量的人力成本和时间成本。

实施例二：

本实施例提供了一种基于局部特征感知图文跨模态模型的行人识别方法，如图3和图4所示，所述行人识别方法包括：

获取行人的图文数据，

其中局部特征感知图文跨模态模型的构建和训练在实施例1中已有明确的阐述，在此不做过多赘述。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、 CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/ 或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于局部特征感知图文跨模态模型的行人识别方法，其特征在于，包括：

所述行人识别方法包括：

获取行人的图文数据，

2.一种局部特征感知图文跨模态模型的训练方法，其特征在于，所述局部特征感知图文跨模态模型用于权利要求1所述的行人识别方法，所述训练方法包括：

构建图文数据集，所述图文数据集包括训练集和测试集；

3.根据权利要求2所述的局部特征感知图文跨模态模型的训练方法，其特征在于，图文数据集包括图像和文本一一对应的图文跨模态行人检索数据集CUHK-PEDES。

4.根据权利要求2所述的局部特征感知图文跨模态模型的训练方法，其特征在于，所述视觉特征提取模块包括依次连接的单层卷积层、多层ResBlock层和单层ResBlock层；

5.根据权利要求4所述的局部特征感知图文跨模态模型的训练方法，其特征在于，所述文本特征提取模块包括依次连接的词向量提取器、维度转换层和多分支卷积层；

6.根据权利要求5所述的局部特征感知图文跨模态模型的训练方法，其特征在于，所述残差卷积块包括两条支线，第一条支线包括依次连接的1×1卷积层、1×3卷积层和1×1卷积层，每个卷积层后都设置BN层，各个卷积层之间设置ReLu激活函数层；

7.根据权利要求5所述的局部特征感知图文跨模态模型的训练方法，其特征在于，所述损失函数的计算方法为：

计算单向CMPM损失

计算双向CMPM损失

L_CMPM＝L_I2T+l_T2I

计算最终损失函数

式中，

为图像浅层特征和文本浅层特征之间的双向CMPM损失；

为图像局部特征和文本局部特征之间的双向CMPM损失；

为视觉最终特征和文本最终特征之间的双向CMPM损失；λ₁、λ₂和λ₃为各个双向CMPM损失的权重。

8.根据权利要求4-7任一所述的局部特征感知图文跨模态模型的训练方法，其特征在于，所述视觉特征提取模块采用的ResNet-50或者VGG-16，均加载ImageNet上的预训练模型，再进行训练。

9.根据权利要求5-7任一所述的局部特征感知图文跨模态模型的训练方法，其特征在于，所述文本特征提取模块的词向量提取器包括BERT、Bi-LSTM或Bi-GRU中的任意一个；

当采用BERT作为词向量提取器时，固定BERT参数，直接加载在Toronto Book Corpus和Wikipedia上的预训练模型而不用进行训练；

10.根据权利要求2-7任一所述的局部特征感知图文跨模态模型的训练方法，其特征在于，训练时，学习率设置为3×10^-3，前10次迭代周期采用预热技巧，并在20次、40次和/或50次迭代周期后进行学习率0.1倍衰减。