CN113553947B

CN113553947B - 生成描述多模态行人重识别方法、装置及电子设备

Info

Publication number: CN113553947B
Application number: CN202110834682.6A
Authority: CN
Inventors: 曹达; 翟亚静; 曾雅文; 陆邵飞
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2021-07-23
Filing date: 2021-07-23
Publication date: 2022-05-17
Anticipated expiration: 2041-07-23
Also published as: CN113553947A

Abstract

本发明提供一种生成描述多模态行人重识别方法、装置及电子设备。所述方法提供了一种基于三种模态以上的多模态行人重识别方法，能够将文本描述和素描图像的优势结合进行行人重识别，并基于生成对抗的方法减小描述特征与图像特征之间模态差距，使行人重识别的结果更加准确，提升行人重识别的准确率。

Description

生成描述多模态行人重识别方法、装置及电子设备

技术领域

本发明涉及计算机视觉技术领域，尤其涉及一种生成描述多模态行人重识别方法、装置及电子设备。

背景技术

随着智能视频监控设备的蓬勃发展及其在刑事侦查中的广泛应用，如何从大量的跨摄像头视频中快速、准确地进行行人重识别一直是学术界和产业界的一个关键研究问题。行人重识别可以大大加快视频分析的速度，提高工作人员的工作效率，保证结果的有效性，特别是在司法机关对犯罪嫌疑人的追踪中，具有重要的应用价值。没有它，人工查找视频数据中的嫌疑人不仅可能需要大量的时间和成本，消耗不必要的人力、物力和财力，还可能拖延案件的进展。

为了克服传统的行人重识别方法只适用于从不同摄像机的行人图像中检索同一个人的局限性，研究者们提出了跨模态的行人重识别任务来解决更复杂的场景。现有的跨模态行人重识别方法可分为基于低分辨率的、基于红外的、基于文本的和基于素描的行人重识别，该任务旨在从一个模态中检索另一个模态中的行人。但是，我们不能保证这种必要的查询图片始终可以获得，因此，文本描述和素描图像是较为常用的描述一个人的方式，这对于搜索犯罪嫌疑人等实际应用非常方便。

因此，描述性信息的应用就显得尤为重要，如何利用文本和素描两种模态信息的互补性来表达行人图像特征是非常有价值的。但是现有的方法大多数是单独考虑文本或者单独考虑素描的行人重识别，将两者结合来进行多模态行人重识别的方法很少被考虑。

发明内容

本发明的目的在于提供一种生成描述多模态行人重识别方法，能够利用文本描述和素描图像的优势结合进行行人重识别，提升行人重识别的准确率。

本发明的目的还在于提供一种生成描述多模态行人重识别装置，能够利用文本描述和素描图像的优势结合进行行人重识别，提升行人重识别的准确率。

本发明的目的还在于提供一种电子设备，能够利用文本描述和素描图像的优势结合进行行人重识别，提升行人重识别的准确率。

为实现上述目的，本发明提供一种生成描述多模态行人重识别方法，其特征在于，包括如下步骤：

步骤S1、获取训练样本集，所述训练样本集包括多个训练样本，每一个训练样本均包括：训练图像、与训练图像对应的训练素描图像及与训练图像对应的训练文字描述；

步骤S2、分别提取所述训练图像、训练素描图像及训练文字描述的特征，得到训练图像特征、训练素描特征和训练文本特征；

步骤S3、融合所述训练素描特征和训练文本特征，得到训练融合描述特征；

步骤S4、将所述训练图像特征及训练融合描述特征输入到生成对抗对齐网络，生成伪训练图像特征及伪训练融合描述特征；

步骤S5、用所述训练图像特征、训练融合描述特征、伪训练图像特征、伪训练融合描述特征组成优化后的训练样本集，用优化后的训练样本集训练行人重识别网络，得到训练后的行人重识别网络；

步骤S6、获取待识别的图片集，所述待识别的图片集包括多个待识别行人，每一个待识别行人均包括：行人图像、与行人图像对应的行人素描图像及与行人图像对应的行人文字描述；

步骤S7、分别提取所述行人图像、行人素描图像及行人文字描述的特征，得到行人图像特征、行人素描特征和行人文本特征；

步骤S8、融合所述行人素描特征和行人文本特征，得到行人融合描述特征；

步骤S9、将所述行人融合描述特征及行人图像特征输入训练后的行人重识别网络，得到行人重识别结果。

具体地，所述步骤S2包括：

通过图像特征提取器从训练图像及训练素描图像提取训练图像特征及训练素描特征；

对所述训练文字描述进行文本嵌入处理，得到训练文本特征；

所述步骤S7包括：

通过图像特征提取器从行人图像及行人素描图像提取行人图像特征及行人素描特征；

对所述行人文字描述进行文本嵌入处理，得到行人文本特征。

具体地，所述步骤S2及步骤S7中，所述图像特征提取器为2048维的残差神经网络。

具体地，所述步骤S2及步骤S7中，通过Doc2Vec的方法进行文本嵌入。

具体地，所述步骤S3中通过一注意力池化网络融合所述训练素描特征和训练文本特征，得到训练融合描述特征；

所述步骤S8中通过一注意力池化网络融合所述行人素描特征和行人文本特征，得到行人融合描述特征。

具体地，所述步骤S3及步骤8中注意力池化网络的公式为：

其中，W₁、W₂、W₃、W₄为权重矩阵，α为分数矩阵，softmax为softmax函数，Z_t为训练文本特征或行人文本特征，Z_s为训练素描特征或行人素描特征，Z_d为训练融合描述特征或行人融合描述特征。

具体地，所述步骤S4具体包括：

所述生成对抗对齐网络将训练融合描述特征分离成第一风格特征和第一内容特征，将训练图像特征分离成第二风格特征和第二内容特征；

用第一风格特征和第二内容特征生成伪训练图像特征，用第二风格特征和第一内容特征生成伪训练融合描述特征。

具体地，所述步骤S3和步骤S4之间还包括：对所述生成对抗对齐网络进行训练的步骤。

本发明还提供一种生成描述多模态行人重识别装置，包括：

获取单元，用于获取训练样本集，所述训练样本集包括多个训练样本，每一个训练样本均包括：训练图像、与训练图像对应的训练素描图像及与训练图像对应的训练文字描述，以及获取待识别的图片集，所述待识别的图片集包括多个待识别行人，每一个待识别行人均包括：行人图像、与行人图像对应的行人素描图像及与行人图像对应的行人文字描述；

提取单元，用于分别提取所述训练图像、训练素描图像及训练文字描述的特征，得到训练图像特征、训练素描特征和训练文本特征，以及分别提取所述行人图像、行人素描图像及行人文字描述的特征，得到行人图像特征、行人素描特征和行人文本特征；

融合单元，用于融合所述训练素描特征和训练文本特征，得到训练融合描述特征以及融合所述行人素描特征和行人文本特征，得到行人融合描述特征；

训练单元，用于用所述训练图像特征、训练融合描述特征、伪训练图像特征、伪训练融合描述特征组成优化后的训练样本集，用优化后的训练样本集训练行人重识别网络，得到训练后的行人重识别网络；

行人重识别网络，用于在经过训练后接收所述行人融合描述特征及行人图像特征，得到行人重识别结果。

本发明提供一种电子设备，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现上述的方法。

本发明的有益效果：本发明提供一种生成描述多模态行人重识别方法、装置及电子设备。所述方法提供了一种基于三种模态以上的多模态行人重识别方法，能够将文本描述和素描图像的优势结合进行行人重识别，并基于生成对抗的方法减小描述特征与图像特征之间模态差距，使行人重识别的的结果更加准确，提升行人重识别的准确率。

附图说明

为了能更进一步了解本发明的特征以及技术内容，请参阅以下有关本发明的详细说明与附图，然而附图仅提供参考与说明用，并非用来对本发明加以限制。

附图中，

图1为本发明的生成描述多模态行人重识别方法的流程图；

图2为本发明的生成描述多模态行人重识别装置的架构图；

图3为本发明的电子设备的示意图。

具体实施方式

为更进一步阐述本发明所采取的技术手段及其效果，以下结合本发明的优选实施例及其附图进行详细描述。

请参阅图1，本发明提供一种生成描述多模态行人重识别方法，包括如下步骤：

步骤S1、获取训练样本集，所述训练样本集包括多个训练样本，每一个训练样本均包括：训练图像、与训练图像对应的训练素描图像及与训练图像对应的训练文字描述。

步骤S2、分别提取所述训练图像、训练素描图像及训练文字描述的特征，得到训练图像特征、训练素描特征和训练文本特征。

具体地，所述步骤S2包括：

对所述训练文字描述进行文本嵌入处理，得到训练文本特征。

进一步地，所述步骤S2中，所述图像特征提取器为2048维的残差神经网络。

进一步地，所述步骤S2中，通过Doc2Vec的方法进行文本嵌入。

具体地，所述步骤S3中通过一注意力池化网络融合所述训练素描特征和训练文本特征，得到训练融合描述特征。

进一步地，所述步骤S3中注意力池化网络的公式为：

其中，W₁、W₂、W₃、W₄为权重矩阵，α为分数矩阵，softmax为softmax函数，Z_t为训练文本特征，Z_s为训练素描特征，Z_d为训练融合描述特征。

步骤S4、将所述训练图像特征及训练融合描述特征输入到生成对抗对齐网络，生成伪训练图像特征及伪训练融合描述特征。

进一步地，所述生成对抗对齐网络为经过训练的生成对抗对齐网络，所述生成对抗对齐网络包括：分离单元、与所述分离单元相连的生成单元及与所述生成单元相连的判别单元；

进一步地，对所述生成对抗对齐网络进行训练的步骤包括：

提供第一训练样本，所述第一训练样本包括第一训练图片特征及第一训练融合描述特征；

所述分离单元分离所述第一训练融合描述特征得到第三风格特征和第三内容特征，所述分离单元分离所述第一训练图片特征得到第四风格特征和第四内容特征；

所述生成单元用第三风格特征和第四内容特征生成第一伪训练融合描述特征，用第四风格特征和第三内容特征生成第一伪训练图片特征；

所述判别单元接收第一训练图片特征、第一训练融合描述特征、第一伪训练融合描述特征或第一伪训练图片特征，并给出判别结果，所述判别结果用于显示判别单元接收到的特征是第一训练样本中的特征或是由生成单元生成的特征；

根据所述判别结果的正确率所述判别单元的模型参数进行调整，使得所述判别结果的正确率增大至收敛，完成所述判别单元的训练。

而对生成单元训练包括：

将所述第一伪训练融合描述特征或第一伪训练图片特征输入经过训练的判别单元，得到判别结果；

根据所述判别结果的正确率，对生成单元的模型参数进行迭代调整，使得所述判别结果的正确率减小至收敛，完成所述生成单元的训练。

接着，用经过训练的生成单元再次对判别单元进行训练，随后用再次训练的判别单元对生成单元进行训练，依次重复循环多次，直至达到预设的循环次数或预设的训练目标，完成所述生成对抗对齐网络的训练。

用上述经过训练的生成对抗对齐网络生成的伪图像特征及伪融合描述特征能够最大程度的接近原始图像特征和原始融合描述特征，保证伪图像特征及伪融合描述特征的有效性，有效减小图像特征与融合描述特征之间的模态差距。

步骤S5、用所述训练图像特征、训练融合描述特征、伪训练图像特征、伪训练融合描述特征组成优化后的训练样本集，用优化后的训练样本集训练行人重识别网络，得到训练后的行人重识别网络。

具体地，所述步骤S5中通过由训练图像特征、训练融合描述特征、伪训练图像特征、伪训练融合描述特征组成优化后的训练样本集对行人重识别网络进行训练，有效减小了训练样本集中融合描述特征与图像特征之间的模态差异，进而训练得到识别精度更高的行人重识别网络模型。

具体地，所述步骤S5包括：

根据三元组损失函数和交叉熵损失函数确定行人重识别损失；

根据行人重识别损失、训练图像特征、训练融合描述特征、伪训练图像特征及伪训练融合描述特征确定训练损失值；

根据训练损失值调整对所述行人重识别网络的参数进行优化，直至训练损失值达到预设的目标阈值，完成行人重识别网络的训练。

其中，三元组损失函数的公式为：

L_tri表示行人重识别网络的三元组损失，

为一个锚点，

表示正例，即

是和

有相同身份的正样本，对应同一标签的图像的特征，

表示负例，即

是和

有不同身份的负样本，对应不同标签的图像的特征

表示超参数margin，D计算了欧几里得距离，基本思想是正例之间的距离应该小于负例的一个预定义的边界，最大化类内相似度、最小化类间相似度。

交叉熵损失函数的公式表示为：

L_cls＝-logpz_sl

其中，p＝softmax(Wf+b)，其中softmax为回归模型，W和b分别是训练权重和偏置，f为训练所有样本的矩阵，Z_sl表示一个训练样本。

最终行人重识别损失L1可表示为：

L1＝L_cls+L_tri。

进一步地，三元组损失函数用于行人重识别网络的相似性学习，经过相似性学习后的行人重识别网络缩小同一人的图像之间的特征距离，扩大不同人的图像之间的特征距离，交叉熵损失函数用于行人重识别网络的身份学习，它将行人重识别的训练过程视为一个图像分类问题，即每个身份都是一个不同的类，经过身份学习后的行人重识别网络试图有效区分不同的类，即有效识别图像特征与融合描述特征中的行人是否为同一身份。

如此，通过进行相似性学习、身份学习的模型训练，能够使得到的行人重识别网络在进行行人重识别时，缩小同一人的融合描述特征与图像特征之间的特征距离，扩大不同人的图像之间的特征距离，并有效识别融合描述特征与图像特征中的行人是否为同一身份。

结合上述对生成对抗对齐网络和行人重识别网络的训练，最终用于实现本发明的生成描述多模态行人重识别方法的模型的总的训练损失L可表示为如下公式：

L＝λ_cycL_cyc+λ_GANL_GAN+λ_recL_rec+λ_reidL1；

其中，L_cyc表示在生成对抗对齐网络训练过程中产生的循环一致性损失，L_GAN表示在生成对抗对齐网络训练过程中产生的对抗损失，L_rec表示在生成对抗对齐网络训练过程中产生的图像重建损失，λ_cyc、λ_GAN、λ_rec及λ_reid分别表示循环一致性损失、对抗损失、图像重建损失和行人重识别损失的平衡因子。

步骤S6、获取待识别的图片集，所述待识别的图片集包括多个待识别行人，每一个待识别行人均包括：行人图像、与行人图像对应的行人素描图像及与行人图像对应的行人文字描述。

步骤S7、分别提取所述行人图像、行人素描图像及行人文字描述的特征，得到行人图像特征、行人素描特征和行人文本特征。

具体地，所述步骤S7包括：

进一步地，所述步骤S7中，所述图像特征提取器为2048维的残差神经网络。

进一步地，所述步骤S7中，通过Doc2Vec的方法进行文本嵌入。

步骤S8、融合所述行人素描特征和行人文本特征，得到行人融合描述特征。

具体地，所述步骤S8中通过一注意力池化网络融合所述行人素描特征和行人文本特征，得到行人融合描述特征。

进一步地，所述步骤8中注意力池化网络的公式为：

其中，W₁、W₂、W₃、W₄为权重矩阵，α为分数矩阵，softmax为softmax函数，Z_t为行人文本特征，Z_s为行人素描特征，Z_d为行人融合描述特征。

具体地，所述步骤S9包括：在行人重识别网络根据待查询的行人融合描述特征检索行人图像特征，并输出行人图像特征对应行人图像的预设rank-K排名列表作为行人重识别结果，该行人图像的排名列表中的行人图像根据行人图像特征与待查询的行人融合描述特征的相似度进行排列。

请参阅图2，本发明还提供一种生成描述多模态行人重识别装置，包括：

获取单元10，用于获取训练样本集，所述训练样本集包括多个训练样本，每一个训练样本均包括：训练图像、与训练图像对应的训练素描图像及与训练图像对应的训练文字描述，以及获取待识别的图片集，所述待识别的图片集包括多个待识别行人，每一个待识别行人均包括：行人图像、与行人图像对应的行人素描图像及与行人图像对应的行人文字描述；

提取单元20，用于分别提取所述训练图像、训练素描图像及训练文字描述的特征，得到训练图像特征、训练素描特征和训练文本特征，以及分别提取所述行人图像、行人素描图像及行人文字描述的特征，得到行人图像特征、行人素描特征和行人文本特征；

融合单元30，用于融合所述训练素描特征和训练文本特征，得到训练融合描述特征以及融合所述行人素描特征和行人文本特征，得到行人融合描述特征；

训练单元40，用于用所述训练图像特征、训练融合描述特征、伪训练图像特征、伪训练融合描述特征组成优化后的训练样本集，用优化后的训练样本集训练行人重识别网络，得到训练后的行人重识别网络；

行人重识别网络50，用于在经过训练后接收所述行人融合描述特征及行人图像特征，得到行人重识别结果。

请参阅图3，本发明还提供一种电子设备，包括：

处理器100；

用于存储所述处理器100可执行指令的存储器200；

其中，所述处理器100被配置为执行所述指令，以实现上述的方法。

综上所述，本发明提供一种生成描述多模态行人重识别方法、装置及电子设备。所述方法提供了一种基于三种模态以上的多模态行人重识别方法，能够将文本描述和素描图像的优势结合进行行人重识别，并基于生成对抗的方法减小描述特征与图像特征之间模态差距，使行人重识别的结果更加准确，提升行人重识别的准确率。

以上所述，对于本领域的普通技术人员来说，可以根据本发明的技术方案和技术构思作出其他各种相应的改变和变形，而所有这些改变和变形都应属于本发明权利要求的保护范围。

Claims

1.一种生成描述多模态行人重识别方法，其特征在于，包括如下步骤：

2.如权利要求1所述的生成描述多模态行人重识别方法，其特征在于，所述步骤S2包括：

所述步骤S7包括：

3.如权利要求2所述的生成描述多模态行人重识别方法，其特征在于，所述步骤S2及步骤S7中，所述图像特征提取器为2048维的残差神经网络。

4.如权利要求2所述的生成描述多模态行人重识别方法，其特征在于，所述步骤S2及步骤S7中，通过Doc2Vec的方法进行文本嵌入。

5.如权利要求1所述的生成描述多模态行人重识别方法，其特征在于，所述步骤S3中通过一注意力池化网络融合所述训练素描特征和训练文本特征，得到训练融合描述特征；

6.如权利要求5所述的生成描述多模态行人重识别方法，其特征在于，所述步骤S3及步骤S8中注意力池化网络的公式为：

7.如权利要求1所述的生成描述多模态行人重识别方法，其特征在于，

所述步骤S4具体包括：

8.如权利要求1所述的生成描述多模态行人重识别方法，其特征在于，所述步骤S3和步骤S4之间还包括：对所述生成对抗对齐网络进行训练的步骤。

9.一种生成描述多模态行人重识别装置，其特征在于，包括：

10.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至8中任一项所述的方法。