CN109829430B

CN109829430B - 基于异构层次化注意机制的跨模态行人再识别方法及系统

Info

Publication number: CN109829430B
Application number: CN201910098582.4A
Authority: CN
Inventors: 王亮; 黄岩; 牛凯; 王海滨; 李凯
Original assignee: Cas Artificial Intelligence Research Qingdao Co ltd
Current assignee: Cas Artificial Intelligence Research Qingdao Co ltd
Priority date: 2019-01-31
Filing date: 2019-01-31
Publication date: 2021-02-19
Anticipated expiration: 2039-01-31
Also published as: CN109829430A

Abstract

本公开提出了基于异构层次化注意机制的跨模态行人再识别方法及系统，包括：提取行人图像特征及文本描述特征，并分别作为行人图像通道和文本描述通道的初始全局特征；建立异构层次化的注意模型，该模型利用双向跨模态细粒度匹配注意机制以及上下文指导的局部特征聚合注意机制，同时对行人图片特征和文本描述特征进行增强；利用两阶段训练方式对异构层次化的注意模型进行训练，其中，利用行人类别监督信息在第一阶段进行初步训练，并在此基础上利用跨模态样本匹配行人类别监督信息进行第二阶段的训练，利用训练好的模型进行行人再识别。本公开能够提高行人再识别的准确率。

Description

基于异构层次化注意机制的跨模态行人再识别方法及系统

技术领域

本公开涉及计算机视觉、模式识别及多模态计算技术领域，特别是涉及基于异构层次化注意机制的跨模态行人再识别方法及系统。

背景技术

行人再识别是一个重要且具有挑战性的经典计算机视觉任务，在安防监控、智能视频分析、人员搜救检索等领域具有广泛的应用。

基于文本描述的跨模态行人再识别方法具有描述容易生成，且能够提供较为丰富的信息进行检索的特性。

发明人在研究中发现，行人再识别技术其存在的难点是：不同模态的样本之间具有异质性，给跨模态衡量样本相似性带来很大困难；同时由于所有图片均同属于行人类别，且不同行人对应的描述也较为相似，很难进行准确的识别。

发明内容

为了解决现有技术的不足，本公开实施例子提供了基于异构层次化注意机制的跨模态行人再识别方法，能够提高跨模态行人再识别的准确率。

为了实现上述目的，本公开采用以下技术方案：

基于异构层次化注意机制的跨模态行人再识别方法，包括：

提取行人图像特征及文本描述特征，并分别作为行人图像通道和文本描述通道的初始全局特征；

建立异构层次化的注意模型，该模型利用双向跨模态细粒度匹配注意机制以及上下文指导的局部特征聚合注意机制，同时对行人图片特征和文本描述特征进行增强；

利用两阶段训练方式对异构层次化的注意模型进行训练，其中，利用行人类别监督信息在第一阶段进行初步训练，并在此基础上利用跨模态样本匹配行人类别监督信息进行第二阶段的训练，利用训练好的模型进行行人再识别。

作为本公开进一步的技术方案，提取行人图像特征时，采用深度卷积神经网络框架来提取行人图像特征，具体的步骤为：

将训练数据集中的图片数据归一化成统一的大小，然后对于归一化后的数据，随机的采取镜像的处理方式，进行图像数据增强；

将增强后的图像数据送入预训练好的某深度主干卷积神经网络中；

选取深度主干卷积神经网络的某一中间卷积层的输出特征图，对其在竖直方向进行均匀切分，得到n个互不重叠且具有相同大小的部分特征图；

对于n个部分特征图分别进行二维平面的全局均值池化，并分别通过卷积核大小为1的卷积层改变其通道数，得到与部分特征图数量相同的对应若干不重叠图像区域的特征向量；

利用得到的n个特征向量串联并经过线性映射作为初始全局图像特征向量。

作为本公开进一步的技术方案，采用双向循环神经网络框架来提取文本描述特征，具体步骤为：

利用某自然语言句法分析工具，提取句子中的m个名词短语，对短语中的每个单词，首先进行词向量嵌入，而后将这些词向量按序输入双向循环神经网络中，将最终双向隐含状态的输出进行串联，并经过线性变换，得到每个短语对应的特征向量；

对于文本描述，首先对于句子中的每个单词进行词向量嵌入，而后将这些词向量按序输入双向循环神经网络中，得到初始全局文本描述特征向量。

作为本公开进一步的技术方案，所建立异构层次化的注意模型，采用两个层次的机制实现对数据的处理，包括对于一对图像及文本描述样本对，所接收的数据包括：图像中的n个不重叠图像区域对应的特征向量，以及文本描述中的m个名词短语对应的特征向量。

作为本公开进一步的技术方案，所述异构层次化的注意模型针对所接收的数据进行双向跨模态细粒度匹配处理，具体包括：

取一个图像区域对应的特征向量，利用该特征向量与所有的名词短语对应的特征向量计算相似度，并对其距离值进行自然对数为底的幂次运算，而后对于得到的m个值进行归一化，即可得到每个名词短语与该图像区域的相似程度归一化系数，利用该系数对于m个名词短语的特征向量进行注意机制加权，即可得到注意图像区域的增强文本特征；

对于每一个图像区域对应的特征向量进行相同处理过程，即可得到n个增强短语特征；

利用所有图像区域特征与某一名词短语特征向量进行跨模态注意机制，得到名词短语特征向量的增强图像特征；

对每一个名词短语特征向量进行相同处理过程，即可得到m个增强图像区域特征。

作为本公开进一步的技术方案，所述异构层次化的注意模型针对所接收的数据还进行上下文指导的局部特征聚合处理步骤：

利用图像局部区域特征与初始全局图像特征计算相似度，并对n个相似度值进行归一化，作为权值来加权增强名词短语特征，得到增强文本全局表达；

利用文本名词短语特征与初始全局文本描述特征计算相似度，并对m个相似度值进行归一化，作为权值来加权增强图像部分特征，得到增强图像全局表达。

作为本公开进一步的技术方案，将全局特征向量和异构层次化的注意模型输出的增强全局特征向量进行串联，分别得到全局图像特征和全局文本描述特征。

作为本公开进一步的技术方案，利用两阶段训练方式对异构层次化的注意模型进行训练，步骤为：

对于全局图像特征和全局文本描述特征，首先利用分类损失函数并采用“Adam优化算法”进行初始化训练；

在训练得到的最优的异构层次化的注意模型的基础上，引入跨模态样本匹配损失函数，同样采用“Adam优化算法”进行训练，直至收敛。

作为本公开进一步的技术方案，本公开的方法还包括：测试时将图片和文本分别利用训练好的网络进行特征提取，得到图像特征和文本特征，而后根据不同样本之间的相似度进行排序，得到最终的检索结果序列。

本公开的实施例子还公开了基于异构层次化注意机制的跨模态行人再识别系统，包括：

初始全局特征获得模块，被配置为提取行人图像特征及文本描述特征，并分别作为行人图像通道和文本描述通道的初始全局特征；

异构层次化的注意模型建立模块，该模型利用双向跨模态细粒度匹配注意模块以及上下文信息指导的局部特征聚合注意模块同时对行人图片特征和文本描述特征进行增强；

模型训练模块，利用两阶段训练方式对异构层次化的注意模型进行训练，其中，利用行人类别监督信息在第一阶段进行初步训练，并在此基础上利用跨模态样本匹配监督信息进行第二阶段的训练，利用训练好的模型进行行人再识别。

作为本公开进一步的技术方案，初始全局特征获得模块中，提取行人图像特征时，采用深度卷积神经网络框架来提取行人图像特征，具体为：

作为本公开进一步的技术方案，所述异构层次化的注意模型针对所接收的数据利用双向跨模态细粒度匹配注意模块进行双向跨模态细粒度匹配处理，具体包括：

作为本公开进一步的技术方案，所述异构层次化的注意模型针对所接收的数据还利用上下文信息指导的局部特征聚合注意模块进行上下文指导的局部特征聚合处理，具体为：

作为本公开进一步的技术方案，本公开的还包括：测试模块，测试时将图片和文本分别利用训练好的网络进行特征提取，得到图像特征和文本特征，而后根据不同样本之间的相似度进行排序，得到最终的检索结果序列。

本公开的一个实施例子中还公开了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现上述基于异构层次化注意机制的跨模态行人再识别方法。

一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述基于异构层次化注意机制的跨模态行人再识别方法。

与现有技术相比，本公开的有益效果是：

本公开技术方案中引入的异构层次化注意模型，一方面能够挖掘行人图片中的区域与文本描述中的名词短语之间的细粒度的匹配关系，增强样本间区分度，同时减小模态间的异构性，获得增强的局部特征，能够较好的解决该问题中仅有行人单一类别，且文本描述较为相似导致的较难识别行人的问题；另一方面，利用单模态的“全局-局部显著性”，即某些局部特征在全局特征中的重要程度，指导增强后局部特征的聚合，得到突显某些局部显著区域的全局特征，进而与该问题中行人身份的强监督信息进行关联，以便在训练中得到更好的特征表达，提高行人再识别的准确率。

附图说明

构成本公开的一部分的说明书附图用来提供对本公开的进一步理解，本公开的示意性实施例及其说明用于解释本公开，并不构成对本公开的不当限定。

图1为本公开具体实施例子中方法及系统的异构层次化注意机制的网络模型示意图；

图2为本公开具体实施例子中方法流程图。

具体实施方式

应该指出，以下详细说明都是例示性的，旨在对本公开提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本公开的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

本公开的一种典型的实施方式中，如图1所示，提供了基于异构层次化注意机制的跨模态行人再识别方法，包括：一方面对于行人图像和文本描述进行细粒度切分和提取，得到行人图像区域和名词短语，并引入基于双向细粒度匹配的注意机制，对两种模态的局部特征进行增强；另一方面根据局部特征在全局中所占的重要性比重，利用上下文信息指导的注意机制，对增强后的局部特征进行恰当的聚合，得到突显某些显著性区域的全局特征，并与行人身份的强监督信息相关联，提高跨模态再识别的准确率。

具体而言，本公开的该方法包含行人图像通道和文本描述通道两条通路，每条通路中包含全局特征和局部特征两类不同特征。对于图像通路，其中包含与整幅图像对应的行人全局图像特征，以及与若干不重叠图像区域对应的局部图像的特征；对于文本描述通路，其中包含与整个句子对应的全局文本描述特征，以及与句子中名词短语(由提取器获得)对应的局部特征；然后设计了一种异构层次化的注意模型，该模型利用跨模态细粒度匹配注意机制以及上下文信息指导的注意机制，同时对行人图片特征和文本描述特征进行增强；最后利用两阶段训练方案，利用行人类别监督信息在第一阶段进行初步训练，并在此基础上利用跨模态样本匹配监督信息进行第二阶段的训练。

该方法中引入的异构层次化注意模型，一方面能够挖掘行人图片中的区域与文本描述中的名词短语之间的细粒度的匹配关系，增强样本间区分度，同时减小模态间的异构性，获得增强的局部特征，能够较好的解决该问题中仅有单一行人类别，且文本描述均较为相似导致的较难区分的问题；另一方面，利用单模态“全局-局部显著性”，即某些局部特征在全局特征中的重要程度，指导增强后局部特征的聚合，得到突显某些显著局部区域的全局特征，进而与该问题中行人身份的强监督信息进行关联，以便在训练中得到更好的特征表达。

本公开具体的实施例子中，以某大型跨模态行人再识别数据库为例，包含13,003个行人的共40,206张图像，每张图像对应2条文本描述，共计80,412条文本描述。

在本公开具体例子中，图2为本公开基于异构层次化注意机制的跨模态行人再识别方法的流程图，如图2所示，将数据集分为训练数据集及测试集，本公开具体包括如下步骤：

步骤S0，将训练数据集中的图片数据归一化成统一的大小，然后对于归一化后的数据，随机的采取镜像的处理方式，进行图像数据增强。

步骤S1，将S0中增强后的图像数据送入预训练好的某深度主干卷积神经网络中，如图1中主干卷积神经网络所示。

步骤S2，选取S1中深度主干卷积神经网络的某一中间卷积层的输出特征图，对其在竖直方向进行均匀切分，得到n个互不重叠且具有相同大小的部分特征图。对于n个部分特征图分别进行二维平面的全局均值池化，并分别通过卷积核大小为1的卷积层改变其通道数，得到n个对应若干不重叠图像区域的特征向量

其中标量P为图像区域特征向量维度。

步骤S3，利用步骤S2中得到的n个图像区域的特征向量P_i串联并经过线性映射作为初始全局图像特征向量

其中标量V为初始全局图像特征向量维度。

步骤S4，利用某自然语言句法分析工具，提取文本描述中的m个名词短语，并对这些短语分别进行编码。编码过程为：对第j(j＝1,2,...,m)个短语中的每个单词，首先进行词向量嵌入，而后将这些词向量按序输入双向循环神经网络中，将最终双向隐含状态的输出进行串联，并经过线性变换，得到第j个短语对应的特征向量

其中标量N为短语特征向量维度；句子提取的短语个数m由句法分析工具自动决定，不进行人为限制；

步骤S5，对于全局文本描述特征，首先对于完整句子中的每个单词进行词向量嵌入，而后将这些词向量按序输入双向循环神经网络中，利用最终隐状态得到初始全局文本描述特征向量

其中标量C为初始全局文本描述特征向量维度；步骤S5中的全局文本描述编码过程与名词短语的编码过程(步骤S4)分别独立进行。

步骤S6，对于一对图像及文本描述样本对，将图像中的n个不重叠图像区域对应的特征向量P_i，以及文本描述中的m个名词短语对应的特征向量N_j输入异构层次化注意机制模块，下述步骤S7及S8为双向跨模态细粒度匹配注意模块(层次1)，而S9及S10则是上下文指导的局部特征聚合注意模块(层次2)。

步骤S7，取一个图像区域对应的特征向量，以P₁为例进行说明，利用P₁与所有的名词短语对应的特征向量N_j计算相似度，并对其距离值进行自然对数为底的幂次运算，而后对于得到的m个值进行归一化，即可得到每个名词短语与该图像区域的相似程度归一化系数，利用该系数对于m个名词短语的特征向量N_j进行注意机制加权，即可得到注意图像区域P₁的增强文本特征

对于每一个图像区域对应的特征向量P_i进行相同过程，即可得到n个分别注意到不同图像区域的增强短语特征T₁′,T₂′,...,T_n′，公式如下所示，其中sim(·,·)表示相似度函数，λ₁为平滑系数：

步骤S8，取一个名词短语对应的特征向量，以N₁为例进行说明，采用与步骤S7类似的方案，将所有图像区域特征P_i与名词短语特征向量N₁进行跨模态注意机制，得到注意名词短语N₁的增强图像特征

对每一个名词短语特征向量N_j进行上述步骤，即可得到m个分别注意到不同名词短语的增强图像区域特征I₁′,I₂′,...,I_m′。

步骤S9，利用图像局部区域特征P_i与初始全局图像特征I计算相似度，并对n个相似度值进行归一化，作为权值来加权增强名词短语特征T₁′,T₂′,...,T_n′，得到增强文本全局特征向量

其对应公式如下所示：

其中，矩阵

及向量

用来将P_i线性变换为与I具有相同维度，sim(·,·)表示相似度函数，λ₂为平滑系数。

步骤S10，与步骤S9同理，利用文本名词短语特征N_j与初始全局文本描述特征T计算相似度，并对m个相似度值进行归一化，作为权值来加权增强图像部分特征I₁′,I₂′,...,I_m′，得到增强图像全局特征向量

步骤S11，将初始全局图像特征向量I与异构层次化注意机制模块输出的增强图像全局特征向量I_agg进行串联，得到最终全局图像特征[I,I_agg]；将初始全局文本描述特征向量T与异构层次化注意机制模块输出的增强文本描述全局特征向量T_agg进行串联，得到最终全局文本描述特征[T,T_agg]。

步骤S12，对于S11中的最终全局图像特征[I,I_agg]和最终全局文本描述特征[T,T_agg]，首先利用分类损失函数并采用“Adam优化算法”进行初始化训练。

步骤S13，在步骤S12训练得到的最好模型的基础上，引入跨模态样本匹配损失函数，同样采用“Adam优化算法”进行训练，直至收敛。

步骤S14，测试时将图片和文本描述分别利用训练好的网络进行特征提取，得到全局图像特征和全局文本特征，而后根据不同样本之间的相似度进行排序，得到最终的检索结果序列。

在本公开的上述实施例子中，利用双向跨模态注意机制自适应的进行图像区域和文本描述名词短语之间的细粒度匹配，利用细粒度的匹配结果，同时增强图像和文本两个模态的特征表达，一定程度减轻不同模态表达之间的语义鸿沟。

利用细粒度匹配的结果，利用跨模态组件(图像区域或文本名词短语)指导下的注意机制进行特征加权，得到增强后的细粒度特征，这些细粒度特征能够更加突出显著性区域，有助于缓解所有图像均属于单一类别的较难区分的问题。

基于获得的增强后的局部特征表达，包含文本名词短语及图像区域对应特征，根据单模态的不同组件在全局上下文中的重要程度，对这些特征进行有选择的组合，得到局部显著性细节更加突显的全局特征，进而与行人身份信息进行关联，通过学习过程来更好的区分不同的行人。

本公开的另一实施例子还公开了基于异构层次化注意机制的跨模态行人再识别系统，包括：

具体的，初始全局特征获得模块中，提取行人图像特征时，采用深度卷积神经网络框架来提取行人图像特征，具体为：

具体实施例子中，采用双向循环神经网络框架来提取文本描述特征，具体步骤为：

所建立异构层次化的注意模型，采用两个层次的机制实现对数据的处理，包括对于一对图像及文本描述样本对，所接收的数据包括：图像中的n个不重叠图像区域对应的特征向量，以及文本描述中的m个名词短语对应的特征向量。

具体实施例子中，所述异构层次化的注意模型针对所接收的数据利用双向跨模态细粒度匹配注意模块进行双向跨模态细粒度匹配处理，具体包括：

具体实施例子中，所述异构层次化的注意模型针对所接收的数据还利用上下文信息指导的局部特征聚合注意模块进行上下文指导的局部特征聚合处理，具体为：

将全局特征向量和异构层次化的注意模型输出的增强全局特征向量进行串联，分别得到全局图像特征和全局文本描述特征。

具体实施例子中，利用两阶段训练方式对异构层次化的注意模型进行训练，步骤为：

在具体实施时，本公开的系统还包括：测试模块，测试时将图片和文本分别利用训练好的网络进行特征提取，得到图像特征和文本特征，而后根据不同样本之间的相似度进行排序，得到最终的检索结果序列。

本公开的一个实施例子中还公开了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现以下步骤：

一种计算机可读存储介质，其上存储有计算机程序(指令)，其特征在于，该程序(指令)被处理器执行时实现以下步骤：

以上所述仅为本公开的优选实施例而已，并不用于限制本公开，对于本领域的技术人员来说，本公开可以有各种更改和变化。凡在本公开的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本公开的保护范围之内。

Claims

1.基于异构层次化注意机制的跨模态行人再识别方法，其特征是，包括：

利用两阶段训练方式对异构层次化的注意模型进行训练，其中，利用行人类别监督信息在第一阶段进行初步训练，并在此基础上利用跨模态样本匹配行人类别监督信息进行第二阶段的训练，利用训练好的模型进行行人再识别；所述异构层次化的注意模型针对所接收的数据进行双向跨模态细粒度匹配处理，具体包括：

对每一个名词短语特征向量进行相同处理过程，即可得到m个增强图像区域特征；

所述异构层次化的注意模型针对所接收的数据还进行上下文指导的局部特征聚合处理步骤：

利用文本名词短语特征与初始全局文本描述特征计算相似度，并对m个相似度值进行归一化，作为权值来加权增强图像部分特征，得到增强图像全局表达；

将初始全局特征向量和异构层次化的注意模型输出的增强全局特征向量进行串联，分别得到全局图像特征和全局文本描述特征。

2.如权利要求1所述的基于异构层次化注意机制的跨模态行人再识别方法，其特征是，提取行人图像特征时，采用深度卷积神经网络框架来提取行人图像特征，具体的步骤为：

3.如权利要求1所述的基于异构层次化注意机制的跨模态行人再识别方法，其特征是，采用双向循环神经网络框架来提取文本描述特征，具体步骤为：

4.如权利要求1所述的基于异构层次化注意机制的跨模态行人再识别方法，其特征是，所建立异构层次化的注意模型，采用两个层次的机制实现对数据的处理，包括对于一对图像及文本描述样本对，所接收的数据包括：图像中的n个不重叠图像区域对应的特征向量，以及文本描述中的m个名词短语对应的特征向量。

5.如权利要求1所述的基于异构层次化注意机制的跨模态行人再识别方法，其特征是，利用两阶段训练方式对异构层次化的注意模型进行训练，步骤为：

6.如权利要求1-5任一所述的基于异构层次化注意机制的跨模态行人再识别方法，其特征是，还包括：测试时将图片和文本分别利用训练好的网络进行特征提取，得到图像特征和文本特征，而后根据不同样本之间的相似度进行排序，得到最终的检索结果序列。

7.基于如权利要求1所述的基于异构层次化注意机制的跨模态行人再识别方法的系统，其特征是，包括：

8.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现权利要求足1-5任一所述的基于异构层次化注意机制的跨模态行人再识别方法。

9.一种计算机可读存储介质，所述计算机可读存储介质包括存储的计算机程序，其特征在于，其中，在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求足1-5任一所述的基于异构层次化注意机制的跨模态行人再识别方法。