CN109829430B - 基于异构层次化注意机制的跨模态行人再识别方法及系统 - Google Patents
基于异构层次化注意机制的跨模态行人再识别方法及系统 Download PDFInfo
- Publication number
- CN109829430B CN109829430B CN201910098582.4A CN201910098582A CN109829430B CN 109829430 B CN109829430 B CN 109829430B CN 201910098582 A CN201910098582 A CN 201910098582A CN 109829430 B CN109829430 B CN 109829430B
- Authority
- CN
- China
- Prior art keywords
- features
- pedestrian
- image
- text description
- cross
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
本公开提出了基于异构层次化注意机制的跨模态行人再识别方法及系统,包括:提取行人图像特征及文本描述特征,并分别作为行人图像通道和文本描述通道的初始全局特征;建立异构层次化的注意模型,该模型利用双向跨模态细粒度匹配注意机制以及上下文指导的局部特征聚合注意机制,同时对行人图片特征和文本描述特征进行增强;利用两阶段训练方式对异构层次化的注意模型进行训练,其中,利用行人类别监督信息在第一阶段进行初步训练,并在此基础上利用跨模态样本匹配行人类别监督信息进行第二阶段的训练,利用训练好的模型进行行人再识别。本公开能够提高行人再识别的准确率。
Description
技术领域
本公开涉及计算机视觉、模式识别及多模态计算技术领域,特别是涉及基于异构层次化注意机制的跨模态行人再识别方法及系统。
背景技术
行人再识别是一个重要且具有挑战性的经典计算机视觉任务,在安防监控、智能视频分析、人员搜救检索等领域具有广泛的应用。
基于文本描述的跨模态行人再识别方法具有描述容易生成,且能够提供较为丰富的信息进行检索的特性。
发明人在研究中发现,行人再识别技术其存在的难点是:不同模态的样本之间具有异质性,给跨模态衡量样本相似性带来很大困难;同时由于所有图片均同属于行人类别,且不同行人对应的描述也较为相似,很难进行准确的识别。
发明内容
为了解决现有技术的不足,本公开实施例子提供了基于异构层次化注意机制的跨模态行人再识别方法,能够提高跨模态行人再识别的准确率。
为了实现上述目的,本公开采用以下技术方案:
基于异构层次化注意机制的跨模态行人再识别方法,包括:
提取行人图像特征及文本描述特征,并分别作为行人图像通道和文本描述通道的初始全局特征;
建立异构层次化的注意模型,该模型利用双向跨模态细粒度匹配注意机制以及上下文指导的局部特征聚合注意机制,同时对行人图片特征和文本描述特征进行增强;
利用两阶段训练方式对异构层次化的注意模型进行训练,其中,利用行人类别监督信息在第一阶段进行初步训练,并在此基础上利用跨模态样本匹配行人类别监督信息进行第二阶段的训练,利用训练好的模型进行行人再识别。
作为本公开进一步的技术方案,提取行人图像特征时,采用深度卷积神经网络框架来提取行人图像特征,具体的步骤为:
将训练数据集中的图片数据归一化成统一的大小,然后对于归一化后的数据,随机的采取镜像的处理方式,进行图像数据增强;
将增强后的图像数据送入预训练好的某深度主干卷积神经网络中;
选取深度主干卷积神经网络的某一中间卷积层的输出特征图,对其在竖直方向进行均匀切分,得到n个互不重叠且具有相同大小的部分特征图;
对于n个部分特征图分别进行二维平面的全局均值池化,并分别通过卷积核大小为1的卷积层改变其通道数,得到与部分特征图数量相同的对应若干不重叠图像区域的特征向量;
利用得到的n个特征向量串联并经过线性映射作为初始全局图像特征向量。
作为本公开进一步的技术方案,采用双向循环神经网络框架来提取文本描述特征,具体步骤为:
利用某自然语言句法分析工具,提取句子中的m个名词短语,对短语中的每个单词,首先进行词向量嵌入,而后将这些词向量按序输入双向循环神经网络中,将最终双向隐含状态的输出进行串联,并经过线性变换,得到每个短语对应的特征向量;
对于文本描述,首先对于句子中的每个单词进行词向量嵌入,而后将这些词向量按序输入双向循环神经网络中,得到初始全局文本描述特征向量。
作为本公开进一步的技术方案,所建立异构层次化的注意模型,采用两个层次的机制实现对数据的处理,包括对于一对图像及文本描述样本对,所接收的数据包括:图像中的n个不重叠图像区域对应的特征向量,以及文本描述中的m个名词短语对应的特征向量。
作为本公开进一步的技术方案,所述异构层次化的注意模型针对所接收的数据进行双向跨模态细粒度匹配处理,具体包括:
取一个图像区域对应的特征向量,利用该特征向量与所有的名词短语对应的特征向量计算相似度,并对其距离值进行自然对数为底的幂次运算,而后对于得到的m个值进行归一化,即可得到每个名词短语与该图像区域的相似程度归一化系数,利用该系数对于m个名词短语的特征向量进行注意机制加权,即可得到注意图像区域的增强文本特征;
对于每一个图像区域对应的特征向量进行相同处理过程,即可得到n个增强短语特征;
利用所有图像区域特征与某一名词短语特征向量进行跨模态注意机制,得到名词短语特征向量的增强图像特征;
对每一个名词短语特征向量进行相同处理过程,即可得到m个增强图像区域特征。
作为本公开进一步的技术方案,所述异构层次化的注意模型针对所接收的数据还进行上下文指导的局部特征聚合处理步骤:
利用图像局部区域特征与初始全局图像特征计算相似度,并对n个相似度值进行归一化,作为权值来加权增强名词短语特征,得到增强文本全局表达;
利用文本名词短语特征与初始全局文本描述特征计算相似度,并对m个相似度值进行归一化,作为权值来加权增强图像部分特征,得到增强图像全局表达。
作为本公开进一步的技术方案,将全局特征向量和异构层次化的注意模型输出的增强全局特征向量进行串联,分别得到全局图像特征和全局文本描述特征。
作为本公开进一步的技术方案,利用两阶段训练方式对异构层次化的注意模型进行训练,步骤为:
对于全局图像特征和全局文本描述特征,首先利用分类损失函数并采用“Adam优化算法”进行初始化训练;
在训练得到的最优的异构层次化的注意模型的基础上,引入跨模态样本匹配损失函数,同样采用“Adam优化算法”进行训练,直至收敛。
作为本公开进一步的技术方案,本公开的方法还包括:测试时将图片和文本分别利用训练好的网络进行特征提取,得到图像特征和文本特征,而后根据不同样本之间的相似度进行排序,得到最终的检索结果序列。
本公开的实施例子还公开了基于异构层次化注意机制的跨模态行人再识别系统,包括:
初始全局特征获得模块,被配置为提取行人图像特征及文本描述特征,并分别作为行人图像通道和文本描述通道的初始全局特征;
异构层次化的注意模型建立模块,该模型利用双向跨模态细粒度匹配注意模块以及上下文信息指导的局部特征聚合注意模块同时对行人图片特征和文本描述特征进行增强;
模型训练模块,利用两阶段训练方式对异构层次化的注意模型进行训练,其中,利用行人类别监督信息在第一阶段进行初步训练,并在此基础上利用跨模态样本匹配监督信息进行第二阶段的训练,利用训练好的模型进行行人再识别。
作为本公开进一步的技术方案,初始全局特征获得模块中,提取行人图像特征时,采用深度卷积神经网络框架来提取行人图像特征,具体为:
将训练数据集中的图片数据归一化成统一的大小,然后对于归一化后的数据,随机的采取镜像的处理方式,进行图像数据增强;
将增强后的图像数据送入预训练好的某深度主干卷积神经网络中;
选取深度主干卷积神经网络的某一中间卷积层的输出特征图,对其在竖直方向进行均匀切分,得到n个互不重叠且具有相同大小的部分特征图;
对于n个部分特征图分别进行二维平面的全局均值池化,并分别通过卷积核大小为1的卷积层改变其通道数,得到与部分特征图数量相同的对应若干不重叠图像区域的特征向量;
利用得到的n个特征向量串联并经过线性映射作为初始全局图像特征向量。
作为本公开进一步的技术方案,采用双向循环神经网络框架来提取文本描述特征,具体步骤为:
利用某自然语言句法分析工具,提取句子中的m个名词短语,对短语中的每个单词,首先进行词向量嵌入,而后将这些词向量按序输入双向循环神经网络中,将最终双向隐含状态的输出进行串联,并经过线性变换,得到每个短语对应的特征向量;
对于文本描述,首先对于句子中的每个单词进行词向量嵌入,而后将这些词向量按序输入双向循环神经网络中,得到初始全局文本描述特征向量。
作为本公开进一步的技术方案,所建立异构层次化的注意模型,采用两个层次的机制实现对数据的处理,包括对于一对图像及文本描述样本对,所接收的数据包括:图像中的n个不重叠图像区域对应的特征向量,以及文本描述中的m个名词短语对应的特征向量。
作为本公开进一步的技术方案,所述异构层次化的注意模型针对所接收的数据利用双向跨模态细粒度匹配注意模块进行双向跨模态细粒度匹配处理,具体包括:
取一个图像区域对应的特征向量,利用该特征向量与所有的名词短语对应的特征向量计算相似度,并对其距离值进行自然对数为底的幂次运算,而后对于得到的m个值进行归一化,即可得到每个名词短语与该图像区域的相似程度归一化系数,利用该系数对于m个名词短语的特征向量进行注意机制加权,即可得到注意图像区域的增强文本特征;
对于每一个图像区域对应的特征向量进行相同处理过程,即可得到n个增强短语特征;
利用所有图像区域特征与某一名词短语特征向量进行跨模态注意机制,得到名词短语特征向量的增强图像特征;
对每一个名词短语特征向量进行相同处理过程,即可得到m个增强图像区域特征。
作为本公开进一步的技术方案,所述异构层次化的注意模型针对所接收的数据还利用上下文信息指导的局部特征聚合注意模块进行上下文指导的局部特征聚合处理,具体为:
利用图像局部区域特征与初始全局图像特征计算相似度,并对n个相似度值进行归一化,作为权值来加权增强名词短语特征,得到增强文本全局表达;
利用文本名词短语特征与初始全局文本描述特征计算相似度,并对m个相似度值进行归一化,作为权值来加权增强图像部分特征,得到增强图像全局表达。
作为本公开进一步的技术方案,将全局特征向量和异构层次化的注意模型输出的增强全局特征向量进行串联,分别得到全局图像特征和全局文本描述特征。
作为本公开进一步的技术方案,利用两阶段训练方式对异构层次化的注意模型进行训练,步骤为:
对于全局图像特征和全局文本描述特征,首先利用分类损失函数并采用“Adam优化算法”进行初始化训练;
在训练得到的最优的异构层次化的注意模型的基础上,引入跨模态样本匹配损失函数,同样采用“Adam优化算法”进行训练,直至收敛。
作为本公开进一步的技术方案,本公开的还包括:测试模块,测试时将图片和文本分别利用训练好的网络进行特征提取,得到图像特征和文本特征,而后根据不同样本之间的相似度进行排序,得到最终的检索结果序列。
本公开的一个实施例子中还公开了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现上述基于异构层次化注意机制的跨模态行人再识别方法。
一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述基于异构层次化注意机制的跨模态行人再识别方法。
与现有技术相比,本公开的有益效果是:
本公开技术方案中引入的异构层次化注意模型,一方面能够挖掘行人图片中的区域与文本描述中的名词短语之间的细粒度的匹配关系,增强样本间区分度,同时减小模态间的异构性,获得增强的局部特征,能够较好的解决该问题中仅有行人单一类别,且文本描述较为相似导致的较难识别行人的问题;另一方面,利用单模态的“全局-局部显著性”,即某些局部特征在全局特征中的重要程度,指导增强后局部特征的聚合,得到突显某些局部显著区域的全局特征,进而与该问题中行人身份的强监督信息进行关联,以便在训练中得到更好的特征表达,提高行人再识别的准确率。
附图说明
构成本公开的一部分的说明书附图用来提供对本公开的进一步理解,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。
图1为本公开具体实施例子中方法及系统的异构层次化注意机制的网络模型示意图;
图2为本公开具体实施例子中方法流程图。
具体实施方式
应该指出,以下详细说明都是例示性的,旨在对本公开提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本公开所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本公开的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
本公开的一种典型的实施方式中,如图1所示,提供了基于异构层次化注意机制的跨模态行人再识别方法,包括:一方面对于行人图像和文本描述进行细粒度切分和提取,得到行人图像区域和名词短语,并引入基于双向细粒度匹配的注意机制,对两种模态的局部特征进行增强;另一方面根据局部特征在全局中所占的重要性比重,利用上下文信息指导的注意机制,对增强后的局部特征进行恰当的聚合,得到突显某些显著性区域的全局特征,并与行人身份的强监督信息相关联,提高跨模态再识别的准确率。
具体而言,本公开的该方法包含行人图像通道和文本描述通道两条通路,每条通路中包含全局特征和局部特征两类不同特征。对于图像通路,其中包含与整幅图像对应的行人全局图像特征,以及与若干不重叠图像区域对应的局部图像的特征;对于文本描述通路,其中包含与整个句子对应的全局文本描述特征,以及与句子中名词短语(由提取器获得)对应的局部特征;然后设计了一种异构层次化的注意模型,该模型利用跨模态细粒度匹配注意机制以及上下文信息指导的注意机制,同时对行人图片特征和文本描述特征进行增强;最后利用两阶段训练方案,利用行人类别监督信息在第一阶段进行初步训练,并在此基础上利用跨模态样本匹配监督信息进行第二阶段的训练。
该方法中引入的异构层次化注意模型,一方面能够挖掘行人图片中的区域与文本描述中的名词短语之间的细粒度的匹配关系,增强样本间区分度,同时减小模态间的异构性,获得增强的局部特征,能够较好的解决该问题中仅有单一行人类别,且文本描述均较为相似导致的较难区分的问题;另一方面,利用单模态“全局-局部显著性”,即某些局部特征在全局特征中的重要程度,指导增强后局部特征的聚合,得到突显某些显著局部区域的全局特征,进而与该问题中行人身份的强监督信息进行关联,以便在训练中得到更好的特征表达。
本公开具体的实施例子中,以某大型跨模态行人再识别数据库为例,包含13,003个行人的共40,206张图像,每张图像对应2条文本描述,共计80,412条文本描述。
在本公开具体例子中,图2为本公开基于异构层次化注意机制的跨模态行人再识别方法的流程图,如图2所示,将数据集分为训练数据集及测试集,本公开具体包括如下步骤:
步骤S0,将训练数据集中的图片数据归一化成统一的大小,然后对于归一化后的数据,随机的采取镜像的处理方式,进行图像数据增强。
步骤S1,将S0中增强后的图像数据送入预训练好的某深度主干卷积神经网络中,如图1中主干卷积神经网络所示。
步骤S2,选取S1中深度主干卷积神经网络的某一中间卷积层的输出特征图,对其在竖直方向进行均匀切分,得到n个互不重叠且具有相同大小的部分特征图。对于n个部分特征图分别进行二维平面的全局均值池化,并分别通过卷积核大小为1的卷积层改变其通道数,得到n个对应若干不重叠图像区域的特征向量其中标量P为图像区域特征向量维度。
步骤S4,利用某自然语言句法分析工具,提取文本描述中的m个名词短语,并对这些短语分别进行编码。编码过程为:对第j(j=1,2,...,m)个短语中的每个单词,首先进行词向量嵌入,而后将这些词向量按序输入双向循环神经网络中,将最终双向隐含状态的输出进行串联,并经过线性变换,得到第j个短语对应的特征向量其中标量N为短语特征向量维度;句子提取的短语个数m由句法分析工具自动决定,不进行人为限制;
步骤S5,对于全局文本描述特征,首先对于完整句子中的每个单词进行词向量嵌入,而后将这些词向量按序输入双向循环神经网络中,利用最终隐状态得到初始全局文本描述特征向量其中标量C为初始全局文本描述特征向量维度;步骤S5中的全局文本描述编码过程与名词短语的编码过程(步骤S4)分别独立进行。
步骤S6,对于一对图像及文本描述样本对,将图像中的n个不重叠图像区域对应的特征向量Pi,以及文本描述中的m个名词短语对应的特征向量Nj输入异构层次化注意机制模块,下述步骤S7及S8为双向跨模态细粒度匹配注意模块(层次1),而S9及S10则是上下文指导的局部特征聚合注意模块(层次2)。
步骤S7,取一个图像区域对应的特征向量,以P1为例进行说明,利用P1与所有的名词短语对应的特征向量Nj计算相似度,并对其距离值进行自然对数为底的幂次运算,而后对于得到的m个值进行归一化,即可得到每个名词短语与该图像区域的相似程度归一化系数,利用该系数对于m个名词短语的特征向量Nj进行注意机制加权,即可得到注意图像区域P1的增强文本特征对于每一个图像区域对应的特征向量Pi进行相同过程,即可得到n个分别注意到不同图像区域的增强短语特征T1′,T2′,...,Tn′,公式如下所示,其中sim(·,·)表示相似度函数,λ1为平滑系数:
步骤S8,取一个名词短语对应的特征向量,以N1为例进行说明,采用与步骤S7类似的方案,将所有图像区域特征Pi与名词短语特征向量N1进行跨模态注意机制,得到注意名词短语N1的增强图像特征对每一个名词短语特征向量Nj进行上述步骤,即可得到m个分别注意到不同名词短语的增强图像区域特征I1′,I2′,...,Im′。
步骤S9,利用图像局部区域特征Pi与初始全局图像特征I计算相似度,并对n个相似度值进行归一化,作为权值来加权增强名词短语特征T1′,T2′,...,Tn′,得到增强文本全局特征向量其对应公式如下所示:
步骤S10,与步骤S9同理,利用文本名词短语特征Nj与初始全局文本描述特征T计算相似度,并对m个相似度值进行归一化,作为权值来加权增强图像部分特征I1′,I2′,...,Im′,得到增强图像全局特征向量
步骤S11,将初始全局图像特征向量I与异构层次化注意机制模块输出的增强图像全局特征向量Iagg进行串联,得到最终全局图像特征[I,Iagg];将初始全局文本描述特征向量T与异构层次化注意机制模块输出的增强文本描述全局特征向量Tagg进行串联,得到最终全局文本描述特征[T,Tagg]。
步骤S12,对于S11中的最终全局图像特征[I,Iagg]和最终全局文本描述特征[T,Tagg],首先利用分类损失函数并采用“Adam优化算法”进行初始化训练。
步骤S13,在步骤S12训练得到的最好模型的基础上,引入跨模态样本匹配损失函数,同样采用“Adam优化算法”进行训练,直至收敛。
步骤S14,测试时将图片和文本描述分别利用训练好的网络进行特征提取,得到全局图像特征和全局文本特征,而后根据不同样本之间的相似度进行排序,得到最终的检索结果序列。
在本公开的上述实施例子中,利用双向跨模态注意机制自适应的进行图像区域和文本描述名词短语之间的细粒度匹配,利用细粒度的匹配结果,同时增强图像和文本两个模态的特征表达,一定程度减轻不同模态表达之间的语义鸿沟。
利用细粒度匹配的结果,利用跨模态组件(图像区域或文本名词短语)指导下的注意机制进行特征加权,得到增强后的细粒度特征,这些细粒度特征能够更加突出显著性区域,有助于缓解所有图像均属于单一类别的较难区分的问题。
基于获得的增强后的局部特征表达,包含文本名词短语及图像区域对应特征,根据单模态的不同组件在全局上下文中的重要程度,对这些特征进行有选择的组合,得到局部显著性细节更加突显的全局特征,进而与行人身份信息进行关联,通过学习过程来更好的区分不同的行人。
本公开的另一实施例子还公开了基于异构层次化注意机制的跨模态行人再识别系统,包括:
初始全局特征获得模块,被配置为提取行人图像特征及文本描述特征,并分别作为行人图像通道和文本描述通道的初始全局特征;
异构层次化的注意模型建立模块,该模型利用双向跨模态细粒度匹配注意模块以及上下文信息指导的局部特征聚合注意模块同时对行人图片特征和文本描述特征进行增强;
模型训练模块,利用两阶段训练方式对异构层次化的注意模型进行训练,其中,利用行人类别监督信息在第一阶段进行初步训练,并在此基础上利用跨模态样本匹配监督信息进行第二阶段的训练,利用训练好的模型进行行人再识别。
具体的,初始全局特征获得模块中,提取行人图像特征时,采用深度卷积神经网络框架来提取行人图像特征,具体为:
将训练数据集中的图片数据归一化成统一的大小,然后对于归一化后的数据,随机的采取镜像的处理方式,进行图像数据增强;
将增强后的图像数据送入预训练好的某深度主干卷积神经网络中;
选取深度主干卷积神经网络的某一中间卷积层的输出特征图,对其在竖直方向进行均匀切分,得到n个互不重叠且具有相同大小的部分特征图;
对于n个部分特征图分别进行二维平面的全局均值池化,并分别通过卷积核大小为1的卷积层改变其通道数,得到与部分特征图数量相同的对应若干不重叠图像区域的特征向量;
利用得到的n个特征向量串联并经过线性映射作为初始全局图像特征向量。
具体实施例子中,采用双向循环神经网络框架来提取文本描述特征,具体步骤为:
利用某自然语言句法分析工具,提取句子中的m个名词短语,对短语中的每个单词,首先进行词向量嵌入,而后将这些词向量按序输入双向循环神经网络中,将最终双向隐含状态的输出进行串联,并经过线性变换,得到每个短语对应的特征向量;
对于文本描述,首先对于句子中的每个单词进行词向量嵌入,而后将这些词向量按序输入双向循环神经网络中,得到初始全局文本描述特征向量。
所建立异构层次化的注意模型,采用两个层次的机制实现对数据的处理,包括对于一对图像及文本描述样本对,所接收的数据包括:图像中的n个不重叠图像区域对应的特征向量,以及文本描述中的m个名词短语对应的特征向量。
具体实施例子中,所述异构层次化的注意模型针对所接收的数据利用双向跨模态细粒度匹配注意模块进行双向跨模态细粒度匹配处理,具体包括:
取一个图像区域对应的特征向量,利用该特征向量与所有的名词短语对应的特征向量计算相似度,并对其距离值进行自然对数为底的幂次运算,而后对于得到的m个值进行归一化,即可得到每个名词短语与该图像区域的相似程度归一化系数,利用该系数对于m个名词短语的特征向量进行注意机制加权,即可得到注意图像区域的增强文本特征;
对于每一个图像区域对应的特征向量进行相同处理过程,即可得到n个增强短语特征;
利用所有图像区域特征与某一名词短语特征向量进行跨模态注意机制,得到名词短语特征向量的增强图像特征;
对每一个名词短语特征向量进行相同处理过程,即可得到m个增强图像区域特征。
具体实施例子中,所述异构层次化的注意模型针对所接收的数据还利用上下文信息指导的局部特征聚合注意模块进行上下文指导的局部特征聚合处理,具体为:
利用图像局部区域特征与初始全局图像特征计算相似度,并对n个相似度值进行归一化,作为权值来加权增强名词短语特征,得到增强文本全局表达;
利用文本名词短语特征与初始全局文本描述特征计算相似度,并对m个相似度值进行归一化,作为权值来加权增强图像部分特征,得到增强图像全局表达。
将全局特征向量和异构层次化的注意模型输出的增强全局特征向量进行串联,分别得到全局图像特征和全局文本描述特征。
具体实施例子中,利用两阶段训练方式对异构层次化的注意模型进行训练,步骤为:
对于全局图像特征和全局文本描述特征,首先利用分类损失函数并采用“Adam优化算法”进行初始化训练;
在训练得到的最优的异构层次化的注意模型的基础上,引入跨模态样本匹配损失函数,同样采用“Adam优化算法”进行训练,直至收敛。
在具体实施时,本公开的系统还包括:测试模块,测试时将图片和文本分别利用训练好的网络进行特征提取,得到图像特征和文本特征,而后根据不同样本之间的相似度进行排序,得到最终的检索结果序列。
本公开的一个实施例子中还公开了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
提取行人图像特征及文本描述特征,并分别作为行人图像通道和文本描述通道的初始全局特征;
建立异构层次化的注意模型,该模型利用双向跨模态细粒度匹配注意机制以及上下文指导的局部特征聚合注意机制,同时对行人图片特征和文本描述特征进行增强;
利用两阶段训练方式对异构层次化的注意模型进行训练,其中,利用行人类别监督信息在第一阶段进行初步训练,并在此基础上利用跨模态样本匹配行人类别监督信息进行第二阶段的训练,利用训练好的模型进行行人再识别。
一种计算机可读存储介质,其上存储有计算机程序(指令),其特征在于,该程序(指令)被处理器执行时实现以下步骤:
提取行人图像特征及文本描述特征,并分别作为行人图像通道和文本描述通道的初始全局特征;
建立异构层次化的注意模型,该模型利用双向跨模态细粒度匹配注意机制以及上下文指导的局部特征聚合注意机制,同时对行人图片特征和文本描述特征进行增强;
利用两阶段训练方式对异构层次化的注意模型进行训练,其中,利用行人类别监督信息在第一阶段进行初步训练,并在此基础上利用跨模态样本匹配行人类别监督信息进行第二阶段的训练,利用训练好的模型进行行人再识别。
以上所述仅为本公开的优选实施例而已,并不用于限制本公开,对于本领域的技术人员来说,本公开可以有各种更改和变化。凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。
Claims (9)
1.基于异构层次化注意机制的跨模态行人再识别方法,其特征是,包括:
提取行人图像特征及文本描述特征,并分别作为行人图像通道和文本描述通道的初始全局特征;
建立异构层次化的注意模型,该模型利用双向跨模态细粒度匹配注意机制以及上下文指导的局部特征聚合注意机制,同时对行人图片特征和文本描述特征进行增强;
利用两阶段训练方式对异构层次化的注意模型进行训练,其中,利用行人类别监督信息在第一阶段进行初步训练,并在此基础上利用跨模态样本匹配行人类别监督信息进行第二阶段的训练,利用训练好的模型进行行人再识别;所述异构层次化的注意模型针对所接收的数据进行双向跨模态细粒度匹配处理,具体包括:
取一个图像区域对应的特征向量,利用该特征向量与所有的名词短语对应的特征向量计算相似度,并对其距离值进行自然对数为底的幂次运算,而后对于得到的m个值进行归一化,即可得到每个名词短语与该图像区域的相似程度归一化系数,利用该系数对于m个名词短语的特征向量进行注意机制加权,即可得到注意图像区域的增强文本特征;
对于每一个图像区域对应的特征向量进行相同处理过程,即可得到n个增强短语特征;
利用所有图像区域特征与某一名词短语特征向量进行跨模态注意机制,得到名词短语特征向量的增强图像特征;
对每一个名词短语特征向量进行相同处理过程,即可得到m个增强图像区域特征;
所述异构层次化的注意模型针对所接收的数据还进行上下文指导的局部特征聚合处理步骤:
利用图像局部区域特征与初始全局图像特征计算相似度,并对n个相似度值进行归一化,作为权值来加权增强名词短语特征,得到增强文本全局表达;
利用文本名词短语特征与初始全局文本描述特征计算相似度,并对m个相似度值进行归一化,作为权值来加权增强图像部分特征,得到增强图像全局表达;
将初始全局特征向量和异构层次化的注意模型输出的增强全局特征向量进行串联,分别得到全局图像特征和全局文本描述特征。
2.如权利要求1所述的基于异构层次化注意机制的跨模态行人再识别方法,其特征是,提取行人图像特征时,采用深度卷积神经网络框架来提取行人图像特征,具体的步骤为:
将训练数据集中的图片数据归一化成统一的大小,然后对于归一化后的数据,随机的采取镜像的处理方式,进行图像数据增强;
将增强后的图像数据送入预训练好的某深度主干卷积神经网络中;
选取深度主干卷积神经网络的某一中间卷积层的输出特征图,对其在竖直方向进行均匀切分,得到n个互不重叠且具有相同大小的部分特征图;
对于n个部分特征图分别进行二维平面的全局均值池化,并分别通过卷积核大小为1的卷积层改变其通道数,得到与部分特征图数量相同的对应若干不重叠图像区域的特征向量;
利用得到的n个特征向量串联并经过线性映射作为初始全局图像特征向量。
3.如权利要求1所述的基于异构层次化注意机制的跨模态行人再识别方法,其特征是,采用双向循环神经网络框架来提取文本描述特征,具体步骤为:
利用某自然语言句法分析工具,提取句子中的m个名词短语,对短语中的每个单词,首先进行词向量嵌入,而后将这些词向量按序输入双向循环神经网络中,将最终双向隐含状态的输出进行串联,并经过线性变换,得到每个短语对应的特征向量;
对于文本描述,首先对于句子中的每个单词进行词向量嵌入,而后将这些词向量按序输入双向循环神经网络中,得到初始全局文本描述特征向量。
4.如权利要求1所述的基于异构层次化注意机制的跨模态行人再识别方法,其特征是,所建立异构层次化的注意模型,采用两个层次的机制实现对数据的处理,包括对于一对图像及文本描述样本对,所接收的数据包括:图像中的n个不重叠图像区域对应的特征向量,以及文本描述中的m个名词短语对应的特征向量。
5.如权利要求1所述的基于异构层次化注意机制的跨模态行人再识别方法,其特征是,利用两阶段训练方式对异构层次化的注意模型进行训练,步骤为:
对于全局图像特征和全局文本描述特征,首先利用分类损失函数并采用“Adam优化算法”进行初始化训练;
在训练得到的最优的异构层次化的注意模型的基础上,引入跨模态样本匹配损失函数,同样采用“Adam优化算法”进行训练,直至收敛。
6.如权利要求1-5任一所述的基于异构层次化注意机制的跨模态行人再识别方法,其特征是,还包括:测试时将图片和文本分别利用训练好的网络进行特征提取,得到图像特征和文本特征,而后根据不同样本之间的相似度进行排序,得到最终的检索结果序列。
7.基于如权利要求1所述的基于异构层次化注意机制的跨模态行人再识别方法的系统,其特征是,包括:
初始全局特征获得模块,被配置为提取行人图像特征及文本描述特征,并分别作为行人图像通道和文本描述通道的初始全局特征;
异构层次化的注意模型建立模块,该模型利用双向跨模态细粒度匹配注意模块以及上下文信息指导的局部特征聚合注意模块同时对行人图片特征和文本描述特征进行增强;
模型训练模块,利用两阶段训练方式对异构层次化的注意模型进行训练,其中,利用行人类别监督信息在第一阶段进行初步训练,并在此基础上利用跨模态样本匹配监督信息进行第二阶段的训练,利用训练好的模型进行行人再识别。
8.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求足1-5任一所述的基于异构层次化注意机制的跨模态行人再识别方法。
9.一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其特征在于,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行权利要求足1-5任一所述的基于异构层次化注意机制的跨模态行人再识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910098582.4A CN109829430B (zh) | 2019-01-31 | 2019-01-31 | 基于异构层次化注意机制的跨模态行人再识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910098582.4A CN109829430B (zh) | 2019-01-31 | 2019-01-31 | 基于异构层次化注意机制的跨模态行人再识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109829430A CN109829430A (zh) | 2019-05-31 |
CN109829430B true CN109829430B (zh) | 2021-02-19 |
Family
ID=66863176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910098582.4A Active CN109829430B (zh) | 2019-01-31 | 2019-01-31 | 基于异构层次化注意机制的跨模态行人再识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109829430B (zh) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110751018A (zh) * | 2019-09-03 | 2020-02-04 | 上海交通大学 | 一种基于混合注意力机制的群组行人重识别方法 |
CN110598654B (zh) * | 2019-09-18 | 2022-02-11 | 合肥工业大学 | 多粒度交叉模态特征融合行人再识别方法和再识别系统 |
CN112651262B (zh) * | 2019-10-09 | 2022-10-14 | 四川大学 | 一种基于自适应行人对齐的跨模态行人重识别方法 |
CN110909605B (zh) * | 2019-10-24 | 2022-04-26 | 西北工业大学 | 基于对比相关的跨模态行人重识别方法 |
CN110909673B (zh) * | 2019-11-21 | 2022-09-16 | 河北工业大学 | 一种基于自然语言描述的行人再识别方法 |
CN111178301B (zh) * | 2019-12-30 | 2023-10-17 | 北京迈格威科技有限公司 | 对象再识别的方法、装置和电子系统 |
CN111242227B (zh) * | 2020-01-16 | 2023-05-23 | 天津师范大学 | 一种基于异构深度特征的多模态地基云识别方法 |
CN111738048B (zh) * | 2020-03-10 | 2023-08-22 | 重庆大学 | 一种行人再识别的方法 |
CN111444326B (zh) * | 2020-03-30 | 2023-10-20 | 腾讯科技(深圳)有限公司 | 一种文本数据处理方法、装置、设备以及存储介质 |
CN111860193B (zh) * | 2020-06-24 | 2022-08-05 | 贵州大学 | 一种基于文本的行人检索自监督视觉表示学习系统及方法 |
CN111738186B (zh) * | 2020-06-28 | 2024-02-02 | 香港中文大学(深圳) | 目标定位方法、装置、电子设备及可读存储介质 |
CN112001279B (zh) * | 2020-08-12 | 2022-02-01 | 山东省人工智能研究院 | 基于双重属性信息的跨模态行人重识别方法 |
CN112269892B (zh) * | 2020-10-11 | 2023-04-07 | 北京航空航天大学 | 一种基于多模态多层次统一交互的短语定位识别方法 |
CN112464993B (zh) * | 2020-11-05 | 2022-12-09 | 苏州浪潮智能科技有限公司 | 一种多模态模型训练方法、装置、设备及存储介质 |
CN113516143B (zh) * | 2020-11-26 | 2024-08-27 | 腾讯科技(深圳)有限公司 | 文本图像匹配方法、装置、计算机设备及存储介质 |
CN112287159B (zh) * | 2020-12-18 | 2021-04-09 | 北京世纪好未来教育科技有限公司 | 检索方法、电子设备及计算机可读介质 |
CN112966626A (zh) * | 2021-03-16 | 2021-06-15 | 三星(中国)半导体有限公司 | 人脸识别方法和装置 |
CN113221770B (zh) * | 2021-05-18 | 2024-06-04 | 青岛根尖智能科技有限公司 | 基于多特征混合学习的跨域行人重识别方法及系统 |
CN113469197B (zh) * | 2021-06-29 | 2024-03-22 | 北京达佳互联信息技术有限公司 | 图文匹配方法、装置、设备以及存储介质 |
CN114708612A (zh) * | 2022-03-21 | 2022-07-05 | 合肥工业大学 | 跨模态细粒度属性对齐的行人智能查找方法、存储介质 |
CN114821770B (zh) * | 2022-04-11 | 2024-03-26 | 华南理工大学 | 文本到图像的跨模态行人再识别方法、系统、介质和设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5306406B2 (ja) * | 2011-04-08 | 2013-10-02 | 株式会社東芝 | 帳票処理システム、及び帳票処理方法 |
CN106781236A (zh) * | 2016-12-29 | 2017-05-31 | 东南大学 | 一种基于人物检测和再识别方法的远程报警装置及远程监控方法 |
CN107688821A (zh) * | 2017-07-11 | 2018-02-13 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
CN108960140A (zh) * | 2018-07-04 | 2018-12-07 | 国家新闻出版广电总局广播科学研究院 | 基于多区域特征提取和融合的行人再识别方法 |
CN108960073A (zh) * | 2018-06-05 | 2018-12-07 | 大连理工大学 | 面向生物医学文献的跨模态图像模式识别方法 |
CN109165563A (zh) * | 2018-07-27 | 2019-01-08 | 北京市商汤科技开发有限公司 | 行人再识别方法和装置、电子设备、存储介质、程序产品 |
-
2019
- 2019-01-31 CN CN201910098582.4A patent/CN109829430B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5306406B2 (ja) * | 2011-04-08 | 2013-10-02 | 株式会社東芝 | 帳票処理システム、及び帳票処理方法 |
CN106781236A (zh) * | 2016-12-29 | 2017-05-31 | 东南大学 | 一种基于人物检测和再识别方法的远程报警装置及远程监控方法 |
CN107688821A (zh) * | 2017-07-11 | 2018-02-13 | 西安电子科技大学 | 基于视觉显著性与语义属性跨模态图像自然语言描述方法 |
CN108960073A (zh) * | 2018-06-05 | 2018-12-07 | 大连理工大学 | 面向生物医学文献的跨模态图像模式识别方法 |
CN108960140A (zh) * | 2018-07-04 | 2018-12-07 | 国家新闻出版广电总局广播科学研究院 | 基于多区域特征提取和融合的行人再识别方法 |
CN109165563A (zh) * | 2018-07-27 | 2019-01-08 | 北京市商汤科技开发有限公司 | 行人再识别方法和装置、电子设备、存储介质、程序产品 |
Non-Patent Citations (4)
Title |
---|
"Person Search with Natural Language Description";Shuang Li,Tong Xiao et al.;《arXiv》;20170330;第1-10页 * |
"基于表示学习的跨模态检索模型与特征抽取研究综述";李志义,黄子风,许晓绵;《情报学报》;20180430;第37卷(第4期);第422-435页 * |
"非对称行人重识别:跨摄像机持续行人追踪";郑伟诗,吴岸聪;《中国科学:信息科学》;20180514;第48卷(第5期);第545-563页 * |
Dapeng Chen,Hongsheng Li,et al.."Improving Deep Visual Representation for Person Re-identification by Global and Local Image-language Association ".《arXiv》.2018, * |
Also Published As
Publication number | Publication date |
---|---|
CN109829430A (zh) | 2019-05-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829430B (zh) | 基于异构层次化注意机制的跨模态行人再识别方法及系统 | |
CN112990296B (zh) | 基于正交相似度蒸馏的图文匹配模型压缩与加速方法及系统 | |
CN111259625A (zh) | 意图识别方法、装置、设备及计算机可读存储介质 | |
CN109165563B (zh) | 行人再识别方法和装置、电子设备、存储介质、程序产品 | |
CN106228142A (zh) | 基于卷积神经网络和贝叶斯决策的人脸验证方法 | |
CN113361636B (zh) | 一种图像分类方法、系统、介质及电子设备 | |
CN109255289B (zh) | 一种基于统一式生成模型的跨衰老人脸识别方法 | |
CN113298151A (zh) | 一种基于多级特征融合的遥感图像语义描述方法 | |
CN113033438B (zh) | 一种面向模态非完全对齐的数据特征学习方法 | |
CN105095863A (zh) | 基于相似性权值的半监督字典学习的人体行为识别方法 | |
CN110992988B (zh) | 一种基于领域对抗的语音情感识别方法及装置 | |
Gehlot et al. | Ednfc-net: Convolutional neural network with nested feature concatenation for nuclei-instance segmentation | |
CN111461025A (zh) | 一种自主进化的零样本学习的信号识别方法 | |
CN113593661A (zh) | 临床术语标准化方法、装置、电子设备及存储介质 | |
CN110414587A (zh) | 基于渐进学习的深度卷积神经网络训练方法与系统 | |
CN113723238A (zh) | 一种人脸轻量网络模型构建方法和人脸识别方法 | |
CN114742224A (zh) | 行人重识别方法、装置、计算机设备及存储介质 | |
CN112632248A (zh) | 问答方法、装置、计算机设备和存储介质 | |
CN104318224A (zh) | 一种人脸识别方法及监控设备 | |
CN116935411A (zh) | 一种基于字符分解和重构的部首级古文字识别方法 | |
CN116737876A (zh) | 辅助科普志愿服务的教育装置 | |
CN113051962A (zh) | 基于联合注意力机制孪生Margin-Softmax网络的行人重识别方法 | |
CN115497564A (zh) | 一种鉴定抗原模型建立方法及鉴定抗原方法 | |
CN110084141A (zh) | 一种基于私有信息的跨领域场景识别方法 | |
CN107492384B (zh) | 一种基于模糊最近邻算法的语音情感识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |