CN116645694A - 基于动态自进化信息抽取和对齐的文本-目标检索方法 - Google Patents

基于动态自进化信息抽取和对齐的文本-目标检索方法 Download PDF

Info

Publication number
CN116645694A
CN116645694A CN202310483808.9A CN202310483808A CN116645694A CN 116645694 A CN116645694 A CN 116645694A CN 202310483808 A CN202310483808 A CN 202310483808A CN 116645694 A CN116645694 A CN 116645694A
Authority
CN
China
Prior art keywords
visual
text
feature
pedestrian
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310483808.9A
Other languages
English (en)
Inventor
张艳宁
王鹏
牛凯
陈鸿宇
矫炳亮
高丽颖
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202310483808.9A priority Critical patent/CN116645694A/zh
Publication of CN116645694A publication Critical patent/CN116645694A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/52Scale-space analysis, e.g. wavelet analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • G06V10/765Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于动态自进化信息抽取和对齐的文本‑目标检索方法,构建了文本引导的动态视觉信息过滤和部件级对齐网络,包括基本图文特征提取模块、行人无关视觉内容过滤模块和行人模态动态自进化模块;在基本图文特征提取模块中,使用一个视觉卷积神经网络和一个语言处理模型提取图像和描述的基本特征;在行人无关视觉内容过滤模块中,采用了Transformer编码器层负责细粒度的像素级视觉特征增强,采用基于原型引导的注意力层分别和从增强后的视觉特征中过滤与行人无关的噪声;最后,在行人模态动态自进化模块中,利用文字描述引导图像级部件掩码自主进化,利用掩码描述对各个行人部件的强调程度,以进行详细的部件级对齐和匹配。

Description

基于动态自进化信息抽取和对齐的文本-目标检索方法
技术领域
本发明属于图文检索和行人重识别技术领域,具体涉及一种基于描述的行人图像检索方法。
背景技术
近年来,行人检索受到了广泛的关注,在多个领域都有着广泛应用,比如失踪人口寻找,嫌疑人追踪等领域。该任务要求对于行人照片或者句子描述等查询,从图库中检索出相应的行人图像。根据查询的类型,行人检索主要可以分为基于图像的行人检索和基于语言描述的行人检索。其中,基于图像的行人检索需要至少一张待检索的行人照片作为索引,而这种照片在某些实际场景中难以获得。比如在刑侦领域,有时监控摄像头没有捕捉到嫌疑犯的照片。但是,我们却能得到目击者对嫌疑犯的描述。同时,描述包含的信息比属性特征更加全面且准确,因此研究基于描述的行人图像检索具有重大的场景需求和应用价值。
在基于描述的行人图像检索任务中,限制图文对齐和检索性能的一个重要原因是图像和描述之间的信息不对等,如图1所示,其主要表现在两个方面:(1)图像中含有描述未提及的行人无关的内容,比如背景和遮挡;(2)对不同的行人部件描述不对等,比如部分行人部件没有提及。
发明内容
为了克服现有技术的不足,本发明提供了一种基于动态自进化信息抽取和对齐的文本-目标检索方法,构建了文本引导的动态视觉信息过滤和部件级对齐网络,包括基本图文特征提取模块、行人无关视觉内容过滤模块和行人模态动态自进化模块;在基本图文特征提取模块中,使用一个视觉卷积神经网络和一个语言处理模型来提取图像和描述的基本特征;在行人无关视觉内容过滤模块中,采用了一个Transformer编码器层负责细粒度的像素级视觉特征增强,采用基于原型引导的注意力层分别和从增强后的视觉特征中过滤与行人无关的噪声;最后,在行人模态动态自进化模块中,利用文字描述引导图像级部件掩码自主进化,利用掩码描述对各个行人部件的强调程度,以进行详细的部件级对齐和匹配。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:构建文本引导的动态视觉信息过滤和部件级对齐网络,包括基本图文特征提取模块、行人无关视觉内容过滤模块和行人模态动态自进化模块;
步骤1-1:所述基本图文特征提取模块包括语义特征提取支路和图像特征提取支路;
所述语义特征提取支路使用经过文本数据预训练的BERT网络,对于每个文本输入,在每个描述的开头添加一个特殊分类标记,将特殊分类标记经过BERT模型处理后,将BERT模型最终输出中的隐藏状态用作该描述的整体特征表示;
所述图像特征提取支路,使用ResNet50在ImageNet上预训练后作为基准网络Backbone,用于提取行人图像特征移除图像特征提取支路中的最后一个下采样操作,用于增加特征图的空间尺度,模型输出的特征图的大小设定为(C,H,W),其中C和(H,W)分别表示通道维度和特征映射大小;
步骤1-2:所述行人无关视觉内容过滤模块包括Transformer编码器层和原型引导的注意力模块;
步骤1-2-1:所述Transformer编码器层利用特征向量之间的相关性增强视觉特征,它包括一个多头自注意力机制和一个前馈网络;首先将上述Transformer编码器层提取的特征展平为H*W个视觉特征向量,作为Transformer编码器层的输入,然后H*W个视觉特征向量分别通过一个全连接层计算每个视觉特征向量的query向量、key向量和value向量:
qi=Wqvi,kj=Wkvj,valuej=Wvvj
其中,qi为query向量中的分量,vi为value向量中的分量,kj为key向量向量中的分量,Wq、Wk、Wv分别为权重矩阵;
利用每两个视觉特征向量的query向量和key向量之间的相似性si,j作为注意力的权重ai,j
其中dk为query向量和key向量的通道维度;
计算加权的视觉特征向量,如下:
将加权得到的视觉特征向量经过层正则项后,输入到两层全连接层的前馈网络中,得到增强的视觉特征;
步骤1-2-2:所述原型引导的注意力模块包括原型向量的构造和更新及基于原型的跨模态注意力机制;首先构造一个可学习的原型向量,它的维度与视觉特征向量的维度一致;为了使得这个原型向量包含所有文本描述的行人语义知识,在原型向量和步骤1-2-1提取的文本特征向量之间设计相似性损失函数LSM,通过一个全连接层计算Transformer编码器层产生的视觉特征向量的key向量和value向量,原型向量和视觉特征向量之间的相似性作为跨模态注意力机制的权重,并计算最终的视觉特征向量作为语义显著的视觉信息,实现将行人内容从视觉噪音中分离出来,最终所述原型引导的注意力模块将生成强化后的视觉特征Voriginal
步骤1-3:所述行人模态动态自进化模块中,利用文字描述引导图像级部件掩码自主进化,包括视觉掩码过滤器和文本掩码过滤器;
行人模态动态自进化模块的输入为步骤1-2-2中基于原型引导的注意力模块生成的强化后的视觉特征Voriginal,将Voriginal在H维度上平均分为k个局部视觉特征,大小表示为(C,H/k,W),将每个局部特征分别先平均池化,然后再分别通过多个不共享参数的全连接层,生成局部视觉特征Vpart;同时,Voriginal通过一个全连接层得到全局特征Vglobal;其中,在每个局部视觉特征和全局特征后插入身份分类损失函数以提取与行人身份相关的显著性特征;此后,将步骤1-2-1提取的文本特征引导局部视觉特征Vpart和全局视觉特征进行动态自主进化,得到最终视觉特征Vfinal,计算过程见下式:
其中,Vglobal表示全局视觉特征,表示第i个水平条带区域的部分级别视觉特征,αi是文本引导的第i个视觉水平条带区域对应的权重得分,i=1,2,...,k;
步骤2:使用基于文本的行人检索任务的数据集训练文本引导的动态视觉信息过滤和部件级对齐网络,设置训练超参数,使用Adam优化器完成训练;
测试网络时,使用余弦相似度作为相似度的评估指标对文本特征向量和最终视觉特征进行距离计算;
步骤3:组合上述步骤建立的各模块,输入描述和待检索的行人图像,根据相似性对图像进行排序,若给出的查询结果与实际行人ID相同,则判定查询成功。
优选地,所述C,H,W和k分别设定为2048、24、8和6。
优选地,训练时学习率设定为1.1×10-4,迭代轮次为60,λ=0.1。
优选地,所述相似性损失函数LSM表示为:
其中P表示原型向量,表示第i个描述的文本特征向量,N表示批处理量,w和b表示处理文本特征向量的全连接层的参数。
本发明的有益效果如下:
本发明利用文本引导的动态视觉信息过滤和部件级对齐网络,可以有效地依据文本信息对行人图像的视觉特征进行动态的关注,既能排除与描述无关的视觉内容,又能关注语义对齐却不一致的视觉特征,从而动态自适应地捕捉与描述对齐的视觉表示,有助于计算正确的文本-图像相似度,从而进一步提高基于描述的行人图像检索任务的准确率。特别地,在国际基准数据集CUHK-pedestrians上达到了64.64%的rank-1精度,是截至目前国际上最高的精度。
附图说明
图1为跨模态信息不对等的对比图示。
图2为本发明实施方法的文本引导的动态视觉信息过滤和部件级对齐网络结构示意图。
图3为本发明跨模态部件级信息匹配图解。
图4为本发明进行基于文本的行人检索的结果。
图5为本发明具体实施例图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
为了解决上述图像和描述之间信息不对等的问题,本发明提供了一种文本引导的动态视觉信息过滤和部件级对齐的目标检索方法,其结构如图2所示;
本发明的主要结构可以分为三个功能模块:基本图文特征提取模块,行人无关视觉内容过滤模块和行人模态动态自进化模块。具体来说,在基本图文特征提取模块中,使用一个视觉卷积神经网络和一个语言处理模型来提取图像和描述的基本特征。此后,在行人无关视觉内容过滤模块中,采用了一个Transformer编码器层负责细粒度的像素级视觉特征增强,采用基于原型引导的注意力层分别和从增强后的视觉特征中过滤与行人无关的噪声。在基于原型引导的注意力层中,使用一个可训练的原型向量学习行人知识,指导模块抑制行人无关噪声,利用文字描述引导模块提取行人图像的关键特征。最后,在行人模态动态自进化模块中,利用文字级查询描述引导图像级部件掩码,利用掩码描述对各个行人部件的强调程度,利用文字描述引导图像级部件掩码自主进化,可以集中于描述偏向的图像模态特征,以进行详细的部件级对齐和匹配。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:构建文本引导的动态视觉信息过滤和部件级对齐网络,网络框架图如图2所示;主要包括基本图文特征提取模块,行人无关视觉内容过滤模块和行人模态动态自进化模块;
步骤1-1:所述基本图文特征提取模块包括语义特征提取支路和图像特征提取支路;
所述语义特征提取支路使用在大量文本数据上预训练的BERT网络,对于每个文本输入,在每个描述的开头添加一个特殊的分类标记([CLS]),将其经过BERT模型处理后,其最终的模型输出中的隐藏状态(Hidden State)被用作该描述的整体特征表示;
所述图像特征提取支路,使用ResNet50在ImageNet上预训练后作为基准网络(Backbone),用于提取行人图像特征;特别地,我们移除图像特征提取网络中的最后一个下采样操作,以增加特征图的空间尺度,模型输出的特征图的大小设定为(C,H,W),其中C和(H,W)分别表示通道维度和特征映射大小。
步骤1-2:所述行人无关视觉内容过滤模块包括Transformer编码器层和原型引导的注意力模块;
步骤1-2-1:所述Transformer编码器层利用特征向量之间的相关性增强视觉特征,它包括一个多头自注意力机制(multi-head self-attention)和一个前馈网络(feed-forward network)。首先将上述视觉特征网络提取的特征展平为H*W个特征向量,作为编码器的输入,然后分别通过一个全连接层计算每个特征向量的query,key和value向量,之后利用每两个向量的query和key向量之间的相似性si,j作为注意力的权重ai,j,根据权重计算加权的视觉特征向量。最后,将加权得到的视觉特征向量经过层正则项后,输入到两层全连接层的前馈网络中,得到增强的视觉特征。
步骤1-2-2:所述原型引导的注意力模块致力于利用一个可学习的原型向量学习所有语言描述中的行人语义信息并以此为引导关注图像中行人相关的视觉信息,它包括原型向量的构造和更新及基于原型的跨模态注意力机制。首先构造一个可学习的原型向量,它的维度与视觉特征向量的维度一致。为了使得这个原型向量包含所有文本描述的行人语义知识,在原型向量和所有的文本特征向量之间设计一个相似性损失函数LSM。之后,分别通过一个全连接层去计算编码器产生的视觉特征向量的key和value向量,原型向量和视觉特征向量之间的相似性作为跨模态注意力机制的权重,并计算最终的视觉特征向量作为语义显著的视觉信息,实现将行人内容从视觉噪音中分离出来。
步骤1-3:所述行人模态动态自进化模块利用文字描述引导图像级部件掩码自主进化,可以集中于描述偏向的图像模态特征。
本模块的输入为1-2-2中基于原型引导的注意力模块生成的强化的全局视觉特征Voriginal,将Voriginal在H维度上平均分为k个局部特征,大小表示为(C,H/k,W),将每个局部特征分别先平均池化,然后再分别通过多个不共享参数的全连接层,生成局部视觉特征Vpart。同时,Voriginal通过一个全连接层得到全局特征Vglobal;其中,在每个局部视觉特征Vpart和全局特征Vglobal后插入身份分类损失函数以提取与行人身份相关的显著性特征。此后,将局部级别视觉特征与基于文本的过滤器生成器输出的结果进行融合,融合的结果与全局视觉特征再进行计算,得到文本描述引导的增强视觉特征Vfinal,以进行详细的部件级对齐和匹配。如图2所示为跨模态部件级信息匹配图解。
步骤2:使用基于文本的行人检索任务的数据集训练网络,设置训练超参数,使用Adam优化器完成训练;
测试网络时,使用余弦相似度作为相似度的评估指标对文本特征向量和最终视觉特征进行距离计算;
步骤3:组合上述步骤建立的各模块,输入描述和待检索的行人图像,根据相似性对图像进行排序,若给出的查询结果与实际行人ID相同,则认为查询成功。如图4所示。
具体实施例:
本发明提供了一种文本引导的动态视觉信息过滤和部件级的描述-行人图像检索方法,该方法能够利用文本引导模型提取行人相关信息,过滤掉行人无关噪声,动态地提取对齐的视觉特征,引导模型集中于偏向描述的跨模态局部细粒度特征对齐,进一步优化基于描述的行人图像检索的性能。
图5展示了使用本发明方法进行基于描述的行人图像检索的两个例子。基于原型引导的注意力层可以全面地捕捉正、负图像样例中语义显著的视觉区域,这些视觉内容是在行人描述数据集中经常被提及的;由文本引导生成的过滤器可以根据每个描述动态地关注被提及到的视觉区域,而忽略没有被提到的区域,该图像受关注的视觉内容。该发明方法利用文本引导模型提取行人相关信息,过滤掉行人无关噪声,动态自适应地引导模型集中于偏向描述的跨模态局部细粒度特征对齐,为跨模态匹配和检索提供了重要基础和有利条件。

Claims (4)

1.一种基于动态自进化信息抽取和对齐的文本-目标检索方法,其特征在于,包括如下步骤:
步骤1:构建文本引导的动态视觉信息过滤和部件级对齐网络,包括基本图文特征提取模块、行人无关视觉内容过滤模块和行人模态动态自进化模块;
步骤1-1:所述基本图文特征提取模块包括语义特征提取支路和图像特征提取支路;
所述语义特征提取支路使用经过文本数据预训练的BERT网络,对于每个文本输入,在每个描述的开头添加一个特殊分类标记,将特殊分类标记经过BERT模型处理后,将BERT模型最终输出中的隐藏状态用作该描述的整体特征表示;
所述图像特征提取支路,使用ResNet50在ImageNet上预训练后作为基准网络Backbone,用于提取行人图像特征移除图像特征提取支路中的最后一个下采样操作,用于增加特征图的空间尺度,模型输出的特征图的大小设定为(C,H,W),其中C和(H,W)分别表示通道维度和特征映射大小;
步骤1-2:所述行人无关视觉内容过滤模块包括Transformer编码器层和原型引导的注意力模块;
步骤1-2-1:所述Transformer编码器层利用特征向量之间的相关性增强视觉特征,它包括一个多头自注意力机制和一个前馈网络;首先将上述Transformer编码器层提取的特征展平为H*W个视觉特征向量,作为Transformer编码器层的输入,然后H*W个视觉特征向量分别通过一个全连接层计算每个视觉特征向量的query向量、key向量和value向量:
qi=Wqvi,kj=Wkvj,valuej=Wvvj
其中,qi为query向量中的分量,vi为value向量中的分量,kj为key向量向量中的分量,Wq、Wk、Wv分别为权重矩阵;
利用每两个视觉特征向量的query向量和key向量之间的相似性si,j作为注意力的权重ai,j
其中dk为query向量和key向量的通道维度;
计算加权的视觉特征向量,如下:
将加权得到的视觉特征向量经过层正则项后,输入到两层全连接层的前馈网络中,得到增强的视觉特征;
步骤1-2-2:所述原型引导的注意力模块包括原型向量的构造和更新及基于原型的跨模态注意力机制;首先构造一个可学习的原型向量,它的维度与视觉特征向量的维度一致;为了使得这个原型向量包含所有文本描述的行人语义知识,在原型向量和步骤1-2-1提取的文本特征向量之间设计相似性损失函数LSM,通过一个全连接层计算Transformer编码器层产生的视觉特征向量的key向量和value向量,原型向量和视觉特征向量之间的相似性作为跨模态注意力机制的权重,并计算最终的视觉特征向量作为语义显著的视觉信息,实现将行人内容从视觉噪音中分离出来,最终所述原型引导的注意力模块将生成强化后的视觉特征Voriginal
步骤1-3:所述行人模态动态自进化模块中,利用文字描述引导图像级部件掩码自主进化,包括视觉掩码过滤器和文本掩码过滤器;
行人模态动态自进化模块的输入为步骤1-2-2中基于原型引导的注意力模块生成的强化后的视觉特征Voriginal,将Voriginal在H维度上平均分为k个局部视觉特征,大小表示为(C,H/k,W),将每个局部特征分别先平均池化,然后再分别通过多个不共享参数的全连接层,生成局部视觉特征Vpart;同时,Voriginal通过一个全连接层得到全局特征Vglobal;其中,在每个局部视觉特征和全局特征后插入身份分类损失函数以提取与行人身份相关的显著性特征;此后,将步骤1-2-1提取的文本特征引导局部视觉特征Vpart和全局视觉特征进行动态自主进化,得到最终视觉特征Vfinal,计算过程见下式:
其中,Vglobal表示全局视觉特征,表示第i个水平条带区域的部分级别视觉特征,αi是文本引导的第i个视觉水平条带区域对应的权重得分,i=1,2,...,k;
步骤2:使用基于文本的行人检索任务的数据集训练文本引导的动态视觉信息过滤和部件级对齐网络,设置训练超参数,使用Adam优化器完成训练;
测试网络时,使用余弦相似度作为相似度的评估指标对文本特征向量和最终视觉特征进行距离计算;
步骤3:组合上述步骤建立的各模块,输入描述和待检索的行人图像,根据相似性对图像进行排序,若给出的查询结果与实际行人ID相同,则判定查询成功。
2.根据权利要求1所述的一种基于动态自进化信息抽取和对齐的文本-目标检索方法,其特征在于,所述C,H,W和k分别设定为2048、24、8和6。
3.根据权利要求1所述的一种基于动态自进化信息抽取和对齐的文本-目标检索方法,其特征在于,训练时学习率设定为1.1×10-4,迭代轮次为60,λ=0.1。
4.根据权利要求1所述的一种基于动态自进化信息抽取和对齐的文本-目标检索方法,其特征在于,所述相似性损失函数LSM表示为:
其中P表示原型向量,表示第i个描述的文本特征向量,N表示批处理量,w和b表示处理文本特征向量的全连接层的参数。
CN202310483808.9A 2023-05-04 2023-05-04 基于动态自进化信息抽取和对齐的文本-目标检索方法 Pending CN116645694A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310483808.9A CN116645694A (zh) 2023-05-04 2023-05-04 基于动态自进化信息抽取和对齐的文本-目标检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310483808.9A CN116645694A (zh) 2023-05-04 2023-05-04 基于动态自进化信息抽取和对齐的文本-目标检索方法

Publications (1)

Publication Number Publication Date
CN116645694A true CN116645694A (zh) 2023-08-25

Family

ID=87617856

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310483808.9A Pending CN116645694A (zh) 2023-05-04 2023-05-04 基于动态自进化信息抽取和对齐的文本-目标检索方法

Country Status (1)

Country Link
CN (1) CN116645694A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117370934A (zh) * 2023-12-04 2024-01-09 环球数科集团有限公司 一种敏感信息发现模型的多模态数据增强方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117370934A (zh) * 2023-12-04 2024-01-09 环球数科集团有限公司 一种敏感信息发现模型的多模态数据增强方法
CN117370934B (zh) * 2023-12-04 2024-03-22 环球数科集团有限公司 一种敏感信息发现模型的多模态数据增强方法

Similar Documents

Publication Publication Date Title
CN112766158B (zh) 基于多任务级联式人脸遮挡表情识别方法
CN111325111A (zh) 一种融合逆注意力和多尺度深度监督的行人重识别方法
CN114758383A (zh) 基于注意力调制上下文空间信息的表情识别方法
CN111046821B (zh) 一种视频行为识别方法、系统及电子设备
CN112434608B (zh) 一种基于双流结合网络的人体行为识别方法及系统
CN112733590A (zh) 一种基于二阶混合注意力的行人重识别方法
CN114202743A (zh) 自动驾驶场景下基于改进faster-RCNN的小目标检测方法
CN116610778A (zh) 基于跨模态全局与局部注意力机制的双向图文匹配方法
CN113361549A (zh) 一种模型更新方法以及相关装置
CN116645694A (zh) 基于动态自进化信息抽取和对齐的文本-目标检索方法
CN115482508A (zh) 换装行人重识别方法、装置、设备和计算机可存储介质
Guo et al. Application: Image-based visual perception
CN114333062A (zh) 基于异构双网络和特征一致性的行人重识别模型训练方法
Quiroga et al. A study of convolutional architectures for handshape recognition applied to sign language
Li A deep learning-based text detection and recognition approach for natural scenes
CN113627218A (zh) 基于视频数据的人物识别方法及装置
CN115797952B (zh) 基于深度学习的手写英文行识别方法及系统
Hossain et al. A novel approach to classify bangla sign digits using capsule network
Kumar et al. Facial emotion recognition and detection using cnn
Sudhakaran et al. Top-down attention recurrent VLAD encoding for action recognition in videos
CN113221885B (zh) 一种基于整字和偏旁部首的层次化建模方法及系统
Huang et al. Underwater object detection using restructured SSD
CN113159071B (zh) 一种跨模态图像-文本关联异常检测方法
Naosekpam et al. Ifvsnet: intermediate features fusion based cnn for video subtitles identification
CN115063831A (zh) 一种高性能行人检索与重识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination