CN116645694A - 基于动态自进化信息抽取和对齐的文本-目标检索方法 - Google Patents
基于动态自进化信息抽取和对齐的文本-目标检索方法 Download PDFInfo
- Publication number
- CN116645694A CN116645694A CN202310483808.9A CN202310483808A CN116645694A CN 116645694 A CN116645694 A CN 116645694A CN 202310483808 A CN202310483808 A CN 202310483808A CN 116645694 A CN116645694 A CN 116645694A
- Authority
- CN
- China
- Prior art keywords
- visual
- text
- feature
- pedestrian
- vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 35
- 238000000034 method Methods 0.000 title claims abstract description 30
- 230000000007 visual effect Effects 0.000 claims abstract description 117
- 238000001914 filtration Methods 0.000 claims abstract description 26
- 239000013598 vector Substances 0.000 claims description 90
- 238000012549 training Methods 0.000 claims description 12
- 230000007246 mechanism Effects 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 8
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 238000011156 evaluation Methods 0.000 claims description 3
- 238000011176 pooling Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000004364 calculation method Methods 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims description 2
- 239000011159 matrix material Substances 0.000 claims description 2
- 238000012545 processing Methods 0.000 abstract description 3
- 238000013528 artificial neural network Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 2
- 239000012141 concentrate Substances 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011840 criminal investigation Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0499—Feedforward networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/52—Scale-space analysis, e.g. wavelet analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Human Computer Interaction (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于动态自进化信息抽取和对齐的文本‑目标检索方法,构建了文本引导的动态视觉信息过滤和部件级对齐网络,包括基本图文特征提取模块、行人无关视觉内容过滤模块和行人模态动态自进化模块;在基本图文特征提取模块中,使用一个视觉卷积神经网络和一个语言处理模型提取图像和描述的基本特征;在行人无关视觉内容过滤模块中,采用了Transformer编码器层负责细粒度的像素级视觉特征增强,采用基于原型引导的注意力层分别和从增强后的视觉特征中过滤与行人无关的噪声;最后,在行人模态动态自进化模块中,利用文字描述引导图像级部件掩码自主进化,利用掩码描述对各个行人部件的强调程度,以进行详细的部件级对齐和匹配。
Description
技术领域
本发明属于图文检索和行人重识别技术领域,具体涉及一种基于描述的行人图像检索方法。
背景技术
近年来,行人检索受到了广泛的关注,在多个领域都有着广泛应用,比如失踪人口寻找,嫌疑人追踪等领域。该任务要求对于行人照片或者句子描述等查询,从图库中检索出相应的行人图像。根据查询的类型,行人检索主要可以分为基于图像的行人检索和基于语言描述的行人检索。其中,基于图像的行人检索需要至少一张待检索的行人照片作为索引,而这种照片在某些实际场景中难以获得。比如在刑侦领域,有时监控摄像头没有捕捉到嫌疑犯的照片。但是,我们却能得到目击者对嫌疑犯的描述。同时,描述包含的信息比属性特征更加全面且准确,因此研究基于描述的行人图像检索具有重大的场景需求和应用价值。
在基于描述的行人图像检索任务中,限制图文对齐和检索性能的一个重要原因是图像和描述之间的信息不对等,如图1所示,其主要表现在两个方面:(1)图像中含有描述未提及的行人无关的内容,比如背景和遮挡;(2)对不同的行人部件描述不对等,比如部分行人部件没有提及。
发明内容
为了克服现有技术的不足,本发明提供了一种基于动态自进化信息抽取和对齐的文本-目标检索方法,构建了文本引导的动态视觉信息过滤和部件级对齐网络,包括基本图文特征提取模块、行人无关视觉内容过滤模块和行人模态动态自进化模块;在基本图文特征提取模块中,使用一个视觉卷积神经网络和一个语言处理模型来提取图像和描述的基本特征;在行人无关视觉内容过滤模块中,采用了一个Transformer编码器层负责细粒度的像素级视觉特征增强,采用基于原型引导的注意力层分别和从增强后的视觉特征中过滤与行人无关的噪声;最后,在行人模态动态自进化模块中,利用文字描述引导图像级部件掩码自主进化,利用掩码描述对各个行人部件的强调程度,以进行详细的部件级对齐和匹配。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:构建文本引导的动态视觉信息过滤和部件级对齐网络,包括基本图文特征提取模块、行人无关视觉内容过滤模块和行人模态动态自进化模块;
步骤1-1:所述基本图文特征提取模块包括语义特征提取支路和图像特征提取支路;
所述语义特征提取支路使用经过文本数据预训练的BERT网络,对于每个文本输入,在每个描述的开头添加一个特殊分类标记,将特殊分类标记经过BERT模型处理后,将BERT模型最终输出中的隐藏状态用作该描述的整体特征表示;
所述图像特征提取支路,使用ResNet50在ImageNet上预训练后作为基准网络Backbone,用于提取行人图像特征移除图像特征提取支路中的最后一个下采样操作,用于增加特征图的空间尺度,模型输出的特征图的大小设定为(C,H,W),其中C和(H,W)分别表示通道维度和特征映射大小;
步骤1-2:所述行人无关视觉内容过滤模块包括Transformer编码器层和原型引导的注意力模块;
步骤1-2-1:所述Transformer编码器层利用特征向量之间的相关性增强视觉特征,它包括一个多头自注意力机制和一个前馈网络;首先将上述Transformer编码器层提取的特征展平为H*W个视觉特征向量,作为Transformer编码器层的输入,然后H*W个视觉特征向量分别通过一个全连接层计算每个视觉特征向量的query向量、key向量和value向量:
qi=Wqvi,kj=Wkvj,valuej=Wvvj
其中,qi为query向量中的分量,vi为value向量中的分量,kj为key向量向量中的分量,Wq、Wk、Wv分别为权重矩阵;
利用每两个视觉特征向量的query向量和key向量之间的相似性si,j作为注意力的权重ai,j:
其中dk为query向量和key向量的通道维度;
计算加权的视觉特征向量,如下:
将加权得到的视觉特征向量经过层正则项后,输入到两层全连接层的前馈网络中,得到增强的视觉特征;
步骤1-2-2:所述原型引导的注意力模块包括原型向量的构造和更新及基于原型的跨模态注意力机制;首先构造一个可学习的原型向量,它的维度与视觉特征向量的维度一致;为了使得这个原型向量包含所有文本描述的行人语义知识,在原型向量和步骤1-2-1提取的文本特征向量之间设计相似性损失函数LSM,通过一个全连接层计算Transformer编码器层产生的视觉特征向量的key向量和value向量,原型向量和视觉特征向量之间的相似性作为跨模态注意力机制的权重,并计算最终的视觉特征向量作为语义显著的视觉信息,实现将行人内容从视觉噪音中分离出来,最终所述原型引导的注意力模块将生成强化后的视觉特征Voriginal;
步骤1-3:所述行人模态动态自进化模块中,利用文字描述引导图像级部件掩码自主进化,包括视觉掩码过滤器和文本掩码过滤器;
行人模态动态自进化模块的输入为步骤1-2-2中基于原型引导的注意力模块生成的强化后的视觉特征Voriginal,将Voriginal在H维度上平均分为k个局部视觉特征,大小表示为(C,H/k,W),将每个局部特征分别先平均池化,然后再分别通过多个不共享参数的全连接层,生成局部视觉特征Vpart;同时,Voriginal通过一个全连接层得到全局特征Vglobal;其中,在每个局部视觉特征和全局特征后插入身份分类损失函数以提取与行人身份相关的显著性特征;此后,将步骤1-2-1提取的文本特征引导局部视觉特征Vpart和全局视觉特征进行动态自主进化,得到最终视觉特征Vfinal,计算过程见下式:
其中,Vglobal表示全局视觉特征,表示第i个水平条带区域的部分级别视觉特征,αi是文本引导的第i个视觉水平条带区域对应的权重得分,i=1,2,...,k;
步骤2:使用基于文本的行人检索任务的数据集训练文本引导的动态视觉信息过滤和部件级对齐网络,设置训练超参数,使用Adam优化器完成训练;
测试网络时,使用余弦相似度作为相似度的评估指标对文本特征向量和最终视觉特征进行距离计算;
步骤3:组合上述步骤建立的各模块,输入描述和待检索的行人图像,根据相似性对图像进行排序,若给出的查询结果与实际行人ID相同,则判定查询成功。
优选地,所述C,H,W和k分别设定为2048、24、8和6。
优选地,训练时学习率设定为1.1×10-4,迭代轮次为60,λ=0.1。
优选地,所述相似性损失函数LSM表示为:
其中P表示原型向量,表示第i个描述的文本特征向量,N表示批处理量,w和b表示处理文本特征向量的全连接层的参数。
本发明的有益效果如下:
本发明利用文本引导的动态视觉信息过滤和部件级对齐网络,可以有效地依据文本信息对行人图像的视觉特征进行动态的关注,既能排除与描述无关的视觉内容,又能关注语义对齐却不一致的视觉特征,从而动态自适应地捕捉与描述对齐的视觉表示,有助于计算正确的文本-图像相似度,从而进一步提高基于描述的行人图像检索任务的准确率。特别地,在国际基准数据集CUHK-pedestrians上达到了64.64%的rank-1精度,是截至目前国际上最高的精度。
附图说明
图1为跨模态信息不对等的对比图示。
图2为本发明实施方法的文本引导的动态视觉信息过滤和部件级对齐网络结构示意图。
图3为本发明跨模态部件级信息匹配图解。
图4为本发明进行基于文本的行人检索的结果。
图5为本发明具体实施例图。
具体实施方式
下面结合附图和实施例对本发明进一步说明。
为了解决上述图像和描述之间信息不对等的问题,本发明提供了一种文本引导的动态视觉信息过滤和部件级对齐的目标检索方法,其结构如图2所示;
本发明的主要结构可以分为三个功能模块:基本图文特征提取模块,行人无关视觉内容过滤模块和行人模态动态自进化模块。具体来说,在基本图文特征提取模块中,使用一个视觉卷积神经网络和一个语言处理模型来提取图像和描述的基本特征。此后,在行人无关视觉内容过滤模块中,采用了一个Transformer编码器层负责细粒度的像素级视觉特征增强,采用基于原型引导的注意力层分别和从增强后的视觉特征中过滤与行人无关的噪声。在基于原型引导的注意力层中,使用一个可训练的原型向量学习行人知识,指导模块抑制行人无关噪声,利用文字描述引导模块提取行人图像的关键特征。最后,在行人模态动态自进化模块中,利用文字级查询描述引导图像级部件掩码,利用掩码描述对各个行人部件的强调程度,利用文字描述引导图像级部件掩码自主进化,可以集中于描述偏向的图像模态特征,以进行详细的部件级对齐和匹配。
本发明解决其技术问题所采用的技术方案包括如下步骤:
步骤1:构建文本引导的动态视觉信息过滤和部件级对齐网络,网络框架图如图2所示;主要包括基本图文特征提取模块,行人无关视觉内容过滤模块和行人模态动态自进化模块;
步骤1-1:所述基本图文特征提取模块包括语义特征提取支路和图像特征提取支路;
所述语义特征提取支路使用在大量文本数据上预训练的BERT网络,对于每个文本输入,在每个描述的开头添加一个特殊的分类标记([CLS]),将其经过BERT模型处理后,其最终的模型输出中的隐藏状态(Hidden State)被用作该描述的整体特征表示;
所述图像特征提取支路,使用ResNet50在ImageNet上预训练后作为基准网络(Backbone),用于提取行人图像特征;特别地,我们移除图像特征提取网络中的最后一个下采样操作,以增加特征图的空间尺度,模型输出的特征图的大小设定为(C,H,W),其中C和(H,W)分别表示通道维度和特征映射大小。
步骤1-2:所述行人无关视觉内容过滤模块包括Transformer编码器层和原型引导的注意力模块;
步骤1-2-1:所述Transformer编码器层利用特征向量之间的相关性增强视觉特征,它包括一个多头自注意力机制(multi-head self-attention)和一个前馈网络(feed-forward network)。首先将上述视觉特征网络提取的特征展平为H*W个特征向量,作为编码器的输入,然后分别通过一个全连接层计算每个特征向量的query,key和value向量,之后利用每两个向量的query和key向量之间的相似性si,j作为注意力的权重ai,j,根据权重计算加权的视觉特征向量。最后,将加权得到的视觉特征向量经过层正则项后,输入到两层全连接层的前馈网络中,得到增强的视觉特征。
步骤1-2-2:所述原型引导的注意力模块致力于利用一个可学习的原型向量学习所有语言描述中的行人语义信息并以此为引导关注图像中行人相关的视觉信息,它包括原型向量的构造和更新及基于原型的跨模态注意力机制。首先构造一个可学习的原型向量,它的维度与视觉特征向量的维度一致。为了使得这个原型向量包含所有文本描述的行人语义知识,在原型向量和所有的文本特征向量之间设计一个相似性损失函数LSM。之后,分别通过一个全连接层去计算编码器产生的视觉特征向量的key和value向量,原型向量和视觉特征向量之间的相似性作为跨模态注意力机制的权重,并计算最终的视觉特征向量作为语义显著的视觉信息,实现将行人内容从视觉噪音中分离出来。
步骤1-3:所述行人模态动态自进化模块利用文字描述引导图像级部件掩码自主进化,可以集中于描述偏向的图像模态特征。
本模块的输入为1-2-2中基于原型引导的注意力模块生成的强化的全局视觉特征Voriginal,将Voriginal在H维度上平均分为k个局部特征,大小表示为(C,H/k,W),将每个局部特征分别先平均池化,然后再分别通过多个不共享参数的全连接层,生成局部视觉特征Vpart。同时,Voriginal通过一个全连接层得到全局特征Vglobal;其中,在每个局部视觉特征Vpart和全局特征Vglobal后插入身份分类损失函数以提取与行人身份相关的显著性特征。此后,将局部级别视觉特征与基于文本的过滤器生成器输出的结果进行融合,融合的结果与全局视觉特征再进行计算,得到文本描述引导的增强视觉特征Vfinal,以进行详细的部件级对齐和匹配。如图2所示为跨模态部件级信息匹配图解。
步骤2:使用基于文本的行人检索任务的数据集训练网络,设置训练超参数,使用Adam优化器完成训练;
测试网络时,使用余弦相似度作为相似度的评估指标对文本特征向量和最终视觉特征进行距离计算;
步骤3:组合上述步骤建立的各模块,输入描述和待检索的行人图像,根据相似性对图像进行排序,若给出的查询结果与实际行人ID相同,则认为查询成功。如图4所示。
具体实施例:
本发明提供了一种文本引导的动态视觉信息过滤和部件级的描述-行人图像检索方法,该方法能够利用文本引导模型提取行人相关信息,过滤掉行人无关噪声,动态地提取对齐的视觉特征,引导模型集中于偏向描述的跨模态局部细粒度特征对齐,进一步优化基于描述的行人图像检索的性能。
图5展示了使用本发明方法进行基于描述的行人图像检索的两个例子。基于原型引导的注意力层可以全面地捕捉正、负图像样例中语义显著的视觉区域,这些视觉内容是在行人描述数据集中经常被提及的;由文本引导生成的过滤器可以根据每个描述动态地关注被提及到的视觉区域,而忽略没有被提到的区域,该图像受关注的视觉内容。该发明方法利用文本引导模型提取行人相关信息,过滤掉行人无关噪声,动态自适应地引导模型集中于偏向描述的跨模态局部细粒度特征对齐,为跨模态匹配和检索提供了重要基础和有利条件。
Claims (4)
1.一种基于动态自进化信息抽取和对齐的文本-目标检索方法,其特征在于,包括如下步骤:
步骤1:构建文本引导的动态视觉信息过滤和部件级对齐网络,包括基本图文特征提取模块、行人无关视觉内容过滤模块和行人模态动态自进化模块;
步骤1-1:所述基本图文特征提取模块包括语义特征提取支路和图像特征提取支路;
所述语义特征提取支路使用经过文本数据预训练的BERT网络,对于每个文本输入,在每个描述的开头添加一个特殊分类标记,将特殊分类标记经过BERT模型处理后,将BERT模型最终输出中的隐藏状态用作该描述的整体特征表示;
所述图像特征提取支路,使用ResNet50在ImageNet上预训练后作为基准网络Backbone,用于提取行人图像特征移除图像特征提取支路中的最后一个下采样操作,用于增加特征图的空间尺度,模型输出的特征图的大小设定为(C,H,W),其中C和(H,W)分别表示通道维度和特征映射大小;
步骤1-2:所述行人无关视觉内容过滤模块包括Transformer编码器层和原型引导的注意力模块;
步骤1-2-1:所述Transformer编码器层利用特征向量之间的相关性增强视觉特征,它包括一个多头自注意力机制和一个前馈网络;首先将上述Transformer编码器层提取的特征展平为H*W个视觉特征向量,作为Transformer编码器层的输入,然后H*W个视觉特征向量分别通过一个全连接层计算每个视觉特征向量的query向量、key向量和value向量:
qi=Wqvi,kj=Wkvj,valuej=Wvvj
其中,qi为query向量中的分量,vi为value向量中的分量,kj为key向量向量中的分量,Wq、Wk、Wv分别为权重矩阵;
利用每两个视觉特征向量的query向量和key向量之间的相似性si,j作为注意力的权重ai,j:
其中dk为query向量和key向量的通道维度;
计算加权的视觉特征向量,如下:
将加权得到的视觉特征向量经过层正则项后,输入到两层全连接层的前馈网络中,得到增强的视觉特征;
步骤1-2-2:所述原型引导的注意力模块包括原型向量的构造和更新及基于原型的跨模态注意力机制;首先构造一个可学习的原型向量,它的维度与视觉特征向量的维度一致;为了使得这个原型向量包含所有文本描述的行人语义知识,在原型向量和步骤1-2-1提取的文本特征向量之间设计相似性损失函数LSM,通过一个全连接层计算Transformer编码器层产生的视觉特征向量的key向量和value向量,原型向量和视觉特征向量之间的相似性作为跨模态注意力机制的权重,并计算最终的视觉特征向量作为语义显著的视觉信息,实现将行人内容从视觉噪音中分离出来,最终所述原型引导的注意力模块将生成强化后的视觉特征Voriginal;
步骤1-3:所述行人模态动态自进化模块中,利用文字描述引导图像级部件掩码自主进化,包括视觉掩码过滤器和文本掩码过滤器;
行人模态动态自进化模块的输入为步骤1-2-2中基于原型引导的注意力模块生成的强化后的视觉特征Voriginal,将Voriginal在H维度上平均分为k个局部视觉特征,大小表示为(C,H/k,W),将每个局部特征分别先平均池化,然后再分别通过多个不共享参数的全连接层,生成局部视觉特征Vpart;同时,Voriginal通过一个全连接层得到全局特征Vglobal;其中,在每个局部视觉特征和全局特征后插入身份分类损失函数以提取与行人身份相关的显著性特征;此后,将步骤1-2-1提取的文本特征引导局部视觉特征Vpart和全局视觉特征进行动态自主进化,得到最终视觉特征Vfinal,计算过程见下式:
其中,Vglobal表示全局视觉特征,表示第i个水平条带区域的部分级别视觉特征,αi是文本引导的第i个视觉水平条带区域对应的权重得分,i=1,2,...,k;
步骤2:使用基于文本的行人检索任务的数据集训练文本引导的动态视觉信息过滤和部件级对齐网络,设置训练超参数,使用Adam优化器完成训练;
测试网络时,使用余弦相似度作为相似度的评估指标对文本特征向量和最终视觉特征进行距离计算;
步骤3:组合上述步骤建立的各模块,输入描述和待检索的行人图像,根据相似性对图像进行排序,若给出的查询结果与实际行人ID相同,则判定查询成功。
2.根据权利要求1所述的一种基于动态自进化信息抽取和对齐的文本-目标检索方法,其特征在于,所述C,H,W和k分别设定为2048、24、8和6。
3.根据权利要求1所述的一种基于动态自进化信息抽取和对齐的文本-目标检索方法,其特征在于,训练时学习率设定为1.1×10-4,迭代轮次为60,λ=0.1。
4.根据权利要求1所述的一种基于动态自进化信息抽取和对齐的文本-目标检索方法,其特征在于,所述相似性损失函数LSM表示为:
其中P表示原型向量,表示第i个描述的文本特征向量,N表示批处理量,w和b表示处理文本特征向量的全连接层的参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310483808.9A CN116645694A (zh) | 2023-05-04 | 2023-05-04 | 基于动态自进化信息抽取和对齐的文本-目标检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310483808.9A CN116645694A (zh) | 2023-05-04 | 2023-05-04 | 基于动态自进化信息抽取和对齐的文本-目标检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116645694A true CN116645694A (zh) | 2023-08-25 |
Family
ID=87617856
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310483808.9A Pending CN116645694A (zh) | 2023-05-04 | 2023-05-04 | 基于动态自进化信息抽取和对齐的文本-目标检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116645694A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117370934A (zh) * | 2023-12-04 | 2024-01-09 | 环球数科集团有限公司 | 一种敏感信息发现模型的多模态数据增强方法 |
-
2023
- 2023-05-04 CN CN202310483808.9A patent/CN116645694A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117370934A (zh) * | 2023-12-04 | 2024-01-09 | 环球数科集团有限公司 | 一种敏感信息发现模型的多模态数据增强方法 |
CN117370934B (zh) * | 2023-12-04 | 2024-03-22 | 环球数科集团有限公司 | 一种敏感信息发现模型的多模态数据增强方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112766158B (zh) | 基于多任务级联式人脸遮挡表情识别方法 | |
CN111325111A (zh) | 一种融合逆注意力和多尺度深度监督的行人重识别方法 | |
CN114758383A (zh) | 基于注意力调制上下文空间信息的表情识别方法 | |
CN111046821B (zh) | 一种视频行为识别方法、系统及电子设备 | |
CN112434608B (zh) | 一种基于双流结合网络的人体行为识别方法及系统 | |
CN112733590A (zh) | 一种基于二阶混合注意力的行人重识别方法 | |
CN114202743A (zh) | 自动驾驶场景下基于改进faster-RCNN的小目标检测方法 | |
CN116610778A (zh) | 基于跨模态全局与局部注意力机制的双向图文匹配方法 | |
CN113361549A (zh) | 一种模型更新方法以及相关装置 | |
CN116645694A (zh) | 基于动态自进化信息抽取和对齐的文本-目标检索方法 | |
CN115482508A (zh) | 换装行人重识别方法、装置、设备和计算机可存储介质 | |
Guo et al. | Application: Image-based visual perception | |
CN114333062A (zh) | 基于异构双网络和特征一致性的行人重识别模型训练方法 | |
Quiroga et al. | A study of convolutional architectures for handshape recognition applied to sign language | |
Li | A deep learning-based text detection and recognition approach for natural scenes | |
CN113627218A (zh) | 基于视频数据的人物识别方法及装置 | |
CN115797952B (zh) | 基于深度学习的手写英文行识别方法及系统 | |
Hossain et al. | A novel approach to classify bangla sign digits using capsule network | |
Kumar et al. | Facial emotion recognition and detection using cnn | |
Sudhakaran et al. | Top-down attention recurrent VLAD encoding for action recognition in videos | |
CN113221885B (zh) | 一种基于整字和偏旁部首的层次化建模方法及系统 | |
Huang et al. | Underwater object detection using restructured SSD | |
CN113159071B (zh) | 一种跨模态图像-文本关联异常检测方法 | |
Naosekpam et al. | Ifvsnet: intermediate features fusion based cnn for video subtitles identification | |
CN115063831A (zh) | 一种高性能行人检索与重识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |