CN117609553B - 基于局部特征增强和模态交互的视频检索方法及系统 - Google Patents
基于局部特征增强和模态交互的视频检索方法及系统 Download PDFInfo
- Publication number
- CN117609553B CN117609553B CN202410093675.9A CN202410093675A CN117609553B CN 117609553 B CN117609553 B CN 117609553B CN 202410093675 A CN202410093675 A CN 202410093675A CN 117609553 B CN117609553 B CN 117609553B
- Authority
- CN
- China
- Prior art keywords
- text
- video
- features
- local
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003993 interaction Effects 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000011218 segmentation Effects 0.000 claims abstract description 29
- 230000004927 fusion Effects 0.000 claims abstract description 22
- 238000011176 pooling Methods 0.000 claims abstract description 16
- 230000015654 memory Effects 0.000 claims description 16
- 230000007246 mechanism Effects 0.000 claims description 12
- 235000019580 granularity Nutrition 0.000 claims description 9
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000003860 storage Methods 0.000 claims description 6
- 230000002708 enhancing effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 4
- 239000011159 matrix material Substances 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 7
- 238000012512 characterization method Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 230000007547 defect Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000877 morphologic effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
- G06F16/7328—Query by example, e.g. a complete video frame or video sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Library & Information Science (AREA)
- Medical Informatics (AREA)
- Biophysics (AREA)
- Biodiversity & Conservation Biology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种基于局部特征增强和模态交互的视频检索方法及系统,涉及跨模态视频检索技术领域,该方法包括根据输入的视频数据和文本数据,获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征;获取时序化帧图像特征并进行平均池化得到视频特征,将视频特征与时序化帧图像特征进行特征融合,实现视频局部特征增强;将文本分词特征和文本关键词特征进行特征融合,实现文本局部特征增强;将时序化帧图像特征和文本全局特征进行跨模态的交互,生成文本条件的视频特征;采用多粒度匹配的策略进行层次化的视频文本匹配。本发明通过局部特征增强和模态交互,可以提高视频检索性能。
Description
技术领域
本发明涉及跨模态视频检索技术领域,尤其涉及一种基于局部特征增强和模态交互的视频检索方法及系统。
背景技术
随着移动设备和互联网的快速发展,文本视频检索这一典型的多模态任务越来越受到人们的关注。该任务旨在根据与特定文本(或视频)的相关性对集合中的视频(或文本)进行排序,这使得用户能够准确快速地找到所需的视频。在过去的几十年里,随着深度学习技术的不断进步,视频检索领域取得了显著的进步。
近年来,基于对比文本-图像对的预训练模型(Contrastive Language-ImagePre-training,CLIP)的视频检索技术取得了显著成功。现有的主流方法首先对视频帧进行均匀取样,然后通过CLIP编码器获得帧图像表征以及文本表征,视频表征通过对帧图像表征聚合得到,最终计算视频表征与文本表征的相似度完成视频检索。在该类工作中,通常将帧图像特征输入到时序编码器后进行平均池化,获得视频表征用于视频检索。然而该类工作仍然存在一定的缺陷,首先由于CLIP是在图像文本数据集上训练的,而图像与视频之间存在模态差异,直接使用编码器输出的原始表征进行视频检索会影响性能;另外,视频与文本的对应关系是一对多的,视频与文本两个模态之间交互不足,也会限制模型的检索性能。
发明内容
为此,本发明实施例提供了一种基于局部特征增强和模态交互的视频检索方法及系统,用于解决现有技术中视频检索方法中存在的原始特征匹配效率低、缺少模态交互等问题。
为了解决上述问题,本发明实施例提供一种基于局部特征增强和模态交互的视频检索方法,该方法包括:
S1:根据输入的视频数据和文本数据,获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征;
S2:根据帧图像特征和时序编码器,对帧图像特征进行时序建模,得到时序化帧图像特征,并进行平均池化得到视频特征,将视频特征与时序化帧图像特征进行特征融合,实现视频局部特征增强,获得增强后的视频局部特征;
S3:根据文本分词特征和文本关键词特征,进行特征融合,实现文本局部特征增强,获得增强后的文本局部特征;
S4:根据时序化帧图像特征和文本全局特征,进行跨模态的交互,生成文本条件的视频特征;
S5:根据增强后的视频局部特征、增强后的文本局部特征、文本条件的视频特征以及文本全局特征,采用多粒度匹配的策略进行层次化的视频文本匹配。
优选地,所述根据输入的视频数据和文本数据,获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征,具体包括:
根据输入的视频数据,按固定速率对视频帧进行均匀取样,将取样的帧图像输入视频编码器中,获得编码后的帧图像特征;
根据输入的文本数据,使用KeyBert提取文本数据中的关键词,将提取的关键词数据输入到关键词编码器中,获得文本关键词特征;
根据输入的文本数据,使用文本编码器,获得文本分词特征和文本全局特征。
优选地,所述文本编码器与所述关键词编码器具有相同的网络结构并且在训练过程中共享参数。
优选地,所述根据视频特征与时序化帧图像特征进行特征融合,实现视频局部特征增强,获得增强后的视频局部特征,具体包括:
将视频特征与时序化帧图像特征进行特征级联后,输入到长短期记忆网络中进行充分的融合交互,从而达到局部特征语义增强的目的,使之更好地适应视频检索任务;另一方面,采用自适应权重层来减少不相关内容对最终对齐的影响,所述自适应权重层由两个全连接层、自注意力层以及Sigmoid激活层构成;最终,使用预测的权重进行分配,获得增强后的视频局部特征。
优选地,所述根据文本分词特征和文本关键词特征,进行特征融合,实现文本局部特征增强,获得增强后的文本局部特征,具体包括:
使用交叉注意力机制通过文本关键词特征的引导对文本分词特征进行局部特征增强:
we= CrossAtten(w·WK, w·WV, wk·WQ);
其中,w和wk分别为文本分词特征和文本关键词特征;WK、WV 以及WQ为对应的投影矩阵;CrossAtten()为交叉注意力机制;we为增强后的文本局部特征。
优选地,所述根据时序化帧图像特征和文本全局特征,进行跨模态的交互,生成文本条件的视频特征,具体包括:
使用交叉注意力机制通过文本全局特征的引导对时序化帧图像特征进行条件池化:
v = CrossAtten(f·W′ K, f· W′ V, t · W′ Q);
其中,f和t分别为时序化帧图像特征和文本全局特征;W′ K、W′ V 以及W′ Q分别为对应的投影矩阵;CrossAtten()为交叉注意力机制;v为文本条件池化后的视频特征。
优选地,所述根据增强后的视频局部特征、增强后的文本局部特征、文本条件的视频特征以及文本全局特征,采用多粒度匹配的策略进行层次化的视频文本匹配,具体包括:
将增强后的视频局部特征和增强后的文本局部特征进行细粒度相似度计算;
将文本条件的视频特征与文本全局特征进行粗粒度的相似度计算;
将两个粒度的相似度相加得出最终的视频文本相似度。
本发明实施例还提供了一种基于局部特征增强和模态交互的视频检索系统,该系统用于实现上述所述的基于局部特征增强和模态交互的视频检索方法,具体包括:
特征提取模块,用于根据输入的视频数据和文本数据,获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征;
视频局部特征增强模块,用于根据帧图像特征和时序编码器,对帧图像特征进行时序建模,得到时序化帧图像特征,并进行平均池化得到视频特征,将视频特征与时序化帧图像特征进行特征融合,实现视频局部特征增强,获得增强后的视频局部特征;
文本局部特征增强模块,用于根据文本分词特征和文本关键词特征,进行特征融合,实现文本局部特征增强,获得增强后的文本局部特征;
文本条件的视频特征生成模块,用于根据时序化帧图像特征和文本全局特征,进行跨模态的交互,生成文本条件的视频特征;
视频文本匹配模块,用于根据增强后的视频局部特征、增强后的文本局部特征、文本条件的视频特征以及文本全局特征,采用多粒度匹配的策略进行层次化的视频文本匹配。
本发明实施例还提供了一种电子设备,所述电子设备包括处理器、存储器和总线系统,所述处理器和存储器通过该总线系统相连,所述存储器用于存储指令,所述处理器用于执行存储器存储的指令,以实现上述所述的基于局部特征增强和模态交互的视频检索方法。
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机软件产品,所述计算机软件产品包括的若干指令,用以使得一台计算机设备执行上述所述的基于局部特征增强和模态交互的视频检索方法。
从以上技术方案可以看出,本发明申请具有以下优点:
本发明提供了一种基于局部特征增强和模态交互的视频检索方法及系统,本发明针对视频以及文本两种模态,提出了两种不同的细粒度特征增强策略,分别利用视频特征以及文本关键词特征作为锚点进行特征增强,有效地缓解了CLIP编码器原始特征匹配效率低的缺陷。另外,针对文本与视频表达内容不一致的问题,提出了跨模态交互,使文本模态和视频模态得到充分交互,提高了模型的检索性能。
附图说明
为了更清楚地说明本发明实施案例或现有技术中的技术方案,下边将对实施例中所需要使用的附图做简单说明,通过参考附图会更清楚的理解本发明的特征和优点,附图是示意性的而不应该理解为对本发明进行任何限制,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,可以根据这些附图获得其他的附图。其中:
图1为实施例中提供的一种基于局部特征增强和模态交互的视频检索方法的流程图;
图2为本发明方法的示意图;
图3为实施例中视频局部增强网络的示意图;
图4为实施例中提供的一种基于局部特征增强和模态交互的视频检索系统的框图。
具体实施方式
为使本发明实施例的目的、技术方案与优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
为了克服现有视频检索方法中存在的原始特征匹配效率低、缺少模态交互等问题,如图1、图2所示,本发明实施例提出一种基于局部特征增强和模态交互的视频检索方法,该方法包括:
S1:根据输入的视频数据和文本数据,获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征;
S2:根据帧图像特征和时序编码器,对帧图像特征进行时序建模,得到时序化帧图像特征,并进行平均池化得到视频特征,将视频特征与时序化帧图像特征进行特征融合,实现视频局部特征增强,获得增强后的视频局部特征;
S3:根据文本分词特征和文本关键词特征,进行特征融合,实现文本局部特征增强,获得增强后的文本局部特征;
S4:根据时序化帧图像特征和文本全局特征,进行跨模态的交互,生成文本条件的视频特征;
S5:根据增强后的视频局部特征、增强后的文本局部特征、文本条件的视频特征以及文本全局特征,采用多粒度匹配的策略进行层次化的视频文本匹配。
从上述技术方案可知,本发明提供了一种基于局部特征增强和模态交互的视频检索方法,首先根据输入的视频数据和文本数据,获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征。其次对帧图像特征进行时序建模并进行平均池化得到视频特征,并通过融合策略增强视频局部特征;对于文本模态,首先将文本分词特征与文本关键词特征进行融合,实现文本局部特征增强。最后进行跨模态的交互,生成文本条件的视频特征,并计算粗粒度相似度和细粒度相似度信息。本发明针对视频以及文本两种模态,提出了两种不同的细粒度特征增强策略,分别利用视频特征以及文本关键词特征作为锚点进行特征增强,有效地缓解了CLIP编码器原始特征匹配效率低的缺陷。另外,针对文本与视频表达内容不一致的问题,提出了跨模态交互,使文本模态和视频模态得到充分交互,提高了模型的检索性能。
具体地,在视频处理分支中,首先按照1FPS的速率对视频帧进行均匀取样,将取样的帧图像输入到CLIP参数初始化的视频编码器中,进而获得编码后的帧图像特征。当前特征仅仅获取了帧图像的空间信息,因此将获得的帧图像特征输入到时序编码器中进行时序建模,建立视频帧之间的时序信息,即获得时序化帧图像特征。
进一步地,将带有时序信息的帧图像特征进行平均池化,获得视频特征,用来引导局部特征进行语义增强。图3展示了视频局部增强网络的示意图。
具体地,将视频级特征与局部特征(时序化帧图像特征)进行级联后,输入到长短期记忆网络(Long Short-Term Memory,LSTM)中进行充分的融合交互,从而达到局部特征语义增强的目的,使之更好地适应视频检索任务。另一方面,视频与文本通常是部分匹配的,盲目的进行视频文本的对齐是不可取的,为此本发明提出了自适应权重层来减少不相关内容对最终对齐的影响,具体结构如图3所示,自适应权重层由两个全连接层、自注意力层以及Sigmoid激活层构成。最终,使用预测的权重进行分配,获得增强后的视频局部特征。
在文本处理分支中,与视频分支不同,首先使用KeyBert 提取文本数据的关键词,将分词后的文本和关键词输入到CLIP参数初始化的文本编码器和关键词编码器中,其中文本编码器与关键词编码器有着相同的网络结构并且在训练过程中共享参数,然后会获得三类文本特征,包括由CLS Token编码得到的文本全局特征、文本分词特征以及文本关键词特征。
其中使用KeyBert 提取文本数据的关键词,具体包括:
使用paraphrase-multilingual-MiniLM-L12-v2预训练检查点初始化模型;
设置提取关键词数量为K,长度为L;
对提取出的关键词进行词形还原。
进一步地,由于文本与视频两个模态之间的异质性,本发明使用交叉注意力机制通过文本关键词特征的引导对文本分词特征进行局部特征增强:
we= CrossAtten(w·WK, w·WV, wk·WQ);
其中,w和wk分别为文本分词特征和文本关键词特征;WK、WV 以及WQ为对应的投影矩阵;CrossAtten()为交叉注意力机制;we为增强后的文本局部特征。
进一步的,除了局部特征增强技术,本发明还提出了模态交互,根据上述获得的时序化帧图像特征以及文本全局特征并进行跨模态的交互,生成文本条件的视频特征。跨模态注意力层由Cross Attention层、两个LayerNorm层和Dropout层构成。模态交互与文本局部特征增强结构相似,使用交叉注意力机制通过文本全局特征的引导对时序化帧图像特征进行条件池化:
v = CrossAtten(f·W′ K, f· W′ V, t · W′ Q);
其中,f和t分别为时序化帧图像特征和文本全局特征;W′ K、W′ V 以及W′ Q分别为对应的投影矩阵;CrossAtten()为交叉注意力机制;v为文本条件池化后的视频特征。
进一步地,根据上述获得的增强后的视频局部特征、增强后的文本局部特征、文本条件的视频特征以及文本全局特征,采用多粒度匹配的策略进行层次化的视频文本匹配。
具体地,将增强后的视频局部特征和增强后的文本局部特征进行细粒度相似度计算;将文本条件的视频特征与文本全局特征进行粗粒度的相似度计算;将两个粒度的相似度相加得出最终的视频文本相似度,从而完成视频排序提升检索性能的目的。
实施例二
如图4所示,本发明提供一种基于局部特征增强和模态交互的视频检索系统,该系统用于实现上述实施例一的基于局部特征增强和模态交互的视频检索方法,具体包括:
特征提取模块10,用于根据输入的视频数据和文本数据,获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征;
视频局部特征增强模块20,用于根据帧图像特征和时序编码器,对帧图像特征进行时序建模,得到时序化帧图像特征,并进行平均池化得到视频特征,将视频特征与时序化帧图像特征进行特征融合,实现视频局部特征增强,获得增强后的视频局部特征;
文本局部特征增强模块30,用于根据文本分词特征和文本关键词特征,进行特征融合,实现文本局部特征增强,获得增强后的文本局部特征;
文本条件的视频特征生成模块40,用于根据时序化帧图像特征和文本全局特征,进行跨模态的交互,生成文本条件的视频特征;
视频文本匹配模块50,用于根据增强后的视频局部特征、增强后的文本局部特征、文本条件的视频特征以及文本全局特征,采用多粒度匹配的策略进行层次化的视频文本匹配。
本实施例的一种基于局部特征增强和模态交互的视频检索系统,用于实现前述的基于局部特征增强和模态交互的视频检索方法,因此基于局部特征增强和模态交互的视频检索系统中的具体实施方式可见前文基于局部特征增强和模态交互的视频检索方法的实施例部分,例如,特征提取模块10,视频局部特征增强模块20,文本局部特征增强模块30,文本条件的视频特征生成模块40,视频文本匹配模块50,分别用于实现上述基于局部特征增强和模态交互的视频检索方法中步骤S1,S2,S3,S4,S5,所以,其具体实施方式可以参照相应的各个部分实施例的描述,为了避免冗余,在此不再赘述。
实施例三
本发明实施例还提供了一种电子设备,所述电子设备包括处理器、存储器和总线系统,所述处理器和存储器通过该总线系统相连,所述存储器用于存储指令,所述处理器用于执行存储器存储的指令,以实现上述所述的基于局部特征增强和模态交互的视频检索方法。
实施例四
本发明实施例还提供了一种计算机存储介质,所述计算机存储介质存储有计算机软件产品,所述计算机软件产品包括的若干指令,用以使得一台计算机设备执行上述所述的基于局部特征增强和模态交互的视频检索方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,上述实施例仅仅是为清楚地说明所作的举例,并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
Claims (8)
1.一种基于局部特征增强和模态交互的视频检索方法,其特征在于,包括:
S1:根据输入的视频数据和文本数据,获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征;
S2:根据帧图像特征和时序编码器,对帧图像特征进行时序建模,得到时序化帧图像特征,并进行平均池化得到视频特征,将视频特征与时序化帧图像特征进行特征融合,实现视频局部特征增强,获得增强后的视频局部特征;
S3:根据文本分词特征和文本关键词特征,进行特征融合,实现文本局部特征增强,获得增强后的文本局部特征;
S4:根据时序化帧图像特征和文本全局特征,进行跨模态的交互,生成文本条件的视频特征;
S5:根据增强后的视频局部特征、增强后的文本局部特征、文本条件的视频特征以及文本全局特征,采用多粒度匹配的策略进行层次化的视频文本匹配;
其中所述根据时序化帧图像特征和文本全局特征,进行跨模态的交互,生成文本条件的视频特征,具体包括:
使用交叉注意力机制通过文本全局特征的引导对时序化帧图像特征进行条件池化:
v = CrossAtten(f·W ′ K, f· W′ V , t · W′ Q);
其中,f和t分别为时序化帧图像特征和文本全局特征;W ′ K、W′ V 以及W′ Q分别为对应的投影矩阵;CrossAtten()为交叉注意力机制;v为文本条件池化后的视频特征;
所述根据增强后的视频局部特征、增强后的文本局部特征、文本条件的视频特征以及文本全局特征,采用多粒度匹配的策略进行层次化的视频文本匹配,具体包括:
将增强后的视频局部特征和增强后的文本局部特征进行细粒度相似度计算;
将文本条件的视频特征与文本全局特征进行粗粒度的相似度计算;
将两个粒度的相似度相加得出最终的视频文本相似度。
2.根据权利要求1所述的基于局部特征增强和模态交互的视频检索方法,其特征在于,所述根据输入的视频数据和文本数据,获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征,具体包括:
根据输入的视频数据,按固定速率对视频帧进行均匀取样,将取样的帧图像输入视频编码器中,获得编码后的帧图像特征;
根据输入的文本数据,使用KeyBert提取文本数据中的关键词,将提取的关键词数据输入到关键词编码器中,获得文本关键词特征;
根据输入的文本数据,使用文本编码器,获得文本分词特征和文本全局特征。
3.根据权利要求2所述的基于局部特征增强和模态交互的视频检索方法,其特征在于,所述文本编码器与所述关键词编码器具有相同的网络结构并且在训练过程中共享参数。
4.根据权利要求1所述的基于局部特征增强和模态交互的视频检索方法,其特征在于,所述将视频特征与时序化帧图像特征进行特征融合,实现视频局部特征增强,获得增强后的视频局部特征,具体包括:
将视频特征与时序化帧图像特征进行特征级联后,输入到长短期记忆网络中进行充分的融合交互,从而达到局部特征语义增强的目的,使之更好地适应视频检索任务;另一方面,采用自适应权重层来减少不相关内容对最终对齐的影响,所述自适应权重层由两个全连接层、自注意力层以及Sigmoid激活层构成;最终,使用预测的权重进行分配,获得增强后的视频局部特征。
5.根据权利要求1所述的基于局部特征增强和模态交互的视频检索方法,其特征在于,所述根据文本分词特征和文本关键词特征,进行特征融合,实现文本局部特征增强,获得增强后的文本局部特征,具体包括:
使用交叉注意力机制通过文本关键词特征的引导对文本分词特征进行局部特征增强:
we = CrossAtten(w·WK, w·WV , wk·WQ);
其中,w和wk分别为文本分词特征和文本关键词特征;WK、WV 以及WQ为对应的投影矩阵;CrossAtten()为交叉注意力机制;we为增强后的文本局部特征。
6.一种基于局部特征增强和模态交互的视频检索系统,其特征在于,所述系统用于实现权利要求1至5任意一项所述的基于局部特征增强和模态交互的视频检索方法,具体包括:
特征提取模块,用于根据输入的视频数据和文本数据,获得编码后的帧图像特征、文本全局特征、文本关键词特征以及文本分词特征;
视频局部特征增强模块,用于根据帧图像特征和时序编码器,对帧图像特征进行时序建模,得到时序化帧图像特征,并进行平均池化得到视频特征,将视频特征与时序化帧图像特征进行特征融合,实现视频局部特征增强,获得增强后的视频局部特征;
文本局部特征增强模块,用于根据文本分词特征和文本关键词特征,进行特征融合,实现文本局部特征增强,获得增强后的文本局部特征;
文本条件的视频特征生成模块,用于根据时序化帧图像特征和文本全局特征,进行跨模态的交互,生成文本条件的视频特征;
视频文本匹配模块,用于根据增强后的视频局部特征、增强后的文本局部特征、文本条件的视频特征以及文本全局特征,采用多粒度匹配的策略进行层次化的视频文本匹配。
7.一种电子设备,其特征在于,所述电子设备包括处理器、存储器和总线系统,所述处理器和存储器通过该总线系统相连,所述存储器用于存储指令,所述处理器用于执行存储器存储的指令,以实现权利要求1至5任意一项所述的基于局部特征增强和模态交互的视频检索方法。
8.一种计算机存储介质,其特征在于,所述计算机存储介质存储有计算机软件产品,所述计算机软件产品包括的若干指令,用以使得一台计算机设备执行权利要求1至5任意一项所述的基于局部特征增强和模态交互的视频检索方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410093675.9A CN117609553B (zh) | 2024-01-23 | 2024-01-23 | 基于局部特征增强和模态交互的视频检索方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410093675.9A CN117609553B (zh) | 2024-01-23 | 2024-01-23 | 基于局部特征增强和模态交互的视频检索方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117609553A CN117609553A (zh) | 2024-02-27 |
CN117609553B true CN117609553B (zh) | 2024-03-22 |
Family
ID=89950278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410093675.9A Active CN117609553B (zh) | 2024-01-23 | 2024-01-23 | 基于局部特征增强和模态交互的视频检索方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117609553B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112559835A (zh) * | 2021-02-23 | 2021-03-26 | 中国科学院自动化研究所 | 多模态情感识别方法 |
CN114064967A (zh) * | 2022-01-18 | 2022-02-18 | 之江实验室 | 多粒度级联交互网络的跨模态时序行为定位方法及装置 |
CN115223086A (zh) * | 2022-09-20 | 2022-10-21 | 之江实验室 | 基于交互注意力引导与修正的跨模态动作定位方法与系统 |
CN115661710A (zh) * | 2022-10-24 | 2023-01-31 | 江南大学 | 一种视频描述生成方法、装置及存储介质 |
CN116013299A (zh) * | 2022-11-10 | 2023-04-25 | 江南大学 | 一种局部语义指导的多特征融合视频文本生成方法 |
CN116385937A (zh) * | 2023-04-07 | 2023-07-04 | 哈尔滨理工大学 | 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 |
CN117370604A (zh) * | 2023-10-09 | 2024-01-09 | 中国民航大学 | 基于视频时空场景图融合推理的视频描述生成方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113159010B (zh) * | 2021-03-05 | 2022-07-22 | 北京百度网讯科技有限公司 | 视频分类方法、装置、设备和存储介质 |
-
2024
- 2024-01-23 CN CN202410093675.9A patent/CN117609553B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112559835A (zh) * | 2021-02-23 | 2021-03-26 | 中国科学院自动化研究所 | 多模态情感识别方法 |
CN114064967A (zh) * | 2022-01-18 | 2022-02-18 | 之江实验室 | 多粒度级联交互网络的跨模态时序行为定位方法及装置 |
CN115223086A (zh) * | 2022-09-20 | 2022-10-21 | 之江实验室 | 基于交互注意力引导与修正的跨模态动作定位方法与系统 |
CN115661710A (zh) * | 2022-10-24 | 2023-01-31 | 江南大学 | 一种视频描述生成方法、装置及存储介质 |
CN116013299A (zh) * | 2022-11-10 | 2023-04-25 | 江南大学 | 一种局部语义指导的多特征融合视频文本生成方法 |
CN116385937A (zh) * | 2023-04-07 | 2023-07-04 | 哈尔滨理工大学 | 一种基于多粒度的跨模态交互框架解决视频问答的方法及系统 |
CN117370604A (zh) * | 2023-10-09 | 2024-01-09 | 中国民航大学 | 基于视频时空场景图融合推理的视频描述生成方法及系统 |
Non-Patent Citations (2)
Title |
---|
图像的文本描述方法研究综述;马龙龙;韩先培;孙乐;;中文信息学报;20180415(第04期);全文 * |
基于特征融合网络的自然场景文本检测;余峥;王晴晴;吕岳;;计算机系统应用;20181015(第10期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117609553A (zh) | 2024-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111309971B (zh) | 一种基于多级编码的文本到视频的跨模态检索方法 | |
CN111914085B (zh) | 文本细粒度情感分类方法、系统、装置及存储介质 | |
WO2021037113A1 (zh) | 一种图像描述的方法及装置、计算设备和存储介质 | |
CN111916067A (zh) | 语音识别模型的训练方法、装置、电子设备及存储介质 | |
CN107391646A (zh) | 一种视频图像的语义信息提取方法及装置 | |
EP4372616A1 (en) | System and method for batch-normalized recurrent highway networks | |
CN112214604A (zh) | 文本分类模型的训练方法、文本分类方法、装置及设备 | |
CN112528637B (zh) | 文本处理模型训练方法、装置、计算机设备和存储介质 | |
CN109145974B (zh) | 一种基于图文匹配的多层次图像特征融合方法 | |
CN112348111B (zh) | 视频中的多模态特征融合方法、装置、电子设备及介质 | |
US10334202B1 (en) | Ambient audio generation based on visual information | |
CN114820871B (zh) | 字体生成方法、模型的训练方法、装置、设备和介质 | |
CN110569359A (zh) | 识别模型的训练及应用方法、装置、计算设备及存储介质 | |
US11967150B2 (en) | Parallel video processing systems | |
CN111611805B (zh) | 一种基于图像的辅助写作方法、装置、介质及设备 | |
CN110717421A (zh) | 一种基于生成对抗网络的视频内容理解方法及装置 | |
CN113761868A (zh) | 文本处理方法、装置、电子设备及可读存储介质 | |
CN116309890A (zh) | 模型生成方法、风格化图像生成方法、装置及电子设备 | |
CN114359775A (zh) | 关键帧检测方法、装置、设备及存储介质、程序产品 | |
CN113408282A (zh) | 主题模型训练和主题预测方法、装置、设备及存储介质 | |
CN115292439A (zh) | 一种数据处理方法及相关设备 | |
CN117544833A (zh) | 用于生成视频的方法、装置、设备和介质 | |
CN117609553B (zh) | 基于局部特征增强和模态交互的视频检索方法及系统 | |
CN114598926B (zh) | 一种视频生成方法、装置、电子设备及存储介质 | |
CN116975347A (zh) | 图像生成模型训练方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |