CN116883886B - 一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置 - Google Patents
一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置 Download PDFInfo
- Publication number
- CN116883886B CN116883886B CN202310598246.2A CN202310598246A CN116883886B CN 116883886 B CN116883886 B CN 116883886B CN 202310598246 A CN202310598246 A CN 202310598246A CN 116883886 B CN116883886 B CN 116883886B
- Authority
- CN
- China
- Prior art keywords
- video
- features
- time sequence
- text
- semantic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 230000006870 function Effects 0.000 claims description 37
- 239000012634 fragment Substances 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 6
- 238000000605 extraction Methods 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 5
- 230000003993 interaction Effects 0.000 claims description 5
- 230000004807 localization Effects 0.000 claims description 5
- 230000002123 temporal effect Effects 0.000 claims description 3
- 238000002372 labelling Methods 0.000 abstract description 6
- 230000014509 gene expression Effects 0.000 description 21
- 230000000007 visual effect Effects 0.000 description 12
- 238000012549 training Methods 0.000 description 7
- 238000012360 testing method Methods 0.000 description 6
- 238000013459 approach Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000875 corresponding effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000011524 similarity measure Methods 0.000 description 1
- 239000002356 single layer Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明涉及一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置。该方法包括:提取初始的视频特征和初始的文本特征,分别输入自注意力模块以提取自注意力特征;通过互注意力模块提取跨模态语义特征,并利用时序提案生成网络对跨模态语义特征进行高斯建模,得到候选时序片段掩码、背景片段掩码与整个视频的掩码,并分别与初始的视频特征结合,生成前景、背景与整个视频的三种视频特征,然后通过跨模态关联去噪模块得到的鲁棒视频特征表示,并进行文本语义重建与双级对比学习;利用高斯建模参数对目标视频片段进行时序语言定位。本发明能够解决由于弱监督标注的主观性和模糊性造成的跨模态学习的语义鸿沟与关联噪声问题。
Description
技术领域
本发明属于跨模态理解领域,涉及时序语言定位技术,具体涉及一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置。
背景技术
随着计算、通信和存储技术的发展,基于深度学习的计算机视觉技术取得了长足的进步。现代智能移动设备的普及,使得视频逐渐成为人们日常生活工作中的重要信息媒介。海量的视频数据在承载和传递信息的同时,也增加了人们处理数据的难度和安全隐患,如何有效的对视频数据进行检测和检索成为研究者们的热议话题。然而,现实生活中的视频数据大多长短不一、内容复杂,这给人工标注长视频的方式带来了高昂的时间成本和训练难度。在互联网等平台上,文本数据和其他媒体数据通常是成对出现的,比如图片和相应的描述,视频及相关的人物对话,这使得成对的图像/视频-文本数据采集变得容易。因此,基于视频-文本匹配对的弱监督学习视频内容建模方法被广泛引入到视频内容分析与检测任务中,以减少海量视频标注的负担。弱监督时序语言定位任务致力于检测长视频中和自然语言查询语句相关的目标视频片段,即定位最符合语言描述片段的起止时刻。对于时序语言定位的任务的应用,可以具体到智能视频监控、媒体内容创作、体育赛事分析等场景上。
在研究方法上,弱监督时序语言定位可分为基于多示例学习的方法与基于重建的方法。基于多示例学习的方法将长视频视为具有视频级别注释的多示例的集合,通常以三元组损失函数来预测目标视频片段的时间边边界。然而,这种基于多示例学习的方法严重依赖于随机选择的负样本质量,无法为模型提供足够强的监督信号来进一步改善时序语言定位结果。另一种常用的基于重建的方法旨在能够重建给定语言查询的信息,并将中间结果用于预测视频片段的边界。这一思想最早被引入到弱监督的密集时间描述任务中,并将时间描述和片段生成视为一对对偶任务。近期,基于重建的弱监督时序语言定位任务,由于可以生成高质量的语义内容时序提案,极大提升了时序检测的性能。然而,由于语言标注的模糊性和不准确性,往往使得模型具有跨模态的关联噪声,并且忽视了对视频内部和视频间的语义关系学习,这限制了模型精度的进一步提升。本发明提出的基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法依托于基于重建的方法,并改进了上述两类问题,使得模型能够提高时序特征的表征能力,进而提高定位的准确性。
发明内容
本发明的目的在于针对弱监督学习条件下的一般性问题,提供一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置,旨在解决由于弱监督标注的主观性和模糊性造成的跨模态学习的语义鸿沟与关联噪声问题。具体地,利用双级对比学习策略鼓励模型学习更具判别力的视觉特征表示,并且通过增强视觉特征与时序伪标签的互信息,使用噪声鲁棒损失函数避免模型过于关注伪标签中的错误标注。在这个过程中,仅仅利用视觉-文本匹配对级的标注信息进行模型学习,不使用长视频的时序标签,使用弱监督学习提高在自然语言文本条件下的时序片段定位能力。
实现本发明的思路是,首先利用两种特定的预训练神经网络分别提取视频和语言模态的语义特征,例如利用C3D网络提取长视频的RGB特征、利用Glove模型提取自然语言的文本特征。然后对于每一种模态特征,输入到自注意力模块中,分别得到视频和文本的语义特征表达。紧接着,将这两种特征表达输入到互注意力模块并进行融合的跨模态特征表达。紧接着,将这种融合的特征表达输入到时序提案生成网络来构建基于高斯建模的候选时序片段掩码,并与视频特征结合进一步得到前景、背景与整个视频的特征表达。随后,本发明将获得的视频特征与文本特征一起输入到跨模态关联去噪模块进行视觉特征与时序伪标签的关联去噪,得到鲁棒的视频特征表达。本发明将上述鲁棒特征表达与文本特征表达一起输入到语义文本重建网络,进行文本语义重建和双级对比学习。另一方面,在测试时使用高斯建模生成的模型参数进行时序语言定位,预测准确的视频片段起止位置。
本发明采用的技术方案如下:
一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法,包括以下步骤:
提取视频数据集(长视频)的特征和文本数据集的特征,得到初始的视频特征和初始的文本特征;
将初始的视频特征和初始的文本特征分别输入到自注意力模块,提取具有语义信息的自注意力特征,然后将两种模态的自注意力特征输入到互注意力模块,进行跨模态语义特征交互,即提取跨模态语义特征;
将跨模态语义特征输入到时序提案生成网络,对跨模态语义特征进行高斯建模,得到与文本查询相关的候选时序片段掩码、与文本查询无关的背景片段掩码与整个视频的掩码;
将候选时序片段掩码、背景片段掩码和整个视频的掩码分别与初始的视频特征结合,生成前景、背景与整个视频的三种视频特征,并将三种视频特征与初始的文本特征一起输入到跨模态关联去噪模块,得到对噪声鲁棒的特征表示,即鲁棒视频特征表示;
将每一种鲁棒视频特征表示,与初始的文本特征一起输入到语义文本重建网络,进行文本语义重建与双级对比学习;
利用时序提案生成网络的高斯建模参数,对目标视频片段进行时序语言定位,得到其起止位置。
进一步地,所述初始的视频特征包括RGB特征。
进一步地,所述初始的视频特征采用C3D网络提取。
进一步地,所述初始的文本特征采用Glove网络提取。
进一步地,所述互注意力模块为基于Transformer网络的互注意力模块。
进一步地,所述时序提案生成网络为两级结构的Transformer模型。
进一步地,所述时序提案生成网络构建的候选时序片段掩码由高斯建模得到:
其中,Gc和Gw为跨模态融合得到的两组特征,通过两个单层全连接网络得到;N为视频帧的个数;为第i个视频片段是前景的概率,α为控制高斯建模函数变化的超参数。
进一步地,基于可以得到候选时序片段掩码mp,进一步可以获得背景片段掩码与整个视频的掩码表达,分别表示为:
其中,me和mh分别为背景片段掩码与整个视频的掩码表达。
进一步地,所述跨模态关联去噪模块所使用的损失函数为基于伪行列式的互信息损失函数,设计如下:
其中R为预测概率与时序标签的联合分布,det(·)为求矩阵行列式函数,为期望函数。
进一步地,所述语义文本重建网络为与所述时序提案生成网络参数共享的Transformer结构的网络。
进一步地,所述语义文本重建网络采用的语义文本重建损失为对每个单词的交叉熵损失。
进一步地,所述双级对比学习为视频内对比学习与视频间对比学习。
进一步地,所述视频内对比学习的损失函数为Margin Ranking损失。
进一步地,所述视频间对比学习的损失函数包含两个正样本对产生的损失函数和一个负样本对产生的损失函数,其中两个正样本对为不同视频的前景特征与前景特征、背景特征与背景特征,负样本对为不同视频的前景特征与背景特征,正样本对的损失函数表示为待选样本间相似度的加权负log函数求和,负样本对的损失函数表示为待选样本间相似度的log变体函数求和。
进一步地,所述视频间对比学习的损失函数表示如下:
其中,为两个正样本对(gi,gj),(bi,bj)产生的损失函数,分别表示为:
其中,(fi,fj)为第i个视频的前景特征与第j个视频的前景特征组成的正样本对,(bi,bj)第i个视频的背景特征与第j个视频的背景特征组成的正样本对,其中前景特征是指与文本查询相关的候选时序片段特征,背景特征是指与文本查询无关的背景片段特征,由mp和me分别与视觉特征矩阵进行点积得到;为指示函数,sim(i,j)为cosine相似度度量,n为一个批量内视频的数目,/>为前景i与前景j相似度的负指数幂,/>为背景i与背景j相似度的负指数幂;另外,/>为负样本对产生的损失函数,表示为:
其中,(fi,bj)为第i个视频的前景特征与第j个视频的背景特征组成的负样本对。
一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位装置,包括:
特征提取模块,用于对长视频和文本数据集进行特征提取;
自注意力模块,用于对特征提取模块得到的两个模态特征进行自注意力特征的提取,得到更加紧致的特征表达;
互跨注意力模块,用于对两个模态的自注意力特征进行融合交互,得到融合的多模态表征,即跨模态语义特征;
时序提案生成模块,用于利用时序提案生成网络对得到跨模态语义特征进行高斯建模,得到候选时序片段掩码、背景片段掩码与整个视频的掩码表示;
跨模态关联去噪模块,用于对两个模态的关联噪声进行去噪学习,得到更鲁棒的多模态融合表征,即得到鲁棒视频特征表示;
语义文本重建模块,用于对鲁棒视频特征表示与初始的文本特征进行文本语义重建与双级对比学习,即该模块对初始文本特征进行语义重建,得到对语言文本每个单词重建的概率,并进一步利用双级对比学习策略得到更具有判别力的视觉特征表示;
时序语言定位模块,用于根据高斯建模得到的模型参数,对目标视频片段进行时序语言定位,得到其起止位置,即该模块预测每个视频语义相关片段的中心位置与持续时间,进而得到与语言查询相关的视频片段发生的时间间隔,即得到起止位置,提升时序语言定位的平均精度。
利用本发明的方法可以根据语言文本查询在一个长视频中找到最符合语句描述的目标视频片段,与现有技术相比具有以下优点:
1、本发明提出一种基于双级对比学习策略的方法,从而获得跨模态学习中更具有判别力的视觉特征,并以此来辅助视频片段定位,提升视频片段检索的泛化性;
2、本发明使用跨模态关联去噪模块学习鲁棒的跨模态特征表示,减少弱监督学习机制下普遍发生的虚假激活问题,进一步提升模型的定位精度;
3、本发明使用弱监督学习机制学习模型,仅仅使用视频级别的标签进行训练,不使用时序的标签,大大降低了计算复杂度以及时序标注的时间。
附图说明
图1是利用本发明方法进行视频时序语言定位的流程图。其中“数据预处理”是指对视频数据集的视频帧进行统一裁剪操作(比如进行center cropped操作,统一裁剪成224×224的大小),对文本数据集中的每个语言文本进行分词处理。图1中的实线为训练与测试均要用到的模块,短虚线为训练阶段用到的额外模块,长虚线为测试阶段用到的额外模块。
具体实施方式
下面通过具体实施实例和附图,对本发明做进一步详细说明。
本发明提供的基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法,适用于对长视频进行时序语言定位,该方法的流程如图1所示,其主要步骤包括:首先对视频和文本进行数据预处理,对视频提取RGB帧,对文本进行分词处理,然后分别对视频和文本提取特征,得到RGB特征和文本特征。紧接着,将这两种特征分别输入到各自的自注意力模块中,分别得到视频和文本的语义特征表达。随后,采用互注意力模块对两种模态进行融合,之后将融合的隐变量特征输入到时序提案生成网络构建基于高斯的候选时序片段掩码、背景片段掩码和整个视频的掩码,进而与原始长视频特征结合生成前景、背景与整个视频的特征表达,并结合初始的文本特征输入到跨模态关联去噪模块获得鲁棒的视频特征表示。随后,将产生的三种视频特征表达与文本特征表达一起输入到语义文本重建网络,进行文本语义重建与双级对比学习。另一方面,在测试时使用高斯建模生成的模型参数进行时序语言定位,预测准确的视频片段起止位置。
本发明方法分为训练和测试两部分:在训练阶段,训练自注意力模块、互注意力模块,时序提案生成网络、跨模态关联去噪模块和一个语义文本重建网络;在测试阶段,只需要经过自注意力模块、互注意力模块、时序提案生成网络和时序语言定位模块,就可以得到视频片段的中心值和持续时间,并由此计算出与查询语义相关的视频片段位置。
实施例1:
本实施例提供一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法,以Charades-STA数据集为例,该方法的步骤包括:
1)首先使用C3D提取长视频数据集的RGB特征,使用Glove模型提取文本数据集的特征;
2)将1)提取的RGB视觉特征和文本特征分别输入到自注意力模块,提取紧致的自注意力特征表达;
3)将2)得到的紧致特征表达输入到互注意力模块进行语义交互,得到融合的跨模态特征;
4)将3)到的跨模态特征表达输入到时序提案生成网络,基于高斯建模生成时序片段的视觉掩码表示,并进一步可以获得背景与整个视频的视觉掩码表达;
5)将4)得到的每一种视觉掩码表征,与1)中的RGB视觉特征表达进行点乘获得前景、背景与整个视频的的特征表征,并与文本特征一起输入到跨模态关联去噪模块得到对噪声鲁棒的视觉特征;
6)将5)得到的鲁棒特征表达,与文本特征表达一起输入到语义文本重建网络,进行文本语义重建与双级对比学习;
7)基于4)中得到的高斯建模参数,可以得到目标视频片段的中心位置和目标视频片段发生的时间长度,得到预测视频片段起止位置。
8)为了评估本发明方法的的效果,分别计算本发明与现有技术的时序语言定位评估,R@n,IoU=m表示的是在返回的前n个结果中,交并比指标(IoU)大于m(∈(0,1])的结果占总体n个返回结果的比例,评估指标的数值越大代表方法的性能越好。得到的时序语言定位的结果如表1所示:
表1.在Charades-STA数据集上的比较表
方法 | R@1,IoU=0.3 | R@1,IoU=0.5 | R@1,IoU=0.7 |
SCN | 42.46 | 23.58 | 9.97 |
CNM | 60.39 | 35.43 | 15.45 |
本发明方法 | 63.96 | 37.14 | 16.05 |
表1中,SCN和CNM是对比的方法,这两个方法都是基于重建的弱监督方法。因此可以用本发明的方法进行对比。
根据表1的结果,分别体现了本发明的方法能显著提升视频的时序语言定位结果。
实施例2:
本实施例提供一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位装置,该装置包括:
特征提取模块,用于对视频数据集和文本数据集进行特征提取,得到初始的视频特征和初始的文本特征;
自注意力模块,用于对特征提取模块得到的两个模态的特征进行自注意力特征的提取;
互跨注意力模块,用于对两个模态的自注意力特征进行融合交互,得到跨模态语义特征;
时序提案生成模块,用于对得到跨模态语义特征进行高斯建模,得到候选时序片段掩码、背景片段掩码与整个视频的掩码;
跨模态关联去噪模块,用于对两个模态的关联噪声进行去噪学习,得到鲁棒视频特征表示;
语义文本重建模块,用于对鲁棒视频特征表示与初始的文本特征进行文本语义重建与双级对比学习;
时序语言定位模块,用于利用时序提案生成模块的高斯建模参数,对目标视频片段进行时序语言定位,得到其起止位置。
其中各模块的具体实施过程参见前文对本发明方法的描述。
本发明的另一实施例提供一种计算机设备(计算机、服务器、智能手机等),其包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行本发明方法中各步骤的指令。
本发明的另一实施例提供一种计算机可读存储介质(如ROM/RAM、磁盘、光盘),所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现本发明方法的各个步骤。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。
Claims (9)
1.一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法,其特征在于,包括以下步骤:
提取视频数据集的特征和文本数据集的特征,得到初始的视频特征和初始的文本特征;
将初始的视频特征和初始的文本特征分别输入自注意力模块,提取具有语义信息的自注意力特征,并将自注意力特征输入互注意力模块以提取跨模态语义特征;
利用时序提案生成网络对跨模态语义特征进行高斯建模,得到与文本查询相关的候选时序片段掩码、与文本查询无关的背景片段掩码与整个视频的掩码;
将候选时序片段掩码、背景片段掩码和整个视频的掩码分别与初始的视频特征结合,生成前景、背景与整个视频的三种视频特征,并将三种视频特征与初始的文本特征一起输入到跨模态关联去噪模块,得到鲁棒视频特征表示;
将鲁棒视频特征表示与初始的文本特征一起输入到语义文本重建网络,进行文本语义重建与双级对比学习;
利用时序提案生成网络的高斯建模参数,对目标视频片段进行时序语言定位,得到其起止位置;
所述文本语义重建与双级对比学习,包括:
所述语义文本重建网络采用的语义文本重建损失为对每个单词的交叉熵损失;
所述双级对比学习包括视频内对比学习与视频间对比学习;
所述视频内对比学习的损失函数为Margin Ranking损失;
所述视频间对比学习的损失函数包含两个正样本对产生的损失函数和一个负样本对产生的损失函数,其中两个正样本对为不同视频的前景特征与前景特征、背景特征与背景特征,负样本对为不同视频的前景特征与背景特征,正样本对的损失函数表示为待选样本间相似度的加权负log函数求和,负样本对的损失函数表示为待选样本间相似度的log变体函数求和。
2.根据权利要求1所述的方法,其特征在于,所述初始的视频特征包括RGB特征;所述初始的视频特征采用C3D网络提取;所述初始的文本特征采用Glove网络提取。
3.根据权利要求1所述的方法,其特征在于,所述互注意力模块为基于Transformer网络的互注意力模块;所述时序提案生成网络为两级结构的Transformer模型;所述语义文本重建网络为与所述时序提案生成网络参数共享的Transformer结构的网络。
4.根据权利要求1所述的方法,其特征在于,所述候选时序片段掩码、背景片段掩码和整个视频的掩码采用以下步骤得到:
利用高斯建模得到候选时序片段掩码mp;
利用候选时序片段掩码mp,获得背景片段掩码与整个视频的掩码,分别表示为:
其中,me和mh分别为背景片段掩码与整个视频的掩码。
5.根据权利要求1所述的方法,其特征在于,所述跨模态关联去噪模块使用的损失函数为基于伪行列式的互信息损失函数。
6.根据权利要求1所述的方法,其特征在于,所述对目标视频片段进行时序语言定位,是预测每个视频语义相关片段的中心位置与持续时间,进而得到与语言查询相关的视频片段的起止位置。
7.一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位装置,其特征在于,包括:
特征提取模块,用于对视频数据集和文本数据集进行特征提取,得到初始的视频特征和初始的文本特征;
自注意力模块,用于对特征提取模块得到的两个模态的特征进行自注意力特征的提取;
互跨注意力模块,用于对两个模态的自注意力特征进行融合交互,得到跨模态语义特征;
时序提案生成模块,用于利用时序提案生成网络对得到跨模态语义特征进行高斯建模,得到候选时序片段掩码、背景片段掩码与整个视频的掩码;
跨模态关联去噪模块,用于对两个模态的关联噪声进行去噪学习,得到鲁棒视频特征表示;
语义文本重建模块,用于对鲁棒视频特征表示与初始的文本特征进行文本语义重建与双级对比学习;
时序语言定位模块,用于利用时序提案生成模块的高斯建模参数,对目标视频片段进行时序语言定位,得到其起止位置;
所述文本语义重建与双级对比学习,包括:
所述语义文本重建网络采用的语义文本重建损失为对每个单词的交叉熵损失;
所述双级对比学习包括视频内对比学习与视频间对比学习;
所述视频内对比学习的损失函数为Margin Ranking损失;
所述视频间对比学习的损失函数包含两个正样本对产生的损失函数和一个负样本对产生的损失函数,其中两个正样本对为不同视频的前景特征与前景特征、背景特征与背景特征,负样本对为不同视频的前景特征与背景特征,正样本对的损失函数表示为待选样本间相似度的加权负log函数求和,负样本对的损失函数表示为待选样本间相似度的log变体函数求和。
8.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~6中任一项所述方法的指令。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310598246.2A CN116883886B (zh) | 2023-05-25 | 2023-05-25 | 一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310598246.2A CN116883886B (zh) | 2023-05-25 | 2023-05-25 | 一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116883886A CN116883886A (zh) | 2023-10-13 |
CN116883886B true CN116883886B (zh) | 2024-05-28 |
Family
ID=88263180
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310598246.2A Active CN116883886B (zh) | 2023-05-25 | 2023-05-25 | 一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116883886B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113779361A (zh) * | 2021-08-27 | 2021-12-10 | 华中科技大学 | 基于多层注意力机制的跨模态检索模型的构建方法及应用 |
CN113792594A (zh) * | 2021-08-10 | 2021-12-14 | 南京大学 | 一种基于对比学习的视频中语言片段定位方法及装置 |
CN114639377A (zh) * | 2022-03-23 | 2022-06-17 | 中南大学 | 一种综合性教学视频语音提取文本方法 |
CN115223086A (zh) * | 2022-09-20 | 2022-10-21 | 之江实验室 | 基于交互注意力引导与修正的跨模态动作定位方法与系统 |
CN115391511A (zh) * | 2022-08-29 | 2022-11-25 | 京东方科技集团股份有限公司 | 视频问答方法、装置、系统及存储介质 |
CN115471771A (zh) * | 2022-08-31 | 2022-12-13 | 浙江大学 | 一种基于语义级时序关联建模的视频时序动作定位方法 |
WO2023004206A1 (en) * | 2021-08-04 | 2023-01-26 | Innopeak Technology, Inc. | Unsupervised hashing method for cross-modal video-text retrieval with clip |
CN115809352A (zh) * | 2022-12-09 | 2023-03-17 | 上海交通大学 | 局部监督长视频时序文本检索方法及系统 |
CN116089654A (zh) * | 2023-04-07 | 2023-05-09 | 杭州东上智能科技有限公司 | 一种基于音频监督的可转移视听文本生成方法和系统 |
-
2023
- 2023-05-25 CN CN202310598246.2A patent/CN116883886B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023004206A1 (en) * | 2021-08-04 | 2023-01-26 | Innopeak Technology, Inc. | Unsupervised hashing method for cross-modal video-text retrieval with clip |
CN113792594A (zh) * | 2021-08-10 | 2021-12-14 | 南京大学 | 一种基于对比学习的视频中语言片段定位方法及装置 |
CN113779361A (zh) * | 2021-08-27 | 2021-12-10 | 华中科技大学 | 基于多层注意力机制的跨模态检索模型的构建方法及应用 |
CN114639377A (zh) * | 2022-03-23 | 2022-06-17 | 中南大学 | 一种综合性教学视频语音提取文本方法 |
CN115391511A (zh) * | 2022-08-29 | 2022-11-25 | 京东方科技集团股份有限公司 | 视频问答方法、装置、系统及存储介质 |
CN115471771A (zh) * | 2022-08-31 | 2022-12-13 | 浙江大学 | 一种基于语义级时序关联建模的视频时序动作定位方法 |
CN115223086A (zh) * | 2022-09-20 | 2022-10-21 | 之江实验室 | 基于交互注意力引导与修正的跨模态动作定位方法与系统 |
CN115809352A (zh) * | 2022-12-09 | 2023-03-17 | 上海交通大学 | 局部监督长视频时序文本检索方法及系统 |
CN116089654A (zh) * | 2023-04-07 | 2023-05-09 | 杭州东上智能科技有限公司 | 一种基于音频监督的可转移视听文本生成方法和系统 |
Non-Patent Citations (5)
Title |
---|
Explainable Semantic Space by Grounding Language to Vision with Cross-Modal Contrastive Learning;Zhang, Yizhen等;《 ADVANCES IN NEURAL INFORMATION PROCESSING SYSTEMS 34 (NEURIPS 2021)》;20210101;第34卷;全文 * |
Self-supervised Visual Feature Learning and Classification Framework: Based on Contrastive Learning;Zhang, Xiaoyu等;《IEEE》;20210620;全文 * |
基于结构保持对抗网络的跨模态实体分辨;吕国俊;曹建军;郑奇斌;常宸;翁年凤;;南京大学学报(自然科学);20200330(第02期);全文 * |
视觉目标检测关键技术研究;邱荷茜;《中国优秀博士学位论文全文数据库(信息科技辑)》;20230415(第4期);全文 * |
面向跨媒体检索的层级循环注意力网络模型;綦金玮;彭宇新;袁玉鑫;;中国图象图形学报;20181116(第11期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN116883886A (zh) | 2023-10-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111241232B (zh) | 业务服务的处理方法、装置、服务平台及存储介质 | |
CN111462752A (zh) | 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法 | |
CN116561592B (zh) | 文本情感识别模型的训练方法和文本情感识别方法及装置 | |
Xiao et al. | An extended attention mechanism for scene text recognition | |
CN112926340A (zh) | 一种用于知识点定位的语义匹配模型 | |
CN116226347A (zh) | 一种基于多模态数据的细粒度视频情绪内容问答方法和系统 | |
Barbhuiya et al. | Gesture recognition from RGB images using convolutional neural network‐attention based system | |
Mishra et al. | Multimodal machine learning for extraction of theorems and proofs in the scientific literature | |
CN117520815A (zh) | 基于多模态的信息抽取方法、装置、设备及存储介质 | |
Bacharidis et al. | Improving deep learning approaches for human activity recognition based on natural language processing of action labels | |
CN116883886B (zh) | 一种基于双级对比学习与噪声鲁棒的弱监督时序语言定位方法和装置 | |
CN116976341A (zh) | 实体识别方法、装置、电子设备、存储介质及程序产品 | |
CN114842301A (zh) | 一种图像注释模型的半监督训练方法 | |
CN112348102B (zh) | 一种基于查询的自底向上视频定位方法和系统 | |
CN112035670B (zh) | 基于图像情感倾向的多模态谣言检测方法 | |
US11270155B2 (en) | Duplicate image detection based on image content | |
CN114548325A (zh) | 基于对偶对比学习的零样本关系抽取方法和系统 | |
CN111782762A (zh) | 问答应用中相似问题确定方法、装置、电子设备 | |
Wang et al. | Improvement of continuous emotion recognition of temporal convolutional networks with incomplete labels | |
Wang et al. | Mitigating the Impact of False Negative in Dense Retrieval with Contrastive Confidence Regularization | |
Sun et al. | Sec2Sec Co-Attention Transformer for Video-Based Apparent Affective Prediction | |
Liu et al. | Multimodal dependence attention and large-scale data based offline handwritten formula recognition | |
Tao et al. | Double Branch Lightweight Finger Vein Recognition based on Diffusion Model. | |
CN118228090B (zh) | 基于深度学习的数据库报警多模态关系提取方法 | |
CN115757774B (zh) | 行业领域识别方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |