CN114155477B - 一种基于平均教师模型的半监督视频段落定位方法 - Google Patents
一种基于平均教师模型的半监督视频段落定位方法 Download PDFInfo
- Publication number
- CN114155477B CN114155477B CN202210116942.0A CN202210116942A CN114155477B CN 114155477 B CN114155477 B CN 114155477B CN 202210116942 A CN202210116942 A CN 202210116942A CN 114155477 B CN114155477 B CN 114155477B
- Authority
- CN
- China
- Prior art keywords
- video
- model
- text
- data
- loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 40
- 230000006870 function Effects 0.000 claims description 23
- 238000012549 training Methods 0.000 claims description 20
- 230000004927 fusion Effects 0.000 claims description 13
- 230000000694 effects Effects 0.000 claims description 12
- 238000012795 verification Methods 0.000 claims description 8
- 108091006146 Channels Proteins 0.000 claims description 6
- 230000004807 localization Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000013527 convolutional neural network Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013210 evaluation model Methods 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000002372 labelling Methods 0.000 claims 1
- 238000012546 transfer Methods 0.000 claims 1
- 230000008901 benefit Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 239000012634 fragment Substances 0.000 description 3
- 238000013508 migration Methods 0.000 description 3
- 230000005012 migration Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 235000021538 Chard Nutrition 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于平均教师模型的半监督视频段落定位方法,涉及多模态视频理解中的跨模态内容检索领域,解决现有视频段落定位的技术问题,通过结合对比学习和段落级别的上下文建模,本发明较好地实现了视频‑文本的粗粒度模态对齐和多事件的上下文建模,同时利用平均教师模型,实现了半监督条件下的视频段落定位,有效降低了对标注数据的依赖;本发明可用于各种多模态视频理解场合,如网络视频APP、智慧安防系统、大规模视频内容检索等,可改善用户软件使用体验,提高视频、安防、社会治理等相关领域工作人员的工作效率。
Description
技术领域
本发明涉及多模态视频理解中的跨模态内容检索领域,具体涉及一种基于平均教师模型的半监督视频段落定位方法。
背景技术
随着近年来互联网的快速发展,多媒体数据呈指数级增长,使得许多多模态技术应用向前迈进了一大步。在这一趋势的推动下,学术界和工业界都对多模态视频理解提出了新的需求,这在过去十年中吸引了大量的研究人员。时序语言定位是多模态视频理解中最具挑战性的任务之一,其旨在根据给定的查询文本信息,从未经裁剪过的长视频中进行细粒度的视频片段检索,给出查询语句描述的事件在视频中的时间戳。此项技术存在较广泛的运用场景:通过在智能安防、大数据管理、多媒体信息分析和人机交互等领域部署时序语言定位技术,可以有效改善用户使用体验,提高工作效率。例如,在大媒体时代的社会治理环境下,基于时序语言定位技术,我们可以实现细粒度的跨模态视频内容检索,提高现有安防的智能水平,把人力从繁琐的视频审核和查找中解放出来。
传统的时序语言定位方法,大都专注于视频句子定位,即给定一个未经裁剪的长视频,其由多个事件组成,根据一个仅描述单个事件的句子从该视频中检索出目标片段,以“一对多”的方式完成片段定位。这种方法存在着较多的局限性:第一,它仅利用视频进行事件级别的上下文建模,而忽略了文本模态的上下文建模,造成模型对视频内容理解的不充分;第二,面对反复出现的相同或相近事件,事件级别的文本上下文缺失会造成事件片段的错误检索。针对以上问题,人们提出了视频段落定位方法。其以“多对多”的方式来处理时序语言定位任务。具体来说,在视频段落定位任务中,视频模态的输入不发生改变,但给定的描述是包含多个事件描述的多句段落而不是单个句子。与单个句子的查询输入相比,按时间顺序排列的多个句子组成的段落包含更多的时间信息,因此蕴含更多的时间信息,有利于模态的对齐,同时带来了更多的事件级别的上下文信息。
现有的视频段落定位方法都先为段落中的每个句子生成候选提议框,然后结合各自的句子挖掘提议框之间的时序联系与上下文关系,以求出每个句子描述的片段所在位置。然而,现存的方法存在三个问题。首先,现有方法依赖于文本段落带来的时间信息,而从文本模态的角度没能地利用上下文信息。第二,对于段落输入,现有方法只关注候选框与句子之间的匹配而忽略了视频与段落之间的匹配,这可能导致跨模态融合的错位。第三,与单句标注相比,段落级别的标注数据更昂贵且难以生成,现有技术需要使用时间标记数据进行训练,这给这项任务带来了沉重的成本。
发明内容
本发明的目的在于:为了解决现有视频段落定位的技术问题,本发明提供了一种基于平均教师模型的半监督视频段落定位方法。通过结合对比学习和段落级别的上下文建模,本发明较好地实现了视频-文本的粗粒度模态对齐和多事件的上下文建模,同时利用平均教师模型,实现了半监督条件下的视频段落定位,有效降低了对标注数据的依赖。
本发明采用的技术方案如下:
一种基于平均教师模型的半监督视频段落定位方法,包括以下步骤:
步骤1:选择训练数据集;将数据集划分为标注数据和未标注数据;
步骤2:加载预训练的3D卷积神经网络的模型参数,对步骤1中的数据集提取原始视频特征;
步骤3:对于步骤1中数据集、给定自然语言查询段落Q,其具有l S个句子,具有l W个单词;使用GloVe编码,将各个单词表示为维度为300的词向量、作为查询文本编码;
步骤4:提取一组或多组原始视频特征和查询文本编码、作为原始数据输入到教师模型;复制提取的提取一组或多组原始视频特征和查询文本编码,并使用多模态数据扰动模块向复制的原始视频特征和查询文本编码、分别引入噪声,作为扰动数据再输入到学生模型;
所述学生模型和教师模型的结构完全一致,包含一个多层Transformer的编码器和多层Transformer的解码器;
其首先使用双向门控循环单元BiGRU对输入的查询文本编码进行处理,得到句子级文本特征和单词级文本特征,之后使用编码器对原始视频特征和单词级文本特征进行融合得到多模态融合特征,接着将句子级文本特征和编码器得到的多模态融合特征输入到解码器中,预测出查询段落中每个句子所描述事件在视频中的归一化位置;
步骤5:学生模型和教师模型根据输入的扰动数据、原始数据,分别预测段落中描述的多个视频片段在给定视频中的归一化位置;预测完成后,同时启动相互独立的步骤6、步骤7和步骤8;
步骤6:根据教师模型和学生模型的输出,计算一致性损失;
步骤7:根据学生模型中对比编码器的输出,计算视频-文本的比较损失;
步骤8:根据学生模型的最终输出,计算监督信息损失;
步骤9:步骤6、步骤7和步骤8计算完成后,将一致性损失、对比损失、监督损失进行加权求和,作为最终的训练目标,提供训练准则;
步骤10:采用Adam优化器,并使用恒定学习率策略对模型进行训练学生模型;教师模型由学生模型使用指数滑动平均策略进行更新。
本发明所述教师模型及学生模型解释如下:
教师模型是一个具有强学习能力的神经网络模型,承担着学习强分辨、高鲁棒的辅助模型的任务;学生模型是不同于教师模型的另一个神经网络模型,其需要从带噪声的多模态数据学习出最终参与实际预测的最终模型,同时向教师模型学习,完成知识迁移的过程,提升模型的泛化能力。在实际部署阶段,教师模型不参与预测,仅使用学生模型作为最终部署模型。在模型结构上,本发明中所述学生模型和教师模型的结构设计完全一致,包含一个多层Transformer的编码器和多层Transformer的解码器;学生模型采用Adam优化器进行优化,教师模型基于学生模型,采用指数移动平均法优化; 学生模型和教师模型之间计算一致性损失函数以促使学生模型向教师模型学习。
作为一种优选的技术方案,还包括验证方式:
步骤11:使用训练完成的基于平均教师模型的半监督视频段落定位模型中的学生模型作为测评模型,对视频和段落文本对进行视频多片段检索,以验证模型效果。
作为一种优选的技术方案,所述步骤4更详细地包括,
假设经3D卷积网络提取后的原始视频特征FV,GloVe编码后的查询文本编码为EW,多模态特征扰动模块由以下公式表示:
F'V=RandomShift(FV,μ)
E'W=RandomMask(EW,λ)
其中,F'V为扰动后的扰动视频特征、E'W为扰动后的扰动文本编码,RandomShift(·)为随机时序移位函数,即在时序通道上,随机选取一部分特征进行错位迁移,μ为通道数比例;RandomMask(·)为随机掩码函数,随机将一部分单词置为空值,λ是每个单词的置空概率超参数。
作为一种优选的技术方案,所述步骤5更详细地包括,学生模型的预测过程包括步骤5.1至步骤5.3;
步骤5.1:输入的扰动数据包括扰动文本编码E'W,通过映射函数对扰动文本编码E'W的每个单词编码进行处理,得到单词级文本特征FW,同时将段落拆分为多个句子,使用两层双向门控循环单元对每个句子进行独立的编码,并取每个句子的最后一个单词的编码结果作为对应的句子级文本特征Fs;
步骤5.2:使用由多层transformer构成的编码器分别对单词级文本特征FW和扰动视频特征F'V进行编码,并将编码后的两个特征进行融合,得到多模态融合特征Fmen:
步骤5.3:将句子级文本特征Fs输入到由多层transformer构成的解码器中,对编码后的多模态融合特征Fmen进行解码,并使用多层感知机预测每个事件的归一化位置:
T=MLP(Ψ(Fmen,Fs))
其中Fs为句子级文本特征,Ψ(·)为多层transformer构成的解码器,MLP(·)为多层感知机,T为查询段落描述的每个事件在对应视频中的归一化位置;
步骤5.4:教师模型使用未经过多模态数据扰动处理的原始数据作为输入,按照步骤5.1、步骤5.2、步骤5.3进行计算,得到预测每个事件的归一化位置。
作为一种优选的技术方案,所述步骤6更详细地包括,
其中,N为总事件数,Γ(·)、Γ'(·)分别代指学生模型和教师模型,X、X'分别代指输入的扰动数据和原特数据。
作为一种优选的技术方案,所述步骤7更详细地包括,
作为一种优选的技术方案,所述步骤8更详细地包括,
作为一种优选的技术方案,所述步骤9更详细地包括,
其中,α、β、γ分别为平衡损失函数的第一超参数、第二超参数和第三超参数。
作为一种优选的技术方案,所述步骤10更详细地包括,
仅对学生模型使用带标注数据进行监督学习,教师模型采用指数移动平均方式进行更新,具体的:
Γ't=τΓ't-1+(1-τ)Γt
其中,Γ't代表第t次迭代的教师模型,Γt代表第t次迭代的学生模型,τ为滑动因子。
本发明的有益效果如下:
1.本发明挖掘了文本模态中句子之间的上下文的特征,通过句子级的解码器,对多个事件进行时序定位,与传统的视频语句定位相比,基于段落查询的定位方式有效地提高了视频片段检索的精确度;
2.本发明在段落和完整视频的粗粒度级别上,采用了对比学习使得语义相近的文本和视频对齐,提高多模态融合的质量;
3.本发明在保持视频段落定位质量的同时,采用了半监督学习的方法,有效的降低了对标注数据的依赖程度;
4.本发明经测试,有效地提高了时序语言定位的精度,与现有技术相比,在多事件定位上具有较大优势。同时,本方法降低了对细粒度时间标注数据的依赖,有效地降低了技术部署的成本;
5.本发明可用于各种多模态视频理解场合,如网络视频APP、智慧安防系统、大规模视频内容检索等,可改善用户软件使用体验,提高视频、安防、社会治理等相关领域工作人员的工作效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,本说明书附图中的各个部件的比例关系不代表实际选材设计时的比例关系,其仅仅为结构或者位置的示意图,其中:
图1是本发明的实现流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
下面结合图1,对本发明作详细说明。
实施例1
一种基于平均教师模型的半监督视频段落定位方法,包括以下步骤:
步骤1:选择训练数据集;将数据集划分为标注数据和未标注数据;
步骤2:加载预训练的3D卷积神经网络的模型参数,对步骤1中的数据集提取原始视频特征;
步骤3:对于步骤1中数据集、给定自然语言查询段落Q,其具有l S个句子,具有l W个单词;使用GloVe编码,将各个单词表示为维度为300的词向量、作为查询文本编码;
步骤4:提取一组或多组原始视频特征和查询文本编码、作为原始数据输入到教师模型;复制提取的提取一组或多组原始视频特征和查询文本编码,并使用多模态数据扰动模块向复制的原始视频特征和查询文本编码、分别引入噪声,作为扰动数据再输入到学生模型;
所述学生模型和教师模型的结构完全一致,包含一个多层Transformer的编码器和多层Transformer的解码器;
步骤5:学生模型和教师模型根据输入的扰动数据、原始数据,分别预测段落中描述的多个视频片段在给定视频中的归一化位置;预测完成后,同时启动相互独立的步骤6、步骤7和步骤8;
步骤6:根据教师模型和学生模型的输出,计算一致性损失;
步骤7:根据学生模型中对比编码器的输出,计算视频-文本的比较损失;
步骤8:根据学生模型的最终输出,计算监督信息损失;
步骤9:步骤6、步骤7和步骤8计算完成后,将一致性损失、对比损失、监督损失进行加权求和,作为最终的训练目标,提供训练准则;
步骤10:采用Adam优化器,并使用恒定学习率策略对模型进行训练学生模型;教师模型由学生模型使用指数滑动平均策略进行更新
本发明的工作原理/工作过程为:1个单词的长度为1、l W个单词的长度为l W,先使用预训练卷积神经网络提取原始视频特征,并使用多模态数据扰动模块对标注数据和未标注数据进行扰动。学生模型使用扰动后的特征、作为扰动数据输入进行预测,教师使用原特征、作为原始数据输入进行预测。二者之间计算一致性损失,学生模型额外计算监督损失和对比损失。教师R模型采用指数移动平均方法基于学生模型进行更新,学生模型采用梯度下降方法更新。
在两种模型中,使用biGRU提取单词级和句子级两种文本特征,然后使用多Transformer结构的编码器对数据进行两个模型的数据进行编码,更进一步地,使用句子级特征作为查询输入,用解码器进行解码,并通过多层感知机进行预测每个事件的归一化时间戳,并根据视频时常映射为具体时间。
实施例2
一种基于平均教师模型的半监督视频段落定位方法,还包括验证方式:步骤11:使用训练完成的基于平均教师模型的半监督视频段落定位模型中的学生模型作为测评模型,对视频和段落文本对进行视频多片段检索,以验证模型效果。
作为优选地方案,所述步骤4更详细地包括,
假设经3D卷积网络提取后的原始视频特征FV,GloVe编码后的查询文本编码为EW,多模态特征扰动模块由以下公式表示:
F'V=RandomShift(FV,μ)
E'W=RandomMask(EW,λ)
其中,F'V为扰动后的扰动视频特征、E'W为扰动后的扰动文本编码,RandomShift(·)为随机时序移位函数,即在时序通道上,随机选取一部分的特征进行错位迁移,μ为通道数比例;RandomMask(·)为随机掩码函数,随机将一部分单词置为空值,λ是每个单词的置空概率超参数。
作为优选地方案,所述步骤5更详细地包括,学生模型的预测过程包括步骤5.1至步骤5.3;
步骤5.1:输入的扰动数据包括扰动文本编码E'W,通过映射函数对扰动文本编码E'W的每个单词编码进行处理,得到单词级文本特征FW,同时将段落拆分为多个句子,使用两层双向门控循环单元对每个句子进行独立的编码,并取每个句子的最后一个单词的编码结果作为对应的句子级文本特征Fs;
以单个单词和单个句子为例:
Fj w=φ t(E'W j)
F i s=BiGRU(FW i k,h i k-1)
其中,E'W j代表段落中第j个单词的词嵌入向量、Fj w、代表段落中第j个单词的单词级特征,FW i k为第i个句子中k个单词的单词级特征,BiGRU(·)为双向门控循环单元函数,h i k-1为编码第i个句子时,k-1步的隐藏状态;
步骤5.2:使用由多层transformer构成的编码器分别对单词级文本特征FW和扰动视频特征F'V进行编码,并将编码后的两个特征进行融合,得到多模态融合特征Fmen:
步骤5.3:将句子级文本特征Fs输入到由多层transformer构成的解码器中,对编码后的多模态融合特征Fmen进行解码,并使用多层感知机预测每个事件的归一化位置:
T=MLP(Ψ(Fmen,Fs))
其中Fs为句子级文本特征,Ψ(·)为多层transformer构成的解码器,MLP(·)为多层感知机,T为查询段落描述的每个事件在对应视频中的归一化位置;
步骤5.4:教师模型使用未经过多模态数据扰动处理的原始数据作为输入,按照步骤5.1、步骤5.2、步骤5.3进行计算,得到预测每个事件的归一化位置。
作为优选地方案,所述步骤6更详细地包括,
其中,N为总事件数,Γ(·)、Γ'(·)分别代指学生模型和教师模型,X、X'分别代指输入的扰动数据和原特数据。
作为优选地方案,所述步骤7更详细地包括,
作为优选地方案,所述步骤8更详细地包括,
作为优选地方案,所述步骤9更详细地包括,
其中,α、β、γ分别为平衡损失函数的第一超参数、第二超参数和第三超参数。
作为优选地方案,所述步骤10更详细地包括,
仅对学生模型使用带标注数据进行监督学习,教师模型采用指数移动平均方式进行更新,具体的:
Γ't=τΓ't-1+(1-τ)Γt
其中,Γ't代表第t次迭代的教师模型,Γt代表第t次迭代的学生模型,τ为滑动因子。
给出三个场景案例,如下所示:
第一场景案例:在Charades-CD-OOD数据集上开展效果评估工作。该数据集包含6,672个日常生活视频。大多数视频都是室内活动,视频时长平均为29.76秒。每个视频有大约2.4个带注释的目标视频,其平均持续时间为8.2秒。经过统计,该数据集涉及16,128个视频-文本对,分为训练和测试部分,分别为12408对和3720对。在该实施案例中,本发明应用C3D作为原始视频特征提取器以得到视频的RGB特征。基于上述特征,本发明在该数据集上与其他方法所比较的结果分别如表1所示;
表1在Charades-CD-OOD数据集上的比较表
第二场景案例:在Activity Net-Caption数据集上开展效果评估工作。该数据是时序语言定位任务中最大的数据集,包含大约2万个开放域视频。平均每个视频包含3.65个查询,每个查询平均有13.48个词。数据集被拆分为训练集,验证集1和验证集2,分别含有10009/37421、4917/17505和4885/17031个视频/句子的,本发明在验证集1上进行验证,在验证集2上用于测试。本发明与其他现有方法对比的结果如表2所示,
表2在Activity Net-Caption数据集上的比较表
第三场景实施例:在标注数据不全的情况下开展效果评估工作。本发明在第一场景实施例和第二场景实施例的两个数据集上开展半监督效果评估。在Charades-CD-OOD(表中记作Charades)上随机丢弃70%的数据标注,仅保留30%的监督信息;在Activity Net-Caption(表中记作Activity)上随机丢弃90%的数据标注,仅保留30%的监督信息。在相同训练数据的情况下,本发明与其他现有方法进行对比,结果如表3所示:
表3在半监督条件下的比较表
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种基于平均教师模型的半监督视频段落定位方法,其特征在于,包括以下步骤:
步骤1:选择训练数据集;将数据集划分为标注数据和未标注数据;
步骤2:加载预训练的3D卷积神经网络的模型参数,对步骤1中的数据集提取原始视频特征;
步骤3:对于步骤1中数据集、给定自然语言查询段落Q,其具有lS个句子,具有lW个单词;使用GloVe编码,将各个单词表示为维度为300的词向量、作为查询文本编码;
步骤4:提取一组或多组原始视频特征和查询文本编码、作为原始数据输入到教师模型;复制提取的一组或多组原始视频特征和查询文本编码,并使用多模态数据扰动模块向复制的原始视频特征和查询文本编码、分别引入噪声,作为扰动数据再输入到学生模型;所述学生模型和教师模型的结构完全一致,包含一个多层Transformer的编码器和多层Transformer的解码器;
步骤5:学生模型和教师模型根据输入的扰动数据、原始数据,分别预测段落中描述的多个视频片段在给定视频中的归一化位置;预测完成后,同时启动相互独立的步骤6、步骤7和步骤8;
步骤6:根据教师模型和学生模型的输出,计算一致性损失;
步骤7:根据学生模型中对比编码器的输出,计算视频-文本的比较损失;
步骤8:根据学生模型的最终输出,计算监督信息损失;
步骤9:步骤6、步骤7和步骤8计算完成后,将一致性损失、对比损失、监督损失进行加权求和,作为最终的训练目标,提供训练准则;
步骤10:采用Adam优化器,并使用恒定学习率策略对模型进行训练学生模型;教师模型由学生模型使用指数滑动平均策略进行更新;
所述步骤5更详细地包括,学生模型的预测过程包括步骤5.1至步骤5.3;
步骤5.1:输入的扰动数据包括扰动文本编码E'W,通过映射函数对扰动文本编码E'W的每个单词编码进行处理,得到单词级文本特征FW,同时将段落拆分为多个句子,使用两层双向门控循环单元对每个句子进行独立的编码,并取每个句子的最后一个单词的编码结果作为对应的句子级文本特征Fs;
步骤5.2:使用由多层transformer构成的编码器分别对单词级文本特征FW和扰动视频特征F'V进行编码,并将编码后的两个特征进行融合,得到多模态融合特征Fmen:
步骤5.3:将句子级文本特征Fs输入到由多层transformer构成的解码器中,对编码后的多模态融合特征Fmen进行解码,并使用多层感知机预测每个事件的归一化位置:
T=MLP(Ψ(Fmen,Fs))
其中Fs为句子级文本特征,Ψ(·)为多层transformer构成的解码器,MLP(·)为多层感知机,T为查询段落描述的每个事件在对应视频中的归一化位置;
步骤5.4:教师模型使用未经过多模态数据扰动处理的原始数据作为输入,按照步骤5.1、步骤5.2、步骤5.3进行计算,得到预测每个事件的归一化位置。
2.根据权利要求1所述的一种基于平均教师模型的半监督视频段落定位方法,其特征在于,还包括验证方式:
步骤11:使用训练完成的基于平均教师模型的半监督视频段落定位模型中的学生模型作为测评模型,对视频和段落文本对进行视频多片段检索,以验证模型效果。
3.根据权利要求1所述的一种基于平均教师模型的半监督视频段落定位方法,其特征在于,所述步骤4更详细地包括,
假设经3D卷积网络提取后的原始视频特征FV,GloVe编码后的查询文本编码为EW,多模态特征扰动模块可以由以下公式表示:
F'V=RandomShift(FV,μ)
E'W=RandomMask(EW,λ)
其中,F'V为扰动后的扰动视频特征、E'W为扰动后的扰动文本编码,RandomShift(·)为随机时序移位函数,即在时序通道上,随机选取一定比例的特征进行错位迁移,μ为通道数比例;RandomMask(·)为随机掩码函数,随机将一部分单词置为空值,λ是每个单词的置空概率超参数。
8.根据权利要求1所述的一种基于平均教师模型的半监督视频段落定位方法,其特征在于,所述步骤10更详细地包括,
仅对学生模型使用带标注数据进行监督学习,教师模型采用指数移动平均方式进行更新,具体的:
Γ't=τΓ't-1+(1-τ)Γt
其中,Γ't代表第t次迭代的教师模型,Γt代表第t次迭代的学生模型,τ为滑动因子。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210116942.0A CN114155477B (zh) | 2022-02-08 | 2022-02-08 | 一种基于平均教师模型的半监督视频段落定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210116942.0A CN114155477B (zh) | 2022-02-08 | 2022-02-08 | 一种基于平均教师模型的半监督视频段落定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114155477A CN114155477A (zh) | 2022-03-08 |
CN114155477B true CN114155477B (zh) | 2022-04-29 |
Family
ID=80450300
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210116942.0A Active CN114155477B (zh) | 2022-02-08 | 2022-02-08 | 一种基于平均教师模型的半监督视频段落定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114155477B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114357124B (zh) * | 2022-03-18 | 2022-06-14 | 成都考拉悠然科技有限公司 | 一种基于语言重建和图机制的视频段落定位方法 |
CN116226443B (zh) * | 2023-05-11 | 2023-07-21 | 山东建筑大学 | 基于大规模视频语料库的弱监督视频片段定位方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018104834A1 (en) * | 2016-12-07 | 2018-06-14 | Yogesh Chunilal Rathod | Real-time, ephemeral, single mode, group & auto taking visual media, stories, auto status, following feed types, mass actions, suggested activities, ar media & platform |
CN113392864A (zh) * | 2020-10-13 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 模型生成方法及视频筛选方法、相关装置、存储介质 |
CN113723378A (zh) * | 2021-11-02 | 2021-11-30 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、装置、计算机设备和存储介质 |
CN113934887A (zh) * | 2021-12-20 | 2022-01-14 | 成都考拉悠然科技有限公司 | 一种基于语义解耦的无提议时序语言定位方法 |
CN113939827A (zh) * | 2020-12-25 | 2022-01-14 | 阿里巴巴集团控股有限公司 | 用于图像到视频重识别的系统和方法 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11195057B2 (en) * | 2014-03-18 | 2021-12-07 | Z Advanced Computing, Inc. | System and method for extremely efficient image and pattern recognition and artificial intelligence platform |
US10075384B2 (en) * | 2013-03-15 | 2018-09-11 | Advanced Elemental Technologies, Inc. | Purposeful computing |
CN113536922A (zh) * | 2021-06-11 | 2021-10-22 | 北京理工大学 | 一种加权融合多种图像任务的视频行为识别方法 |
CN113537040B (zh) * | 2021-07-13 | 2024-07-05 | 南京理工大学 | 一种基于半监督学习的时序行为检测方法及系统 |
CN113688871B (zh) * | 2021-07-26 | 2022-07-01 | 南京信息工程大学 | 基于Transformer的视频多标签动作识别方法 |
-
2022
- 2022-02-08 CN CN202210116942.0A patent/CN114155477B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018104834A1 (en) * | 2016-12-07 | 2018-06-14 | Yogesh Chunilal Rathod | Real-time, ephemeral, single mode, group & auto taking visual media, stories, auto status, following feed types, mass actions, suggested activities, ar media & platform |
CN113392864A (zh) * | 2020-10-13 | 2021-09-14 | 腾讯科技(深圳)有限公司 | 模型生成方法及视频筛选方法、相关装置、存储介质 |
CN113939827A (zh) * | 2020-12-25 | 2022-01-14 | 阿里巴巴集团控股有限公司 | 用于图像到视频重识别的系统和方法 |
CN113723378A (zh) * | 2021-11-02 | 2021-11-30 | 腾讯科技(深圳)有限公司 | 一种模型训练的方法、装置、计算机设备和存储介质 |
CN113934887A (zh) * | 2021-12-20 | 2022-01-14 | 成都考拉悠然科技有限公司 | 一种基于语义解耦的无提议时序语言定位方法 |
Non-Patent Citations (3)
Title |
---|
AUDIO-VISUAL SCENE-AWARE DIALOG AND REASONING USING AUDIO-VISUAL TRANSFORMERS WITH JOINT STUDENT-TEACHER LEARNING;Ankit P. Shah 等;《arXiv》;20211013;1-5 * |
基于平均教师模型的弱标记半监督声音事件检测;王金甲 等;《复旦学报(自然科学版)》;20201031;第59卷(第5期);540-550 * |
基于深度学习的视频检索方法研究;薛继伟 等;《计算机与数字工程》;20210430;第49卷(第4期);771-775 * |
Also Published As
Publication number | Publication date |
---|---|
CN114155477A (zh) | 2022-03-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112214995B (zh) | 用于同义词预测的分层多任务术语嵌入学习 | |
CN108984683B (zh) | 结构化数据的提取方法、系统、设备及存储介质 | |
CN111985239B (zh) | 实体识别方法、装置、电子设备及存储介质 | |
CN107832299B (zh) | 基于人工智能的标题的改写处理方法、装置及可读介质 | |
CN113128229B (zh) | 一种中文实体关系联合抽取方法 | |
CN112115721B (zh) | 一种命名实体识别方法及装置 | |
CN114155477B (zh) | 一种基于平均教师模型的半监督视频段落定位方法 | |
CN112015859A (zh) | 文本的知识层次抽取方法及装置、计算机设备及可读介质 | |
CN112463976A (zh) | 一种以群智感知任务为中心的知识图谱构建方法 | |
CN114357124B (zh) | 一种基于语言重建和图机制的视频段落定位方法 | |
CN111639176B (zh) | 一种基于一致性监测的实时事件摘要方法 | |
Wang et al. | News recommendation via multi-interest news sequence modelling | |
CN114492441A (zh) | 基于机器阅读理解的BiLSTM-BiDAF命名实体识别方法 | |
CN114925170B (zh) | 文本校对模型训练方法及装置、计算设备 | |
CN111145914B (zh) | 一种确定肺癌临床病种库文本实体的方法及装置 | |
WO2023168818A1 (zh) | 视频和文本相似度确定方法、装置、电子设备、存储介质 | |
CN113886602A (zh) | 一种基于多粒度认知的领域知识库实体识别方法 | |
CN113822018A (zh) | 实体关系联合抽取方法 | |
CN113947083A (zh) | 一种文档级别命名实体识别方法 | |
CN112200268A (zh) | 一种基于编码器-解码器框架的图像描述方法 | |
CN113378571A (zh) | 一种文本数据的实体数据关系抽取方法 | |
Wu et al. | Analyzing the Application of Multimedia Technology Assisted English Grammar Teaching in Colleges | |
Wang et al. | Modeling multi-interest news sequence for news recommendation | |
Li | Data-Driven Prediction of Students' Online Learning Needs and Optimization of Knowledge Library Management. | |
Dhiman et al. | Optimized Approach for Video Summarization using Transfer Learning and LSTM |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |