CN113934887A - 一种基于语义解耦的无提议时序语言定位方法 - Google Patents
一种基于语义解耦的无提议时序语言定位方法 Download PDFInfo
- Publication number
- CN113934887A CN113934887A CN202111561246.2A CN202111561246A CN113934887A CN 113934887 A CN113934887 A CN 113934887A CN 202111561246 A CN202111561246 A CN 202111561246A CN 113934887 A CN113934887 A CN 113934887A
- Authority
- CN
- China
- Prior art keywords
- feature
- video
- features
- semantic
- context
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 230000007246 mechanism Effects 0.000 claims abstract description 22
- 238000009826 distribution Methods 0.000 claims description 17
- 238000012549 training Methods 0.000 claims description 16
- 230000006870 function Effects 0.000 claims description 15
- 239000011159 matrix material Substances 0.000 claims description 15
- 230000000694 effects Effects 0.000 claims description 12
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000003993 interaction Effects 0.000 claims description 9
- 238000005070 sampling Methods 0.000 claims description 8
- 239000013598 vector Substances 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 6
- 239000004576 sand Substances 0.000 claims description 6
- 230000002123 temporal effect Effects 0.000 claims description 6
- 238000005065 mining Methods 0.000 claims description 5
- 238000011176 pooling Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 4
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 230000002457 bidirectional effect Effects 0.000 claims description 3
- 238000005728 strengthening Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 239000012634 fragment Substances 0.000 claims description 2
- 238000002372 labelling Methods 0.000 claims description 2
- 238000010606 normalization Methods 0.000 claims description 2
- 238000012795 verification Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 claims 1
- 238000013507 mapping Methods 0.000 claims 1
- 230000007547 defect Effects 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 101000742346 Crotalus durissus collilineatus Zinc metalloproteinase/disintegrin Proteins 0.000 description 1
- 101000872559 Hediste diversicolor Hemerythrin Proteins 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000010411 cooking Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/73—Querying
- G06F16/732—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9032—Query formulation
- G06F16/90332—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于语义解耦的无提议时序语言定位方法,涉及跨模态内容检索领域,解决现有无提议定位机制中存在的技术问题,包括对原始视频进行解耦,分解出多层次的视觉特征流,并在各个视觉特征流内,进行模态内和跨模态的上下文建模,从而保持了基于候选提议方法的优势,采用跨语义的集成机制,将信息交互后的多模态上下文特征集成为细粒度特征,最后利用无提议定位的机制,直接求解出目标视频片段的开始与结束位置。利用无提议定位方法的边界定位机制的同时,使用了中间特征来辅助视频的内容理解,克服了现有无提议定位机制的缺陷。
Description
技术领域
本发明涉及多模态视频理解中的跨模态内容检索领域,具体涉及一种基于语义解耦的无提议时序语言定位方法。
背景技术
近年来互联网的发展导致多媒体数据呈指数级增长,使得许多应用向前迈进了一大步。在这一趋势的推动下,学术界和工业界都对多模态视频理解提出了新的需求,这在过去十年中吸引了大量的研究人员。时序语言定位是多模态视频理解任务中最具挑战性的任务之一。不同于跨模态视频文本检索,时序语言定位不是检索修剪过的短视频,而是根据描述目标时刻的给定语言查询在具有多个活动的未修剪视频中定位精确的开始和结束时间。
基于视频模态与文本模态的多模态研究,目前时序语言定位的方法一般可以分为以下两类:
(1)基于候选片段提议的方法:将时序动作定位视为视频文本检索问题。此类方法仿照两阶段时序动作生成框架,先在第一阶段生成视频片段作为候选,随后在第二阶段将这些候选提议与文本查询语句进行匹配;
(2)无提议时序语言定位方法:直接预测目标视频片段的开始与结束时间。此类方法不生成候选片段,而是直接利用回归或是细粒度的分类,直接求得目标视频片段的时间戳。
虽然基于这两种传统思路,现有时序语言定位的方法得到了一定的发展,但这两种方法仍然有各自的缺陷。基于候选提议的方法将原始视频裁剪成具有不同恒定尺度候选的视频剪辑序列。通常,在候选者丰富的情况下,与无提议方法相比,基于提议的方法可以获得更高的召回率。然而,受限于每个候选提议的恒定尺寸,它们很难适应目标片段的视频长度,例如,当目标片段超出预设置的尺寸候选比例的视频片段相关的查询,由于剪辑的预定义长度,这些候选框可能会导致预测结果与实际时序位置的错位,从而降低高精度定位上的性能。
与前者相比,无提议方法可以通过灵活的边界定位机制轻松解决这个问题,该机制可以适应不同的长度并实现更高的效率。然而,尽管有这些优点,现有的无提议方法也有两个缺点:(1)如果没有候选生成阶段,他们很难用段级交互对上下文进行建模。(2)他们高估了边界内的信息,对整个活动的重要性不够重视。因此,现有的无提议方法在大规模数据集上,召回性能篇低,通常在低精度指标上表现更差,而基于提议的方法则在这些方面显示出其优越性。
发明内容
本发明的目的在于:为了解决现有无提议定位机制中的技术问题,本发明提供了一种基于语义解耦的无提议时序语言定位方法,通过结合基于候选提议方案与传统无提议定位机制的优势,同时克服其各自的缺陷,从而提高时序语言定位的效果。
本发明采用的技术方案如下:
一种基于语义解耦的无提议时序语言定位方法,包括以下步骤,
步骤1:选择训练数据集;
步骤2:加载预训练的2D或3D卷积神经网络的模型参数,对步骤1中的数据集提取原始视频特征;
步骤3:对于步骤1中数据集、给定自然语言查询语句Q,其具有个单词,首先使用GLoVE词嵌入,将各个词汇表示为维度为300的词向量,再通过两层双向门控循环单元,将所得到的前向与后向特征结合起来,得到查询的单词级文本特征;
步骤4:对步骤2中的原始视频特征根据其潜在语义进行解耦,得到三条语义分支、求得三条具有不同语义的特征流;
步骤5:对步骤4中三条特征流内部进行特征交互、得到三个不同的视频上下文特征,并将三个不同的视频上下文特征、分别和步骤3中的单词级文本特征进行融合、得到三个模态上下文;
步骤6:根据语义之间的潜在联系,将步骤5中三个模态上下文的特征进行集成,表征为细粒度语义特征;
步骤7:通过估算目标片段的开始与结束的概率分布,求出最大可能为边界的特征,并根据该特征计算出原视频中开始与结束的时序位;增加中间特征预测分支,挖掘目标片段内容;
步骤8:建目标函数,提供训练准则;
步骤9:采用Adam优化器,采用恒定学习率策略对模型进行训练。
进一步地,还包括验证方式,
步骤10:使用训练完成的基于语义解耦的无提议时序语言定位模型对视频和文本对进行视频片段检索,以验证模型效果。
进一步地,所述步骤2更详细地包括,
进一步地,所述步骤4更详细地包括,语义解耦模块包括三个具有不同采样稀疏度与感受野的池化采样层,三个独立的特征编码全卷积层,一层共享的位置编码层;
特征流F sem 表示为以下公式:
进一步地,所述步骤5更详细地包括,
步骤5.1:对三条特征流内部进行特征交互、得到三个不同的视频上下文特征CS,
视频上下文特征CS,通过以下公式得到:
其中,Resblock(.)代表残差块,MultiHeadAttn(.)代表多头注意力机制,Softmax(.)、ReLU(.)、BN(.)、Conv1D(.)分别代表归一化指数函数、非线性化激活层、批量归一化层、时序卷积层;表示由第n个残差块处理后的特征; 表示未经残差块处理的特征,即首个残差块输入的特征;S m 、D m 分别为时序卷积和尺寸核残差块数量;W q 、W k 、W v 1 分别为多头注意力机制中查询、键、值可学习参数矩阵;n h 为多头注意力机制中的注意力头数量,d为块内维度;视频上下文特征,其中为对应语义分支的特征长度;
步骤5.2:将单词级文本特征Hq转换为具有较强分辨率的跨模态特化表征,并分别与三个不同的视频上下文特征CS融合、得到三个跨模态上下文。
进一步地,所述步骤5.2更详细地包括,
步骤5.21:给定一个语义分支的单词级文本特征Hq和视频上下文特征CS,量化单词对每个视频上下文特征CS的不同贡献,并对原始的单词级文本特征进行加权求得更新后的文本模态特征;
计算强度矩阵:
计算过程为:
其中,W r 、W v 2 、W h 、W m分别 为多模态融合第一、第二、第三、第四可学习参数矩阵;
步骤5.22:在得到更新的文本模态特征后,跨模态特化表征与到三个不同的视频上下文特征C s 融合、得到跨模态上下文建模模块,该视频-文本上下文建模可以由以下公式描述:
最后,收集三条不同特征流的跨模态上下文特征,表示为:
进一步地,所述步骤6更详细地包括,
重复集成操作、在集成阶段的末尾,使用自注意力机制强化处于目标视频片段中的特征,求得最终的细粒度跨语义特征。
进一步地,所述步骤7更详细地包括,
给定最终的集成特征C final,该目标片段定位过程可描述为:
进一步地,所述步骤8更详细地包括,
步骤8.1:构建定位损失、该部分为核心的损失函数,用以引导模型求出正确的边界位置分布;给定开始与结束的预测分布,基于KL散度计算模型预测与实际位置的分布差异:
步骤8.2:构建内容损失、该部分用以挖掘目标视频片段内部信息,提高模型对视频内容的理解能力:
步骤8.3:构建注意力引导损失、该部分用以引导步骤S42中所使用的自注意力强化模块,使有效的特征具有更高的权重;给定由S42中自注意力机制模块产生的注意力权重和事实标注向量,设为注意力损失,该部分损失可以表示为:
步骤8.4:构建综合训练目标函数
最终训练的目标函数由上述三个部分复合而成,如下所示:
本发明的有益效果如下:
1.本发明基于语义,对原始视频进行解耦,分解出多层次的视觉特征流,并在各个视觉特征流内,进行模态内和跨模态的上下文建模,从而保持了基于候选提议方法的优势;
2.本发明采用跨语义的集成机制,将信息交互后的多模态上下文特征集成为细粒度特征,最后利用无提议定位的机制,直接求解出目标视频片段的开始与结束位置;
3.本发明在利用无提议定位方法的边界定位机制的同时,使用了中间特征来辅助视频的内容理解,克服了现有无提议定位机制的缺陷;
4.本发明经测试,有效地提高了时序语言定位的精度,与现有技术相比,在高精度定位上具有较大优势;
5.本发明可用于各种多模态视频理解场合,如网络视频APP、视频播放器、大规模视频内容检索等,可改善用户软件使用体验,提高视频制作、处理、检验等相关领域工作人员的工作效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,本说明书附图中的各个部件的比例关系不代表实际选材设计时的比例关系,其仅仅为结构或者位置的示意图,其中:
图1是本发明的实现流程图;
图2是本发明跨模态上下文建模模块的示意图;
图3是本发明语义解耦模块的框架示意图;
图4是本发明在Charades-STA及TACoS数据集上的时刻检索效果展示图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
下面结合图1至图4对本发明作详细说明。
实施例1
一种基于语义解耦的无提议时序语言定位方法,包括以下步骤,
步骤1:选择训练数据集;
步骤2:加载预训练的2D或3D卷积神经网络的模型参数,对步骤1中的数据集提取原始视频特征;
步骤3:对于步骤1中数据集、给定自然语言查询语句Q,其具有个单词,首先使用GLoVE词嵌入,将各个词汇表示为维度为300的词向量,再通过两层双向门控循环单元,将所得到的前向与后向特征结合起来,得到查询的文本特征;
步骤4:对步骤2中的原始视频特征根据其潜在语义进行解耦,得到三条语义分支、求得三条具有不同语义的特征流;
步骤5:对步骤4中三条特征流内部进行特征交互、得到三个不同的视频上下文特征,并将三个不同的视频上下文特征、分别和步骤3中的文本特征进行融合、得到三个模态上下文;
步骤6:根据语义之间的潜在联系,将步骤5中三个模态上下文的特征进行集成,表征为细粒度语义特征;
步骤7:通过估算目标片段的开始与结束的概率分布,求出最大可能为边界的特征,并根据该特征计算出原视频中开始与结束的时序位;增加中间特征预测分支,挖掘目标片段内容;;
步骤8:建目标函数,提供训练准则;
步骤9:采用Adam优化器,采用恒定学习率策略对模型进行训练
本发明的工作原理/工作过程为:先使用预训练卷积神经网络提取原始视频特征,并使用语义解耦模块对原始视频特征进行解耦,得到三条语义分支。使用biGRU提取文本特征。然后通过跨模态上下文建模模块,使每条语义特征流内进行信息交互和多模态融合,得到跨模态的上下文特征。更进一步地,使用跨语义特征集成模块,将得到的层次上下文特征整合为细粒度特征,并使用自注意力机制强化有效特征。最后,使用时序定位模块定位目标片段的开始与结束时间。
实施例2
在实施例1的基础上,进一步地,所述步骤5更详细地包括,
步骤5.1:对三条特征流内部进行特征交互、得到三个不同的视频上下文特征CS,
视频上下文特征CS,通过以下公式得到:
步骤5.2:将单词级文本特征Hq转换为具有较强分辨率的跨模态特化表征,并与到三个不同的视频上下文特征CS融合、得到三个跨模态上下文;
所述步骤5.2更详细地包括,
步骤5.21:给定一个语义分支的单词级文本特征Hq和视频上下文特征CS,量化单词对每个视频上下文特征CS的不同贡献,并对原始的单词级文本特征进行加权求得更新后的文本模态特征;
计算强度矩阵:
计算过程为:
步骤5.22:在得到更新的文本模态特征后,跨模态特化表征与到三个不同的视频上下文特征CS融合、得到跨模态上下文建模模块,该视频-文本上下文建模可以由以下公式描述:
最后,收集三条不同特征流的跨模态上下文特征,表示为:
给出两个场景案例,如下所示:
第一场景案例:在Charades-STA数据集上开展效果评估工作。该数据集包含6,672个日常生活视频。大多数视频都是室内活动,视频时长平均为29.76秒。每个视频有大约2.4个带注释的目标视频,其平均持续时间为8.2秒。经过统计,该数据集涉及16,128个视频-文本对,分为训练和测试部分,分别为12408对和3720对。在该实施案例中,本发明应用I3D作为原始视频特征提取器以得到视频的RGB特征。同时,为了与现有技术进行公平的比较并评估本发明的稳健性,此应用案例中还使用了在视频表征上能力较弱的VGG特征。基于上述两个特征,本发明在该数据集上与其他方法所比较的结果分别如表1所示:
表1为:Charades-STA数据集上的比较表
第二场景案例:在TACoS数据集上开展效果评估工作。该数据集从MPII烹饪复合活动视频语料库中选出的127个视频组成,其中包含发生在厨房里的不同活动,经由自然语言描述和时间注释丰富后,此数据集具有长视频、稠密事件等特点,是时序语言定位领域一个十分有挑战性的数据集。该数据集上标准拆分由10146、4589和4083个分别用于训练、验证和测试的视频-文本对组成。本方法使用C3D作为原始数据特征提取器。此外,本方法也使用了I3D主干提取特征,以和现有方法进行公平比较。本发明在该数据集上比较的效果如表2所示:
表2为:TACoS数据集上的比较表
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种基于语义解耦的无提议时序语言定位方法,其特征在于:包括以下步骤,
步骤1:选择训练数据集;
步骤2:加载预训练的2D或3D卷积神经网络的模型参数,对步骤1中的数据集提取原始视频特征;
步骤3:对于步骤1中数据集、给定自然语言查询语句Q,其具有个单词,首先使用GLoVE词嵌入,将各个词汇表示为维度为300的词向量,再通过两层双向门控循环单元,将所得到的前向与后向特征结合起来,得到查询的单词级文本特征;
步骤4:对步骤2中的原始视频特征根据其潜在语义进行解耦,得到三条语义分支、求得三条具有不同语义的特征流;
步骤5:对步骤4中三条特征流内部进行特征交互、得到三个不同的视频上下文特征,并将三个不同的视频上下文特征、分别和步骤3中的单词级文本特征进行融合、得到三个模态上下文;
步骤6:根据语义之间的潜在联系,将步骤5中三个模态上下文的特征进行集成,表征为细粒度语义特征;
步骤7:通过估算目标片段的开始与结束的概率分布,求出最大可能为边界的特征,并根据该特征计算出原视频中开始与结束的时序位;增加中间特征预测分支,挖掘目标片段内容;
步骤8:建目标函数,提供训练准则;
步骤9:采用Adam优化器,采用恒定学习率策略对模型进行训练。
2.根据权利要求1所述的一种基于语义解耦的无提议时序语言定位方法,其特征在于,还包括验证方式,
步骤10:使用训练完成的基于语义解耦的无提议时序语言定位模型对视频和文本对进行视频片段检索,以验证模型效果。
5.根据权利要求1所述的一种基于语义解耦的无提议时序语言定位方法,其特征在于,所述步骤5更详细地包括,
步骤5.1:对三条特征流内部进行特征交互、得到三个不同的视频上下文特征CS,
视频上下文特征CS,通过以下公式得到:
其中,Resblock(.)代表残差块,MultiHeadAttn(.)代表多头注意力机制,Softmax(.)、ReLU(.)、BN(.)、Conv1D(.)分别代表归一化指数函数、非线性化激活层、批量归一化层、时序卷积层;表示由第n个残差块处理后的特征; 表示未经残差块处理的特征,即首个残差块输入的特征;S m 、D m 分别为时序卷积和尺寸核残差块数量;W q 、W k 、W v 1 分别为多头注意力机制中查询、键、值可学习参数矩阵;n h 为多头注意力机制中的注意力头数量,d为块内维度;视频上下文特征,其中为对应语义分支的特征长度;
步骤5.2:将单词级文本特征Hq转换为具有较强分辨率的跨模态特化表征,并分别与三个不同的视频上下文特征CS融合、得到三个跨模态上下文。
6.根据权利要求5所述的一种基于语义解耦的无提议时序语言定位方法,其特征在于,所述步骤5.2更详细地包括,
步骤5.21:给定一个语义分支的单词级文本特征Hq和视频上下文特征CS,量化单词对每个视频上下文特征CS的不同贡献,并对原始的单词级文本特征进行加权求得更新后的文本模态特征;
计算强度矩阵:
计算过程为:
其中,W r 、W v 2 、W h 、W m分别 为多模态融合第一、第二、第三、第四可学习参数矩阵;
步骤5.22:在得到更新的文本模态特征后,跨模态特化表征与到三个不同的视频上下文特征C s 融合、得到跨模态上下文建模模块,该视频-文本上下文建模可以由以下公式描述:
最后,收集三条不同特征流的跨模态上下文特征,表示为:
9.根据权利要求1所述的一种基于语义解耦的无提议时序语言定位方法,其特征在于,所述步骤8更详细地包括,
步骤8.1:构建定位损失、该部分为核心的损失函数,用以引导模型求出正确的边界位置分布;给定开始与结束的预测分布,基于KL散度计算模型预测与实际位置的分布差异:
步骤8.2:构建内容损失、该部分用以挖掘目标视频片段内部信息,提高模型对视频内容的理解能力:
步骤8.3:构建注意力引导损失、该部分用以引导步骤S42中所使用的自注意力强化模块,使有效的特征具有更高的权重;给定由S42中自注意力机制模块产生的注意力权重和事实标注向量,设为注意力损失,该部分损失可以表示为:
步骤8.4:构建综合训练目标函数
最终训练的目标函数由上述三个部分复合而成,如下所示:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111561246.2A CN113934887B (zh) | 2021-12-20 | 2021-12-20 | 一种基于语义解耦的无提议时序语言定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111561246.2A CN113934887B (zh) | 2021-12-20 | 2021-12-20 | 一种基于语义解耦的无提议时序语言定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113934887A true CN113934887A (zh) | 2022-01-14 |
CN113934887B CN113934887B (zh) | 2022-03-15 |
Family
ID=79289304
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111561246.2A Active CN113934887B (zh) | 2021-12-20 | 2021-12-20 | 一种基于语义解耦的无提议时序语言定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113934887B (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114064967A (zh) * | 2022-01-18 | 2022-02-18 | 之江实验室 | 多粒度级联交互网络的跨模态时序行为定位方法及装置 |
CN114155477A (zh) * | 2022-02-08 | 2022-03-08 | 成都考拉悠然科技有限公司 | 一种基于平均教师模型的半监督视频段落定位方法 |
CN114357124A (zh) * | 2022-03-18 | 2022-04-15 | 成都考拉悠然科技有限公司 | 一种基于语言重建和图机制的视频段落定位方法 |
CN116310966A (zh) * | 2023-02-23 | 2023-06-23 | 北京邮电大学 | 视频动作定位模型训练方法、视频动作定位方法和系统 |
CN117152669A (zh) * | 2023-10-30 | 2023-12-01 | 华中科技大学 | 一种跨模态时域视频定位方法及系统 |
CN117934974A (zh) * | 2024-03-21 | 2024-04-26 | 中国科学技术大学 | 场景文本任务处理方法、系统、设备及存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562812A (zh) * | 2017-08-11 | 2018-01-09 | 北京大学 | 一种基于特定模态语义空间建模的跨模态相似性学习方法 |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
US20200296149A1 (en) * | 2018-01-24 | 2020-09-17 | Tencent Technology (Shenzhen) Company Limited | Video description generation method and apparatus, video playing method and apparatus, and storage medium |
CN111897913A (zh) * | 2020-07-16 | 2020-11-06 | 浙江工商大学 | 基于语义树增强的复杂文本查询到视频的跨模态检索方法 |
CN111930999A (zh) * | 2020-07-21 | 2020-11-13 | 山东省人工智能研究院 | 逐帧跨模态相似度关联实施文本查询定位视频片段方法 |
CN112015947A (zh) * | 2020-08-28 | 2020-12-01 | 中山大学 | 一种语言描述引导的视频时序定位方法、系统 |
CN113423004A (zh) * | 2021-08-23 | 2021-09-21 | 杭州一知智能科技有限公司 | 基于解耦译码的视频字幕生成方法和系统 |
CN113704546A (zh) * | 2021-08-23 | 2021-11-26 | 西安电子科技大学 | 基于空间时序特征的视频自然语言文本检索方法 |
CN113792594A (zh) * | 2021-08-10 | 2021-12-14 | 南京大学 | 一种基于对比学习的视频中语言片段定位方法及装置 |
-
2021
- 2021-12-20 CN CN202111561246.2A patent/CN113934887B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107562812A (zh) * | 2017-08-11 | 2018-01-09 | 北京大学 | 一种基于特定模态语义空间建模的跨模态相似性学习方法 |
US20200296149A1 (en) * | 2018-01-24 | 2020-09-17 | Tencent Technology (Shenzhen) Company Limited | Video description generation method and apparatus, video playing method and apparatus, and storage medium |
CN109344288A (zh) * | 2018-09-19 | 2019-02-15 | 电子科技大学 | 一种基于多模态特征结合多层注意力机制的结合视频描述方法 |
CN111897913A (zh) * | 2020-07-16 | 2020-11-06 | 浙江工商大学 | 基于语义树增强的复杂文本查询到视频的跨模态检索方法 |
CN111930999A (zh) * | 2020-07-21 | 2020-11-13 | 山东省人工智能研究院 | 逐帧跨模态相似度关联实施文本查询定位视频片段方法 |
CN112015947A (zh) * | 2020-08-28 | 2020-12-01 | 中山大学 | 一种语言描述引导的视频时序定位方法、系统 |
CN113792594A (zh) * | 2021-08-10 | 2021-12-14 | 南京大学 | 一种基于对比学习的视频中语言片段定位方法及装置 |
CN113423004A (zh) * | 2021-08-23 | 2021-09-21 | 杭州一知智能科技有限公司 | 基于解耦译码的视频字幕生成方法和系统 |
CN113704546A (zh) * | 2021-08-23 | 2021-11-26 | 西安电子科技大学 | 基于空间时序特征的视频自然语言文本检索方法 |
Non-Patent Citations (3)
Title |
---|
JINGWEN WANG等: ""Temporally Grounding Language Queries in Videos by Contextual Boundary-Aware Prediction"", 《PROCEEDINGS OF TH AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
SHAOXIANG CHEN等: ""Semantic Proposal for Activity Localization in Videos via Sentence Query"", 《PROCEEDINGS OF THE AAAI CONFERENCE ON ARTIFICIAL INTELLIGENCE》 * |
余春艳等: ""视频语义上下文标签树及其结构化分析"", 《图学学报》 * |
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114064967A (zh) * | 2022-01-18 | 2022-02-18 | 之江实验室 | 多粒度级联交互网络的跨模态时序行为定位方法及装置 |
CN114155477A (zh) * | 2022-02-08 | 2022-03-08 | 成都考拉悠然科技有限公司 | 一种基于平均教师模型的半监督视频段落定位方法 |
CN114155477B (zh) * | 2022-02-08 | 2022-04-29 | 成都考拉悠然科技有限公司 | 一种基于平均教师模型的半监督视频段落定位方法 |
CN114357124A (zh) * | 2022-03-18 | 2022-04-15 | 成都考拉悠然科技有限公司 | 一种基于语言重建和图机制的视频段落定位方法 |
CN116310966A (zh) * | 2023-02-23 | 2023-06-23 | 北京邮电大学 | 视频动作定位模型训练方法、视频动作定位方法和系统 |
CN116310966B (zh) * | 2023-02-23 | 2023-12-19 | 北京邮电大学 | 视频动作定位模型训练方法、视频动作定位方法和系统 |
CN117152669A (zh) * | 2023-10-30 | 2023-12-01 | 华中科技大学 | 一种跨模态时域视频定位方法及系统 |
CN117152669B (zh) * | 2023-10-30 | 2024-02-06 | 华中科技大学 | 一种跨模态时域视频定位方法及系统 |
CN117934974A (zh) * | 2024-03-21 | 2024-04-26 | 中国科学技术大学 | 场景文本任务处理方法、系统、设备及存储介质 |
CN117934974B (zh) * | 2024-03-21 | 2024-06-14 | 中国科学技术大学 | 场景文本任务处理方法、系统、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113934887B (zh) | 2022-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113934887B (zh) | 一种基于语义解耦的无提议时序语言定位方法 | |
CN109472024B (zh) | 一种基于双向循环注意力神经网络的文本分类方法 | |
CN107844469B (zh) | 基于词向量查询模型的文本简化方法 | |
CN108829719B (zh) | 一种非事实类问答答案选择方法及系统 | |
CN110111864B (zh) | 一种基于关系模型的医学报告生成系统及其生成方法 | |
CN109492227A (zh) | 一种基于多头注意力机制和动态迭代的机器阅读理解方法 | |
CN110688394A (zh) | 面向新型供电城轨列车大数据运维的nl生成sql方法 | |
CN113204674B (zh) | 基于局部-整体图推理网络的视频-段落检索方法及系统 | |
CN110516530A (zh) | 一种基于非对齐多视图特征增强的图像描述方法 | |
CN110442880B (zh) | 一种机器翻译译文的翻译方法、装置及存储介质 | |
CN112417134A (zh) | 基于语音文本深度融合特征的摘要自动生成系统及方法 | |
CN113408430B (zh) | 基于多级策略和深度强化学习框架的图像中文描述系统及方法 | |
CN117609421A (zh) | 基于大语言模型的电力专业知识智能问答系统构建方法 | |
CN113516152A (zh) | 一种基于复合图像语义的图像描述方法 | |
Zhang et al. | Multi-modal emotion recognition based on deep learning in speech, video and text | |
CN116258147A (zh) | 一种基于异构图卷积的多模态评论情感分析方法及系统 | |
CN116881457A (zh) | 一种基于知识对比增强提示的小样本文本分类方法 | |
CN114138989A (zh) | 相关性预测模型训练方法、装置及相关性预测方法 | |
CN110888944B (zh) | 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法 | |
CN114943216B (zh) | 基于图注意力网络的案件微博属性级观点挖掘方法 | |
CN113901172B (zh) | 基于关键词结构编码的涉案微博评价对象抽取方法 | |
WO2023168818A1 (zh) | 视频和文本相似度确定方法、装置、电子设备、存储介质 | |
CN112069777B (zh) | 一种基于骨架的二阶段数据到文本生成方法 | |
CN115422329A (zh) | 一种基于知识驱动的多路筛选融合对话生成方法 | |
Yuan et al. | Meta Noise Adaption Framework for Multimodal Sentiment Analysis With Feature Noise |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |