CN113934887B - 一种基于语义解耦的无提议时序语言定位方法 - Google Patents

一种基于语义解耦的无提议时序语言定位方法 Download PDF

Info

Publication number
CN113934887B
CN113934887B CN202111561246.2A CN202111561246A CN113934887B CN 113934887 B CN113934887 B CN 113934887B CN 202111561246 A CN202111561246 A CN 202111561246A CN 113934887 B CN113934887 B CN 113934887B
Authority
CN
China
Prior art keywords
feature
video
features
semantic
context
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111561246.2A
Other languages
English (en)
Other versions
CN113934887A (zh
Inventor
沈复民
蒋寻
徐行
申恒涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Koala Youran Technology Co ltd
Original Assignee
Chengdu Koala Youran Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Koala Youran Technology Co ltd filed Critical Chengdu Koala Youran Technology Co ltd
Priority to CN202111561246.2A priority Critical patent/CN113934887B/zh
Publication of CN113934887A publication Critical patent/CN113934887A/zh
Application granted granted Critical
Publication of CN113934887B publication Critical patent/CN113934887B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9032Query formulation
    • G06F16/90332Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于语义解耦的无提议时序语言定位方法,涉及跨模态内容检索领域,解决现有无提议定位机制中存在的技术问题,包括对原始视频进行解耦,分解出多层次的视觉特征流,并在各个视觉特征流内,进行模态内和跨模态的上下文建模,从而保持了基于候选提议方法的优势,采用跨语义的集成机制,将信息交互后的多模态上下文特征集成为细粒度特征,最后利用无提议定位的机制,直接求解出目标视频片段的开始与结束位置。利用无提议定位方法的边界定位机制的同时,使用了中间特征来辅助视频的内容理解,克服了现有无提议定位机制的缺陷。

Description

一种基于语义解耦的无提议时序语言定位方法
技术领域
本发明涉及多模态视频理解中的跨模态内容检索领域,具体涉及一种基于语义解耦的无提议时序语言定位方法。
背景技术
近年来互联网的发展导致多媒体数据呈指数级增长,使得许多应用向前迈进了一大步。在这一趋势的推动下,学术界和工业界都对多模态视频理解提出了新的需求,这在过去十年中吸引了大量的研究人员。时序语言定位是多模态视频理解任务中最具挑战性的任务之一。不同于跨模态视频文本检索,时序语言定位不是检索修剪过的短视频,而是根据描述目标时刻的给定语言查询在具有多个活动的未修剪视频中定位精确的开始和结束时间。
基于视频模态与文本模态的多模态研究,目前时序语言定位的方法一般可以分为以下两类:
(1)基于候选片段提议的方法:将时序动作定位视为视频文本检索问题。此类方法仿照两阶段时序动作生成框架,先在第一阶段生成视频片段作为候选,随后在第二阶段将这些候选提议与文本查询语句进行匹配;
(2)无提议时序语言定位方法:直接预测目标视频片段的开始与结束时间。此类方法不生成候选片段,而是直接利用回归或是细粒度的分类,直接求得目标视频片段的时间戳。
虽然基于这两种传统思路,现有时序语言定位的方法得到了一定的发展,但这两种方法仍然有各自的缺陷。基于候选提议的方法将原始视频裁剪成具有不同恒定尺度候选的视频剪辑序列。通常,在候选者丰富的情况下,与无提议方法相比,基于提议的方法可以获得更高的召回率。然而,受限于每个候选提议的恒定尺寸,它们很难适应目标片段的视频长度,例如,当目标片段超出预设置的尺寸候选比例的视频片段相关的查询,由于剪辑的预定义长度,这些候选框可能会导致预测结果与实际时序位置的错位,从而降低高精度定位上的性能。
与前者相比,无提议方法可以通过灵活的边界定位机制轻松解决这个问题,该机制可以适应不同的长度并实现更高的效率。然而,尽管有这些优点,现有的无提议方法也有两个缺点:(1)如果没有候选生成阶段,他们很难用段级交互对上下文进行建模。(2)他们高估了边界内的信息,对整个活动的重要性不够重视。因此,现有的无提议方法在大规模数据集上,召回性能篇低,通常在低精度指标上表现更差,而基于提议的方法则在这些方面显示出其优越性。
发明内容
本发明的目的在于:为了解决现有无提议定位机制中的技术问题,本发明提供了一种基于语义解耦的无提议时序语言定位方法,通过结合基于候选提议方案与传统无提议定位机制的优势,同时克服其各自的缺陷,从而提高时序语言定位的效果。
本发明采用的技术方案如下:
一种基于语义解耦的无提议时序语言定位方法,包括以下步骤,
步骤1:选择训练数据集;
步骤2:加载预训练的2D或3D卷积神经网络的模型参数,对步骤1中的数据集提取原始视频特征;
步骤3:对于步骤1中数据集、给定自然语言查询语句Q,其具有
Figure 488654DEST_PATH_IMAGE001
个单词,首先使用GLoVE词嵌入,将各个词汇表示为维度为300的词向量,再通过两层双向门控循环单元,将所得到的前向与后向特征结合起来,得到查询的单词级文本特征;
步骤4:对步骤2中的原始视频特征根据其潜在语义进行解耦,得到三条语义分支、求得三条具有不同语义的特征流;
步骤5:对步骤4中三条特征流内部进行特征交互、得到三个不同的视频上下文特征,并将三个不同的视频上下文特征、分别和步骤3中的单词级文本特征进行融合、得到三个模态上下文;
步骤6:根据语义之间的潜在联系,将步骤5中三个模态上下文的特征进行集成,表征为细粒度语义特征;
步骤7:通过估算目标片段的开始与结束的概率分布,求出最大可能为边界的特征,并根据该特征计算出原视频中开始与结束的时序位;增加中间特征预测分支,挖掘目标片段内容;
步骤8:建目标函数,提供训练准则;
步骤9:采用Adam优化器,采用恒定学习率策略对模型进行训练。
进一步地,还包括验证方式,
步骤10:使用训练完成的基于语义解耦的无提议时序语言定位模型对视频和文本对进行视频片段检索,以验证模型效果。
进一步地,所述步骤2更详细地包括,
假设未经裁剪的视频V,具有
Figure 885001DEST_PATH_IMAGE002
个视频帧序列,首先利用卷积神经网络将视频中的每帧或者相邻几帧映射到高维空间,提取出视频特征F:
Figure 555016DEST_PATH_IMAGE003
其中
Figure 466341DEST_PATH_IMAGE005
为位置
Figure 247215DEST_PATH_IMAGE006
处的特征,
Figure 763647DEST_PATH_IMAGE007
为特征总长度,
Figure 604564DEST_PATH_IMAGE009
为视频特征空间维度。
进一步地,所述步骤4更详细地包括,语义解耦模块包括三个具有不同采样稀疏度与感受野的池化采样层,三个独立的特征编码全卷积层,一层共享的位置编码层;
特征流F sem 表示为以下公式:
Figure 206446DEST_PATH_IMAGE010
其中,F为视频特征,
Figure 791012DEST_PATH_IMAGE011
Figure 365212DEST_PATH_IMAGE012
,分别为不同池化采样层的步长与池化宽度;PE(.)、Conv1D(.)、MaxPooling(.)分别代表位置编码层,卷积编码层,池化采样层;其中,位置编码层为三条特征流共享。
进一步地,所述步骤5更详细地包括,
步骤5.1:对三条特征流内部进行特征交互、得到三个不同的视频上下文特征CS
视频上下文特征CS,通过以下公式得到:
Figure 377031DEST_PATH_IMAGE014
Figure 200630DEST_PATH_IMAGE015
Figure 585957DEST_PATH_IMAGE016
其中,Resblock(.)代表残差块,MultiHeadAttn(.)代表多头注意力机制,Softmax(.)、ReLU(.)、BN(.)、Conv1D(.)分别代表归一化指数函数、非线性化激活层、批量归一化层、时序卷积层;
Figure 811402DEST_PATH_IMAGE017
表示由第n个残差块处理后的特征;
Figure 994121DEST_PATH_IMAGE018
表示未经残差块处理的特征,即首个残差块输入的特征;S m D m 分别为时序卷积和尺寸核残差块数量;W q 、W k 、W v 1 分别为多头注意力机制中查询、键、值可学习参数矩阵;n h 为多头注意力机制中的注意力头数量,d为块内维度;视频上下文特征
Figure 570596DEST_PATH_IMAGE019
,其中
Figure 496964DEST_PATH_IMAGE020
为对应语义分支的特征长度;
步骤5.2:将单词级文本特征Hq转换为具有较强分辨率的跨模态特化表征,并分别与三个不同的视频上下文特征CS融合、得到三个跨模态上下文。
进一步地,所述步骤5.2更详细地包括,
步骤5.21:给定一个语义分支的单词级文本特征Hq和视频上下文特征CS,量化单词对每个视频上下文特征CS的不同贡献,并对原始的单词级文本特征进行加权求得更新后的文本模态特征;
计算强度矩阵:
Figure 576915DEST_PATH_IMAGE021
,其中
Figure 196115DEST_PATH_IMAGE022
代表量化后的第j个单词对第
Figure 259886DEST_PATH_IMAGE023
个视频特征的贡献;通过该强度矩阵,可以将原始查询文本特征转化为跨模态特化表征形式F q
计算过程为:
Figure 989945DEST_PATH_IMAGE025
Figure 924403DEST_PATH_IMAGE027
其中,W r 、W v 2 、W h 、W m分别 为多模态融合第一、第二、第三、第四可学习参数矩阵;
步骤5.22:在得到更新的文本模态特征后,跨模态特化表征与到三个不同的视频上下文特征C s 融合、得到跨模态上下文建模模块,该视频-文本上下文建模可以由以下公式描述:
Figure 714504DEST_PATH_IMAGE029
W cm 、W v 3 、W t 分别为跨模态上下文建模第一、第二、第三可学习参数矩阵、C cm 为跨模态上下文特征;
Figure 999992DEST_PATH_IMAGE030
代表由第n个残差块处理后的特征;
最后,收集三条不同特征流的跨模态上下文特征,表示为:
Figure 268162DEST_PATH_IMAGE031
进一步地,所述步骤6更详细地包括,
给定事件级别的上下文特征:
Figure 322706DEST_PATH_IMAGE032
和动作上下文特征:
Figure 283709DEST_PATH_IMAGE033
,将后者作为查询特征,前者作为键和对应值,求得跨语义推理的事件级别特征,随后与细粒度的动作级别特征结合,求得第一阶段的集成特征;
再对第一阶段集成特征和场景级别的上下文特征
Figure 790914DEST_PATH_IMAGE034
重复集成操作、在集成阶段的末尾,使用自注意力机制强化处于目标视频片段中的特征,求得最终的细粒度跨语义特征。
进一步地,所述步骤7更详细地包括,
给定最终的集成特征C final,该目标片段定位过程可描述为:
Figure 865705DEST_PATH_IMAGE035
其中,
Figure 40334DEST_PATH_IMAGE036
代表三条预测分支的概率分布,给定原始视频长度
Figure 109921DEST_PATH_IMAGE037
和集成特征长度
Figure 370001DEST_PATH_IMAGE038
,最终所求得目标片段的时序位置为:
Figure 979974DEST_PATH_IMAGE039
其中argmax(.)代表求最大概率的特征点的索引,
Figure 9110DEST_PATH_IMAGE040
Figure 46336DEST_PATH_IMAGE042
分别为预测的起始概率分布和结束概率分布。
进一步地,所述步骤8更详细地包括,
步骤8.1:构建定位损失、该部分为核心的损失函数,用以引导模型求出正确的边界位置分布;给定开始与结束的预测分布,基于KL散度计算模型预测与实际位置的分布差异:
Figure 793712DEST_PATH_IMAGE043
Figure 207376DEST_PATH_IMAGE044
其中,
Figure 91018DEST_PATH_IMAGE045
表示实际标注的目标片段边界的概率分布,
Figure 564725DEST_PATH_IMAGE046
为KL散度计算函数,
Figure 799397DEST_PATH_IMAGE047
为最终计算的定位损失;
步骤8.2:构建内容损失、该部分用以挖掘目标视频片段内部信息,提高模型对视频内容的理解能力:
Figure 751173DEST_PATH_IMAGE048
其中,
Figure 754901DEST_PATH_IMAGE049
为事实标注向量,位于目标视频片段内部的特征被标注为1,否则为0,
Figure 133930DEST_PATH_IMAGE050
为中间帧预测分支所求出的二分类概率,
Figure 590319DEST_PATH_IMAGE051
最终计算的内容损失;
步骤8.3:构建注意力引导损失、该部分用以引导步骤S42中所使用的自注意力强化模块,使有效的特征具有更高的权重;给定由S42中自注意力机制模块产生的注意力权重
Figure 345785DEST_PATH_IMAGE052
和事实标注向量
Figure 201090DEST_PATH_IMAGE049
,设
Figure 16599DEST_PATH_IMAGE053
为注意力损失,该部分损失可以表示为:
Figure 960285DEST_PATH_IMAGE054
步骤8.4:构建综合训练目标函数
最终训练的目标函数由上述三个部分复合而成,如下所示:
Figure 457125DEST_PATH_IMAGE055
其中,
Figure 169866DEST_PATH_IMAGE056
Figure 156277DEST_PATH_IMAGE057
为平衡损失的超参因子,
Figure 383996DEST_PATH_IMAGE058
为整个模型的最终损失函数。
本发明的有益效果如下:
1.本发明基于语义,对原始视频进行解耦,分解出多层次的视觉特征流,并在各个视觉特征流内,进行模态内和跨模态的上下文建模,从而保持了基于候选提议方法的优势;
2.本发明采用跨语义的集成机制,将信息交互后的多模态上下文特征集成为细粒度特征,最后利用无提议定位的机制,直接求解出目标视频片段的开始与结束位置;
3.本发明在利用无提议定位方法的边界定位机制的同时,使用了中间特征来辅助视频的内容理解,克服了现有无提议定位机制的缺陷;
4.本发明经测试,有效地提高了时序语言定位的精度,与现有技术相比,在高精度定位上具有较大优势;
5.本发明可用于各种多模态视频理解场合,如网络视频APP、视频播放器、大规模视频内容检索等,可改善用户软件使用体验,提高视频制作、处理、检验等相关领域工作人员的工作效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,本说明书附图中的各个部件的比例关系不代表实际选材设计时的比例关系,其仅仅为结构或者位置的示意图,其中:
图1是本发明的实现流程图;
图2是本发明跨模态上下文建模模块的示意图;
图3是本发明语义解耦模块的框架示意图;
图4是本发明在Charades-STA及TACoS数据集上的时刻检索效果展示图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。
下面结合图1至图4对本发明作详细说明。
实施例1
一种基于语义解耦的无提议时序语言定位方法,包括以下步骤,
步骤1:选择训练数据集;
步骤2:加载预训练的2D或3D卷积神经网络的模型参数,对步骤1中的数据集提取原始视频特征;
步骤3:对于步骤1中数据集、给定自然语言查询语句Q,其具有
Figure 481265DEST_PATH_IMAGE001
个单词,首先使用GLoVE词嵌入,将各个词汇表示为维度为300的词向量,再通过两层双向门控循环单元,将所得到的前向与后向特征结合起来,得到查询的文本特征;
步骤4:对步骤2中的原始视频特征根据其潜在语义进行解耦,得到三条语义分支、求得三条具有不同语义的特征流;
步骤5:对步骤4中三条特征流内部进行特征交互、得到三个不同的视频上下文特征,并将三个不同的视频上下文特征、分别和步骤3中的文本特征进行融合、得到三个模态上下文;
步骤6:根据语义之间的潜在联系,将步骤5中三个模态上下文的特征进行集成,表征为细粒度语义特征;
步骤7:通过估算目标片段的开始与结束的概率分布,求出最大可能为边界的特征,并根据该特征计算出原视频中开始与结束的时序位;增加中间特征预测分支,挖掘目标片段内容;;
步骤8:建目标函数,提供训练准则;
步骤9:采用Adam优化器,采用恒定学习率策略对模型进行训练
本发明的工作原理/工作过程为:先使用预训练卷积神经网络提取原始视频特征,并使用语义解耦模块对原始视频特征进行解耦,得到三条语义分支。使用biGRU提取文本特征。然后通过跨模态上下文建模模块,使每条语义特征流内进行信息交互和多模态融合,得到跨模态的上下文特征。更进一步地,使用跨语义特征集成模块,将得到的层次上下文特征整合为细粒度特征,并使用自注意力机制强化有效特征。最后,使用时序定位模块定位目标片段的开始与结束时间。
实施例2
在实施例1的基础上,进一步地,所述步骤5更详细地包括,
步骤5.1:对三条特征流内部进行特征交互、得到三个不同的视频上下文特征CS
视频上下文特征CS,通过以下公式得到:
Figure 48512DEST_PATH_IMAGE060
Figure 205824DEST_PATH_IMAGE015
Figure 327364DEST_PATH_IMAGE016
步骤5.2:将单词级文本特征Hq转换为具有较强分辨率的跨模态特化表征,并与到三个不同的视频上下文特征CS融合、得到三个跨模态上下文;
所述步骤5.2更详细地包括,
步骤5.21:给定一个语义分支的单词级文本特征Hq和视频上下文特征CS,量化单词对每个视频上下文特征CS的不同贡献,并对原始的单词级文本特征进行加权求得更新后的文本模态特征;
计算强度矩阵:
Figure 759482DEST_PATH_IMAGE021
,其中
Figure 712395DEST_PATH_IMAGE022
代表量化后的第j个单词对第
Figure 306187DEST_PATH_IMAGE023
个视频特征的贡献;通过该强度矩阵,可以将原始查询文本特征转化为跨模态特化表征形式F q
计算过程为:
Figure 446181DEST_PATH_IMAGE062
步骤5.22:在得到更新的文本模态特征后,跨模态特化表征与到三个不同的视频上下文特征CS融合、得到跨模态上下文建模模块,该视频-文本上下文建模可以由以下公式描述:
Figure 153762DEST_PATH_IMAGE064
最后,收集三条不同特征流的跨模态上下文特征,表示为:
Figure 695602DEST_PATH_IMAGE031
给出两个场景案例,如下所示:
第一场景案例:在Charades-STA数据集上开展效果评估工作。该数据集包含6,672个日常生活视频。大多数视频都是室内活动,视频时长平均为29.76秒。每个视频有大约2.4个带注释的目标视频,其平均持续时间为8.2秒。经过统计,该数据集涉及16,128个视频-文本对,分为训练和测试部分,分别为12408对和3720对。在该实施案例中,本发明应用I3D作为原始视频特征提取器以得到视频的RGB特征。同时,为了与现有技术进行公平的比较并评估本发明的稳健性,此应用案例中还使用了在视频表征上能力较弱的VGG特征。基于上述两个特征,本发明在该数据集上与其他方法所比较的结果分别如表1所示:
表1为:Charades-STA数据集上的比较表
Figure 194716DEST_PATH_IMAGE065
第二场景案例:在TACoS数据集上开展效果评估工作。该数据集从MPII烹饪复合活动视频语料库中选出的127个视频组成,其中包含发生在厨房里的不同活动,经由自然语言描述和时间注释丰富后,此数据集具有长视频、稠密事件等特点,是时序语言定位领域一个十分有挑战性的数据集。该数据集上标准拆分由10146、4589和4083个分别用于训练、验证和测试的视频-文本对组成。本方法使用C3D作为原始数据特征提取器。此外,本方法也使用了I3D主干提取特征,以和现有方法进行公平比较。本发明在该数据集上比较的效果如表2所示:
表2为:TACoS数据集上的比较表
Figure 822007DEST_PATH_IMAGE066
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于语义解耦的无提议时序语言定位方法,其特征在于:包括以下步骤,
步骤1:选择训练数据集;
步骤2:加载预训练的2D或3D卷积神经网络的模型参数,对步骤1中的数据集提取原始视频特征;
步骤3:对于步骤1中数据集、给定自然语言查询语句Q,其具有
Figure DEST_PATH_IMAGE001
个单词,首先使用GLoVE词嵌入,将各个词汇表示为维度为300的词向量,再通过两层双向门控循环单元,将所得到的前向与后向特征结合起来,得到查询的单词级文本特征;
步骤4:对步骤2中的原始视频特征根据其潜在语义进行解耦,得到三条语义分支、求得三条具有不同语义的特征流;具体地,所述步骤4更详细地包括,语义解耦模块包括三个具有不同采样稀疏度与感受野的池化采样层,三个独立的特征编码全卷积层,一层共享的位置编码层;
特征流F sem 表示为以下公式:
Figure DEST_PATH_IMAGE002
其中,F为视频特征,
Figure DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE004
,分别为不同池化采样层的步长与池化宽度;PE(.)、Conv1D(.)、MaxPooling(.)分别代表位置编码层,卷积编码层,池化采样层;其中,位置编码层为三条特征流共享;
步骤5:对步骤4中三条特征流内部进行特征交互、得到三个不同的视频上下文特征,并将三个不同的视频上下文特征、分别和步骤3中的单词级文本特征进行融合、得到三个模态上下文;
步骤6:根据语义之间的潜在联系,将步骤5中三个模态上下文的特征进行集成,表征为细粒度语义特征;
步骤7:通过估算目标片段的开始与结束的概率分布,求出最大可能为边界的特征,并根据该特征计算出原视频中开始与结束的时序位;增加中间特征预测分支,挖掘目标片段内容;
步骤8:建目标函数,提供训练准则;
步骤9:采用Adam优化器,采用恒定学习率策略对模型进行训练。
2.根据权利要求1所述的一种基于语义解耦的无提议时序语言定位方法,其特征在于,还包括验证方式,
步骤10:使用训练完成的基于语义解耦的无提议时序语言定位模型对视频和文本对进行视频片段检索,以验证模型效果。
3.根据权利要求1所述的一种基于语义解耦的无提议时序语言定位方法,其特征在于,所述步骤2更详细地包括,
假设未经裁剪的视频V,具有
Figure DEST_PATH_IMAGE005
个视频帧序列,首先利用卷积神经网络将视频中的每帧或者相邻几帧映射到高维空间,提取出视频特征F:
Figure DEST_PATH_IMAGE006
其中
Figure DEST_PATH_IMAGE007
为位置
Figure DEST_PATH_IMAGE008
处的特征,
Figure DEST_PATH_IMAGE009
为特征总长度,
Figure DEST_PATH_IMAGE010
为视频特征空间维度。
4.根据权利要求1所述的一种基于语义解耦的无提议时序语言定位方法,其特征在于,所述步骤5更详细地包括,
步骤5.1:对三条特征流内部进行特征交互、得到三个不同的视频上下文特征CS
视频上下文特征CS,通过以下公式得到:
Figure DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE012
Figure DEST_PATH_IMAGE013
其中,Resblock(.)代表残差块,MultiHeadAttn(.)代表多头注意力机制,Softmax(.)、ReLU(.)、BN(.)、Conv1D(.)分别代表归一化指数函数、非线性化激活层、批量归一化层、时序卷积层;
Figure DEST_PATH_IMAGE014
表示由第n个残差块处理后的特征;
Figure DEST_PATH_IMAGE015
表示未经残差块处理的特征,即首个残差块输入的特征;S m D m 分别为时序卷积和尺寸核残差块数量;W q 、W k 、W v 1 分别为多头注意力机制中查询、键、值可学习参数矩阵;n h 为多头注意力机制中的注意力头数量,d为块内维度;视频上下文特征
Figure DEST_PATH_IMAGE016
,其中
Figure DEST_PATH_IMAGE017
为对应语义分支的特征长度;
步骤5.2:将单词级文本特征Hq转换为具有较强分辨率的跨模态特化表征,并分别与三个不同的视频上下文特征CS融合、得到三个跨模态上下文。
5.根据权利要求4所述的一种基于语义解耦的无提议时序语言定位方法,其特征在于,所述步骤5.2更详细地包括,
步骤5.21:给定一个语义分支的单词级文本特征Hq和视频上下文特征CS,量化单词对每个视频上下文特征CS的不同贡献,并对原始的单词级文本特征进行加权求得更新后的文本模态特征;
计算强度矩阵:
Figure DEST_PATH_IMAGE018
,其中
Figure DEST_PATH_IMAGE019
代表量化后的第j个单词对第
Figure DEST_PATH_IMAGE020
个视频特征的贡献;通过该强度矩阵,可以将原始查询文本特征转化为跨模态特化表征形式F q
计算过程为:
Figure DEST_PATH_IMAGE021
Figure DEST_PATH_IMAGE022
其中,W r 、W v 2 、W h 、W m分别 为多模态融合第一、第二、第三、第四可学习参数矩阵;
步骤5.22:在得到更新的文本模态特征后,跨模态特化表征与到三个不同的视频上下文特征C s 融合、得到跨模态上下文建模模块,该视频-文本上下文建模可以由以下公式描述:
Figure DEST_PATH_IMAGE023
W cm 、W v 3 、W t 分别为跨模态上下文建模第一、第二、第三可学习参数矩阵、C cm 为跨模态上下文特征;
Figure DEST_PATH_IMAGE024
代表由第n个残差块处理后的特征;
最后,收集三条不同特征流的跨模态上下文特征,表示为:
Figure DEST_PATH_IMAGE025
6.根据权利要求4所述的一种基于语义解耦的无提议时序语言定位方法,其特征在于,所述步骤6更详细地包括,
给定事件级别的上下文特征:
Figure DEST_PATH_IMAGE026
和动作上下文特征:
Figure DEST_PATH_IMAGE027
,将后者作为查询特征,前者作为键和对应值,求得跨语义推理的事件级别特征,随后与细粒度的动作级别特征结合,求得第一阶段的集成特征;
再对第一阶段集成特征和场景级别的上下文特征
Figure DEST_PATH_IMAGE028
重复集成操作、在集成阶段的末尾,使用自注意力机制强化处于目标视频片段中的特征,求得最终的细粒度跨语义特征。
7.根据权利要求1所述的一种基于语义解耦的无提议时序语言定位方法,其特征在于,所述步骤7更详细地包括,
给定最终的集成特征C final,该目标片段定位过程可描述为:
Figure DEST_PATH_IMAGE029
其中,
Figure DEST_PATH_IMAGE030
代表三条预测分支的概率分布,给定原始视频长度
Figure DEST_PATH_IMAGE031
和集成特征长度
Figure DEST_PATH_IMAGE032
,最终所求得目标片段的时序位置为:
Figure DEST_PATH_IMAGE033
其中argmax(.)代表求最大概率的特征点的索引,
Figure DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE035
分别为预测的起始概率分布和结束概率分布。
8.根据权利要求1所述的一种基于语义解耦的无提议时序语言定位方法,其特征在于,所述步骤8更详细地包括,
步骤8.1:构建定位损失、该部分为核心的损失函数,用以引导模型求出正确的边界位置分布;给定开始与结束的预测分布,基于KL散度计算模型预测与实际位置的分布差异:
Figure DEST_PATH_IMAGE036
Figure DEST_PATH_IMAGE037
其中,
Figure DEST_PATH_IMAGE038
表示实际标注的目标片段边界的概率分布,
Figure DEST_PATH_IMAGE039
为KL散度计算函数,
Figure DEST_PATH_IMAGE040
为最终计算的定位损失;
步骤8.2:构建内容损失、该部分用以挖掘目标视频片段内部信息,提高模型对视频内容的理解能力:
Figure DEST_PATH_IMAGE041
其中,
Figure DEST_PATH_IMAGE042
为事实标注向量,位于目标视频片段内部的特征被标注为1,否则为0,
Figure DEST_PATH_IMAGE043
为中间帧预测分支所求出的二分类概率,
Figure DEST_PATH_IMAGE044
最终计算的内容损失;
步骤8.3:构建注意力引导损失、该部分用以引导步骤S42中所使用的自注意力强化模块,使有效的特征具有更高的权重;给定由S42中自注意力机制模块产生的注意力权重
Figure DEST_PATH_IMAGE045
和事实标注向量
Figure 626049DEST_PATH_IMAGE042
,设
Figure DEST_PATH_IMAGE046
为注意力损失,该部分损失可以表示为:
Figure DEST_PATH_IMAGE047
步骤8.4:构建综合训练目标函数
最终训练的目标函数由上述三个部分复合而成,如下所示:
Figure DEST_PATH_IMAGE048
其中,
Figure DEST_PATH_IMAGE049
Figure DEST_PATH_IMAGE050
为平衡损失的超参因子,
Figure DEST_PATH_IMAGE051
为整个模型的最终损失函数。
CN202111561246.2A 2021-12-20 2021-12-20 一种基于语义解耦的无提议时序语言定位方法 Active CN113934887B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111561246.2A CN113934887B (zh) 2021-12-20 2021-12-20 一种基于语义解耦的无提议时序语言定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111561246.2A CN113934887B (zh) 2021-12-20 2021-12-20 一种基于语义解耦的无提议时序语言定位方法

Publications (2)

Publication Number Publication Date
CN113934887A CN113934887A (zh) 2022-01-14
CN113934887B true CN113934887B (zh) 2022-03-15

Family

ID=79289304

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111561246.2A Active CN113934887B (zh) 2021-12-20 2021-12-20 一种基于语义解耦的无提议时序语言定位方法

Country Status (1)

Country Link
CN (1) CN113934887B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114064967B (zh) * 2022-01-18 2022-05-06 之江实验室 多粒度级联交互网络的跨模态时序行为定位方法及装置
CN114155477B (zh) * 2022-02-08 2022-04-29 成都考拉悠然科技有限公司 一种基于平均教师模型的半监督视频段落定位方法
CN114357124B (zh) * 2022-03-18 2022-06-14 成都考拉悠然科技有限公司 一种基于语言重建和图机制的视频段落定位方法
CN116310966B (zh) * 2023-02-23 2023-12-19 北京邮电大学 视频动作定位模型训练方法、视频动作定位方法和系统
CN117152669B (zh) * 2023-10-30 2024-02-06 华中科技大学 一种跨模态时域视频定位方法及系统
CN117934974A (zh) * 2024-03-21 2024-04-26 中国科学技术大学 场景文本任务处理方法、系统、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN111897913A (zh) * 2020-07-16 2020-11-06 浙江工商大学 基于语义树增强的复杂文本查询到视频的跨模态检索方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110072142B (zh) * 2018-01-24 2020-06-02 腾讯科技(深圳)有限公司 视频描述生成方法、装置、视频播放方法、装置和存储介质
CN109344288B (zh) * 2018-09-19 2021-09-24 电子科技大学 一种基于多模态特征结合多层注意力机制的结合视频描述方法
CN111930999B (zh) * 2020-07-21 2022-09-30 山东省人工智能研究院 逐帧跨模态相似度关联实施文本查询定位视频片段方法
CN112015947B (zh) * 2020-08-28 2024-03-15 中山大学 一种语言描述引导的视频时序定位方法、系统
CN113792594B (zh) * 2021-08-10 2024-04-12 南京大学 一种基于对比学习的视频中语言片段定位方法及装置
CN113704546B (zh) * 2021-08-23 2024-02-13 西安电子科技大学 基于空间时序特征的视频自然语言文本检索方法
CN113423004B (zh) * 2021-08-23 2021-11-30 杭州一知智能科技有限公司 基于解耦译码的视频字幕生成方法和系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107562812A (zh) * 2017-08-11 2018-01-09 北京大学 一种基于特定模态语义空间建模的跨模态相似性学习方法
CN111897913A (zh) * 2020-07-16 2020-11-06 浙江工商大学 基于语义树增强的复杂文本查询到视频的跨模态检索方法

Also Published As

Publication number Publication date
CN113934887A (zh) 2022-01-14

Similar Documents

Publication Publication Date Title
CN113934887B (zh) 一种基于语义解耦的无提议时序语言定位方法
CN109472024B (zh) 一种基于双向循环注意力神经网络的文本分类方法
CN107844469B (zh) 基于词向量查询模型的文本简化方法
CN107748757B (zh) 一种基于知识图谱的问答方法
CN109241255A (zh) 一种基于深度学习的意图识别方法
CN110704601A (zh) 利用问题-知识引导的渐进式时空注意力网络解决需要常识的视频问答任务的方法
CN105938485A (zh) 一种基于卷积循环混合模型的图像描述方法
CN111274790B (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN111242033B (zh) 一种基于视频和文字对判别分析的视频特征学习方法
CN110688394A (zh) 面向新型供电城轨列车大数据运维的nl生成sql方法
CN113204674B (zh) 基于局部-整体图推理网络的视频-段落检索方法及系统
CN114238577B (zh) 融合多头注意力机制的多任务学习情感分类方法
CN109889923B (zh) 利用结合视频描述的分层自注意力网络总结视频的方法
CN112926337B (zh) 一种结合重构句法信息的端到端方面级情感分析方法
CN112417134A (zh) 基于语音文本深度融合特征的摘要自动生成系统及方法
CN110990628A (zh) 一种利用多粒度卷积网络自注意语境网络机制解决视频问答的方法
CN113516152A (zh) 一种基于复合图像语义的图像描述方法
Zhang et al. Multi-modal emotion recognition based on deep learning in speech, video and text
Karlos et al. Combining active learning with self-train algorithm for classification of multimodal problems
CN111428502A (zh) 一种面向军事语料的命名实体标注方法
CN114356990A (zh) 基于迁移学习的基地命名实体识别系统及方法
CN113505583A (zh) 基于语义决策图神经网络的情感原因子句对提取方法
CN117609421A (zh) 基于大语言模型的电力专业知识智能问答系统构建方法
CN110888944B (zh) 基于多卷积窗尺寸注意力卷积神经网络实体关系抽取方法
CN112667797A (zh) 自适应迁移学习的问答匹配方法、系统及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant