CN111368870B

CN111368870B - 一种基于模态内间协同多线性池化的视频时序定位方法

Info

Publication number: CN111368870B
Application number: CN201911063010.9A
Authority: CN
Inventors: 余宙; 俞俊; 宋怡君
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2019-10-31
Filing date: 2019-10-31
Publication date: 2023-09-05
Anticipated expiration: 2039-10-31
Also published as: CN111368870A

Abstract

本发明公开了一种基于模态内间协同多线性池化的视频时序定位方法。本发明包括以下步骤：1、对视频和文本数据进行数据预处理，提取特征。2、通过模态内间协同多线性池化模块或泛化的模态内间协同多线性池化模块将视频和文本进行特征融合。3、基于视频时序定位任务的神经网络结构。4、模型训练，将多任务损失函数放入优化器，通过反向传播算法对网络参数进行梯度回传和更新。本发明提出一种针对视频时序定位的深度神经网络，特别是提出一种对视频‑文本的数据进行跨模态融合的模块，充分利用各模态的深层次特征，由此模块延伸出一种同时对视频时序信息的交互方法，提高了扩模态特征的表达能力，并且在视频时序定位领域中的获得较好效果。

Description

一种基于模态内间协同多线性池化的视频时序定位方法

技术领域

本发明提出一种基于模态内间协同多线性池化(Intra-and Inter-modalMultilinear Pooling)的视频时序定位方法(Video Temporal Grounding)。

背景技术

视频时序定位(Video Temporal Grounding)是一项多媒体领域的新兴任务，该任务旨在根据提供的文本描述，对某个给定视频进行时序定位。具体来讲是输入一句话和一个视频文件，通过模型后定位出这句话对应出现在该视频的时序位置(起始帧和终止帧)。例如,视频内容为一个人在厨房取出洋葱并把它切成丝，其中可能包含有“取出案板”“拿出洋葱”“冲洗洋葱”“切洋葱”“冲洗案板”“放回案板”等文本描述信息。当给出一个具体文本时，例如“拿出洋葱”，视频时序定位模型需要输出该文本发生在视频中的时间。为了得到更准确的预测，机器需要理解给定视频和文本，并在此基础上对两者的信息进行合适的跨模态融合以最大程度地消除语义鸿沟。对比图像，视频可以被理解为具有时序连贯性的图像，如何利用好视频中的时序信息，在时间维度进行建模也是研究视频领域的关键。

深度学习自2006年产生之后就受到科研机构、工业界的高度关注，发展至今已收获诸多优秀的网络模型和各种有效的训练方法。单一模态的丰富研究支撑起跨模态的研究，使得跨模态任务逐渐成为一个主流研究方向。同时跨模态更符合真实的生活场景，具有丰富的研究意义和实际价值。视频作为近几年来逐渐兴起的研究媒体，结合自然语言，形成了视频-文本的跨模态研究方向，其中视频时序定位是其中一个较为丰富的方向，在检索的同时完成精准定位，让计算机根据输入的文本在视频种自动预测出正确的时序位置是一个值得深入探索的研究问题。

多年来，在跨媒体研究领域中已经认识到获取模态间关联关系的重要性，并使用注意力机制尝试挖掘模态间丰富的关联关系。也有部分研究开始注意到模态内信息的交互，在融合前对模态内特征通过自注意力机制，或是经过不同的线性层获取深层致或对象之间的关联关系。由于跨媒体理解需要建立在对单个模态内部信息充分利用的基础上，无论是图像文本或者视频，都存在更多值得挖掘的有效信息，对模态内的建模无疑有助于加深单模态的理解进而增强最终融合特征的表达能力。

在实际应用方面，视频时序定位算法具有广泛的应用场景。在娱乐场景下，如YouTube,爱奇艺，腾讯视频等视频软件中，用户输入自己想观看内容的文本描述，可以快速查找到感兴趣的视频片段。在安保系统中，在根据监控视频查找犯罪证据及嫌疑人时也可大大节省人力及时间成本，具有十分良好的研究前景及重要的研究意义。

综上所述,视频时序定位是一个值得深入研究的课题，本专利拟从该任务中几个关键点切入展开探讨，解决目前方法存在的难点和重点，形成一套完整的视频时序定位系统。

自然语言的描述一般来自不同的标注者，具有较高的自由度，不具备统一固定的句子结构。同时，自然场景下的视频载体主题多样，内容复杂富于变化，帧与帧间可能具有较高的相似性和冗余度，而这使得视频时序定位面临巨大的挑战。具体而言，主要存在如下两方面的难点：

(1)如何对视频-文本的跨媒体信息进行处理和理解并对得到的跨媒体特征进行融合:视频相邻帧之间一般具有较高的相似性和冗余度，该问题主要通过各种采样策略进行处理，得到稀疏且有效的视频表达。跨模态特征融合一直是跨媒体领域中一个必不可少的环节，通过特征融合将两种或多种模态的信息进行交互，得到可有效表达多种模态关联关系的融合特征，参与多模态任务的结果预测。基于深度学习理论提出了一系列的融合方式包括线性融合、双线性融合和基于此的注意力机制等。因此，如何让算法自动学习到视频和文本中关联关系，生成更有效的跨媒体表达特征，是视频时序定位算法中的难点，也是影响结果性能的根本原因。

(2)如何对视频中时间维度进行建模，使时序信息得到充分利用：视频区别于图像，在于多了时间的维度，一种处理视频方法是将视频看成连续的多幅图像，采用VGG16网络提取图像特征，并用某种采样机制或Pooling操作描述某一视频段的特征。主流的方法依然是使用C3D，将某段连续的视频放入网络通过卷积建立时序联系。由于视频时序定位的输出是一个时序上的区间，因此该任务对视频的时序信息更加敏感，对时序的建模依赖性更高。

发明内容

本发明提供了一种基于模态内间协同多线性池化的视频时序定位方法。本发明主要包含两点：1、将视频和文本的特征同时进行模态内和模态间的建模，充分发掘模态内的信息，并协同模态间关联关系，得到更有效的特征表达。

2、提出泛化的多线性池化方法，将中心视频段和上下文视频段分别作为特征融合模块的输入，充分理解视频的上下文信息和时序相关性，得到包含视频时序关联的视频和文本的融合特征。

本发明解决其技术问题所采用的的技术方案包括如下步骤：

步骤(1)、数据预处理，对视频和文本数据提取特征

首先，对视频V进行预处理和特征提取：

用多个尺度的滑动窗将一整个视频V以段与段间80％的重叠率密集地切分为N个视频段。对每一个视频段，同时保留它们同尺度下相邻的前一个和后一个的视频段作为上下文特征，用来理解视频的全局信息，使用训练好的C3D网络对视频段进行特征提取，得到视频段的表征。

其次，提取文本信息的特征：

对于给定的句子S，放入文本提取模型Skip-thought中即可获得整个句子S的特征表达。该文本提取模型Skip-thought由两个GRU网络组成，将这两个网络的输出进行拼接即可得到句子的表征F_s。

步骤(2)、通过模态内间协同多线性池化模块进行特征融合：

如图1所示，当输入表征为F_v和F_s时，N为2，X₁为F_v，X₂为F_s，即为标准的IIM模块。在视频时序定位任务下，输入带有时序信息的和F_s，N为4，将这四种特征作为GIIM模块的输入。以下将以GIIM模块为例阐述融合过程。

首先将输入的N个特征通过2N个线性层，这里将每个模态都输入进两个不同参数的线性层，获得同个模态下的两种不同的深层次特征；

其次对2N个线性层的输出进行对应元素的乘法操作，得到的各个元素的哈达马积(Hadamard product)通过加和池化层(Sumpooling)建立维度间的相互关系并降低数据维度，在提升结果的同时极大地减小了计算量和模型负责度。

由于上述的乘法操作可能会使一些位置上的原本较大或较小的数值变得更大或更小，这里我们使用幂规范化(Power Normalization)对得到的数据对绝对值求平方根并保留原本的正负号，使其在某种程度上抵消了乘法操作造成的数据值激增或者下降的影响，平衡了网络中的数据分布。在IIM和GIIM模型中也都使用了dropout和L₂正则化，减小部分网络参数的权重，提升模型的学习能力增强网络的鲁棒性。

步骤(3)、构建视频时序定位的深度学习网络框架

其结构如图2所示，首先将视频用不同尺度的滑动窗口取出一个视频段，该视频段的前后段也会被取出作为上下文信息。其次将这些视频段放入C3D网络中获取视频特征F_v。同时将输入的句子通过Skip-thought网络获取文本特征F_s，将文本特征和视频特征放入IIM或GIIM特征融合模块中，获取视频域和文本域的跨模态特征表达F_vs。

将融合特征经过线性层后得到两个部分的输出，第一部分表示当前视频段与句子的匹配程度，第二部分用来对当前输入视频段的时序边界进行微调，使其边界更加灵活，定位更精准。

在模型的训练阶段，由于输出分为两个部分的内容，因此采用了多任务损失函数，Align_loss用来对预测的视频段-文本匹配程度计算损失，Reg_loss用来对预测的视频段边界的调整值计算损失，通过调节超参数平衡两个损失函数的权重，通过计算损失得到各个参数对应的梯度值，进而对模型进行优化。

在测试阶段，将一整个视频中的各个视频段逐个与句子进行特征融合后预测出当前视频段与句子的匹配程度和时序边界的调整值，通过匹配程度，对各个视频段进行排序，即可得到最优的时序定位，再根据输出的调整值对最优视频段的时序边界进行微调，得到的时序位置(包含起始时间和终止时间)即为最终预测出给定文本在视频中的时序定位。

步骤(4)、模型训练

根据输入每个候选视频段的时序位置与句子实际时序定位的差异得到两个部分loss对应的真实值。第一部分的匹配程度由两个时序区间的IoU值决定，第二部分的调整值可通过计算实际时序位置与当前视频段时序位置的起始时间和终止时间的差产生。将真实值与预测值放入对应的损失函数中，用不同的函数评估两者间的差异，并利用反向传播算法得到步骤(3)中神经网络的模型的各个参数进行梯度回传，不断优化，直至整个网络模型收敛。

步骤(1)具体实现如下：

1-1.对于得定的视频，用多个尺度(64帧、128帧、256帧、512帧)的滑动窗将一整个视频V以段与段间80％的重叠率密集地切分为N个视频段：C_i表示第i个视频段,/>表示该段的起始时间，/>表示为终止时间。对每一个视频段，同时保留它们同尺度下相邻的前一个和后一个的视频段/>和/>作为上下文特征，用来理解视频的全局信息。对于C_i，将当前视频段C_i、前一个视频段/>和后一个视频段/>输入到训练好的C3D网络中，分别提取出视频段的特征/>和/>

1-2.对于给定的句子,首先将S映射为词级向量/>采用训练好的文本进行特征提取。Skip-thought模型由两个参数不同的GRU网络组成，具体实现是将文本转换为向量后经过两个不同的GRU网络，将这两个网络的输出进行拼接，得到句子的表征

步骤(2)所述的模态内间协同的多线性池化模块进行特征融合；公式如下：

IIM模块公式如公式(1)所示，输入特征为F_v和F_s，分别代表视频特征和语言特征。

GIIM模块如公式(2)所示，输入特征x₁到x_n依次为和/>分别代表前序视频段特征，中心视频段特征，后序视频段特征和语言特征。

2-1.将每个模态都输入进两个不同参数的线性层，获得同个模态下的两种不同的深层次特征。其具体公式如下：

……

其中对于输入的N个特征，得到2N个经过线性转换的深层特征。

2-2.对2N个线性层的输出进行对应元素的乘法操作，得到的各个元素的哈达马积(Hadamard product)，其具体公式如下：

其中，表示哈达马积，∏表示连乘操作。

2-3.对得到的哈达马积在最后一个维度上做以K为单位的加和池化(SumPooling)，建立维度间的相互关系并降低数据维度，具体公式如下：

z＝SumPooling(H,K) (5)

2-4.由于步骤2-2描述的乘法操作可能会使一些位置上的原本较大或较小的数值变得更大或更小，这里我们使用幂规范化(Power Normalization)对得到的数据对绝对值求平方根并保留原本的正负号，使其在某种程度上抵消了乘法操作造成的数据值激增或者下降的影响，平衡网络中的数据分布：

2-5.在IIM模型中也使用了Dropout和L₂规范化，减小部分网络参数的权重，在提升模型学习能力的同时增强网络的鲁棒性。其中Dropout添加在步骤2-2和2-3之间，L₂规范化添加在步骤2-4之后。

步骤(3)所述的构建视频时序定位的深度学习网络框架：

3-1.将视频用不同尺度的滑动窗口取出一个视频段C_i，该视频段的前后段和也会被取出作为上下文信息。其次将这些视频段放入C3D网络中获取视频特征和/>同时将输入的句子通过Skip-thought网络获取文本特征F_s。

3-2.将视频特征和文本特征输入特征融合模块。

将文本特征和视频特征放入(2)中描述的IIM特征融合模块获取视频域和文本域的跨模态特征表达F_vs：

F_vs＝IIM(F_v,F_s) (7)

这里的F_v是包含视频上下文的特征表达，为和/>的结连：

其中||表示为结连操作(concatenate)

在跨模态的特征融合阶段，也可将文本特征和视频特征和视频上下文信息输入到(2)中描述的GIIM特征融合模块，获取更优的视频域和文本域的跨模态特征表达F_vs：

3-3.将融合特征F_vs经过多层感知机(MLP)并得到两个部分的输出，第一部分表示当前视频段与句子的匹配程度CS_ij，第二部分表示当前输入视频段的需要调整的时序范围δ＝(δ_s,δ_e)。

3-4.训练阶段，由于输出分为两个部分的内容，采用多任务损失函数，Align_loss用来对预测的视频段-文本匹配程度与真实标注计算损失，Reg_loss用来对预测的视频段边界的调整值计算损失。

3-5.测试阶段，将拆分好的出现在整个视频中的各个视频段逐个与当前的句子S_j进行特征融合，预测出当前视频段C_i与句子的匹配程度CS_ij和时序边界的调整值δ＝(δ_s,δ_e)，通过匹配程度值的高低，对各个视频段进行排序处理，匹配程度最高的视频段即为最优的时序段(t_s,t_e)，再根据输出的调整值对最优视频段的时序边界进行微调，得到的时序位置(包含起始时间δ_s+t_s和终止时间δ_e+t_e)即为最终预测出给定文本S_j在视频中的时序定位。

步骤(4)所述的训练模型，具体如下：

在训练过程中，首先比较每个候选视频段的时序位置与句子实际时序定位，得到两个部分loss对应的真实值。假设(t_s,t_e)为当前滑动窗所取视频段的时序位置，为句子的真实时序位置。计算两个时序区间的IoU值：

第一部分的匹配程度CS_ij的真实标签值由两个时序区间的IoU值决定，当IoU值大于等于0.5时，表示视频段与句子匹配，标记为正样本，CS_ij的值为1，否则表示不匹配标为负样本，CS_ij的值为0；Align_loss的公式如下：

其中，前半部分中代表正样本的损失函数，后半部分代表负样本的损失函数。N表示批处理的数据量，β_p和β_n分别用来控制正、负样本在的L_aln中所占的权重。

第二部分的调整值可通过计算实际时序位置与当前视频段时序位置(t_s,t_e)的起始时间和终止时间的差产生：

将真实值与预测值δ＝(δ_s,δ_e)放入对应的Reg_loss损失函数：

其中N表示批处理的数据量，R代表SmoothL1函数。

最终的损失函数为这两个小任务的带权加和：

L＝L_aln+αL_reg 公式(14)

利用反向传播算法，在每次迭代获取步骤(3)中神经网络的模型的各个参数进行梯度回传，在不断迭代中训练至网络模型收敛。

本发明有益效果如下：

本发明涉及一种对视频-文本的数据的跨模态特征融合，在前有方法的基础上，考虑了各个模态内部深层次特征的统一建模，并首次在融合过程中同时进行模态内和模态间的信息交互，在获取模态间关联关系的同时，通过理解模态内相互关系，更好地对跨模态信息进行表征，在与跨模态任务-视频时序定位框架结合后能有效提高该任务的准确率。进一步地，本发明在处理视频的全局信息时，将视频的前序内容和后续内容作为两个独立的模态，通过IIM模型引入了时序维度，建立起视频的时序关联，达到了更好的效果，同时也验证了本发明的通用性，可在其他多模态任务中使用。

本发明参数量尚可，效果显著，有利于更高效的分布式训练，有利于部署于内存受限的特定硬件。

附图说明

图1：模态内间协同多线性池化模块(Intra-and Inter-modalMultilinearPooling)

图2：视频时序定位网络架构

具体实施方式

下面对本发明的详细参数做进一步具体说明。

如图1，2所示，本发明提供一种基于模态内间协同多线性池化(Intra-and Inter-modal Multilinear Pooling)的视频时序定位方法(Video Temporal Grounding)。

本发明核心方法为提出模态内间协同的多线性池化模型(IIM)，用来解决多媒体表征的有效融合，并在视频时序定位这一跨模态深度学习任务中验证该模型的优越性。本方法首次提出在对视频和自然语言进行模态间交互的同时对各个模态内的特征进行建模，由此得到的融合特征不仅获得了模态间的关联关系，同时建立了模态内的深层次理解和交互。在IIM模型表现优异的前提下，本发明进一步地提出泛化的模态内间协同多线性池化方法(G eneralized Intra-and Inter-modal Multilinear Pooling)，该方法将多线性池化方法延伸至更多的模态，不再局限于两种模态的融合。实验中将视频段落的上下文作为单独的模态输入GIIM模型，在GIIM模型中完成了视频在时序维度上的上下文理解和交互，进而得到了更好的实验结果，这证明了该方法的普适通用性，可在其他多模态任务中充分发挥价值。

步骤(1)所述的数据预处理及对是视频和文本进行特征抽取，具体如下：

1-1.对于视频段的处理，由于每个视频段的时长不同，因此N的取值也不相同，对取到的视频段(训练时可能的时长为64，128，256，512帧；测试时可能的长度为128，256帧)，采用均匀采样的方式，选取16帧长度的视频段放入C3D网络中，提取fc7的特征作为该段的特征表达，该视频特征的维度为4096。在选取视频段上下文时，只考虑同样视频长度的段落，本发明中只选取相邻的前后段作为上下文，即M＝2。前序和后序的视频段的特征提取方式与中心视频段保持一致，维度同样为4096。

1-2.对于句子描述，先将句子中的标点符号去掉，并将首字母转换为小写字母，放入训练好的Skip-thought模型中，得到句子的特征表达，该文本特征的维度为4800。

步骤(2)基于模态内间协同多线性池化模块(Intra-and Inter-modalMultilinear Pooling)对提取到的视频和文本特征进行特征融合，具体如下：

2-1.首先将输入的视频特征和文本特征通过线性层映射到同一向量空间，每个维度需要通过两个不同的线性层获得两种转换后的特征表达，此时各模态特征的维度均转换为4096。

2-2.将2-1中得到的特征对应位置元素相乘，得到4096维度的哈达马积，并进行Dropout操作，dropout的程度为总参数的20％。

2-3.将2-2中得到的dropout后的哈达马积在通道维度上进行加权池化(SumPooling)，这里公式中的K设置为4，维度降低至1024维。

2-4.将2-3得到的特征进行幂规范化(Power Normalization)对得到的数据对绝对值求平方根并保留原本的正负号。

2-5.将数据在通道维度上经过L₂规范化，完成融合过程，得到IIM模型的输出。

步骤(3)所述的构建深度神经网络，具体如下：

3-1.对于视觉信息，通过C3D网络得到视觉特征和/>维度均为4096。对文本信息，通过Skip-thought模型得到文本特征F_s，维度为4800。当使用IIM模块进行融合时，输入为F_v和F_s时，F_v表示为/>和/>的结连，结连后维度为12288。当使用GIIM模块进行融合时，输入为/>和/>

3-2.将视觉特征和文本特征输入模态内间协同多线性池化模块得到跨模态特征表达，得到融合后的特征维度为1024。

3-3.将跨模态特征通过两层的多层感知机，第一个线性层的维度为1000，第二个线性层的维度为3，将得到维度为3的预测值分为两个部分，第一部分是输入视频段和句子的匹配程度CS_ij，维度为1，第二部分是输入视频段边界需要调整的数值δ＝(δ_s,δ_e)，维度为2。

3-4.训练部分，将CS_ij和δ分别放入L_aln和L_reg中计算损失。

3-5.测试部分，将拆分好的出现在整个视频中的各个视频段逐个与当前的句子S_j进行特征融合，预测出当前视频段C_i与句子的匹配程度CS_ij和时序边界的调整值δ＝(δ_s,δ_e)，通过匹配程度值的高低，对各个视频段进行排序处理，匹配程度最高的视频段即为最优的时序段(t_s,t_e)，再根据输出的调整值对最优视频段的时序边界进行微调，得到的时序位置(包含起始时间δ_s+t_s和终止时间δ_e+t_e)即为最终预测出给定文本S_j在视频中的时序定位。

步骤(4)所述的训练模型，具体如下：

对于步骤(3)产生的3维的预测值，同真实标签一起放入我们定义的损失函数L_aln和L_reg中计算得出预测值与真实值之间的差异。其中L_aln中的β_p设置为1，β_n为批处理数据时每个批次内正样本个数与负样本个数的比值。用超参数α平衡两个损失函数，这里α设置为0.1。将形成的损失值，利用反向传播算法得到各个参数的梯度回传，进而调整各个参数的值，使得该网络产生的预测值随着迭代次数的增加更加拟合实际值，直到网络收敛。训练过程中使用的优化器为Adam，参数设置均为默认值。

Claims

1.一种基于模态内间协同多线性池化的视频时序定位方法，其特征在于包括如下步骤：

步骤(1)、数据预处理，对视频和文本数据提取特征；

首先是对视频V进行预处理和特征提取：

用多个尺度的滑动窗将整个视频以段与段间80％的重叠率密集地切分为N个视频段：C_i表示第i个视频段,/>表示该段的起始时间，/>表示为终止时间；对每个当前视频段，同时保留其相邻的同尺度下前一个和后一个的视频段/>和/>作为上下文特征，用来理解视频的全局信息；对于C_i，将当前视频段C_i、前一个视频段/>和后一个视频段/>输入到训练好的C3D网络中，分别提取出视频段的特征/>和/>并将特征/>和/>拼接在一起得到的包含上下文信息的特征作为当前视频段C_i的特征F_v；

其次是提取文本信息的特征：

对于给定的句子S，放入文本提取模型Skip-thought中即可获得整个句子S的特征表达；该文本提取模型Skip-thought由两个GRU网络组成，将这两个网络的输出进行拼接即可得到句子的特征F_s；

步骤(2)、通过模态内间协同多线性池化模块进行特征融合：

当输入特征为F_v和F_s时，N为2，X₁为F_v，X₂为F_s，即为标准的IIM模块；在视频时序定位任务下，输入带有时序信息的和F_s，N为4，将这四种特征作为GIIM模块的输入；IIM模块和GIIM模块融合过程相同，具体如下：

首先将输入的N个特征通过2N个线性层，将每个模态都输入进两个不同参数的线性层，获得同个模态下的两种不同的深层次特征；

其次，对2N个线性层的输出进行对应元素的乘法操作，得到的各个元素的哈达马积通过加和池化层建立维度间的相互关系并降低数据维度；

然后使用幂规范化对得到的数据对绝对值求平方根并保留原本的正负号；在IIM和GIIM模型中也都使用了dropout和L₂正则化，减小部分网络参数的权重，提升模型的学习能力增强网络的鲁棒性；

步骤(3)、构建视频时序定位的深度学习网络框架

首先将视频用不同尺度的滑动窗口取出一个视频段，该视频段的前后段也会被取出作为上下文信息；其次将这些视频段放入C3D网络中获取视频特征F_v；同时将输入的句子通过Skip-thought网络获取文本特征F_s，将文本特征和视频特征放入IIM或GIIM特征融合模块中，获取视频域和文本域的跨模态特征表达F_vs；

将融合特征经过线性层后得到两个部分的输出，第一部分表示当前视频段与句子的匹配程度，第二部分用来对当前输入视频段的时序边界进行微调；

在模型的训练阶段，由于输出分为两个部分的内容，因此采用多任务损失函数，Align_loss用来对预测的视频段-文本匹配程度计算损失，Reg_loss用来对预测的视频段边界的调整值计算损失，通过调节超参数平衡两个损失函数的权重，通过计算损失得到各个参数对应的梯度值，进而对模型进行优化；

在模型的测试阶段，将一整个视频中的各个视频段逐个与句子进行特征融合后预测出当前视频段与句子的匹配程度和时序边界的调整值，通过匹配程度，对各个视频段进行排序，即可得到最优的时序定位，再根据输出的调整值对最优视频段的时序边界进行微调，得到的时序位置即为最终预测出给定文本在视频中的时序定位；

步骤(4)、模型训练

根据输入每个候选视频段的时序位置与句子实际时序定位的差异得到两个部分loss对应的真实值；第一部分的匹配程度由两个时序区间的IoU值决定，第二部分的调整值可通过计算实际时序位置与当前视频段时序位置的起始时间和终止时间的差产生；将真实值与预测值放入对应的损失函数中，用不同的函数评估两者间的差异，并利用反向传播算法得到步骤(3)中神经网络的模型的各个参数进行梯度回传，不断优化，直至整个网络模型收敛。

2.根据权利要求1所述的一种基于模态内间协同多线性池化的视频时序定位方法，其特征在于步骤于步骤(2)所述的基于模态内间协同多线性池化，具体公式如下：

IIM模块公式如公式(1)所示，输入特征为F_v和F_s，分别代表视频特征和语言特征；

GIIM模块如公式(2)所示，输入特征x₁到x_n依次为和F_s，分别代表前序视频段特征，中心视频段特征，后序视频段特征和语言特征；

2-1.将每个模态都输入进两个不同参数的线性层，获得同个模态下的两种不同的深层次特征；其具体公式如下：

……

其中对于输入的N个特征，得到2N个经过线性转换的深层特征；

2-2.对2N个线性层的输出进行对应元素的乘法操作，得到的各个元素的哈达马积，其具体公式如下：

其中，表示哈达马积，Π表示连乘操作；

2-3.对得到的哈达马积在最后一个维度上做以K为单位的加和池化，建立维度间的相互关系并降低数据维度，具体公式如下：

z＝SumPooling(H,K) 公式(5)

2-4.使用幂规范化对得到的数据对绝对值求平方根并保留原本的正负号，平衡网络中的数据分布：

2-5.在IIM模型中也使用了Dropout和L₂规范化，减小部分网络参数的权重，在提升模型学习能力的同时增强网络的鲁棒性；其中Dropout添加在步骤2-2和步骤2-3之间，L₂规范化添加在步骤2-4后。

3.根据权利要求2所述的一种基于模态内间协同多线性池化的视频时序定位方法，其特征在于步骤(3)所述的构建视频时序定位的深度学习网络框架，具体如下：

3-1.将视频用不同尺度的滑动窗口取出一个视频段C_i，该视频段的前后段和/>也会被取出作为上下文信息；其次将这些视频段放入C3D网络中获取视频特征和/>同时将输入的句子通过Skip-thought网络获取文本特征F_s；

3-2.将视频特征和文本特征输入特征融合模块；

将文本特征和视频特征放入步骤(2)中描述的IIM特征融合模块获取视频域和文本域的跨模态特征表达F_vs：

F_vs＝IIM(F_v,F_s) 公式(7)

其中，F_v是包含视频上下文的特征表达，为和/>的结连：

其中||表示为结连操作；

在跨模态的特征融合阶段，也可将文本特征和视频特征和视频上下文信息输入到步骤(2)中描述的GIIM特征融合模块，获取更优的视频域和文本域的跨模态特征表达F_vs：

3-3.将融合特征F_vs经过多层感知机并得到两个部分的输出，第一部分表示当前视频段与句子的匹配程度CS_ij，第二部分表示当前输入视频段的需要调整的时序范围δ＝(δ_s,δ_e)；

3-4.训练阶段，由于输出分为两个部分的内容，采用多任务损失函数，Align_loss用来对预测的视频段-文本匹配程度与真实标注计算损失，Reg_loss用来对预测的视频段边界的调整值计算损失；

3-5.测试阶段，将拆分好的出现在整个视频中的各个视频段逐个与当前的句子S_j进行特征融合，预测出当前视频段C_i与句子的匹配程度CS_ij和时序边界的调整值δ＝(δ_s,δ_e)，通过匹配程度值的高低，对各个视频段进行排序处理，匹配程度最高的视频段即为最优的时序段(t_s,t_e)，再根据输出的调整值对最优视频段的时序边界进行微调，得到的时序位置即为最终预测出给定文本S_j在视频中的时序定位；时序位置包含起始时间δ_s+t_s和终止时间δ_e+t_e。

4.根据权利要求3所述的一种基于模态内间协同多线性池化的视频时序定位方法，其特征在于步骤(4)所述的训练模型，具体如下：

在训练过程中，首先比较每个候选视频段的时序位置与句子实际时序定位，得到两个部分loss对应的真实值；假设(t_s,t_e)为当前滑动窗所取视频段的时序位置，为句子的真实时序位置；计算两个时序区间的IoU值：

其中，前半部分中代表正样本的损失函数，后半部分代表负样本损失函数；N表示批处理的数据量，β_p和β_n分别用来控制正负样本在的L_aln中所占的权重；

将真实值与预测值δ＝(δ_s,δ_e)放入对应的Reg_loss损失函数：

其中N表示批处理的数据量，R代表SmoothL1函数；

最终的损失函数为这两个小任务的带权加和：

L＝L_aln+αL_reg 公式(14)