CN114612759A

CN114612759A - 视频处理方法、查询视频的方法和模型训练方法、装置

Info

Publication number: CN114612759A
Application number: CN202210280734.4A
Authority: CN
Inventors: 何栋梁; 丁二锐; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-22
Filing date: 2022-03-22
Publication date: 2022-06-10
Anticipated expiration: 2042-03-22
Also published as: CN114612759B; EP4138047A2; KR20230004391A; US20230130006A1; EP4138047A3; JP2023022845A

Abstract

本公开提供了一种视频处理方法、查询视频的方法和模型训练方法、装置，涉及人工智能领域，具体涉及计算机视觉、视频理解和深度学习技术领域，可应用于智慧城市和智能交通等场景下。视频处理方法的具体实现方案为：针对待处理视频，提取多个感受野下的多个视频特征；根据多个感受野中目标感受野下的视频特征，提取待处理视频的局部特征；根据多个感受野中最大感受野下的视频特征，得到针对待处理视频的全局特征；以及融合局部特征和全局特征，得到待处理视频的目标特征。

Description

视频处理方法、查询视频的方法和模型训练方法、装置

技术领域

本公开涉及人工智能领域，具体涉及计算机视觉、视频理解和深度学习技术领域，可应用于智慧城市和智能交通等场景下。

背景技术

随着计算机技术和网络技术的发展，深度学习技术在众多领域得到了广泛应用。例如，可以采用深度学习技术提取视频特征、对视频进行检索和对视频进行分类等。

相关技术可参见授权公告号为CN109977793B的中国发明专利。

发明内容

本公开旨在提供一种视频处理方法、查询视频的方法和视频处理模型的训练方法、装置、电子设备、存储介质，以提高特征表达能力。

根据本公开的一个方面，提供了一种视频处理方法，包括：针对待处理视频，提取多个感受野下的多个视频特征；根据多个感受野中目标感受野下的视频特征，提取待处理视频的局部特征；根据多个感受野中最大感受野下的视频特征，得到针对待处理视频的全局特征；以及融合局部特征和全局特征，得到待处理视频的目标特征。

根据本公开的另一个方面，提供了一种查询视频的方法，包括：提取查询文本的文本特征；获取多个备选视频中每个视频的目标特征；以及根据文本特征和目标特征，确定多个备选视频中与查询文本相匹配的视频，其中，目标特征是采用本公开提供的视频处理方法获得的。

根据本公开的另一个方面，提供了一种视频处理模型的训练方法，其中，视频处理模型包括视频特征提取网络、局部特征提取网络和特征融合网络；该方法包括：将样本数据中包括的样本视频输入视频特征提取网络，得到多个感受野下的多个视频特征；将多个感受野中目标感受野下的视频特征输入局部特征提取网络，得到样本视频的局部特征；根据多个感受野中最大感受野下的视频特征，得到样本视频的全局特征；将局部特征和全局特征输入特征融合网络，得到样本视频的目标特征；获取样本数据中的样本文本的文本特征；以及根据目标特征和文本特征，对视频处理模型进行训练。

根据本公开的另一个方面，提供了一种视频处理装置，包括：视频特征提取模块，用于针对待处理视频，提取多个感受野下的多个视频特征；局部特征提取模块，用于根据多个感受野中目标感受野下的视频特征，提取待处理视频的局部特征；全局特征确定模块，用于根据多个感受野中最大感受野下的视频特征，得到针对待处理视频的全局特征；以及特征融合模块，用于融合局部特征和全局特征，得到待处理视频的目标特征。

根据本公开的另一个方面，提供了一种查询视频的装置，包括：文本特征提取模块，用于提取查询文本的文本特征；目标特征获取模块，用于获取多个备选视频中每个视频的目标特征；以及视频确定模块，用于根据文本特征和目标特征，确定多个备选视频中与查询文本相匹配的视频，其中，目标特征是采用本公开提供的视频处理装置获得的。

根据本公开的另一个方面，提供了一种视频处理模型的训练装置，其中，视频处理模型包括视频特征提取网络、局部特征提取网络和特征融合网络；该装置包括：视频特征提取模块，用于将样本数据中包括的样本视频输入视频特征提取网络，得到多个感受野下的多个视频特征；局部特征提取模块，用于将多个感受野中目标感受野下的视频特征输入局部特征提取网络，得到样本视频的局部特征；全局特征确定模块，用于根据多个感受野中最大感受野下的视频特征，得到样本视频的全局特征；特征融合模块，用于将局部特征和全局特征输入特征融合网络，得到样本视频的目标特征；文本特征获取模块，用于获取样本数据中的样本文本的文本特征；以及第一训练模块，用于根据目标特征和文本特征，对视频处理模型进行训练。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的以下方法中的至少之一：视频处理方法、查询视频的方法、视频处理模型的训练方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的以下方法中的至少之一：视频处理方法、查询视频的方法、视频处理模型的训练方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序/指令，计算机程序/指令在被处理器执行时实现本公开提供的以下方法中的至少之一：视频处理方法、查询视频的方法、视频处理模型的训练方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的视频处理方法、查询视频的方法和视频处理模型的训练方法、装置的应用场景示意图；

图2是根据本公开实施例的视频处理方法的流程示意图；

图3是根据本公开实施例的视频处理方法的原理示意图；

图4是根据本公开实施例的提取待处理视频的局部特征的原理示意图；

图5是根据本公开实施例的融合全局特征和局部特征的原理示意图；

图6是根据本公开实施例的查询视频的方法的流程示意图；

图7是根据本公开实施例的视频处理模型的训练方法的流程示意图；

图8是根据本公开实施例的视频处理模型的训练方法的原理示意图；

图9是根据本公开实施例的视频处理装置的结构框图；

图10是根据本公开实施例的查询视频的装置的结构框图；

图11是根据本公开实施例的视频处理模型的训练装置的结构框图；以及

图12是用来实施本公开实施例的任一方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开提供了一种视频处理方法，该方法包括视频特征提取阶段、局部特征提取阶段、全局特征确定阶段和特征融合阶段。在视频特征提取阶段中，针对待处理视频，提取多个感受野下的多个视频特征。在局部特征提取阶段中，根据多个感受野中目标感受野下的视频特征，提取待处理视频的局部特征。在全局特征确定阶段中，根据多个感受野中最大感受野下的视频特征，得到待处理视频的全局特征。在特征融合阶段中，融合局部特征和全局特征，得到待处理视频的目标特征。

以下将结合图1对本公开提供的方法和装置的应用场景进行描述。

图1是根据本公开实施例的视频处理方法、查询视频的方法和视频处理模型的训练方法、装置的应用场景示意图。

如图1所示，该实施例的应用场景100可以包括电子设备110，该电子设备110可以为具有处理功能的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。

该电子设备110例如可以对输入的视频120进行处理，以提取到表达该视频的特征130。该提取到的特征130可以作为对智能交通、智能推荐、智能筛查等多个场景中视频分类、视频查询、视频去重等应用的依据，本公开对该场景不做限定。

在一实施例中，该电子设备110可以采用视频处理模型140来对输入的视频120进行处理。其中，视频处理模型140可以为卷积神经网络（Convolutional Neural Network，CNN）模型或者基于注意力的Transformer模型等，本公开对此不做限定。

在一实施例中，该视频处理模型140例如可以由服务器150训练得到。电子设备110可以通过网络与服务器150通信连接，以向服务器150发送模型获取请求。相应地，服务器150可以响应于该请求将训练好的视频处理模型140发送给电子设备110。

在一实施例中，电子设备110还可以将输入的视频120发送给服务器150，由服务器150对该视频120进行处理，以得到表达视频120的特征。

可以理解的是，在视频查询应用中，可以根据查询信息的特征与视频的特征之间的相似度，来确定视频是否与查询信息匹配。在视频去重应用中，可以根据两个视频的两个特征之间的相似度，来确定该两个视频是否彼此重复。

需要说明的是，本公开提供的视频处理方法和查询视频的方法可以由电子设备110执行，也可以由服务器150执行。相应地，本公开提供的视频处理装置和查询视频的装置可以设置在电子设备110中，也可以设置在服务器150中。本公开提供的视频处理模型的训练方法可以由服务器150执行。相应地，本公开提供的视频处理模型的训练装置可以设置在服务器150中。

应该理解，图1中的电子设备110和服务器150的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的电子设备110和服务器150。

以下将结合图2~图5对本公开提供的视频处理方法进行详细描述。

图2是根据本公开实施例的视频处理方法的流程示意图。

如图2所示，该实施例的视频处理方法200可以包括操作S210~操作S230。

在操作S210，针对待处理视频，提取多个感受野下的多个视频特征。

根据本公开的实施例，待处理视频例如可以包括多个视频帧，设定每个视频帧的尺寸为H×W×3，多个视频帧的个数为T，则该实施例可以将待处理视频表示为尺寸为T×H×W×3的数据。其中，H为视频帧的高度，W为视频帧的宽度。

在一实施例中，可以采用多个三维卷积对表示待处理视频的数据逐级地降采样，从而得到多个感受野下的多个视频特征。

在一实施例中，可以采用Video Swin-Transformer模型来提取多个视频特征。具体地，尺寸为T×H×W×3的数据经分割后可以得到尺寸为T/2×H/4×W/4×96的数据。尺寸为T/2×H/4×W/4×96的数据依次经由Video Swin-Transformer模型中依次连接的多阶网络（多个stage）处理，由该依次连接的多个stage分别输出多个感受野下的多个视频特征，每个stage输出一个感受野下的视频特征，且沿着多个stage的连接顺序，输出的视频特征的感受野依次增大。

在操作S220，根据多个感受野中目标感受野下的视频特征，提取待处理视频的局部特征。

根据本公开的实施例，目标感受野例如可以为多个感受野中介于最大感受野和最小感受野之间的任一感受野。如此，可以在提高处理效率的同时，使得目标感受野下的视频特征能够更多的保留待处理视频的局部信息。例如，在多个感受野的数目为四个，且该多个感受野下的视频特征由依次连接的四个stage依次输出的情况下，目标感受野下的视频特征可以由依次连接的四个stage中第二个stage或第三个stage输出，本公开对此不做限定。

根据本公开的实施例，可以将目标感受野下的视频特征划分为多个特征块，随后对多个特征块中的每个特征块进行卷积运算，得到一个处理后特征块。该实施例可以将多个特征块经卷积运算得到的多个处理后特征块拼接，从而得到待处理视频的局部特征。

在操作S230，根据多个感受野中最大感受野下的视频特征，得到针对待处理视频的全局特征。

在操作S240，融合局部特征和全局特征，得到待处理视频的目标特征。

根据本公开的实施例，对于由依次连接的多个stage输出多个视频特征的情况，最大感受野下的视频特征是多个stage中最后一个stage输出的视频特征。该实施例可以将该最后一个stage输出的视频特征作为针对待处理视频的全局特征。

根据本公开的实施例，可以拼接全局特征和局部特征，将拼接后特征作为目标特征。或者，该实施例可以经由全连接层对拼接后的特征进行处理，将经由全连接层处理后得到的特征作为目标特征。

本公开实施例的视频处理方法，通过根据多个感受野中目标感受野下的视频特征来提取局部特征，并将局部特征和感受野最大的全局特征融合来得到表达视频的目标特征，可以使得该目标特征不仅能够表达视频的全局信息，还可以表达局部信息。相较于基于CNN提取特征的方法和基于Transformer来以端到端方式提取特征的方法，可以提高提取的视频特征的表达能力，利于提高下游应用（例如前文描述的视频分类、视频查询和视频去重等）的精度。

图3是根据本公开实施例的视频处理方法的原理示意图。

如图3所示，该实施例300中，可以采用Video Swin-Transformer模型来实现视频处理方法。

该实施例300中，Video Swin-Transformer模型可以包括4个Stage，用于逐级地扩大提取的视频特征的感受野。具体地，前述对表示待处理视频的数据分割所得到的尺寸为T/2×H/4×W/4×96的数据，先输入第一stage 311，经由该第一stage 311输出第一感受野下的第一视频特征。该第一视频特征作为第二stage 312的输入，经由该第二stage 312处理后输出第二感受野下的第二视频特征。依次类推，由第三stage 313输出第三感受野下的第三视频特征，由第四stage 314输出第四感受野下的第四视频特征。第一视频特征~第四视频特征的感受野依次增大，例如，该第一视频特征~第四视频特征的尺寸分别为T/2×H/4×W/4×C、T/2×H/8×W/8×2C、T/2×H/16×W/16×4C、T/2×H/32×W/32×8C。其中，C为第一stage 311的通道数。可以理解的是，该Video Swin-Transformer模型包括4个stage的结构仅作为示例以利于理解本公开，本公开对此不做限定。

其中，第一stage 311可以包括线性嵌入（Linear Embedding）层和SwinTransformer块（Swin Transformer Block）。其中，尺寸为T/2×H/4×W/4×96的数据经由线性嵌入层的处理，可以将输入数据的特征维度变为C，即，线性嵌入层输出的数据尺寸为T/2×H/4×W/4×C。Video Transformer块可以分为两部分，一部分为Video W-MSA，一部分为Video SW-MSA。其中，MSA即为多头自注意力（Multi-head Self Attention），Video W-MSA部分先对输入数据进行层归一化处理。随后对层归一化处理后的数据从左上角像素开始，根据常规窗口划分策略，将T/2×H/4×W/4×C数据均匀划分为大小为T/2×H/8×W/8×C的2×2个特征，并对每个特征进行多头自注意力运算，将经多头自注意力运算后的2×2个特征合并，合并后的特征经由层归一化处理和全连接处理后，得到输入Video SW-MSA部分的特征。Video SW-MSA部分的处理逻辑与Video W-MSA部分类似，区别仅在于，Video SW-MSA部分采用不同的窗口划分策略，该Video SW-MSA部分采用滑动窗口的操作来划分输入的数据，以使得移位后的窗口内的特征包含了相邻窗口内的特征，为Video W-MSA部分中相邻的不重合窗口内的数据之间引入了连接，从而可以增大数据的感受野。第二stage 312~第四stage 314均可以包括块融合（Patch Merging）层和Swin Transformer块。其中，块融合层用于对输入的数据合并，再对合并后的数据利用线性层降维。该降维会改变数据的空间尺寸，也会改变通道数。

如图3所示，该实施例可以将第四视频特征作为全局特征，将第二stage 312输出的第二视频特征作为目标感受野下的视频特征。在根据第二视频特征提取局部特征时，该实施例可以将目标感受野下的视频特征输入局部特征提取分支（Local Branch） 320中。该局部特征提取分支320可以先根据预定尺寸的滑动窗口截取目标感受野下的视频特征，得到多个视频子特征。随后采用注意力算法对多个视频子特征中的每个子特征进行处理，得到多个处理后子特征。最后根据该多个处理后子特征，得到待处理视频的局部特征。

根据本公开的实施例，该局部特征提取分支320包括滑动窗口层和注意力层。其中，滑动窗口层用于根据预定尺寸的滑动窗口来对尺寸为T/2×H/8×W/8×2C的视频特征进行划分。划分得到的多个视频子特征可以彼此不重叠。或者，划分得到的多个视频子特征中的相邻子特征可以部分重叠，以此使得提取的局部特征能够充分考虑相邻像素特征之间的关联性，提高局部特征的表达能力。注意力层用于对划分得到的每个视频子特征进行自注意力运算，从而学习到每个视频子特征中多个像素特征之间的关联性。

例如，滑动窗口层中采用的滑动窗口的尺寸可以为：空间维度的尺寸W_s和时间维度尺寸W_t，其中，空间维度指宽度方向和高度方向，时间维度指T所在方向。如此，对于尺寸为T/2×H/8×W/8×2C的视频特征，截取得到的每个视频子特征的尺寸为W_t×W_s×W_s×2C。可以理解的是，滑动窗口在空间维度中宽度方向和高度方向的尺寸也可以不相等，本公开对此不做限定。在截取视频子特征时，该实施例可以根据空间维度的第一预定步长和时间维度的第二预定步长来移动滑动窗口。其中，第一预定步长小于滑动窗口在空间维度的长度，且第二预定步长小于滑动窗口在时间维度的长度。通过该第一预定步长和第二预定步长的设置，可以使得截取的多个视频子特征中相邻子特征存在重叠的像素点，使得提取的局部特征能够充分考虑相邻像素特征之间的关联性，提高局部特征的表达能力。

例如，第一预定步长可以为W_s/2，第二预定步长可以为W_t/2。如此，滑动窗口在空间维度的重合比例为1/2，滑动窗口在时间维度的重合比例也为1/2。截取得到的视频子特征的个数可以由N_h*N_w*N_t来表示。其中，N_h=H/8/W_s*2，N_w=W/8/W_s*2，N_t=W/2/W_t*2。

在得到多个处理后子特征后，该实施例可以将该多个处理后子特征拼接后作为局部特征301。或者，可以采用下文描述的方法来得到局部特征301，在此不再详述。

在得到局部特征301后，该实施例可以采用交叉注意力（cross attention）算法来对局部特征301和全局特征302进行处理，从而得到目标特征303。其中，全局特征302例如可以由多个视频特征中感受野最大的特征经由池化处理Pooling而得到。可以理解的是，该全局特征也可以直接为Video Swin-Transformer输出的感受野最大的特征。例如，可以将局部特征301和全局特征302输入交叉注意力网络330，经由该交叉注意力网络进行交叉注意力运算。交叉注意力运算的实现原理可参见下文描述，在此不再详述。其中，对感受野最大的特征的池化处理例如可以为全局平均池化处理。

图4是根据本公开实施例的提取待处理视频的局部特征的原理示意图。

根据本公开的实施例，可以采用局部特征提取网络来提取待处理视频的局部特征。如图4所示，在该实施例400中，输入局部特征提取网络的特征可以为前文描述的尺寸为T/2×H/8×W/8×2C的视频特征f_2。该视频特征f_2经由重叠窗口分割层410处理后，可以得到多个视频子特征。该多个视频子特征可以构成视频组f_w，该视频组f_w中包括N_t*N_h*N_w个视频子特征，每个视频子特征的尺寸为W_s*W_s*W_t，且每个视频子特征的深度为2C。

如图4所示，该实施例400可以采用自注意力网络420来对每个视频子特征进行处理。其中，该自注意力网络420例如可以由4个依次连接的自注意力块构成，每个自注意力块由一个多头注意力机制层（Win-MSA）421和一个前向反馈网络422（Feed-Forward Network，FFN）构成。每个视频子特征经由该自注意力网络420处理后，可以得到一个处理后子特征。如此，可以总计得到N_t*N_h*N_w个处理后子特征。

在得到N_t*N_h*N_w个处理后子特征后，可以采用窗口融合层430对该些处理后子特征进行融合，得到融合后特征。随后，该实施例可以采用三维卷积来提取该融合后特征的权重特征，最后根据该权重特征对融合后特征进行加权，得到局部特征。如此，通过采用局部特征提取网络，可以自适应地学习到融合后特征中各像素点特征的重要性程度的得分，从而可以使得融合后特征中重要性高的特征被突出，而重要性低的特征被抑制，提高提取得到的局部特征的精度。其中，窗口融合层430对该些处理后子特征融合后得到的特征尺寸例如可以为T/2×H/8×W/8×2C。

在一实施例中，如图4所示，在经由窗口融合层430融合多个处理后子特征后，可以经由变换&映射层440来对融合得到的特征进行维度变换和映射。该实施例可以将经由变换&映射层440处理后得到的特征f_r作为融合后特征。

例如，变换&映射层440可以先对窗口融合层430输出的特征进行空间到深度（Space to Depth）的变换，得到尺寸为T/2×H/16×W/16×8C的特征。随后，该变换&映射层440可以利用卷积核为1的3维卷积（3D-Conv）来对尺寸为T/2×H/16×W/16×8C的特征的进行映射，从而得到融合后特征f_r，该融合后特征的尺寸为T/2×H/16×W/16×8C。

在一实施例中，提取权重特征时可以采用如图4所示的卷积网络450来提取权重特征。其中，该卷积网络450例如可以包括依次连接的3D-Conv层451、激活层ReLU 452和3D-Conv层453。该实施例可以将融合后特征f_r输入该卷积网络450，经由该卷积网络450处理后，输出权重特征S_a，该权重特征S_a的尺寸为T/2×H/16×W/16。将该权重特征S_a与融合后特征f_r中的每个深度的特征点乘后，即可得到待处理视频的局部特征f_local，该局部特征f_local的尺寸例如可以为T/2×H/16×W/16×8C。

可以理解的是，图4描述的局部特征提取网络的结构仅作为示例以利于理解本公开，根据实际需求，可以采用任意结构的局部特征提取网络，本公开对此不做限定。

图5是根据本公开实施例的融合全局特征和局部特征的原理示意图。

根据本公开的实施例，可以采用交叉注意力算法来融合局部特征f_local和全局特征f_global。通过该方式，可以对局部特征和全局特征之间进行互相关的建模，利于提高得到的目标特征的表达能力。

例如，该实施例在采用融合全局特征和局部特征时，可以先根据全局特征f_global获得查询特征Q，同时根据局部特征f_local获得键特征K和值特征V。最后，根据该查询特征Q、键特征K和值特征V，采用交叉注意力算法得到待处理视频的目标特征。

例如，可以先将查询特征Q和键特征K进行点乘，将点乘得到的结果进行归一化处理，将归一化处理后的特征作为权重，对值特征V进行加权，该加权得到的特征可以为目标特征。

在一实施例中，还可以采用多头注意力机制来实现交叉注意力算法。具体，可以采用如图5所示的特征融合网络来融合局部特征f_local和全局特征f_global。例如，如图5所示，该实施例500中，特征融合网络可以设置有多个注意力模块510，每个注意力模块510中包括映射层511~映射层513和归一化层（Softmax）514。映射层511用于对全局特征f_global进行映射，得到查询特征Q，映射层512和映射层513均用于对局部特征进行映射，分别得到键特征K和值特征V。经由每个注意力模块可以得到一个注意力特征，该注意力特征即为对值特征V加权后得到的特征。该实施例500可以将由多个注意力模块510得到的多个注意力特征拼接，并将经由映射层520处理后得到的特征作为目标特征。通过该方式，可以对全局特征和局部特征进行更为充分的学习，提高得到的目标特征的精度。

在一实施例中，还可以采用堆叠的M个特征融合网络来实现局部特征f_local和全局特征f_global的融合，以此进一步提高得到的目标特征的精度。例如，前文描述的感受野最大的视频特征经池化处理后，得到尺寸为1×8C的全局特征，对于前文得到的尺寸为T/2×H/16×W/16×8C的局部特征，该实施例可以对该局部特征进行变换，变换为一个特征序列，该特征序列包括T/2*H/16*W/16个特征，每个特征的通道数为8C。该实施例可以将全局特征作为堆叠的M个特征融合网络中第一个网络的输入，用第一个网络的输出替代全局特征，作为第二个网络的输入，以此类推，由第M个网络输出目标特征。其中，M为大于1的整数。其中，M个特征融合网络中的每个网络除了包括前文描述的多个注意力模块510、映射层520外，还可以包括有FFN层530。在每个网络中，可以将映射层520输出的特征与输入该每个网络的全局特征拼接，随后将拼接后的特征经由FFN层530处理后与输入该每个网络的全局特征相加，得到该每个网络的下一个网络的全局特征。

例如，对于M个特征融合网络中的第m个网络，输出的全局特征可以采用以下公式计算得到：

。

其中，f_global ^m为第m个网络输出的全局特征，MCA _m (f_global ^(m-1) , f_local)表示以f_global ^(m-1)和f_local作为该第m个网络的输入，由第m个网络中的映射层520输出的特征。FFN _m表示该第m个网络中的FFN层530的处理。||表示拼接操作。其中，MCA _m (f_global ^(m-1) , f_local)可以表示为：

。

其中，W ^(m)为映射层520学习得到的映射矩阵参数。

表示该第m个网络中第i个注意力模块输出的特征。n为该第m个网络中包括的注意力模块的总个数。

例如可以采用以下公式计算得到：

。

其中：

；

；

。

其中，

、

、

分别表示第m个网络中第i个注意力模块的映射层511、映射层512、映射层513学习到的矩阵参数。

基于本公开提供的视频处理方法，本公开还提供了一种查询视频的方法，以下将结合图6对该方法进行详细描述。

图6是根据本公开实施例的查询视频的方法的流程示意图。

如图6所示，该实施例的查询视频的方法600可以包括操作S610~操作S630。

在操作S610，提取查询文本的文本特征。

根据本公开的实施例，查询文本例如可以包括用户通过电子设备输入的查询关键词。该实施例可以采用能够提取语义信息的文本特征提取模型来提取文本特征。其中，文本特征提取模型例如可以包括循环神经网络模型或Transformer模型，具体地，可以采用长短期记忆（Long-Short Term Memory，LSTM）网络或者ERNIE模型等，本公开对此不做限定。

在操作S620，获取多个备选视频中每个视频的目标特征。

根据本公开的实施例，可以将视频库中的视频作为备选视频，采用前文描述的视频处理方法对每个视频进行处理，得到该每个视频的目标特征。该实施例可以预先将每个视频的目标特征存储，并与该每个视频建立映射关系，该操作S620直接获取存储的目标特征即可。

在操作S630，根据文本特征和目标特征，确定多个备选视频中与查询文本相匹配的视频。

该实施例可以将文本特征和目标特征映射至相同的特征空间，并计算映射至相同的特征空间后的两个特征之间的相似度，作为文本特征和目标特征之间的相似度。该实施例可以将与文本特征之间的相似度最大的目标特征所对应的备选视频作为与查询文本相匹配的视频。或者，可以将与文本特征之间的相似度大于阈值的目标特征所对应的备选视频作为与查询文本相匹配的视频。其中，阈值可以根据实际需求进行设定，特征之间的相似度可以采用皮尔逊相关系数、余弦相似度等来表示，本公开对此不做限定。

在一实施例中，操作S610提取的文本特征可以包括词级特征和句子级特征。该实施例可以根据句子级特征和目标特征进行相似度的计算。其中，词级特征可以包括与查询文本中的多个词分别对应的多个词特征。

例如，在提取文本特征时，可以先对查询文本进行切词处理，并根据预先生成的词典，来得到与切词得到的多个词分别对应的多个词标识，将每个词标识作为一个词Token，并设置一个由Tx表示的Token，用于标识查询文本的整个句子。将该Tx作为第一个Token，将多个词标识根据词在查询文本中的顺序依次排列在第一个Token后，得到一个Token序列。该实施例可以将该Token序列作为ERNIE 2.0模型的输入，经由该ERNIE 2.0模型处理后，输出与Tx对应的句子级特征及与多个词Token对应的词特征。其中，句子级特征是经由ERNIE2.0模型中的多层的多头注意力机制对多个词Token的特征进行注意力加权和融合而得到的。可以理解的是，也可以对查询文本进行分字，根据每个字来得到一个Token。相较于采用分字确定Token的方法，采用分词来确定Token的方法可以使得得到的词特征能够更好地保留语义信息。

为了便于视频处理方法的执行，本公开还提供了一种视频处理模型的训练方法，以下将结合图7对该方法进行详细描述。

图7是根据本公开实施例的视频处理模型的训练方法的流程示意图。

如图7所示，该实施例的视频处理模型的训练方法700可以包括操作S710~操作S750。

在操作S710，将样本数据中包括的样本视频输入视频特征提取网络，得到多个感受野下的多个视频特征。

根据本公开的实施例，样本数据可以为一批（Batch）数据。一批数据中的每个样本数据都包括样本视频和样本文本。该实施例可以将该一批数据中的所有样本数据整理成尺寸为B×T×H×W×3的数据输入视频特征提取网络，经由视频特征提取网络数据与每个样本视频对应的多个视频特征。该操作S710的实现方式与前文描述的操作S210的实现方式类似，视频特征提取网络可以为前文描述的Video Swin-Transformer模型，本公开对此不做限定。

在操作S720，将多个感受野中目标感受野下的视频特征输入局部特征提取网络，得到样本视频的局部特征。

根据本公开的实施例，该操作S720的实现方式与前文描述的操作S220的实现方式类似。对于一批数据中的样本视频，目标感受野下的视频特征可以采用尺寸B个尺寸为T/2×H/8×W/8×2C的数据来表示。该实施例可以将该B个尺寸为T/2×H/8×W/8×2C的数据输入局部特征提取网络，得到B个尺寸为T/2×H/16×W/16×4C的局部特征。

其中，局部特征提取网络可以采用如图3或图4所示的结构，本公开对此不做限定。

在操作S730，根据多个感受野中最大感受野下的视频特征，得到针对样本视频的全局特征。该操作与前文描述的操作S230类似，在此不再赘述。

在操作S740，将局部特征和全局特征输入特征融合网络，得到样本视频的目标特征。

根据本公开的实施例，该操作S740的实现方式与前文描述的操作S240的实现方式类似，在此不再赘述。对于一批数据中的样本视频，可以得到B个目标特征。

在操作S750，获取样本数据中的样本文本的文本特征。

根据本公开的实施例，该操作S750的实现方式与前文描述的操作S610的实现方式类似，在此不再赘述。在训练视频处理模型之前，该实施例可以预先提取得到了样本文本的文本特征，该操作S750可以获取该存储的文本特征。对于一批数据中的样本文本，可以得到B个文本特征。对应一批数据中的每个数据包括的样本视频和样本文本，提取的目标特征和文本特征可以构成一个特征对。

在操作S760，根据目标特征和文本特征，对视频处理模型进行训练。

根据本公开的实施例，该实施例可以采用弱监督的方式来对视频处理模型进行训练。例如，设定每个样本数据中的样本视频和样本文本是匹配的。该每个样本数据中的样本视频和样本文本例如可以是根据查询历史来获取的查询文本和被播放的视频，或者，该每个样本数据中的样本文本可以为该每个数据中的样本视频的标题。如此，可以降低模型的训练成本。

例如，对于一个样本数据中的样本视频和样本文本，样本视频的目标特征与样本文本的文本特征之间的相似度应接近于1，因此可以设定该目标特征与文本特征之间的实际相似度为1。该实施例可以将目标特征和文本特征之间的相似度作为预测相似度，根据预测相似度与实际相似度之间的差异来确定视频处理模型的损失，通过最小化损失来训练视频处理模型。该实施例还可以根据目标特征与文本特征之间的距离来训练视频处理模型，该根据距离训练模型的目标为对于一个样本数据，使得样本视频的目标特征与样本文本的文本特征之间的距离接近于0。

在一实施例中，在训练视频处理模型的过程中，还可以对负样本进行学习，以此提高模型的收敛效率。例如，对于来自两个不同样本数据的样本视频和样本文本，样本视频的目标特征与样本文本的文本特征之间的相似度应接近于0，因此可以将来自两个不同数据的样本视频和样本文本构成负样本，设定负样本中样本视频的目标特征与样本文本的文本特征之间的实际相似度为0。相应地，一个样本数据中的样本视频和文本视频可以构成正样本。

例如，该实施例可以采用交叉熵损失函数来确定视频处理模型的损失。以将正样本中视频和文本的特征拉近，将负样本中视频和文本的特征推远。

在一实施例中，设定一个样本数据中的样本视频为v _j，样本文本为t _j，样本视频v _j的目标特征为f _j，样本文本t _j的文本特征为g _j，该实施例还可以采用以下对比损失函数来确定视频处理模型的损失：

。

其中，τ为超参数，f _j ﹒g _j表示f _j与g _j的内积。

在一实施例中，操作S750获取的文本特征可以包括样本文本的句子级特征。该实施例前文描述的目标特征和文本特征之间的相似度可以为目标特征与样本文本的句子级特征之间的相似度。如此，可以使得视频的融合了局部特征和全局特征的目标特征与文本的句子级特征对齐，便于根据查询文本来查询匹配的视频，这是由于文本的句子级特征能够更好的表达文本的语义。

图8是根据本公开实施例的视频处理模型的训练方法的原理示意图。

根据本公开的实施例，前文获取的文本特征例如除了句子级特征外，还可以包括样本文本的词级特征。该词级特征可以包括与样本文本分词得到的多个词分别对应的多个词特征。该实施例除了根据句子级特征和目标特征来训练视频处理模型外，还可以根据样本视频的局部特征和样本文本的词级特征来训练视频处理模型。如此，可以使得视频的局部特征与文本的局部特征更好地对齐，便于提高训练得到的视频处理模型的鲁棒性。这是由于视频的标题文本等文本内容中会包括一些实体信息，该些实体信息是比较容易对应到视频帧的局部图像上。另外，该实施例由于采用相较于字级特征能够更好地表达语义信息的词级特征来训练视频处理模型，利于提高训练得到的模型的精度。

如图8所示，在实施例800中，在训练视频处理模型时，可以将样本视频经由视频特征提取网络810处理，将第二stage输出的特征为目标感受野下的视频特征。该目标感受野下的视频特征经由局部特征提取网络820（可以为前文描述的局部特征提取分支）处理后得到局部特征801。依次连接的多个stage中最后一个stage输出的视频特征经全局平均池化操作后得到样本视频的全局特征802。全局特征802和局部特征801经由特征融合网络830融合后得到目标特征803，其中，特征融合网络830采用交叉注意力算法来融合特征。同时，样本文本经分词处理后，将各词的标识作为Token，得到Token1~Token N，将该N个Token与排在首位的Tx输入ERNIE2.0模型840中，得到样本文本的句子级特征804和词级特征805。句子级特征804与Tx对应。词级特征805包括N个词特征，分别与Token1~Token N对应。

随后，该实施例可以根据目标特征803和句子级特征804之间的相似度，得到视频处理模型的全局损失806。根据局部特征801和词级特征805，得到视频处理模型的局部损失807。最后，将全局损失806和局部损失807的加权和作为整体损失，对视频处理模型进行训练。或者，可以根据全局损失806对整个视频处理模型进行训练，根据局部损失807对局部特征提取网络820进行训练。

在一实施例中，对于一个样本数据，可以针对词级特征中的每个词特征，确定该每个词特征与样本视频的局部特征之间的第一相似度。对于多个词特征，可以得到多个第一相似度。该实施例可以根据该多个第一相似度来确定视频处理模型的局部损失807，并对视频处理模型进行训练。例如，该实施例可以将多个第一相似度的平均值或者多个第一相似度中的最高相似度作为词级特征和局部特征之间的预测相似度。采用前文描述的交叉熵损失函数等来针对一个样本数据的局部损失。该实施例可以将针对一批数据中所有数据的局部损失的和作为视频处理模型的局部损失807。

在一实施例中，在训练视频处理模型的过程中，还可以对负样本进行学习，以此提高模型的收敛效率。如此，该实施例还可以针对负样本中样本文本的每个词特征，计算该每个词特征与负样本中样本视频的局部特征之间的相似度，根据该相似度来确定针对负样本的局部损失。

在一实施例中，针对任一样本文本，可以将一批样本数据中样本文本不包括该任一样本文本分词得到的任一词的样本数据，作为针对该任一样本文本的目标样本数据，并由该任一样本文本和目标样本数据中的样本视频构成一个负样本。这是由于，在某个样本数据的样本文本包括与该任一样本文本相同的词时，该某个样本数据中样本视频的局部特征可能存在与该任一样本文本的某个词特征匹配的部分特征。通过该方式构建负样本，可以提高负样本的参考价值，便于提高视频处理模型的收敛速度。

具体地，该实施例可以针对多个词特征中的每个词特征，确定该每个词特征与目标样本数据中样本视频的局部特征之间的第二相似度，得到与多个词特征分别对应的多个第二相似度。随后根据前文得到的多个第一相似度与该多个第二相似度，来确定视频处理模型的局部损失。最后，根据该局部损失对视频处理模型进行训练。

在一实施例中，在得到多个词特征后，还可以从该多个词特征中挑选出实体词对应的特征。这是由于除实体词外的其他词，通常无法对应到视频的局部图像上。

在一实施例中，对于文本t _j，提取得到的词特征例如可以由序列

来表示，其中，N _j为文本t _j包括的实体词个数。该实施例可以将样本视频的局部特征转换为由特征序列

来表示。在该实施例中，局部损失例如可以采用以下公式计算得到：

；

其中：

；

。

其中，Neg(n, j）表示前文描述的任一样本文本与针对该任一样本文本的目标样本数据中的样本视频构成的负样本。

根据本公开提供的视频处理方法，本公开还提供了一种视频处理装置，以下将结合图9对该装置进行详细描述。

图9是根据本公开实施例的视频处理装置的结构框图。

如图9所示，该实施例的视频处理装置900包括视频特征提取模块910、局部特征提取模块920、全局特征确定模块930和特征融合模块940。

视频特征提取模块910用于针对待处理视频，提取多个感受野下的多个视频特征。在一实施例中，视频特征提取模块910可以用于执行前文描述的操作S210，在此不再赘述。

局部特征提取模块920用于根据多个感受野中目标感受野下的视频特征，提取待处理视频的局部特征。在一实施例中，局部特征提取模块920可以用于执行前文描述的操作S220，在此不再赘述。

全局特征确定模块930用于根据多个感受野中最大感受野下的视频特征，得到针对待处理视频的全局特征。在一实施例中，全局特征确定模块930可以用于执行前文描述的操作S230，在此不再赘述。

特征融合模块940用于融合局部特征和全局特征，得到待处理视频的目标特征。在一实施例中，特征融合模块940可以用于执行前文描述的操作S240，在此不再赘述。

根据本公开的实施例，局部特征提取模块920可以包括特征截取子模块、特征处理子模块和局部特征获得子模块。特征截取子模块用于根据预定尺寸的滑动窗口截取目标感受野下的视频特征，得到多个视频子特征。特征处理子模块用于针对多个视频子特征中的每个子特征，采用注意力算法对每个子特征处理，得到处理后子特征。局部特征获得子模块用于根据针对多个视频子特征得到的多个处理后子特征，得到待处理视频的局部特征。

根据本公开的实施例，局部特征获得子模块可以包括融合单元、权重提取单元和加权单元。融合单元用于融合多个处理后子特征，得到融合后特征。权重提取单元用于采用三维卷积提取融合后特征的权重特征。加权单元用于根据权重特征对融合后特征加权，得到局部特征。

根据本公开的实施例，上述特征截取子模块用于：根据空间维度的第一预定步长和时间维度的第二预定步长移动滑动窗口，截取得到多个视频子特征。其中，第一预定步长小于滑动窗口在空间维度的长度，第二预定步长小于滑动窗口在时间维度的长度。

根据本公开的实施例，上述特征融合模块940用于采用交叉注意力算法融合全局特征和局部特征，得到目标特征。

根据本公开的实施例，上述特征融合模块940可以包括第一获得子模块、第二获得子模块和注意力子模块。第一获得子模块用于根据全局特征，获得查询特征。第二获得子模块用于根据局部特征，获得键特征和值特征。注意力子模块用于根据查询特征、键特征和值特征，采用交叉注意力算法得到目标特征。

根据本公开提供的查询视频的方法，本公开还提供了一种查询视频的装置，以下将结合图10对该装置进行详细描述。

图10是根据本公开实施例的查询视频的装置的结构框图。

如图10所示，该实施例的查询视频的装置1000可以包括文本特征提取模块1010、目标特征获取模块1020和视频确定模块1030。

文本特征提取模块1010用于提取查询文本的文本特征。在一实施例中，文本特征提取模块1010可以用于执行前文描述的操作S610，在此不再赘述。

目标特征获取模块1020用于获取多个备选视频中每个视频的目标特征。其中，目标特征是采用本公开提供的视频处理装置获得的。在一实施例中，目标特征获取模块1020可以用于执行前文描述的操作S620，在此不再赘述。

视频确定模块1030用于根据文本特征和目标特征，确定多个备选视频中与查询文本相匹配的视频。在一实施例中，视频确定模块1030可以用于执行前文描述的操作S630，在此不再赘述。

根据本公开提供的视频处理模型的训练方法，本公开还提供了一种视频处理模型的训练装置，以下将结合图11对该装置进行详细描述。

图11是根据本公开实施例的视频处理模型的训练装置的结构框图。

如图11所示，该实施例的视频处理模型的训练装置1100可以包括视频特征提取模块1110、局部特征提取模块1120、全局特征确定模块1130、特征融合模块1140、文本特征获取模块1150和第一训练模块1160。其中，视频处理模型包括视频特征提取网络、局部特征提取网络和特征融合网络。

视频特征提取模块1110用于将样本数据中包括的样本视频输入视频特征提取网络，得到多个感受野下的多个视频特征。在一实施例中，视频特征提取模块1110可以用于执行前文描述的操作S710，在此不再赘述。

局部特征提取模块1120用于将多个感受野中目标感受野下的视频特征输入局部特征提取网络，得到样本视频的局部特征。在一实施例中，局部特征提取模块1120可以用于执行前文描述的操作S720，在此不再赘述。

全局特征确定模块1130用于根据多个感受野中最大感受野下的视频特征，得到针对样本视频的全局特征。在一实施例中，全局特征确定模块1130可以用于执行前文描述的操作S730，在此不再赘述。

特征融合模块1140用于将局部特征和全局特征输入特征融合网络，得到样本视频的目标特征。在一实施例中，特征融合模块1140可以用于执行前文描述的操作S740，在此不再赘述。

文本特征获取模块1150用于获取样本数据中的样本文本的文本特征。在一实施例中，文本特征获取模块1150可以用于执行前文描述的操作S750，在此不再赘述。

第一训练模块1160用于根据目标特征和文本特征之间的相似度，对视频处理模型进行训练。在一实施例中，第一训练模块1160可以用于执行前文描述的操作S760，在此不再赘述。

根据本公开的实施例，文本特征包括样本文本的句子级特征。上述第一训练模块1160可以用于确定目标特征和句子级特征之间的相似度，对视频处理模型进行训练。

根据本公开的实施例，文本特征还包括样本文本的词级特征。上述视频处理模型的训练装置1100还可以包括第二训练模块，用于根据局部特征和词级特征，对视频处理模型进行训练。

根据本公开的实施例，词级特征包括与样本文本包括的多个实体词分别对应的多个词特征。上述第二训练模块可以包括第一确定子模块和训练子模块。第一确定子模块用于确定多个词特征中的每个词特征与局部特征之间的相似度，得到多个第一相似度。训练子模块用于根据多个第一相似度，对视频处理模型进行训练。

根据本公开的实施例，上述第二训练模块还可以包括第二确定子模块，用于针对每个词特征，确定每个词特征与目标样本数据中样本视频的局部特征之间的相似度，得到与多个词特征分别对应的多个第二相似度。上述训练子模块可以包括损失确定单元和训练单元。损失确定单元用于根据多个第一相似度和多个第二相似度，确定视频处理模型的损失。训练单元用于根据损失，对视频处理模型进行训练。其中，目标样本数据中的样本文本不包括多个词特征对应的词。

需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供、公开和应用等处理，均符合相关法律法规的规定，采取了必要保密措施，且不违背公序良俗。在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图12示出了可以用来实施本公开实施例的任一方法的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器（ROM）1202中的计算机程序或者从存储单元1208加载到随机访问存储器（RAM）1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出（I/O）接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如以下方法中的至少之一：视频处理方法、查询视频的方法、视频处理模型的训练方法。例如，在一些实施例中，以下方法中的至少之一：视频处理方法、查询视频的方法、视频处理模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM 1203并由计算单元1201执行时，可以执行上文描述的以下方法中的至少之一：视频处理方法、查询视频的方法、视频处理模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行以下方法中的至少之一：视频处理方法、查询视频的方法、视频处理模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。其中，服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务（"Virtual Private Server"，或简称 "VPS"）中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频处理方法，包括：

针对待处理视频，提取多个感受野下的多个视频特征；

根据所述多个感受野中目标感受野下的视频特征，提取所述待处理视频的局部特征；

根据所述多个感受野中最大感受野下的视频特征，得到所述待处理视频的全局特征；以及

融合所述局部特征和所述全局特征，得到所述待处理视频的目标特征。

2.根据权利要求1所述的方法，其中，所述根据所述多个感受野中目标感受野下的视频特征，提取所述待处理视频的局部特征包括：

根据预定尺寸的滑动窗口截取所述目标感受野下的视频特征，得到多个视频子特征；

针对所述多个视频子特征中的每个子特征，采用注意力算法对所述每个子特征处理，得到处理后子特征；以及

根据针对所述多个视频子特征得到的多个处理后子特征，得到所述局部特征。

3.根据权利要求2所述的方法，其中，所述根据针对多个视频子特征得到的多个处理后子特征，得到所述局部特征包括：

融合所述多个处理后子特征，得到融合后特征；

采用三维卷积提取所述融合后特征的权重特征；以及

根据所述权重特征对所述融合后特征加权，得到所述局部特征。

4.根据权利要求2所述的方法，其中，所述根据预定尺寸的滑动窗口截取所述目标感受野下的视频特征，得到多个视频子特征包括：

根据空间维度的第一预定步长和时间维度的第二预定步长移动所述滑动窗口，截取得到所述多个视频子特征，

其中，所述第一预定步长小于所述滑动窗口在所述空间维度的长度，所述第二预定步长小于所述滑动窗口在所述时间维度的长度。

5.根据权利要求1所述的方法，其中，所述融合所述局部特征和所述全局特征，得到所述待处理视频的目标特征包括：

采用交叉注意力算法融合所述局部特征和所述全局特征，得到所述目标特征。

6.根据权利要求5所述的方法，其中，所述采用交叉注意力算法融合所述局部特征和所述全局特征，得到所述目标特征包括：

根据所述全局特征，获得查询特征；

根据所述局部特征，获得键特征和值特征；以及

根据所述查询特征、所述键特征和所述值特征，采用所述交叉注意力算法得到所述目标特征。

7.一种查询视频的方法，包括：

提取查询文本的文本特征；

获取多个备选视频中每个视频的目标特征；以及

根据所述文本特征和所述目标特征，确定所述多个备选视频中与所述查询文本相匹配的视频，

其中，所述目标特征是采用权利要求1~6中任一项所述的视频处理方法获得的。

8.一种视频处理模型的训练方法，其中，所述视频处理模型包括视频特征提取网络、局部特征提取网络和特征融合网络；所述方法包括：

将样本数据中包括的样本视频输入所述视频特征提取网络，得到多个感受野下的多个视频特征；

将所述多个感受野中目标感受野下的视频特征输入所述局部特征提取网络，得到所述样本视频的局部特征；

根据所述多个感受野中最大感受野下的视频特征，得到所述样本视频的全局特征；

将所述局部特征和所述全局特征输入所述特征融合网络，得到所述样本视频的目标特征；

获取所述样本数据中的样本文本的文本特征；以及

根据所述目标特征和所述文本特征，对所述视频处理模型进行训练。

9.根据权利要求8所述的方法，其中，所述文本特征包括所述样本文本的句子级特征；所述根据所述目标特征和所述文本特征，对所述视频处理模型进行训练包括：

根据所述目标特征和所述句子级特征之间的相似度，对所述视频处理模型进行训练。

10.根据权利要求9所述的方法，其中，所述文本特征还包括所述样本文本的词级特征；所述方法还包括：

根据所述局部特征和所述词级特征，对所述视频处理模型进行训练。

11.根据权利要求10所述的方法，其中，所述词级特征包括与所述样本文本包括的多个实体词分别对应的多个词特征；所述根据所述局部特征和所述词级特征，对所述视频处理模型进行训练包括：

确定所述多个词特征中的每个词特征与所述局部特征之间的相似度，得到多个第一相似度；以及

根据所述多个第一相似度，对所述视频处理模型进行训练。

12.根据权利要求11所述的方法，其中，所述根据所述局部特征和所述词级特征，对所述视频处理模型进行训练还包括：

针对所述每个词特征，确定所述每个词特征与目标样本数据中样本视频的局部特征之间的相似度，得到与所述多个词特征分别对应的多个第二相似度；

根据所述多个第一相似度和所述多个第二相似度，确定所述视频处理模型的损失；以及

根据所述损失，对所述视频处理模型进行训练，

其中，所述目标样本数据中的样本文本不包括所述多个词特征对应的词。

13.一种视频处理装置，包括：

视频特征提取模块，用于针对待处理视频，提取多个感受野下的多个视频特征；

局部特征提取模块，用于根据所述多个感受野中目标感受野下的视频特征，提取所述待处理视频的局部特征；

全局特征确定模块，用于根据所述多个感受野中最大感受野下的视频特征，得到所述待处理视频的全局特征；以及

特征融合模块，用于融合所述局部特征和所述全局特征，得到所述待处理视频的目标特征。

14.根据权利要求13所述的装置，其中，所述局部特征提取模块包括：

特征截取子模块，用于根据预定尺寸的滑动窗口截取所述目标感受野下的视频特征，得到多个视频子特征；

特征处理子模块，用于针对所述多个视频子特征中的每个子特征，采用注意力算法对所述每个子特征处理，得到处理后子特征；以及

局部特征获得子模块，用于根据针对多个视频子特征得到的多个处理后子特征，得到所述局部特征。

15.根据权利要求14所述的装置，其中，所述局部特征获得子模块包括：

融合单元，用于融合所述多个处理后子特征，得到融合后特征；

权重提取单元，用于采用三维卷积提取所述融合后特征的权重特征；以及

加权单元，用于根据所述权重特征对所述融合后特征加权，得到所述局部特征。

16.根据权利要求14所述的装置，其中，所述特征截取子模块用于：

根据空间维度的第一预定步长和时间维度的第二预定步长移动所述滑动窗口，截取得到多个视频子特征，

17.根据权利要求13所述的装置，其中，所述特征融合模块用于：

18.根据权利要求17所述的装置，其中，所述特征融合模块包括：

第一获得子模块，用于根据所述全局特征，获得查询特征；

第二获得子模块，用于根据所述局部特征，获得键特征和值特征；以及

注意力子模块，用于根据所述查询特征、所述键特征和所述值特征，采用所述交叉注意力算法得到所述目标特征。

19.一种查询视频的装置，包括：

文本特征提取模块，用于提取查询文本的文本特征；

目标特征获取模块，用于获取多个备选视频中每个视频的目标特征；以及

视频确定模块，用于根据所述文本特征和所述目标特征，确定所述多个备选视频中与所述查询文本相匹配的视频，

其中，所述目标特征是采用权利要求13~18中任一项所述的视频处理装置获得的。

20.一种视频处理模型的训练装置，其中，所述视频处理模型包括视频特征提取网络、局部特征提取网络和特征融合网络；所述装置包括：

视频特征提取模块，用于将样本数据中包括的样本视频输入视频特征提取网络，得到多个感受野下的多个视频特征；

局部特征提取模块，用于将所述多个感受野中目标感受野下的视频特征输入所述局部特征提取网络，得到所述样本视频的局部特征；

全局特征确定模块，用于根据所述多个感受野中最大感受野下的视频特征，得到所述样本视频的全局特征；

特征融合模块，用于将所述局部特征和所述全局特征输入所述特征融合网络，得到所述样本视频的目标特征；

文本特征获取模块，用于获取所述样本数据中的样本文本的文本特征；以及

第一训练模块，用于根据所述目标特征和所述文本特征，对所述视频处理模型进行训练。

21.根据权利要求20所述的装置，其中，所述文本特征包括所述样本文本的句子级特征；所述第一训练模块用于：

确定所述目标特征和所述句子级特征之间的相似度，对所述视频处理模型进行训练。

22.根据权利要求21所述的装置，其中，所述文本特征还包括所述样本文本的词级特征；所述装置还包括：

第二训练模块，用于根据所述局部特征和所述词级特征，对所述视频处理模型进行训练。

23.根据权利要求22所述的装置，其中，所述词级特征包括与所述样本文本包括的多个实体词分别对应的多个词特征；所述第二训练模块包括：

第一确定子模块，用于确定所述多个词特征中的每个词特征与所述局部特征之间的相似度，得到多个第一相似度；以及

训练子模块，用于根据所述多个第一相似度，对所述视频处理模型进行训练。

24.根据权利要求23所述的装置，其中，所述第二训练模块还包括：

第二确定子模块，用于针对所述每个词特征，确定所述每个词特征与目标样本数据中样本视频的局部特征之间的相似度，得到与所述多个词特征分别对应的多个第二相似度；

所述训练子模块包括：

损失确定单元，用于根据所述多个第一相似度和所述多个第二相似度，确定所述视频处理模型的损失；以及

训练单元，用于根据所述损失，对所述视频处理模型进行训练，

25.一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行权利要求1~12中任一项所述的方法。

26.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行根据权利要求1~12中任一项所述的方法。

27.一种计算机程序产品，包括计算机程序/指令，计算机程序/指令在被处理器执行时实现根据权利要求1~12中任一项所述的方法的步骤。