CN110121118A

CN110121118A - 视频片段定位方法、装置、计算机设备及存储介质

Info

Publication number: CN110121118A
Application number: CN201910523085.4A
Authority: CN
Inventors: 陈振方; 马林; 罗文寒; 刘威
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-06-17
Filing date: 2019-06-17
Publication date: 2019-08-13
Anticipated expiration: 2039-06-17
Also published as: EP3985990A1; CN110121118B; WO2020253657A1; EP3985990A4; US20210349940A1

Abstract

本发明公开了一种视频片段定位方法、装置、计算机设备及存储介质，属于视频处理技术领域。本发明通过视频识别模型获取目标视频的多个视频帧特征和目标文本的文本特征，确定一个可以与目标文本匹配的候选片段，并基于候选片段中的视频帧与目标文本的匹配程度，对候选片段进行精细划分，得到多个子片段，将与目标文本匹配程度最高的子片段作为目标视频片段。这种通过多次特征匹配，对获取的候选片段进行再次划分，从而确定目标视频片段的方式，使视频识别模型无需学习目标视频片段的边界特征，在模型训练时也就无需对样本视频进行精确标注，缩短了视频识别模型的训练周期，避免出现因样本视频标注不准确而造成的模型输出结果准确率低的问题。

Description

视频片段定位方法、装置、计算机设备及存储介质

技术领域

本发明涉及视频处理技术领域，特别涉及一种视频片段定位方法、装置、计算机设备及存储介质。

背景技术

随着视频应用的普及，越来越多的视频出现在网络中，当用户想观看视频中的一个视频片段时，可以基于一段能够描述该视频片段的文本信息对视频进行检索，从而找到想要观看的视频片段。

目前，在基于一段文本信息进行视频片段定位时，需要将该文本信息和视频输入视频识别模型，该视频识别模型基于学习到的视频片段的边界特征，输出能与该文本信息匹配的视频片段。这种视频识别模型在实际应用之前要通过大量样本视频进行训练，在这些样本视频中，需要人工标注出视频片段的边界位置以及该视频片段对应的文本信息，从而使该视频识别模型在训练过程中能够学习到视频片段的边界特征，但是，人工数据标注的方式操作繁琐，耗时较长，且标注精度较低，会导致视频识别模型的训练周期较长，训练结果难以达到预期标准，在应用过程中会影响视频片段定位的准确性。

发明内容

本发明实施例提供了一种视频片段定位方法、装置、计算机设备及存储介质，可以解决相关技术中视频识别模型训练周期长且输出结果准确率低的问题。该技术方案如下：

一方面，提供了一种视频片段定位方法，该方法包括：

基于目标视频中多个视频帧和目标文本，从该目标视频中确定候选片段，该候选片段与该目标文本之间的匹配度符合第一匹配条件；

基于该候选片段中多个视频帧与该目标文本，从该候选片段中确定至少一个子片段，该至少一个子片段所包含的视频帧与该目标文本之间的匹配度符合第二匹配条件；

将该至少一个子片段中与该目标文本之间匹配度符合目标条件的子片段确定为目标视频片段。

一方面，提供了一种视频片段定位装置，所述装置包括：

候选片段确定模块，用于基于目标视频中多个视频帧和目标文本，从该目标视频中确定候选片段，该候选片段与该目标文本之间的匹配度符合第一匹配条件；

子片段确定模块，用于基于该候选片段中多个视频帧与该目标文本，从该候选片段中确定至少一个子片段，该至少一个子片段所包含的视频帧与该目标文本之间的匹配度符合第二匹配条件；

目标视频片段确定模块，用于将该至少一个子片段中与该目标文本之间匹配度符合目标条件的子片段确定为目标视频片段。

在一种可能实现方式中，该子片段确定模块用于：

分别获取该候选片段中多个视频帧的视频帧特征与该文本特征之间的匹配度；

从该多个视频帧中，获取多个目标视频帧，一个目标视频帧的视频帧特征与该文本特征之间的匹配度符合第二匹配条件；

基于该多个目标视频帧中的至少一组连续视频帧，确定该至少一个子片段。

在一种可能实现方式中，该子片段确定模块用于：

对于每组连续视频帧，以该每组连续视频帧中的第一个视频帧作为起始视频帧，以最后一个视频帧作为结束帧，得到该每组连续视频帧对应的子片段。

在一种可能实现方式中，该子片段确定模块用于：

对该候选片段中多个视频帧的视频帧特征与该文本特征分别进行映射至向量空间，对映射结果进行关键信息提取，得到多个中间视频帧特征以及中间文本特征；

基于该多个中间视频帧特征和该中间文本特征，确定多个视频帧的视频帧特征与该文本特征之间的匹配度。

在一种可能实现方式中，该装置还包括：

边界扩展模块，用于基于该候选片段在该目标视频中的起始时刻和截止时刻，对该候选片段进行边界扩展。

在一种可能实现方式中，该候选片段确定模块用于：

基于该目标视频的多个视频片段中视频帧的视频帧特征，获取多个第一视频特征，一个第一视频特征用于表示一个视频片段的特征；

获取该目标文本的文本特征；

分别获取该多个第一视频特征与该文本特征之间的匹配度，将与该文本特征之间的匹配度符合第一匹配条件的第一视频特征对应的视频片段作为该候选片段。

在一种可能实现方式中，该多个视频片段中相邻两个视频片段之间具有重叠部分。

在一种可能实现方式中，该候选片段确定模块用于：

分别对该多个视频片段中视频帧的视频帧特征进行映射，对各个视频片段中映射后的视频帧特征进行最大池化处理，得到该多个第一视频特征。

在一种可能实现方式中，该候选片段确定模块用于：

将该目标文本输入长短时记忆网络；

获取该长短时记忆网络生成的多个目标隐层状态作为该目标文本的文本特征。

一方面，提供了一种计算机设备，该计算机设备包括一个或多个处理器和一个或多个存储器，该一个或多个存储器中存储有至少一条程序代码，该指令由该一个或多个处理器加载并执行以实现该视频片段定位方法所执行的操作。

一方面，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有至少一条程序代码，该指令由处理器加载并执行以实现该视频片段定位方法所执行的操作。

本发明实施例提供的技术方案，通过视频识别模型获取目标视频中各个视频帧的视频帧特征和目标文本的文本特征，确定一个可以与该目标文本匹配的候选片段，并基于该候选片段中包含的视频帧与目标文本的匹配程度，对该视频片段进行精细划分，得到多个子片段，确定一个与目标文本匹配程度最高的子片段作为目标视频片段。这种通过多次特征匹配，对选取的候选片段进行再次划分，从而准确获取到目标视频片段的方式，使视频识别模型无需对目标视频片段的边界特征进行学习，也就无需对样本视频进行精确标注，缩短了视频识别模型的训练周期，避免出现因样本视频标注不准确而造成的模型输出结果准确率低的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的一种视频识别系统的结构框图；

图2是本发明实施例提供的一种视频片段定位方法的流程图；

图3是本发明实施例提供的一种双向长短时记忆网络的结构示意图；

图4是本发明实施例提供的一种视频片段定位方法的框架图；

图5是本发明实施例提供的一种视频片段定位装置结构示意图；

图6是本发明实施例提供的一种终端的结构示意图；

图7是本发明实施例提供的一种服务器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

图1是本发明实施例提供的一种视频识别系统的结构框图。该视频识别系统100包括：终端110和视频识别平台140。

终端110通过无线网络或有线网络与视频识别平台110相连。终端110可以是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3播放器、MP4播放器和膝上型便携计算机中的至少一种。终端110安装和运行有支持视频识别的应用程序。该应用程序可以是视频检索类应用程序等。示例性的，终端110是用户使用的终端，终端110中运行的应用程序内登录有用户账号。

终端110通过无线网络或有线网络与视频识别平台140相连。

视频识别平台140包括一台服务器、多台服务器、云计算平台和虚拟化中心中的至少一种。视频识别平台140用于为支持视频识别的应用程序提供后台服务。可选地，视频识别平台140承担主要识别工作，终端110承担次要识别工作；或者，视频识别平台140承担次要识别工作，终端110承担主要识别工作；或者，视频识别平台140或终端110分别可以单独承担识别工作。

可选地，视频识别平台140包括：接入服务器、视频识别服务器和数据库。接入服务器用于为终端110提供接入服务。视频识别服务器用于提供视频识别有关的后台服务。视频识别服务器可以是一台或多台。当视频识别服务器是多台时，存在至少两台视频识别服务器用于提供不同的服务，和/或，存在至少两台视频识别服务器用于提供相同的服务，比如以负载均衡方式提供同一种服务，本发明实施例对此不加以限定。视频识别服务器中可以设置有视频识别模型。

终端110可以泛指多个终端中的一个，本实施例仅以终端110来举例说明。

本领域技术人员可以知晓，上述终端的数量可以更多或更少。比如上述终端可以仅为一个，或者上述终端为几十个或几百个，或者更多数量，此时上述视频识别系统还包括其他终端。本申请实施例对终端的数量和设备类型不加以限定。

本发明主要是一种基于弱监督学习的通过自然语言在视频中进行片段定位的方法。本发明可用于通过自然语言来对数据库中的视频进行片段定位。具体而言，给定一个句子和一个长视频，本发明的技术方案可以在长视频中截取出一个片段，该片段与给定的句子之间存在匹配的语义关系；在训练的过程当中，本发明的技术方案不需要精确的片段标注信息。本发明的技术方案提出了一个从粗略到精确的模型来处理这个问题。首先，使用神经网络和词向量模型分别对视频中的单帧图像及自然语言进行特征提取；在粗略阶段，使用滑动窗口的方法产生一系列固定的候选区域，将这些候选区域的特征和句子特征进行匹配，从中选择最匹配的候选区域；在精确阶段，将粗略匹配结果中的每一帧的特征和句子进行匹配，从而得到每一帧特征和句子之间的匹配关系，最后通过聚类的方法得到最后精确的匹配结果。具体地，通过下述图2所示的实施例来对上述技术方案进行详细介绍：

图2是本发明实施例提供的一种视频片段定位方法的流程图，该方法可以应用于上述终端或者服务器，而终端和服务器均可以视为一种计算机设备，因此，本发明实施例基于计算机设备作为执行主体来进行介绍，参见图2，该实施例具体可以包括以下步骤：

201、计算机设备获取基于目标视频的多个视频片段中视频帧的视频帧特征，获取多个第一视频特征，一个第一视频特征用于表示一个视频片段的特征。

其中，该目标视频可以为存储在计算机设备中的视频，也可以为该计算机设备从服务器中获取的视频，还可以为具备视频采集功能的计算机设备实时采集的视频，本发明实施例对具体采用哪种视频不做限定。

在本发明实施例中，该计算机设备可以通过视频识别模型对该目标视频进行特征提取，该视频识别模型可以为基于深度神经网络构建的模型，例如，该深度神经网络可以为RNN(Recurrent Neural Network，循环神经网络)、CNN(Convolutional Neural Networks，卷积神经网络)等。该计算机设备基于视频识别模型获取该目标视频中多个视频片段的第一视频特征，具体可以包括以下步骤：

步骤一、该计算机设备通过该视频识别模型对该目标视频中各个视频帧进行特征提取，获取多个视频帧特征。

在一种可能实现方式中，该视频识别模型可以包括一个特征编码器，该特征编码器由至少一个卷积神经网络和至少一个双向长短时记忆网络构成，该计算机设备可以通过该至少一个卷积神经网络对该目标视频中的各个视频帧进行初步特征提取，获取多个视频帧的卷积特征，再通过该至少一个长短时记忆网络对该多个视频帧的卷积特征进行进一步特征提取，获取多个视频帧的视频帧特征。

具体地，以一个卷积神经网络为例对上述初步特征提取的过程进行说明，该计算机设备对该目标视频中的各个视频帧进行预处理，将该每个视频帧转换为由一组像素值组成的数字矩阵，将该各个视频帧对应的数字矩阵输入卷积神经网络，该卷积神经网络可以包括至少一个卷积层，该卷积层可以分别与每一个视频帧对应的数字矩阵进行卷积运算，一个卷积运算结果可以用于表示一个视频帧的特征图，该计算机设备获取该卷积神经网络中最后一个卷积层输出的多个特征图作为该各个视频帧的卷积特征。以一个卷积层为例对上述卷积运算过程进行说明，一个卷积层可以包括一个或多个卷积核，每个卷积核对应一个扫描窗口，该扫描窗口的大小与该卷积核的大小相同，在卷积核进行卷积运算的过程中，该扫描窗口可以按照目标步长在特征图上滑动，依次扫描该特征图的各个区域，其中，该目标步长可以由开发人员进行设置。以一个卷积核为例，在卷积运算的过程中，当该卷积核的扫描窗口滑动至特征图的任一区域时，该计算机设备读取该区域中各个特征点对应的数值，将该卷积核与该各个特征点对应的数值进行点乘运算，再对各个乘积进行累加，将累加结果作为一个特征点。之后，该卷积核的扫描窗口按照目标步长滑动至特征图的下一区域，再次进行卷积运算，输出一个特征点，直至该特征图的全部区域扫描完毕，将输出的全部特征点组成一个特征图，作为下一个卷积层的输入。

该计算机设备通过上述初步特征提取过程获取到该目标视频的卷积特征C，可以表示为下述公式(1)：

其中，c_t表示该目标视频中第t个视频帧的卷积特征，T表示该目标视频中包含视频帧的数目，其中，T为大于0的整数，t为大于0且小于等于T的整数。

需要说明的是，上述卷积神经网络中卷积层的数目以及每个卷积层中卷积核的数目均可以由开发人员设置。

为便于后续该视频识别模型对各个视频帧进行进一步特征提取，该计算机设备将获取的各个视频帧的卷积特征映射至向量空间，将第t个视频帧的卷积特征c_t分别转换为目标维度的特征向量x_t，其中，该目标维度可以由开发人员进行设置。在一种可能实现方式中，该计算机设备可以通过一个全连接层将卷积特征c_t映射为特征向量x_t。

该计算机设备将该全连接层输出的特征向量x_t输入双向长短时记忆网络，对该目标视频中各个视频帧进行进一步特征提取，获取该各个视频帧的视频帧特征。其中，该双向长短时记忆网络可以包括输入单元、输出单元和隐层单元，该输入单元可以获取特征向量x_t，将其输入隐层单元，该隐层单元可以对该特征向量x_t和上一个隐层单元的隐层状态h_t-1进行加权运算，生成该特征向量x_t对应的隐层状态h_t，该输出单元可以对该隐层状态h_t进行加权运算并输出。该双向长短时记忆网络可以同时进行前向运算和后向运算，对于输入的特征向量x_t，在前向运算中，一个隐层单元可以基于前一个隐层单元的隐层状态h_t-1，生成隐层状态h_t，在后向运算中，一个隐层单元可以基于后一个隐层单元的隐层状态h_t+1，生成隐层状态h_t。该计算机设备获取该双向长短时记忆网络前向运算过程中输出的最后一个隐层状态和后向运算过程中输出的最后一个隐层状态将隐层状态和隐层状态进行拼接，将拼接后的隐层状态作为一个视频帧的视频帧特征上述视频帧特征的获取过程可以表述为下述公式(2)、(3)和(4)：

其中，x_t表示输入向量，表示该双向长短时记忆网络的前向运算过程，表示前向运算中获取的隐层状态，表示该双向长短时记忆网络的后向运算过程，表示后向运算中获取的隐层状态，表示前一个隐层单元的隐层状态，后一个隐层单元的隐层状态，其中，t为大于0的整数。

参见图3，图3是本发明实施例提供的一种双向长短时记忆网络的结构示意图，该双向长短时记忆网络可以包括输入单元301、隐层单元302以及输出单元303。

该计算机设备获取到该目标视频对应的一组视频帧特征H_v可以表述为下述公式(5)：

其中，表示该目标视频中第t个视频帧的视频帧特征，T表示该目标视频中包含视频帧的数目。

步骤二、该计算机设备通过该视频识别模型基于多尺度的滑动窗口获取该目标视频中的多个视频片段，该多个视频片段中相邻两个视频片段之间具有重叠部分。

在本发明实施例中，该计算机设备可以通过多个滑动窗口对该目标视频的各个区域进行扫描，将一个滑动窗口的覆盖区域中的多个视频帧获取为一个视频片段，在一个视频片段获取完成后，该滑动窗口可以按照滑动步长进行滑动，继续扫描该目标视频中的下一个区域。其中，滑动窗口的数目、大小和滑动步长均可以由开发人员设置。

该计算机设备将获取的第k个视频片段标记为p_k，视频片段p_k可以表示为下述公式(6)：

其中，表示第k个视频片段的起始时刻，表示该第k个视频片段的结束时刻，该起始时刻和结束时刻的取值均大于等于0，且该起始时刻的取值小于该结束时刻的取值。

上述具有重叠部分的视频片段可以保证片段之间的自然过渡，当然，计算机设备还可以通过上述步骤二获取到不具有重叠部分的多个视频片段，本发明实施例对此不做限定。

步骤三、该计算机设备可以分别对该多个视频片段中视频帧的视频帧特征进行映射，对各个视频片段中映射后的视频帧特征进行最大池化处理，得到该多个第一视频特征。

在本发明实施例中，该计算机设备可以通过一个全连接层对多个视频片段中视频帧的视频帧特征进行映射，将第t个视频帧的视频帧特征转换为特征向量该计算机设备对该视频片段对应的一组特征向量沿时间维度进行最大池化处理，将各个视频片段对应的一组向量转换为特定维度的向量将该特定维度的向量作为该视频片段的第一视频特征。上述对该视频片段对应的一组向量进行最大池化处理的方法，可以使不同时间长度的视频片段对应于相同维度的向量，便于该计算机设备进行后续运算过程。

202、该计算机设备获取该目标文本的文本特征。

其中，该目标文本可以为用于描述一个视频片段的一段文本，例如，用户在进行视频片段检索时输入的一段文本。

在本发明实施例中，该计算机可以基于长短时记忆网络对该目标文本进行特征提取，具体可以包括以下步骤：

步骤一、该计算机设备可以将该目标文本输入长短时记忆网络。

该计算机设备获取到目标文本后，需要将该目标文本转换为一组特征向量，以便于后续对该目标文本进行特征提取，在一种可能实现方式中，该计算机设备可以通过词向量将该目标文本中的各个单词进行初始化，将每个单词对应于一个特征向量w_n，该目标文本可以表示为一组特征向量N为该目标文本中包含的单词数目，n为该目标文本中各个单词的序号，N为大于0的整数，n为大于0小于等于N的整数。其中，该词向量可以由计算机设备生成，该词向量的维度可以由开发人员设置。

该计算机设备将该目标文本对应的一组特征向量输入该双向长短时记忆网络进行特征提取。

步骤二、该计算机设备获取该长短时记忆网络生成的多个目标隐层状态作为该目标文本的文本特征。

在本发明实施例中，该长短时记忆网络可以为双向长短时记忆网络，以便在文本特征提取时，可以充分考虑前后文信息，提高文本特征提取的准确性。

该计算机设备基于该双向长短时记忆网络获取文本特征的具体方法与步骤201中基于双向长短时网络获取视频帧特征的方法同理，在此不做赘述。该计算机设备将获取到的文本特征标记为h^s，该文本特征h^s的获取方式可以表述为下述公式(7)、(8)和(9)：

其中，w_n表示单词的特征向量，表示该双向长短时记忆网络的前向运算过程，表示前向运算中获取的隐层状态，表示该双向长短时记忆网络的后向运算过程，表示后向运算中获取的隐层状态，表示前一个隐层单元的隐层状态，表示后一个隐层单元的隐层状态。其中，n为大于0的整数。

该计算机设备通过编码器完成对该目标视频与该目标文本的编码过程，生成该目标视频的多个视频帧特征与目标文本的文本特征。

在本发明实施例中，采用先获取视频片段的特征，再获取文本特征的执行顺序进行描述，但是在一些实施例中，还可以先获取文本特征，再获取视频片段的特征，或者两个步骤同时进行，本发明实施例对此不做具体限定。

203、该计算机设备分别获取该多个第一视频特征与该文本特征之间的匹配度，将与该文本特征之间的匹配度符合第一匹配条件的第一视频特征对应的视频片段作为该候选片段。

该计算机设备基于该多个第一视频特征与该文本特征获取候选片段，具体可以包括以下步骤：

步骤一、该计算机设备基于该多个第一视频特征与该文本特征，确定该多个第一视频特征与该文本特征之间的匹配度。

为提高匹配结果的准确性，该计算机设备在将该多个第一视频特征与该文本特征进行匹配之前，可以对该多个第一视频特征与该文本特征中进行关键信息提取。在本发明实施例中，该计算机设备可以通过门控操作进行关键信息提取，该门控操作可以通过sigmoid函数实现，该计算机设备可以通过该sigmoid函数中的多个参数来过滤该多个第一视频特征和该文本特征中的无关信息，将该sigmoid函数的运算结果分别与该多个第一视频特征和该文本特征进行点乘运算，得到第一视频特征和文本特征上述对该多个第一视频特征与该文本特征中进行关键信息提取的过程可以表述为下述公式(10)、(11)、(12)和(13)：

其中，表示sigmoid(S型生长曲线)函数，W_v、W_s、b_v和b_s分别表示一个参数值，W_v、W_s、b_v和b_s均可以通过模型的训练过程获得，“||”表示对两个序列进行拼接。“·”表示点乘运算，g_v和g_s表示该计算机设备对该视频特征和文本特征进行加权运算后得到的矩阵。

该计算机设备可以基于匹配函数来确定各个视频片段与该目标文本之间的匹配度，该匹配函数可以有多种实现方式，在本发明实施例中，该匹配函数可以通过以下方式确定该各个视频片段与该目标文本之间的匹配度，首先，该匹配函数对视频片段p_k对应的特征以及该目标文本对应的特征中对应位置的元素相加，得到第一运算结果，将视频片段p_k对应的特征以及该目标文本对应的特征中对应位置的元素相乘，得到第二运算结果，将视频片段p_k对应的特征以及该目标文本对应的特征进行拼接，得到第三运算结果，然后，将该第一运算结果、该第二运算结果和该第三运算结果进行拼，得到第四运算结果，最后，通过一个全连接层将该第四运算结果映射为一个数值，该数值用于指示该视频片段p_k与该目标文本之间的匹配度。

步骤二、该计算机设备将将与该文本特征之间的匹配度符合第一匹配条件的第一视频特征对应的视频片段作为该候选片段。

该计算机设备获取该目标视频中各个视频片段与该目标文本之间的多个匹配度，将该多个匹配度按照数值大小进行排序，将与该目标文本之间的匹配度数值最大的视频片段作为候选片段，该计算机设备可以将该候选片段标记为p_c。

该计算机设备通过该目标视频中各个视频帧的视频帧特征与文本特征之间的粗略交互，完成粗略定位过程，从该目标视频中获取一个候选片段。

需要说明的是上述步骤201到步骤203是基于目标视频中多个视频帧和目标文本，从该目标视频中确定候选片段，该候选片段与该目标文本之间的匹配度符合第一匹配条件的过程。

204、该计算机设备基于该候选片段中多个视频帧与该目标文本，从该候选片段中确定至少一个子片段，该至少一个子片段所包含的视频帧与该目标文本之间的匹配度符合第二匹配条件。

为提高视频片段定位结果的准确定，该计算机设备在从该候选片段中获取至少一个子片段之前，该计算机设备可以对该候选片段进行边界扩展，以获取一个包含更多视频帧候选片段。在一种可能实现方式中，该计算机设备可以基于该候选片段在该目标视频中的起始时刻和截止时刻，对该候选片段进行边界扩展。具体地，该计算机设备可以通过边界扩展函数来对该候选片段进行边界扩展，该边界扩展函数可以基于候选片段的时长以及候选片段时起止时刻对该候选片段的边界进行调整，该边界扩展函数可以表述为下述公式(14)：

其中，l_Δ表示候选片段p_c的长度；l′_v表示候选片段的时长；τ表示一个用于控制边界扩展程度的数值，该数值可以由开发人员进行设置，也可以通过该视频识别模型的训练过程获得。

该计算机设备可以将边界扩展后的候选片段标记为p′_c，该候选片段p′_c的起始时刻为截止时刻为

该计算机设备从该边界扩展后的候选片段p′_c中确定至少一个子片段，具体可以包括以下步骤：

步骤一、该计算机设备分别获取该候选片段中多个视频帧的视频帧特征与该文本特征之间的匹配度。

该计算机设备将该候选片段中多个视频帧的视频帧特征与该文本特征分别进行映射至向量空间，对映射结果进行关键信息提取，得到多个中间视频帧特征以及中间文本特征。

在一种可能实现方式中，该计算机设备可以通过一个全连接层将该候选片段中t时刻视频帧的视频帧特征映射为向量将该文本特征h^s映射为向量该计算机设备可以通过门控操作对该全连接层的映射结果进行关键信息提取，得到各个视频帧的中间视频帧特征以及目标文本的中间文本特征该门控操作与步骤203中应用的门控操作同理，在此不做赘述。

该计算机设备基于该多个中间视频帧特征和该中间文本特征，确定多个视频帧的视频帧特征与该文本特征之间的匹配度。在本发明实施例中，该计算机设备可以基于匹配函数来确定各个视频片段与该目标文本之间的匹配度，该匹配函数的具体实现方式与步骤203中匹配函数的实现方式相同，在此不做赘述。

步骤二、该计算机设备从该多个视频帧中，获取多个目标视频帧，一个目标视频帧的视频帧特征与该文本特征之间的匹配度符合第二匹配条件。

在一种可能实现方式中，该计算机设备可以对上述多个视频帧的视频帧特征与该文本特征之间的匹配度进行归一化处理，使各个匹配度对应的数值的取值范围在[0,1]之间。该计算机设备可以通过分水岭算法对归一化后的匹配度进行聚类，也即是可以通过分水岭算获取该算法中部极小值的影响区域内的至少一个匹配度，去除该至少一个匹配度对应的视频帧，将该视频片段中的剩余视频帧作为与该文本特征之间的匹配度符合第二匹配条件的视频帧。

步骤三、该计算机设备基于该多个目标视频帧中的至少一组连续视频帧，确定该至少一个子片段。

在一种可能实现方式中，对于每组连续视频帧，该计算机设备以该每组连续视频帧中的第一个视频帧作为起始视频帧，以最后一个视频帧作为结束帧，得到该每组连续视频帧对应的子片段。该计算机设备可以将该子片段标记为p_f，该子片段p_f的起始时刻为截止时刻为

205、该计算机设备将该至少一个子片段中与该目标文本之间匹配度符合目标条件的子片段确定为目标视频片段。

上述步骤205具体可以包括以下步骤：

步骤一、该计算机设备获取各个子片段与该目标文本之间的匹配度。

该计算机设备可以基于子片段中的每一帧与目标文本之间的匹配关系以及候选片段与子片段之间的相似度，来确定各个子片段与该目标文本之间的匹配度，具体可以表述为下述公式(15)：

其中，m′_t表示该子片段中第t帧和目标文本之间的匹配度，t为大于0的整数,β表示一个预设参数，其数值可以由开发人员设置，在本发明实施例中，β可以设置为1。上述公式中第一项可以用于衡量子片段中的每一个视频帧和目标文本之间的匹配关系，第二项可以用于衡量候选片段与子片段之间的相似度。

步骤二、该计算机设备将与该目标文本之间的匹配度符合目标条件的子片段确定为目标视频片段

该计算机设备将该各个子片段与该目标文本之间的匹配度按数值大小进行排序，将与该目标文本之间的匹配度数值最大的子片段作为目标视频片段。

该计算机设备通过该候选片段中各个视频帧的视频帧特征与文本特征之间的精细交互，完成精细定位过程，从该候选片段中确定目标视频片段。

图4提供了一种视频片段定位方法的框架图，参见图4，该视频片段定位过程中包括特征编码过程401、粗略交互过程402和精细交互过程403。对于一个视频片段和一个自然语言句子，该计算机设备可以通过编码过程获取一系列时间候选区域，并提取视频和该目标文本进行特征提取，获取多个视频帧特征404和文本特征405，通过粗略交互过程对该目标文本对应的视频片段进行粗略定位，以便从多个视频片段406中获取一个候选片段407，再通过精细交互过程对该候选片段进行精细划分，并通过聚类得到最后的精细结果，也即是获取目标视频片段408。本发明实施例中的粗略阶段和精细阶段分别通过一个排序损失函数进行监督学习(具体可参见下述训练过程实施例)。在测试时，先通过特征编码器进行特征提取，然后通过粗略阶段得到粗略的匹配结果，然后通过对粗略结果的视频片段进行精细交互，得到最终的匹配结果。

本发明实施例提供的技术方案，可以提供视频内容理解和定位提供服务。在后台服务器上，编码器首先通过滑动窗口生成一系列的固定候选区域，然后通过神经网络和词向量模型分别提取视觉特征和文本特征提取，衡量句子和候选区域之间的匹配的关系，从而得到长视频中与句子相匹配的粗略时间片段；在得到粗略的时间片段后，再通过对粗略片段中的每一帧进行微调，最终得到长视频中与句子相匹配的精确时间片段。本发明实施例提供的技术方案，可以大大提高现有的视频理解能力，可以部署在视频类网站用于视频分类，快速检索和时间片段定位。

上述实施例主要介绍了计算机设备进行视频片段定位的过程，而在进行视频片段定位之前，需对该视频识别模型进行训练，从而调整该视频识别模型中的各个参数。在本发明实施例中，可以通过排序损失函数对该视频识别模型中的参数进行调整，该视频识别模型的训练过程具体可以包括以下步骤：

步骤一、该计算机设备初始化视频识别模型中的各个参数。

该计算机设备对该目标识别模型的各个参数进行随机赋值，来实现参数初始化。

步骤二、该计算机设备将训练数据集输入该视频识别模型。

其中，该训练数据集可以包括多个样本视频，该多个样本视频为已标注的样本视频，每个样本视频均标注出其对应的文本信息。

该计算机设备将该多个样本视频输入该视频识别模型，该视频识别模型基于样本视频与文本信息之间的特征匹配，输出由该文本信息定位到的目标视频片段。

步骤三、该计算机设备获取该视频识别模型的识别结果，通过排序损失函数计算该视频片段定位结果与正确识别结果的误差，并基于该排序损失函数的计算结果对该视频识别模型中的各个参数进行调整，至到符合预设条件时，得到训练好的视频识别模型。

在本发明实施例中，该计算机设备可以先对候选片段获取阶段所涉及的参数进行调整，将候选片段获取阶段所涉及的参数进行调整完成之后，再对目标视频片段获取阶段涉及的参数进行调整，直至该该视频片段定位结果与正确识别结果的误差小于误差阈值时，该计算机设备确定该视频识别模型训练完成。其中，该误差阈值可以由开发人员设置。

在一种可能实现方式中，该计算机设备可以应用排序损失函数对候选片段获取阶段涉及的参数进行调整。具体地，该计算机设备可以将该候选片段与该目标文本之间的匹配度标记为m(V,S)，该匹配度m(V,S)可以表述为下述公式(16)：

m(V,S)＝max(m(p_k，S)) (16)

其中，V和S表示一对可以互相匹配的视频片段和文本信息，max(˙)表示取最大值函数，p_k表示第k个视频片段，m(p_k，S)表示视频片段p_k与目标文本S之间的匹配度。

在本发明实施例中，该排序损失函数可以表述为下述公式(17)：

其中，Δ表示一个常量,V和S表示一对可以互相匹配的视频片段和文本信息,V’表示与文本信息S不匹配的视频片段，S’表示和视频片段V不匹配的文本信息。

在一种可能实现方式中，该计算机设备可以应用排序损失函数对目标视频片段获取阶段涉及的参数进行调整。具体地，该计算机设备将边界扩展后的候选片段标记为p′_c，p′_c可以表述为下述公式(18)：

其中，表示该边界扩展后的候选片段的起始时刻，表示该边界扩展后的候选片段的结束时刻，和的取值均大于0，且的取值大于

该计算机设备可以将该边界扩展后的候选片段p′_c中各个视频帧与该目标文本之间的匹配度标记为m’(V,S)，该匹配度m’(V,S)可以表述为下述公式(19)：

m’(V,S)＝max(m’(p′_t，S)) (19)

其中，V和S表示一对可以互相匹配的子片段和文本信息，max(˙)表示取最大值函数，p′_t表示第t个视频帧，m’(p′_t，S)表示子片段与目标文本S之间的匹配度。

在本发明实施例中，该排序损失函数可以表述为下述公式(20)：

其中,Δ表示一个常量,V和S表示一对可以互相匹配的视频片段和文本信息，V’表示与文本信息S不匹配的视频片段，S’表示和视频片段V不匹配的文本信息。

应用该排序损失函数对该视频片段定位模型进行参数调整后，可以使匹配的视频片段和文本信息之间的匹配度m(V,S)远远大于不匹配的视频片段和文本信息之间的匹配度m(V,S’)和m(V’,S)，使该视频片段定位模型的输出结果准确率更高。

上述视频识别模型训练过程中，使用弱监督学习方式来训练模型，在训练过程中不依赖目标视频中和目标文本匹配的视频片段的边界信息，而是将训练过程分为两个阶段，先训练粗略阶段即候选片段获取阶段的参数，再训练精细阶段即目标视频片段获取阶段的参数，这种模型训练方式对训练数据集的标注精度要求较低，无需人工对训练数据集中的各个视频片段进行精确标注，从而降低模型训练的耗时，提高模型的训练效率。

图5是本发明实施例提供的一种视频片段定位装置的结构示意图，参见图5，该装置包括：

候选片段确定模块501，用于基于目标视频中多个视频帧和目标文本，从该目标视频中确定候选片段，该候选片段与该目标文本之间的匹配度符合第一匹配条件；

子片段确定模块502，用于基于该候选片段中多个视频帧与该目标文本，从该候选片段中确定至少一个子片段，该至少一个子片段所包含的视频帧与该目标文本之间的匹配度符合第二匹配条件；

目标视频片段确定模块503，用于将该至少一个子片段中与该目标文本之间匹配度符合目标条件的子片段确定为目标视频片段。

在一种可能实现方式中，该子片段确定模块502用于：

在一种可能实现方式中，该装置还包括：

在一种可能实现方式中，该候选片段确定模块501用于：

获取该目标文本的文本特征；

在一种可能实现方式中，该候选片段确定模块501用于：

将该目标文本输入长短时记忆网络；

上述所有可选技术方案，可以采用任意结合形成本发明的可选实施例，在此不再一一赘述。

需要说明的是：上述实施例提供的视频片段定位的装置在进行视频片段定位时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频片段定位的装置与视频片段定位的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

上述技术方案所提供的计算机设备可以实现为终端或服务器，例如，图6是本发明实施例提供的一种终端的结构示意图。该终端600可以是：智能手机、平板电脑、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端600包括有：一个或多个处理器601和一个或多个存储器602。处理器601可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central Processing Unit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器601可以在集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器601还可以包括AI(ArtificialIntelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器602可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器601所执行以实现本发明中方法实施例提供的视频片段定位方法。

在一些实施例中，终端600还可选包括有：外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地，外围设备包括：射频电路604、显示屏605、摄像头606、音频电路607、定位组件608和电源609中的至少一种。

外围设备接口603可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中，处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上；在一些其他实施例中，处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路604用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路604包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路604还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本发明对此不加以限定。

显示屏605用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时，显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时，显示屏605还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏605可以为一个，设置终端600的前面板；在另一些实施例中，显示屏605可以为至少两个，分别设置在终端600的不同表面或呈折叠设计；在再一些实施例中，显示屏605可以是柔性显示屏，设置在终端600的弯曲表面上或折叠面上。甚至，显示屏605还可以设置成非矩形的不规则图形，也即异形屏。显示屏605可以采用LCD(LiquidCrystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode,有机发光二极管)等材质制备。

摄像头组件606用于采集图像或视频。可选地，摄像头组件606包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器601进行处理，或者输入至射频电路604以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端600的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路607还可以包括耳机插孔。

定位组件608用于定位终端600的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件608可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源609用于为终端600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于：加速度传感器611、陀螺仪传感器612、压力传感器613、指纹传感器614、光学传感器615以及接近传感器616。

加速度传感器611可以检测以终端600建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器601可以根据加速度传感器611采集的重力加速度信号，控制显示屏605以横向视图或纵向视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器612可以检测终端600的机体方向及转动角度，陀螺仪传感器612可以与加速度传感器611协同采集用户对终端600的3D动作。处理器601根据陀螺仪传感器612采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器613可以设置在终端600的侧边框和/或显示屏605的下层。当压力传感器613设置在终端600的侧边框时，可以检测用户对终端600的握持信号，由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器613设置在显示屏605的下层时，由处理器601根据用户对显示屏605的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器614用于采集用户的指纹，由处理器601根据指纹传感器614采集到的指纹识别用户的身份，或者，由指纹传感器614根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器601授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器614可以被设置终端600的正面、背面或侧面。当终端600上设置有物理按键或厂商Logo时，指纹传感器614可以与物理按键或厂商Logo集成在一起。

光学传感器615用于采集环境光强度。在一个实施例中，处理器601可以根据光学传感器615采集的环境光强度，控制显示屏605的显示亮度。具体地，当环境光强度较高时，调高显示屏605的显示亮度；当环境光强度较低时，调低显示屏605的显示亮度。在另一个实施例中，处理器601还可以根据光学传感器615采集的环境光强度，动态调整摄像头组件606的拍摄参数。

接近传感器616，也称距离传感器，通常设置在终端600的前面板。接近传感器616用于采集用户与终端600的正面之间的距离。在一个实施例中，当接近传感器616检测到用户与终端600的正面之间的距离逐渐变小时，由处理器601控制显示屏605从亮屏状态切换为息屏状态；当接近传感器616检测到用户与终端600的正面之间的距离逐渐变大时，由处理器601控制显示屏605从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图6中示出的结构并不构成对终端600的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图7是本发明实施例提供的一种服务器的结构示意图，该服务器700可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(central processing units，CPU)701和一个或多个的存储器702，其中，所述一个或多个存储器1002中存储有至少一条程序代码，所述至少一条程序代码由所述一个或多个处理器1001加载并执行以实现上述各个方法实施例提供的方法。当然，该服务器700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器700还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，例如包括指令的存储器，上述指令可由处理器执行以完成上述实施例中的视频片段定位方法。例如，该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory，RAM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)、磁带、软盘和光数据存储设备等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

上述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种视频片段定位方法，其特征在于，所述方法包括：

基于目标视频中多个视频帧和目标文本，从所述目标视频中确定候选片段，所述候选片段与所述目标文本之间的匹配度符合第一匹配条件；

基于所述候选片段中多个视频帧与所述目标文本，从所述候选片段中确定至少一个子片段，所述至少一个子片段所包含的视频帧与所述目标文本之间的匹配度符合第二匹配条件；

将所述至少一个子片段中与所述目标文本之间匹配度符合目标条件的子片段确定为目标视频片段。

2.根据权利要求1所述的方法，其特征在于，所述基于所述候选片段中多个视频帧与所述目标文本，从所述候选片段中确定至少一个子片段，包括：

分别获取所述候选片段中多个视频帧的视频帧特征与所述文本特征之间的匹配度；

从所述多个视频帧中，获取多个目标视频帧，一个目标视频帧的视频帧特征与所述文本特征之间的匹配度符合第二匹配条件；

基于所述多个目标视频帧中的至少一组连续视频帧，确定所述至少一个子片段。

3.根据权利要求2所述的方法，其特征在于，所述基于所述多个目标视频帧中的至少一组连续视频帧，确定所述至少一个子片段包括：

对于每组连续视频帧，以所述每组连续视频帧中的第一个视频帧作为起始视频帧，以最后一个视频帧作为结束帧，得到所述每组连续视频帧对应的子片段。

4.根据权利要求2所述的方法，其特征在于，所述分别获取所述候选片段中多个视频帧的视频帧特征与所述文本特征之间的匹配度包括：

对所述候选片段中多个视频帧的视频帧特征与所述文本特征分别进行映射至向量空间，对映射结果进行关键信息提取，得到多个中间视频帧特征以及中间文本特征；

基于所述多个中间视频帧特征和所述中间文本特征，确定多个视频帧的视频帧特征与所述文本特征之间的匹配度。

5.根据权利要求1所述的方法，其特征在于，所述基于所述候选片段中多个视频帧与所述目标文本，从所述候选片段中确定至少一个子片段之前，所述方法还包括：

基于所述候选片段在所述目标视频中的起始时刻和截止时刻，对所述候选片段进行边界扩展。

6.根据权利要求1所述的方法，其特征在于，所述基于目标视频中多个视频帧和目标文本，从所述目标视频中确定候选片段，包括：

基于所述目标视频的多个视频片段中视频帧的视频帧特征，获取多个第一视频特征，一个第一视频特征用于表示一个视频片段的特征；

获取所述目标文本的文本特征；

分别获取所述多个第一视频特征与所述文本特征之间的匹配度，将与所述文本特征之间的匹配度符合第一匹配条件的第一视频特征对应的视频片段作为所述候选片段。

7.根据权利要求6所述的方法，其特征在于，所述多个视频片段中相邻两个视频片段之间具有重叠部分。

8.根据权利要求6所述的方法，其特征在于，所述基于所述目标视频的多个视频片段中视频帧的视频帧特征，获取多个第一视频特征，包括：

分别对所述多个视频片段中视频帧的视频帧特征进行映射，对各个视频片段中映射后的视频帧特征进行最大池化处理，得到所述多个第一视频特征。

9.根据权利要求6所述的方法，其特征在于，所述获取所述目标文本的文本特征，包括：

将所述目标文本输入长短时记忆网络；

获取所述长短时记忆网络生成的多个目标隐层状态作为所述目标文本的文本特征。

10.一种视频片段定位装置，其特征在于，所述装置包括：

候选片段确定模块，用于基于目标视频中多个视频帧和目标文本，从所述目标视频中确定候选片段，所述候选片段与所述目标文本之间的匹配度符合第一匹配条件；

子片段确定模块，用于基于所述候选片段中多个视频帧与所述目标文本，从所述候选片段中确定至少一个子片段，所述至少一个子片段所包含的视频帧与所述目标文本之间的匹配度符合第二匹配条件；

目标视频片段确定模块，用于将所述至少一个子片段中与所述目标文本之间匹配度符合目标条件的子片段确定为目标视频片段。

11.根据权利要求10所述的装置，其特征在于，所述子片段确定模块用于：

12.根据权利要求11所述的装置，其特征在于，所述子片段确定模块用于：

13.根据权利要求11所述的装置，其特征在于，所述子片段确定模块用于：

14.一种计算机设备，其特征在于，所述计算机设备包括一个或多个处理器和一个或多个存储器，所述一个或多个存储器中存储有至少一条程序代码，所述指令由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求9任一项所述的视频片段定位方法所执行的操作。

15.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条程序代码，所述指令由处理器加载并执行以实现如权利要求1至权利要求9任一项所述的视频片段定位方法所执行的操作。