CN112989120B

CN112989120B - 一种视频片段查询系统和视频片段查询方法

Info

Publication number: CN112989120B
Application number: CN202110519743.XA
Authority: CN
Inventors: 丁冬睿; 刘新放; 王潇涵; 纪梦娟; 房体品; 魏红雷
Original assignee: Guangdong Zhongju Artificial Intelligence Technology Co ltd
Current assignee: Guangdong Zhongju Artificial Intelligence Technology Co ltd
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-08-03
Anticipated expiration: 2041-05-13
Also published as: CN112989120A

Abstract

本发明公开了一种视频片段查询系统和视频片段查询方法。所述系统包括：预处理模块，用于获取查询视频；视频哈希网络，用于提取查询视频的视频特征，并映射到公共空间，生成查询视频的第二特征向量组和查询视频的哈希码；语句哈希网络，用于获取查询语句，提取查询语句的语义特征，并映射到公共空间，生成查询语句的第一特征向量和查询语句的哈希码；相似度计算模块用于计算每个视频片段与所述查询语句之间的实数相似度分数和哈希相似度分数；位置预测网络用于基于相似度分数，预测查询视频中与查询语句相匹配的视频片段的开始时刻和结束时刻。本发明可以减少存储空间和计算量，同时具有相当的精度。

Description

一种视频片段查询系统和视频片段查询方法

技术领域

本发明实施例涉及计算机视觉技术领域，尤其涉及一种视频片段查询系统和视频片段查询方法。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

自然语义的视频事件查询技术是指给定一个视频和一个查询语句，找到最符合查询语句的视频剪辑的开始时间戳和结束时间戳。视频可以没有字幕也可以没有声音，查询语句可以是非结构化自然语言。

作为视频理解领域的一部分，视频事件查询在娱乐、安全和创意领域有着广泛的应用。例如，可以自动地从视频集中剪辑出一个进球合集；从正在看的电影中找出最感兴趣的片段，从监控视频中找出事故发生的时间。

近年来，随着大量视频数据的增加和计算机硬件计算能力的提高，视频事件查询受到了越来越多的关注。然而，视频事件查询是一项非常具有挑战性的任务。一方面，视频事件查询要求计算机理解视频和文本两种模式的语义并建立匹配关系。另一方面，相关方法中在进行视频时刻定位时都需要原始视频和查询语句，而处理原始视频往往需要大量的计算，随着近年来多媒体数据的快速增长，原始视频的处理给数据的存储和检索效率带来了负担。

发明内容

本发明提供一种视频片段查询系统和视频片段查询方法，以解决现有技术中存在的上述问题。

第一方面，本发明实施例提供了一种视频片段查询系统。该系统用于预测与查询语句相匹配的视频片段在视频中的位置，包括：

预处理模块，用于获取查询视频，其中，所述查询视频包括T个视频片段；从每个视频片段中截取N个视频帧，得到所述查询视频的T×N个视频帧，其中，N、T均为大于1的整数；

视频哈希网络，与所述预处理模块连接，所述视频哈希网络用于基于所述T×N个视频帧，提取所述查询视频的视频特征，并将所述视频特征映射到公共空间，生成所述查询视频的第二特征向量组和所述查询视频的哈希码；

语句哈希网络，用于获取查询语句，提取所述查询语句的语义特征，并将所述语义特征映射到所述公共空间，生成所述查询语句的第一特征向量和所述查询语句的哈希码；

相似度计算模块，与所述视频哈希网络和所述语句哈希网络连接，所述相似度计算模块用于计算每个视频片段与所述查询语句之间的实数相似度分数和哈希相似度分数；

位置预测网络，与所述相似度计算模块连接，所述位置预测网络用于基于所述T个视频片段与所述查询语句之间的相似度分数，预测所述查询视频中与所述查询语句相匹配的视频片段的开始时刻和结束时刻。

在一实施例中，所述视频哈希网络包括：

视频编码器，与所述预处理模块连接，所述视频编码器用于提取每个视频帧的视频特征，并基于每个视频片段的N个视频帧的视频特征，生成所述每个视频片段的第一特征向量；

第一双向门控递归单元（Gate Recurrent Unit，简称为“GRU”）网络，与所述视频编码器连接，所述第一双向GRU网络用于基于所述T个视频片段的第一特征向量挖掘所述T个视频片段之间的时序信息，得到每个视频片段的时序特征向量；

第一全连接（Fully Connected，简称为“FC”）层，与所述第一双向GRU网络连接，所述第一FC层用于将每个视频片段的时序特征向量映射到所述公共空间，生成所述每个视频片段的第二特征向量；并利用所述T个视频片段的第二特征向量，组成所述查询视频的第二特征向量组；

第一符号函数，与所述第一FC层连接，所述第一符号函数用于对每个视频片段的第二特征向量进行哈希化，生成所述每个视频片段的哈希码；并利用所述T个视频片段的哈希码，组成所述查询视频的哈希码。

在一实施例中，所述语句哈希网络包括：

语句编码器，用于获取所述查询语句，提取所述查询语句的语句特征，生成所述查询语句的第一特征向量；

第二双向GRU网络，与所述语句编码器连接，所述第二双向GRU网络用于提取所述查询语句中的字符顺序所包含的时序信息，在所述第二双向GRU的最后一个时间步生成所述查询语句的时序特征向量；

第二FC层，与所述第二双向GRU网络连接，所述第二FC层用于将所述查询语句的时序特征向量映射到所述公共空间，生成所述查询语句的第二特征向量，其中，所述查询语句的第二特征向量的维数等于每个视频片段的第二特征向量的维数；

第二符号函数，与所述第二FC层连接，所述第二符号函数用于对所述查询语句的第二特征向量进行哈希化，生成所述查询语句的哈希码，其中，所述查询语句的哈希码的长度和每个视频片段的哈希码的长度均为l，l为大于或等于1的整数。

在一实施例中，所述相似度计算模块与所述第一FC层和所述第二FC层连接，且所述相似度计算模块与所述第一符号函数和所述第二符号函数连接，所述相似度计算模块是用于：

根据公式（1）计算所述查询语句的第二特征向量与每个视频片段的第二特征向量之间的实数相似度分数s^r _t：

其中，sigmoid表示S形函数，μ表示缩放因子，r^v _t表示每个视频片段的第二特征向量，r^s表示所述查询语句的第二特征向量；

根据公式（2）计算所述查询语句的哈希码与每个视频片段的哈希码之间的哈希相似度分数s^h _t：

其中，H(·)表示汉明距离函数，l表示每个哈希码的长度，h^v _t表示每个视频片段的哈希码，h^s表示所述查询语句的哈希码。

在一实施例中，所述位置预测网络为多层感知器（Multi-Layer Perception，MLP），所述MLP包括：

第三FC层和第四FC层，其中，所述第三FC层与所述相似度计算模块连接，所述第四FC层与所述第三FC层连接，所述第三FC层设置有双曲正切Tanh激活函数，所述第三FC层用于接收T个哈希相似度分数折叠成的哈希相似度向量s^h，所述第三FC层和所述第四FC层共同用于完成s^h到所述查询视频中与所述查询语句相匹配的视频片段的开始时刻和结束时刻的非线性变换，并输出所述开始时刻和结束时刻。

在一实施例中，所述视频编码器为膨胀3D卷积网络（Inflated 3D ConvNet，I3D）深度神经网络。

在一实施例中，所述语句编码器为全向量词表示（Global vectors for wordrepresentation，Golve）网络。

第二方面，本发明实施例还提供了一种视频片段查询方法。该方法包括：

S10：获取多个训练对，其中每个训练对包括训练视频和训练语句，其中所述训练视频包括T个训练视频片段，T为大于1的整数；对所述每个训练对进行标注，标注的内容包括：每个训练视频片段与所述训练语句之间的实数相似度分数，以及所述训练视频中与所述训练语句相匹配的视频片段的开始时刻和结束时刻；

S20：构建本发明提供的上述任一视频片段查询系统；

S30：依次将每个训练对输入到所述视频片段查询系统中，预测所述每个训练对中每个查询视频片段与训练语句之间的实数相似度分数，以及所述每个训练对中与训练语句匹配的视频片段的开始时刻和结束时刻；基于相似度损失和位置损失构造损失函数，基于预测结果和所述损失函数对所述视频片段查询系统的参数进行迭代优化，直到达到预定的训练终止条件；

S40：获取待查询视频和待查询语句，将所述待查询视频和待查询语句输入到训练好的视频片段查询系统中，预测所述待查询视频中与所述待查询语句相匹配的视频片段的开始时刻和结束时时刻。

在一实施例中，在步骤S30中，所述损失函数包括相似度损失函数和位置损失函数，其中，

所述相似度损失函数loss1根据公式（3）计算：

其中，

表示二类交叉熵损失函数，s^r表示每个训练对中的T个实数相似度分数折叠成的实数相似度向量的预测值，s^r*表示s^r对应的真实值；

所述位置损失函数loss2根据公式（4）计算：

其中，

表示平滑L1范数损失函数，y表示每个训练中匹配的视频片段的开始时刻和结束时刻构成的二维向量的预测值，y^*表示y对应的真实值。

在一实施例中，所述损失函数loss根据公式（5）计算：

其中，λ表示超参数。

本发明可以实现的有益效果为：

1. 本发明通过将视频特征和语句特征映射到同一个公共空间，并使用哈希码存储视频信息和语义信息，大大减少空间占用；

2. 本发明通过哈希的位操作完成视频和查询语句之间的匹配，由于二进制哈希码对存储的要求较低，并且可以通过在汉明空间中使用快速的二值操作有效地计算哈希码之间的相似度，可以应用于大规模数据的快速检索；

3. 本发明的基于哈希的自然语义的视频事件查询技术适合在移动设备中部署，例如手机和机器人。因为其操作简单、计算量小，无需对原始的视频进行编解码，极大的减少了存储空间和运算量；

4. 基于相似度损失函数和位置损失函数设计整个模型训练的损失函数，同时兼顾了视频哈希网络、语句哈希网络和位置预测网络三个部分的预测性能，与只设计单一的损失函数指标相比，训练效果更全面、更稳定；

5. 通过超参数平衡各部分损失之间的比例，可以根据不同的性能要求得到不同的参数，实现系统的个性化配置。

附图说明

图1是本发明实施例提供的一种ETCH的框架示意图。

图2是本发明实施例提供的一种sigmoid激活函数的示意图。

图3是为本发明实施例提供的一种视频片段查询方法的流程图。

图4为本发明实施例提供的一种计算机设备的结构示意图。

具体实施方式

下面结合附图与实施例对本发明做进一步说明。在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在视频片段查询的相关工作中，重点将视频时刻定位方法集中在时刻定位的准确性上。然而，随着多媒体数据特别是视频数据的激增，大数据库的快速定位和检索至关重要。针对提高检索速度，减少内存存储的需求，本申请使用哈希码存储视频语义信息，大大减少空间占用，并通过哈希的位操作完成视频和查询语句之间的语义匹配，可以实现大规模数据的快速检索。

自然语义的视频事件查询主要通过计算视频特征和查询语句特征之间的细粒度匹配关系来提高精度。为了达到这一目的，视频特征不得不与语句特征在定位之前进行复杂的多模态交互。相关工作的视频特征的来源有两种，一种是从原始的视频抽取出的图像，在对图像进行抽取高层语义特征的过程中加入查询语句的信息，以指导生成对查询更为有用的特征；第二种是采用预训练好的深度网络模型抽取视频中的语义信息并以实数向量的形式存在本地，然后对查询语句进行提取特征来和视频的特征进行一系列的跨模态交互来确定查询事件的起止时间。

上述两种视频特征的来源所带来的问题和严重程度也有所不同：

第一种视频来源采用原始视频的存储方式，虽然保留了完整的视频信息，但存储空间大和运算效率低。这是由于，为了进行事件查询，视频首先要被解码成连续的图片，由图片提取高层语义特征是极其消耗资源的措施，后续的特征交互也需要一定的时间。

第二种视频来源采用实数特征向量的存储方式，相对于存储原始视频，可以减少存储空间和运算事件。然而由于两个模态的特征处于不同的向量空间，其对相同语义事件的表示不一定在向量空间上相近，需要通过大量的跨模态交互，来挖掘它们的细粒度匹配关系。

实施例一

基于上述情况，本实施例提出一种视频片段查询系统。该系统基于哈希的自然语义的视频事件查询技术，提出一种视频事件查询框架（vidEo momenT loCation methodvia Hashing，ETCH）。该系统包括：

预处理模块，用于获取查询视频，其中，所述查询视频包括T个视频片段；从每个视频片段中截取N个视频帧，得到所述查询视频的T×N个视频帧，其中，N、T为大于1的整数；

可选地，视频可以被看作是由一组片段连接剪辑组成的，使用深度神经网络提取特征后，可以得到对应的视频片段特征。相应地，将查询句送入深度神经网络提取特征后，可以得到对应的语句特征。根据视频片段特征和语句特征，分别生成视频片段的哈希码和语句哈希码。对于与语句描述的内容相关的视频片段，所生成的视频片段的哈希码与语句哈希码之间的相似度会更高。位置预测网络通过相似度分布，确定相匹配的视频片段的开始时刻和结束时刻。

可选地，ETCH框架也可以由三部分组成：视频哈希网络、查询句哈希网络和位置预测网络。ETCH框架可以进行端到端的训练，在定位时因为视频的语义信息已经成为哈希表示，只需要对查询语句提取哈希码，具有灵活性，避免了空间和时间消耗。图1是本发明实施例提供的一种ETCH的框架示意图。

该框架通过将视频特征和语句特征映射到同一个公共空间，并且使用哈希码来存储视频特征和语句特征，在进行视频片段查询时只需要对哈希码进行运算，而无需使用原始视频或者实数特征向量。

需要说明的是，这里的“视频特征”是一种高维向量，记录了视频中发生事件的隐含的语义信息，如“一个男人在跑步”，它不能被人类所理解，但计算机可以处理这些向量。

在一实施例中，所述视频哈希网络包括：

第一双向GRU网络，与所述视频编码器连接，所述第一双向GRU网络用于基于所述T个视频片段的第一特征向量挖掘所述T个视频片段之间的时序信息，得到每个视频片段的时序特征向量；

第一FC层，与所述第一双向GRU网络连接，所述第一FC层用于将每个视频片段的时序特征向量映射到所述公共空间，生成所述每个视频片段的第二特征向量；并利用所述T个视频片段的第二特征向量，组成所述查询视频的第二特征向量组；

在一实施例中，所述视频编码器为膨胀3D卷积网络（I3D）深度神经网络。

可选地，在视频哈希网络中，给定原始视频，将其截取成一组视频帧，使用I3D深度神经网络作为视频编码器将视频帧转换为一系列视频特征（视频片段的第一特征向量）。这些特征通过双向GRU网络（本申请中也简称为“GRU网络”）来挖掘时序信息，并使用具有激活函数的全连接层，在每一时刻生成当前时刻对应的视频片段的第二特征向量。再使用符号函数以第二特征向量为输入，生成每一时刻对应的视频片段的哈希码，从而生成整个视频的哈希码。

在一实施例中，所述语句哈希网络包括：

第二FC层，与所述第二双向GRU网络连接，所述第二FC层用于将所述查询语句的时序特征向量映射到所述公共空间，生成所述查询语句的第二特征向量，其中，所述查询语句的第二特征向量的维数和每个视频片段的第二特征向量的维数均为d_h，d_h为大于或等于1的整数；

在一实施例中，d_h=l。

在一实施例中，所述语句编码器为全向量词表示Golve网络。

可选地，语句哈希网络的结构与视频哈希网络几乎完全相似，使用Golve网络作为语句编码器提取语句特征（查询语句的第一向量特征）。再将提取到的语句特征以字符顺序为时序，输入到GRU网络，将最后一个时间步的GRU输出向量作为查询语句的整体时序特征向量，输入到具有激活函数的FC层，得到查询语句的第二特征向量。最后使用符号函数以该特征向量为输入，生成表示查询句的哈希码。

需要说明的是，在视频哈希网络中，通过视频编码已经提取到了视频片段的视频特征；在语句哈希网络中，通过语句编码器也已经提取到了语句特征。但视频特征和语句特征处在不同的空间（可以理解为视频片段的第一特征向量和语句的第一特征向量具有不同的维度），无法直接进行交互计算。通过两组GRU和FC，将视频特征和语句特征转换到了相同的公共空间（可以理解为视频片段的第二特征向量和语句的第二特征向量具有相同的维度），其哈希化后可直接通过计算汉明距离来求解相似度的哈希码。

其中，

表示S形函数，μ表示缩放因子，r^v _t表示每个视频片段的第二特征向量，r^s表示所述查询语句的第二特征向量；

可选地，相似度的计算有两种，分别用于对ETCH训练过程中的两种损失的计算：

实数相似度：

哈希相似度：

可选地，第一特征向量和第二特征向量均为实数特征向量；r^v _t即GRU+FC后输出的视频片段的实数特征向量，h^v _t即视频片段的实数特征向量哈希化后的哈希码；r^s即GRU+FC后输出的语句的实数特征向量，h^s即语句的实数特征向量哈希化后的哈希码。

可选地，缩放因子μ的作用是：防止在进行sigmoid激活时梯度消失。

图2是本发明实施例提供的一种sigmoid激活函数的示意图。如图2所示，例如，对于64位的两个哈希码，其汉明距离在0-64之间，而sigmoid有有效梯度的部分大概在（-5，+5）之间，因此需要通过超参数μ将其映射到这个范围以防止梯度消失。对于64位哈希码，可将μ设置为1/6。

在一实施例中，所述位置预测网络为多层感知器MLP，所述MLP包括：

第三FC层和第四FC层，其中，所述第三FC层与所述相似度计算模块连接，所述第四FC层与所述第三FC层连接，所述第三FC层设置有双曲正切Tanh激活函数，所述第三FC层和所述第四FC层共同用于完成s^h到所述查询视频中与所述查询语句相匹配的视频片段的开始时刻和结束时刻的非线性变换，并输出所述开始时刻和结束时刻。

可选地，位置预测网络的作用是：根据查询句的哈希码与视频的哈希码的相似度分数的分布计算匹配视频片段的时刻开始和结束时间。位置预测网络以视频哈希网络中生成的一组视频片段的哈希码与查询句哈希网络中生成的查询句的哈希码之间的相似度为输入。

可选地，将每个时间步的哈希相似度度分数折叠成一个向量s^h，输入到MLP中。该MLP由两层FC层组成，第一个FC层有Tanh激活函数。第二个FC的输出向量y包含两项元素，如(0.3,0.6)，分别表示与查询句相匹配的视频片段的开始时间和结束时间。

在一实施例中，在视频中可能存在多个相匹配的视频片段。在本实施例中，默认这多个视频片段是连续的，共同组成一个整体的匹配视频片段。当然，在实际应用中，也会出现所述多个视频片段不连续的情况。在这种情况下，将通过更精确语义描述来保证组成一个整体的匹配视频片段的多个视频片段的连续性，“如，一个人第二次进了门”。同时，在视频片段查询系统中，位置预测网络还会根据相似度的分布，自动选择最合适的视频区间（即通过网络训练来实现这一功能），以保证多个视频片段的连续性。

综上所述，本发明实施例提出的视频片段查询系统具有以下有益效果：

1. 通过将视频特征和语句特征映射到同一个公共空间，并使用哈希码存储视频信息和语义信息，大大减少空间占用；

2. 通过哈希的位操作完成视频和查询语句之间的匹配，由于二进制哈希码对存储的要求较低，并且可以通过在汉明空间中使用快速的二值操作有效地计算哈希码之间的相似度，可以应用于大规模数据的快速检索；

3. 本发明的基于哈希的自然语义的视频事件查询技术适合在移动设备中部署，例如手机和机器人。因为其操作简单、计算量小，无需对原始的视频进行编解码，极大的减少了存储空间和运算量。

值得注意的是，上述实施例中，所包括的各个单元和模块只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

实施例二

本实施例提供一种视频片段查询方法。该方法基于实施例1所述的视频片段查询系统，用于预测与查询语句相匹配的视频片段在视频中的位置。图3为本发明实施例提供的一种视频片段查询方法的流程图。如图3所示，该方法包括步骤S10-S40。

S10：获取多个训练对，其中每个训练对包括训练视频和训练语句，其中所述训练视频包括T个训练视频片段，T为大于1的整数；对所述每个训练对进行标注，标注的内容包括：每个训练视频片段与所述训练语句之间的实数相似度分数，以及所述训练视频中与所述训练语句相匹配的视频片段的开始时刻和结束时刻。

S20：构建实施例一中提供的任意一种视频片段查询系统。

S30：依次将每个训练对输入到所述视频片段查询系统中，预测所述每个训练对中每个查询视频片段与训练语句之间的实数相似度分数，以及所述每个训练对中与训练语句匹配的视频片段的开始时刻和结束时刻；基于相似度损失和位置损失构造损失函数，基于预测结果和所述损失函数对所述视频片段查询系统的参数进行迭代优化，直到达到预定的训练终止条件。

可选地，在步骤S10标注过程中，将与查询句匹配的视频片段的持续时间内的真实相似度分数标注为1，其余时间内的真实相似度分数标注为0。

所述相似度损失函数loss1根据公式（3）计算：

其中，

所述位置损失函数loss2根据公式（4）计算：

其中，

在一实施例中，所述损失函数loss根据公式（5）计算：

其中，λ表示超参数。

可选地，在模型训练过程中，使用相似度损失和位置损失更新模型参数。相似度损失使用交叉熵损失函数，评估位置预测网络中预测的查询句和视频的哈希相似度分数与真实的相似度分数之间的差距。其中，步骤S10中标注的相似度分数即真实的相似度。位置损失使用Smooth L1损失，评估位置预测网络中使用多层感知器模型预测的开始时间和结束时间与真实的开始时间和结束时间之间的差距。最后，将位置损失与超参数相乘后与相似度损失相加的和作为模型的整体损失，更新模型的权重。超参数用于平衡两部分损失。

值得注意的是，相似度损失使用的是实数特征计算的相似度，即实数相似度分数。在模型训练中，利用深度学习技术，自动根据损失值进行梯度反向传播，来更新模型的参数。超参数是指无法在反向传播中更新的参数，需要手动调节，如学习率，批次大小等。

基于以上发明构思，下面通过一个应用实施例，来说明本发明提出的视频片段查询系统和视频片段查询方法的实现过程。

在一应用实施例中，ETCH模型使用PyTorch和其高层封装pytorch-lightning框架实现。PyTorch是一个针对深度学习，并使用图形处理器（Graphic Processing Unit，GPU）和中央处理器（Central Processing Unit，CPU）来优化的张量库（tensor library）。PyTorch框架中封装了卷积层、GRU、FC层以及最小化损失更新模型权重的优化器。

在实现中，使用Adam梯度下降方法更新模型权重，PyTorch中有封装好的Adam优化器。Adam优化器可以对梯度的一阶矩估计（First Moment Estimation，即梯度的均值）和二阶矩估计（SecondMoment Estimation，即梯度的未中心化的方差）进行综合考虑，计算出更新步长。将Adam优化器的学习率参数设置为0.001。每批次的训练样本数为64，在数据上训练50 epoch。

视频哈希网络和查询句哈希网络分别使用不同的GRU网络和FC层。视频哈希网络中GRU的隐藏层大小设置为256，FC层输出维度设置为64。将截取到的一组视频帧输入到I3D视频编码器网络中，为每个视频帧提取1024维的视频特征。该特征输入到GRU网络得到一组256维的视频时序特征向量，再将这些时序向量输入到FC层得到一组表示视频片段的64维特征向量，最后将这些特征向量输入符号函数中，得到一组64位的视频片段哈希码。模型输入时以0.2概率随机丢弃（dropout）。

查询句哈希网络中GRU的隐藏层大小设置为256，FC层输出维度设置为64。查询句输入到查询语句编码器Golve中得到300维的向量作为提取到的查询句特征，该特征输入到GRU网络得到256维的语句时序特征向量，再将该时序特征向量输入到FC层，得到64维的查询句特征向量，最后使用符号函数以该向量为输入得到64位的查询句哈希码。

在位置预测网络中，多层感知器的第一层感知器网络的隐藏层大小设置为128，第二层感知器网络的输入大小设置为2，将防止相似度分数偏离的超参数μ设置为1/6。位置预测网络以视频哈希网络中产生的一组64位哈希码和查询句哈希网络中产生的64位查询句哈希码为输入，得到预测的视频片段起止时间的2维向量。

最后，根据位置预测网络中计算的查询句与视频片段相似度分数和真实的相似度分数，来计算相似度损失；根据位置预测网络中预测的视频片段起止时间向量和真实的与查询句对应的视频片段的起止时间，计算位置损失。将与位置损失相乘用来平衡两项损失的超参数设置为0.01，将两部分损失的和作为模型的整体损失，来更新模型权重。

可选地，根据原始数据的差别，需要实现方式也不同。例如，原始mp4视频需要相关的解码器，视频特征则需要相关的加载模块（如numpy，h5py）等。

综上所述，本发明实施例提出的视频片段查询方法具有以下有益效果：

3. 基于哈希的自然语义的视频事件查询技术适合在移动设备中部署，例如手机和机器人。因为其操作简单、计算量小，无需对原始的视频进行编解码，极大的减少了存储空间和运算量；

本发明实施例的视频片段查询方法与实施例一中的视频片段查询系统具有相同的技术原理和有益效果。未在本实施例中详尽描述的技术细节，请参照实施例一中的视频片段查询系统。

实施例三

图4为本发明实施例提供的一种计算机设备的结构示意图。如图4所示，该设备包括处理器410和存储器420。处理器410的数量可以是一个或多个，图4中以一个处理器410为例。

存储器420作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本发明实施例中的视频片段查询方法的程序指令/模块。处理器410通过运行存储在存储器420中的软件程序、指令以及模块，实现上述实施例提供的任一视频片段查询系统和视频片段查询方法。

存储器420可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据终端的使用所创建的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器420可进一步包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实施例四

本发明的实施例还提供了一种存储介质。可选地，在本实施例中，上述存储介质可以被设置为存储用于计算机程序，用于执行上述实施例提供的任一视频片段查询系统和视频片段查询方法。

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。