CN110162665B

CN110162665B - 视频搜索方法、计算机设备及存储介质

Info

Publication number: CN110162665B
Application number: CN201811628462.2A
Authority: CN
Inventors: 龚国平; 徐叙远; 吴韬
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2018-12-28
Filing date: 2018-12-28
Publication date: 2023-06-16
Anticipated expiration: 2038-12-28
Also published as: CN110162665A

Abstract

一种视频搜索方法、计算机设备及存储介质，该方法包括：基于确定的卷积神经网络对待搜索图像进行特征提取获得图像卷积特征；根据图像卷积特征，从预设视频卷积特征库中确定对应的各候选视频帧卷积特征，预设视频卷积特征库中包括各视频的视频信息、各视频的视频信息对应的各视频帧卷积特征以及各视频帧在对应视频中的时间点；确定各候选视频帧所在候选视频对应的视频信息以及各候选视频帧在对应候选视频中的时间点；基于各候选视频帧卷积特征、各候选视频帧所在候选视频对应的视频信息、各候选视频帧在对应候选视频中的时间点以及待搜索图像的图像卷积特征，从各候选视频对应的视频信息中确定目标视频信息。通过本方法可提高视频搜索的准确性。

Description

视频搜索方法、计算机设备及存储介质

技术领域

本发明涉及数据处理技术领域，特别涉及一种视频搜索方法、计算机设备及存储介质。

背景技术

随着互联网技术的发展，人们所面对的数据在迅速增长，其中，视频数据是其中之一，视频对人们生活带来很多乐趣，丰富了人们生活，同样，通过观看不同的视频，可扩展人们的视野以及知识。

由于视频数据量庞大，为快速定位视频，需要进行视频搜索。目前，在进行视频搜索时，大多以关键信息进行匹配搜索，但该方法需要在用户知晓关键信息（例如，视频名称、导演名称或演员名称等）时，才能实现搜索。但有时用户只是看到一个视频片段或一张图片，并不知晓其关键信息，如此，无法通过关键信息进行视频搜索得到该视频片段或图片对应的完整视频，此时，可利用视频片段中的某一视频帧或该图片进行完整视频的搜索，即以图搜视频。

现有利用图片进行视频搜索的过程中，首先提取图片的sift（Scale-invariantfeature transform，尺度不变特征变换）特征，并通过fisher vector（一种编码方式）对sift特征进行聚合，根据聚合后的特征与视频对应的特征进行比对，确定视频搜索结果。然而，在利用fisher vector算法对sift特征进行聚合过程中容易出现信息损失，如此，基于聚合后的特征进行视频搜索容易导致结果准确性不足。

发明内容

基于此，有必要针对现有基于图片搜索视频准确性不足的问题，提出一种视频搜索方法、计算机设备及存储介质。

一种视频搜索方法，包括以下步骤：

获取待搜索图像；

基于确定的卷积神经网络对所述待搜索图像进行特征提取，获得图像卷积特征；

根据所述图像卷积特征，从预设视频卷积特征库中确定对应的各候选视频帧卷积特征，所述预设视频卷积特征库中包括各视频的视频信息、各所述视频的视频信息对应的各视频帧卷积特征以及各视频帧在对应视频中的时间点；

确定各所述候选视频帧所在候选视频对应的视频信息以及各所述候选视频帧在对应候选视频中的时间点；

基于各所述候选视频帧卷积特征、各候选视频帧所在候选视频对应的视频信息、各所述候选视频帧在对应候选视频中的时间点以及所述待搜索图像的图像卷积特征，从各所述候选视频对应的视频信息中确定与所述待搜索图像对应的目标视频信息。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法的步骤。

一种计算机存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

上述视频搜索方法、计算机存储设备及存储介质，通过确定的卷积神经网络对待搜索图像进行特征提取，能得到准确的图像卷积特征。先利用图像卷积特征，从预设视频卷积特征库中确定对应的各候选视频帧卷积特征，即从各视频帧卷积特征中筛选出与图像卷积特征对应的各候选视频卷积特征，可以理解各候选视频卷积特征为各视频帧卷积特征中排除了与图像卷积特征不对应的视频帧卷积特征的特征。然后再利用各候选视频帧卷积特征、各候选视频帧所在候选视频对应的视频信息、各候选视频帧在对应候选视频中的时间点对各候选视频帧卷积特征进行进一步地筛选，确定待搜索图像对应的目标视频信息，可提高对视频搜索的准确性。

附图说明

图1为一个实施例中视频搜索方法的应用环境示意图；

图2为一个实施例的视频搜索方法的流程示意图；

图3为另一个实施例的视频搜索方法中步骤S220之前的子的流程示意图；

图4为一具体实施例的视频搜索方法的原理图；

图5为另一具体实施例的视频搜索方法的原理图；

图6为一个实施例的视频搜索装置的模块示意图；

图7为一个实施例中计算机设备的结构框图。

实施方式

为使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步的详细说明。应当理解，此处所描述的具体实施方式仅仅用以解释本发明，并不限定本发明的保护范围。

图1为一个实施例中视频搜索方法的应用环境示意图。参照图1，该应用环境涉及终端110和服务器120。终端110和服务器120通过网络连接。终端110具体可以是台式终端或移动终端，移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。该视频搜索方法可应用于终端110或服务器120，在该方法应用于服务器120中时，终端110通过网络可访问对应的服务器120，以请求相应的搜索结果（即目标视频信息），服务器120可将该搜索结果发送至终端110，即终端110可从服务器120获得目标视频搜索信息，终端110的用户可以查看以图搜视频的搜索结果。在该方法应用于终端110时，在确定目标视频信息，实现以图搜视频后，用户可在终端110查看搜索结果。

如图2所示，在一个实施例中，提供了一种视频搜索方法。本实施例主要以该方法应用于上述图1中的服务器120（或终端110）来举例说明。参照图2，该视频搜索方法具体包括如下步骤：

S210：获取待搜索图像。

待搜索图像即为需要搜索其对应视频信息的图像，比如可以是用户输入或用户从本地选择的图像，也可以是接收其他终端发送的图像等。

S220：基于确定的卷积神经网络对待搜索图像进行特征提取，获得图像卷积特征。

图像特征为表征图像特点的信息，卷积神经网络是一种前馈神经网络，人工神经元可以响应周围单元，可以进行大型图像处理，卷积神经网络可以包括卷积层、池化层和全连接层。通过卷积神经网络的卷积层和池化层进行特征提取时得到的特征结果为多维度的特征，可以理解为得到多个特征图，比如，通过卷积神经网络的卷积层和池化层对图像A进行处理，得到的特征为

形式的特征，可以理解为是512张大小为/>

的特征图，也可以理解为/>

个512维的单个向量，即单个向量中有512个元素。然后将卷积层和池化层进行特征提取得到的多维度特征通过全连接层，得到图像卷积特征，即可以理解为基于多维度特征得到一维的一个特征向量，图像卷积特征为一维的一个特征向量。

卷积层用于对图像进行特征提取，具体是利用卷积核对图像进行卷积操作，得到初步的图像特征，经过池化层进行池化，在经过全连接层进行处理，最终得到上述图像卷积特征。其中，池化可以理解为压缩，是对不同位置的特征进行聚合统计，例如，计算图像一个区域上的某个特定特征的平均值作为该区域的一个值，如此，可降低维度，同时改善结果，不容易过拟合，这种聚合的操作称为池化。池化包括平均池化和做大池化，上述将区域上的某个特定特征的平均值，作为该区域的一个值，称为平均池化，将区域上的某个特定特征的最大值作为该区域的一个值，称为最大池化。

S230：根据图像卷积特征，从预设视频卷积特征库中确定对应的各候选视频帧卷积特征。

预设视频卷积特征库中包括各视频的视频信息、各视频的视频信息对应的各视频帧卷积特征以及各视频帧在对应视频中的时间点，通过视频信息可定位到对应的视频，一个视频可以由各视频帧组成，而每个视频帧可以理解为对应视频中的一张图片，且每个视频帧在对应视频中有对应的时间点，视频帧卷积特征指该视频帧对应的卷积特征，即可以理解为通过卷积神经网络对该视频帧进行特征提取得到的卷积特征。

每个视频可以对应有若干个视频帧，而可以有若干个视频，则有对应若干个视频信息，则在预设视频卷积特征库中可包括各视频信息对应的各视频帧卷积特征，此处的各视频帧卷积特征为各视频分别对应的若干个视频帧卷积特征的总和。由于在预设视频卷积特征库中，存在海量视频对应的视频帧卷积特征，即存在海量视频卷积特征，为提高精确性，还需对预设视频卷积特征库中的特征进行筛选，即在得到待搜索图像的图像卷积特征之后，可对预设视频卷积特征库中进行筛选，确定待搜索图像对应的图像卷积特征对应的各候选视频帧卷积特征，即将筛选得到的各候选视频帧卷积特征作为后续视频搜索的依据。

在一个示例中，上述视频信息可以包括视频名称或/和视频标识信息。

视频标识信息可以是视频ID（身份标识号），即通过各候选视频帧卷积特征以及待搜索图像的图像卷积特征，在预设视频卷积库中进行视频信息搜索时，搜索结果可以返回视频名称或/和视频标识信息。

S240：确定各候选视频帧所在候选视频对应的视频信息以及各候选视频帧在对应候选视频中的时间点。

可以理解，各候选视频帧卷积特征确定，则各候选视频帧卷积特征对应的各候选视频帧也是确定的，为确定待搜索图像对应的目标视频信息，还需确定各候选视频帧所在候选视频对应的视频信息以及各候选视频帧在对应候选视频中的时间点，为确定目标视频信息提供搜索依据。其中，各候选视频属于各视频，各候选视频帧卷积特征属于各视频帧卷积特征。

S250：基于各候选视频帧卷积特征、各候选视频帧所在候选视频对应的视频信息、各候选视频帧在对应候选视频中的时间点以及待搜索图像的图像卷积特征，从各候选视频对应的视频信息中确定与待搜索图像对应的目标视频信息。

由于在预设数据库中存在若干个视频对应的视频信息，需要在这些视频信息中搜索到所需的视频信息，实现视频搜索，如此，即可实现以图搜视频的目的。在本实施例中，对各视频帧卷积特征进行筛选得到各候选视频帧卷积特征之后，还需要利用待搜索图像的卷积特征、各候选视频帧所在候选视频对应的视频信息、各候选视频帧在对应候选视频中的时间点，进一步对各候选视频帧卷积特征进行筛选，从各候选视频对应的视频信息中确定与待搜索图像对应的目标视频信息。从各视频信息中确定与待搜索图像对应的目标视频信息，可以理解为从各候选视频帧卷积特征对应各候选视频帧所在候选视频的视频信息中确定目标视频信息。

例如，各视频帧卷积特征包括视频帧特征A、视频帧特征B、视频帧特征C和视频帧特征D，对其进行筛选，得到的各候选视频帧卷积特征包括视频帧特征A、视频帧特征B和视频帧特征C，视频帧特征A对应的视频帧和视频帧特征B对应的视频帧均属于视频a，视频帧特征C对应的视频帧属于视频c，视频帧特征D对应的视频帧属于视频d，基于各候选视频帧卷积特征、各候选视频帧所在候选视频对应的视频信息、各候选视频帧在对应候选视频中的时间点以及待搜索图像的图像卷积特征，可确定与待搜索图像对应的目标视频信息为视频c对应的视频信息，例如，视频c对应的视频名称或/和视频标识信息等。

上述视频搜索方法，通过确定的卷积神经网络对待搜索图像进行特征提取，能得到准确的图像卷积特征。先利用图像卷积特征，从预设视频卷积特征库中确定对应的各候选视频帧卷积特征，即从各视频帧卷积特征中筛选出与图像卷积特征对应的各候选视频卷积特征，可以理解各候选视频卷积特征为各视频帧卷积特征中排除了与图像卷积特征不对应的视频帧卷积特征的特征。然后再利用各候选视频帧卷积特征、各候选视频帧所在候选视频对应的视频信息、各候选视频帧在对应候选视频中的时间点对各候选视频帧卷积特征进行进一步地筛选，确定待搜索图像对应的目标视频信息，可提高对视频搜索的准确性。

在一个实施例中，上述根据图像卷积特征，从预设视频卷积特征库中确定对应的各候选视频帧卷积特征，包括：对图像卷积特征进行哈希处理，获得待搜索图像对应的图像哈希特征值；根据图像哈希特征值在预设视频卷积特征库中进行索引，确定与图像哈希特征值相同的索引值对应的各候选视频帧卷积特征。

预设视频卷积特征库中还包括与各视频帧卷积特征分别对应的索引值，即通过索引值可索引到对应的视频帧卷积特征。在本实施例中，得到图像卷积特征之后，为了更准确快速定位各候选视频帧卷积特征，需要对图像卷积特征哈希处理，图像卷积特征为一个向量，可将该向量经过哈希处理得到图像哈希特征值，将图像哈希特征值作为在预设视频卷积特征库中进行索引的依据，将预设视频卷积特征库中与图像哈希特征值相同的索引值对应的视频帧卷积特征作为为候选视频帧卷积特征，实现对视频帧卷积特征的筛选。

在一个实施例中，上述从各视频信息中确定与待搜索图像对应的目标视频信息，包括：根据预设过滤条件对各候选视频帧卷积特征进行过滤，获得各目的视频帧卷积特征；将各目的视频帧卷积特征与待搜索图像的图像卷积特征进行比对，从各目的视频帧卷积特征中筛选出待搜索图像对应的目标帧卷积特征；将目标帧卷积特征对应的目标帧所在目标视频的视频信息确定为目标视频信息。

在得到各候选视频帧卷积特征后，为进一步提高精确性，减少后续搜索计算量提高搜索效率，还需对其进行过滤。在本实施例中，可根据预设过滤条件对各候选视频帧卷积特征进行过滤，获得各目的视频帧卷积特征，即各目的视频帧卷积特征为各候选视频帧特征中满足预设过滤条件的视频帧特征。从而，可通过各目的视频帧卷积特征与待搜索图像的图像卷积特征的比对，从各目的视频帧卷积特征中筛选出待搜索图像对应的目标帧卷积特征。

在一个实施例中，在各目的视频帧卷积特征中，至少两个目的视频帧卷积特征对应同一视频，且在同一视频对应的至少两个目的视频帧卷积特征中，目的视频帧卷积特征对应时间点，至少与各剩余目的视频帧特征中一个相邻目的视频帧特征对应时间点的时间间隔小于或等于预设间隔，其中，相邻目的视频帧特征对应时间点与该目的视频帧卷积特征对应时间点相邻，各目的视频帧特征为该目的视频帧卷积特征与各剩余目的视频帧特征的并集。

即在进行过滤过程中，若一个视频在各候选视频帧卷积中只对应一个单独的候选视频帧卷积特征，则将该视频对应的该候选视频帧卷积特征从各候选视频帧卷积特征中过滤。若一个视频在各候选视频帧卷积中对应至少两个候选视频帧卷积特征时，需要对该视频对应的至少两个候选视频帧卷积特征进行时间间隔的检测，将不满足时间条件的待过滤视频帧卷积特征从各候选视频帧卷积特征中过滤，其中，待过滤视频帧卷积特征对应待过滤视频帧的的时间点和相邻视频帧卷积特征对应视频帧的的时间点的时间间隔不满足时间条件，即时间间隔大于预设间隔，该相邻视频帧卷积特征对应视频帧的时间点与过滤视频帧卷积特征对应的滤视频帧的时间点相邻，此处相邻可以指时间点在过滤视频帧卷积特征对应的滤视频帧的时间点之前，与过滤视频帧卷积特征对应的滤视频帧的时间点相邻，以及时间点在过滤视频帧卷积特征对应的滤视频帧的时间点之后，与过滤视频帧卷积特征对应的滤视频帧的时间点相邻。相邻目的视频帧特征对应时间点与该目的视频帧卷积特征对应时间点相邻类似。

例如，各候选视频帧卷积特征中包括视频a对应的5个候选视频帧卷积特征（分别为候选视频帧卷积特征a1、a2、a3、a4和a5，在视频a中的时间点依次增大）和视频b对应的1个候选视频帧卷积特征（为候选视频帧卷积特征b1），其中，对于视频a，候选视频帧卷积特征a1和a2对应在视频a中的时间点的时间间隔小于预设间隔，候选视频帧卷积特征a3和a4对应在视频a中的时间点的时间间隔小于预设间隔，候选视频帧卷积特征a2在视频a中的时间点与候选视频帧卷积特征a3在视频a中的时间点的时间间隔大于预设间隔，候选视频帧卷积特征a5在视频a中的时间点分别与候选视频帧卷积特征a1、a2、a3和a4的时间点的时间间隔均大于预设间隔。虽然候选视频帧卷积特征a2在视频a中的时间点与候选视频帧卷积特征a3在视频a中的时间点的时间间隔大于预设间隔，但其分别至少存在一个其对应时间点的时间间隔小于或等于预设间隔的候选视频帧卷积特征，分别为候选视频帧卷积特征a1和候选视频帧卷积特征a4，可保留候选视频帧卷积特征a1、a2、a3和a4。然而，候选视频帧卷积特征a1、a2、a3和a4中不存在一个时间点与候选视频帧卷积特征a5的时间点的时间间隔小于或等于预设间隔，该候选视频帧卷积特征a5是孤立的，将其过滤。最终确定的各目的视频帧卷积特征包括候选视频帧卷积特征a1、a2、a3和a4。如此，一方面可提高视频搜索的准确性，另一方面可减少后续确定目标视频信息的计算量。

在一个实施例中，上述将各目的视频帧卷积特征与待搜索图像的图像卷积特征进行比对，从各目的视频帧卷积特征中筛选出待搜索图像对应的目标帧卷积特征，包括：确定待搜索图像的图像卷积特征分别与各目的视频帧卷积特征之间的第一相似度；将各第一相似度中最大值对应的目的视频帧卷积特征作为目标帧卷积特征，再将该目标帧卷积特征对应的目标帧所在的视频信息确定为目标视频信息，实现视频搜索，提高搜索准确性。

第一相似度表征了待搜索图像的图像卷积特征与目的视频帧卷积特征之间的相似程度，第一相似度越大，表示相似程度越高，则表示该目的视频帧卷积特征对应的视频为该待搜索图像所在视频的可能性越大。则在本实施例中，取最大的第一相似度对应的目的视频帧卷积特征作为目标帧卷积特征，确保确定的目标卷积特征的准确性，从而确保视频搜索准确性。在一个示例中，可通过计算待搜索图像的图像卷积特征与目的视频帧卷积特征之间的欧式距离，作为第一相似度。

在一个实施例中，将目标帧卷积特征对应的目标帧所在目标视频的视频信息确定为目标视频信息之后，还包括：获取目标帧卷积特征在目标视频中对应的时间点。

在本实施例中，在搜索到目标视频信息后，还可获取目标帧卷积特征在目标视频中对应的时间点，可以将该时间点作为待搜索图像在目标视频信息对应目标视频中对应的时间点。

如图3所示，在一个实施例中，上述从预设视频卷积特征库中确定对应的各候选视频帧卷积特征之前，还包括：

S301：获取各视频以及各视频对应的视频信息，并基于卷积神经网络分别对各视频中的各视频帧进行特征提取，确定各视频帧卷积特征；

S302：对各视频帧卷积特征进行哈希处理，获得各视频中的各视频帧对应的哈希特征值；

S303：将哈希特征值作为对应的视频帧卷积特征的索引值，将各视频帧卷积特征、各视频帧所在视频对应的视频信息、各视频帧在对应视频中的时间点以及各视频帧卷积特征对应的索引值关联存储于预设视频卷积特征库。

即在从预设视频卷积特征库中确定对应的各候选视频帧卷积特征之前，需要将各视频的各视频帧卷积特征入库存储，以便后续搜索。在本实施例中，预设视频卷积特征库中视频的视频信息与视频帧卷积特征对应，如此，在预设视频卷积特征库中，可获知每个视频帧卷积特征所对应的视频信息，即可知每个视频帧卷积特征对应的视频帧所对应的视频。

每个视频对应各视频帧，利用卷积神经网络对每个视频对应的各视频帧进行特征提取，获得各视频帧卷积特征，该各视频帧卷积特征即为基于卷积神经网络对每个视频对应的各视频帧分别进行特征提取得到的视频帧卷积特征的总和。为了便于搜索过程中定位各候选视频帧卷积特征，需要为每个视频帧卷积特征建立对应的索引值，在本实施例中，对各视频帧卷积特征进行哈希处理，获得各视频中的各视频帧对应的哈希特征值，即可获得每个视频的各视频帧分别对应的哈希特征值，将哈希特征值作为对应的视频帧卷积特征的索引值，在将各视频帧卷积特征以及对应的索引值关联存储于预设视频卷积特征库，索引值与对应视频帧卷积特征的关联，通过索引值即可定位到对应的视频帧卷积特征，如此，后续基于待搜索图像的图像卷积特征进行索引时，可快速搜索到对应的候选视频帧卷积特征。另外，视频帧所在视频对应的视频信息、视频帧在对应视频中的时间点和视频帧卷积特征是关联存储，通过索引值索引到视频帧卷积特征后，即可获知对应的视频信息和时间点。

在一个实施例中，上述将各视频帧卷积特征、各视频帧所在视频对应的视频信息、各视频帧在对应视频中的时间点以及各视频帧卷积特征对应的索引值关联存储于预设视频卷积特征库，包括：基于各视频帧特征对应的索引值，将各视频帧卷积特征、各视频帧所在视频对应的视频信息以及各视频帧在对应视频中的时间点分桶存入预设数据库中。

对于每一个表或分区等，可进一步细分成桶。在本实施例中，通过视频帧对应的哈希特征值将特征切分一个桶，每个桶下有对应的视频帧卷积特征，且一个桶下对应的视频帧卷积特征对应的索引值相同，且该索引值也为该桶的索引。可以理解，一个索引可对应多个视频帧卷积特征，且视频帧卷积特征、视频帧所在视频对应的视频信息以及视频帧在对应视频中的时间点关联存储在一个桶中。

在一个实施例中，上述基于卷积神经网络对分别各视频中的各视频帧进行特征提取，确定各视频帧卷积特征，包括：分别对对各视频中的各视频帧进行帧采样，确定各视频分别对应的关键帧集；基于卷积神经网络对各关键帧集中的关键帧进行特征提取，获得各关键帧卷积特征，并将各关键帧卷积特征作为各视频帧卷积特征。

由于一个视频对应的各视频帧的数量多，容易导致计算量大，而影响整个搜索效率，在本实施例中，不再将视频的所有视频帧对应的视频帧卷积特征入库，而是对视频的各视频帧的视频帧卷积特征进行选择入库，以减小视频帧卷积特征的入库数量。具体地，在一个示例中，可按照固定时间间隔对各视频帧进行帧采样，例如，每隔1秒对各视频帧进行采样。另外，在一个示例中，可以以预设采样频率对各视频帧进行帧采样，例如，可以以每秒提取10帧的采样频率进行帧采样。

由于视频的数量可不止一个，则需对每个视频的各视频帧进行帧采样，在对每个视频进行帧采样时，可获得该视频对应的关键帧集，关键帧集中包括该视频的各关键帧，即一个视频对应一个关键帧集。然后，基于卷积神经网络对各关键帧集中的关键帧进行特征提取，即需要对每个关键帧集中的各关键帧分别进行特征提取，获得各关键帧卷积特征（即每个关键帧集的各关键帧对应的关键帧卷积特征的总和），并将各关键帧卷积特征作为各视频帧卷积特征，即将各视频帧卷积特征更新为各关键帧卷积特征。

在一个实施例中，上述将各视频帧卷积特征以及对应的索引值关联存储于预设视频卷积特征库，包括：确定各视频中的各视频帧卷积特征分别与预设视频卷积特征库中已存视频帧特征之间的第二相似度；在视频对应的各第二相似度中大于预设相似度的数量不超过预设数量时，将各视频帧卷积特征以及对应的索引值关联存储于预设视频卷积特征库。

第二相似度表征了视频帧卷积特征与已存视频帧特征之间的相似程度，第二相似度越大，表示相似程度越高，则表示该视频帧卷积特征对应的视频帧与已存视频帧特征对应的已存视频帧重复的可能性越大。则在本实施例中，针对每个视频，对应的各视频帧卷积特征与已存视频帧特征之间第二相似度大于预设相似度的数量不超过预设数量时，表示该视频对应的各视频帧卷积特征对应的视频帧与已存视频帧特征对应的已存视频帧重复的数量不满足预设要求，即没有超过预设数量，此时，可将将各视频帧卷积特征以及对应的索引值关联存储于预设视频卷积特征库。在一个示例中，可通过计算视频帧卷积特征与已存视频帧特征之间的欧式距离，作为第二相似度。

在一个实施例中，上述基于确定的卷积神经网络对待搜索图像进行特征提取之前，还包括：初始化初始卷积神经网络；获取各样本图片；基于各样本图片对初始卷积神经网络进行训练，确定卷积神经网络。

将各加权图像上下文向量分别与预设高维特征向量合并，获得各训练输入特征；获取初始多层感知器；根据各样本图像对应的各训练输入特征，对初始多层感知器进行训练，获得多层感知器。

样本图片可以理解为用于训练的图片，是已知分类的图片。在训练过程中，将样本图片作为初始卷积神经网络的输入进行训练，即通过各样本图片对初始卷积神经网络的各网络参数的值进行不断的调整，直到满足训练停止条件，停止训练，得到最终的卷积神经网络。后续可通过训练后确定的卷积神经网络对待搜索图像进行特征提取确定图像卷积特征，也可对视频的各视频帧进行特征提取，确定视频对应的各视频帧卷积特征。

在一个实施例中，初始卷积神经网络中卷积层包括深度卷积层和逐点卷积层。

即初始卷积神经网络中卷积层可由两步完成，即是将一个完整的卷积运算分解为两步进行，即深度卷积（Depthwise Convolution，即一个卷积核负责一个通道，一个通道只被一个卷积核卷积）运算和逐点卷积（Pointwise Convolution）运算，通过由深度卷积层和逐点卷积层构成的卷积层的卷积神经网络进行特征，可减少计算量。

在一个实施例中，上述基于各样本图片对初始卷积神经网络进行训练，确定卷积神经网络，包括：基于各样本图像，通过共享存储并行编程对卷积神经网络进行训练，确定卷积神经网络。

共享存储并行编程即OpenMP，用于共享内存并行系统的多处理器程序设计的一套指导性编译处理方案，通过OpenMP可利用多线程加速对初始卷积神经网络的训练，提高训练效率。

下面以一个具体实施例对上述视频搜索方法的过程加以具体说明。以以图搜剧（即目标视频信息为目标剧目信息）为例进行说明。

首先，初始化一个初始卷积神经网络，对初始卷积神经网络进行训练，得到卷积神经网络。

初始卷积神经网络中前预设数量（例如，3）个网络层（包括卷积层和池化层）中卷积层选取的最大卷积核为7*7大小的卷积核，初始卷积神经网络中第预设数量层之后的卷积层选取3*3大小的卷积核。初始阶段，卷积层对图像进行卷积处理后得到的feature map（特征图）数量设为32，每经过一次卷积层后的feature map数量翻倍。

通过OpenMP对训练过程进行多线程加速，加快训练速度。且卷积层由depthwiseconvolution层和pointwise convolution层构成，进行卷积运算时，可减小运算量。另外，针对正负样本图片不均衡的问题，在训练过程中，采用难分样本挖掘以及随机样本结合的策略，即在训练过程中，已知分类结果的部分样本图片在训练过程可能会分错，这部分样本图片即为难分样本，可将其返回输入到网络中重新进行训练分析。

另外，通过全连接层将基于卷积层和池化层确定图像的特征进行处理得到图像卷积特征，在本实施例中，全连接层包括2层，即第一全连接层（128维）和第二全连接层（32维），通过第一全连接才呢过处理以确保搜索的召回率，通过第二全连接层处理以确保搜索的准确性。

利用各测试图像通过上述训练好的卷积神经网络进行特征提取，然后在预设视频卷积特征库中进行视频搜索的测试，进行视频搜索得到测试图像对应的搜索结果，即测试图像对应的目标视频信息。若以各候选视频帧卷积特征的数量为20为例，利用上述训练好的卷积神经网络进行视频搜索测试，其召回率（一个测试图像能命中对应各候选视频帧卷积特征对应的任意视频帧，即认为召回成功）可达到97.9%，CPU处理速度最高可达30帧每秒。

然后，构建预设视频卷积特征库。

如图4所示，通过训练好的卷积神经网络对各视频中的各视频帧进行特征提取，确定各视频帧卷积特征。对各视频帧卷积特征进行哈希处理，获得各视频中的各视频帧对应的哈希特征值，将哈希特征值作为对应的视频帧卷积特征的索引值。并需要判断视频的各视频帧卷积特征是否符合入库条件，具体地，先确定各视频中的各视频帧卷积特征分别与预设视频卷积特征库中已存视频帧特征之间的第二相似度，在视频对应的各第二相似度中大于预设相似度的数量不超过预设数量时，表示符合入库条件，则基于各视频帧特征对应的索引值，将各视频帧特征、各视频帧所在视频对应的视频信息以及各视频帧在对应视频中的时间点分桶存入预设视频卷积特征库中，实现预设视频卷积特征库的构建，通过数据分桶存储，有利于后续数据的快速查找。每获得一个视频对应的视频帧卷积特征，并将其对应的视频信息以及在对应视频中的时间点存入预设视频卷积特征库，即实现对预设视频卷积特征库的更新，以确保预设视频卷积库中数据的实时性，有利于后续目标视频信息的确定。在视频对应的各第二相似度中大于预设相似度的数量超过预设数量时，表示不符合入库条件，将其丢弃，不再将其存入预设视频卷积特征库。

在预设视频帧特征库中，视频帧卷积特征的索引值为该视频帧卷积特征对应的哈希特征值，预设视频帧特征库还包括视频标识信息以及视频帧在对应视频中的时间点，通过哈希特征值索引到对应的视频帧卷积特征，从而可获知对应的视频标识信息以及视频帧卷积特征对应视频帧在对应视频中的时间点。

再者，利用待搜索图像进行搜索。

如图5所示，利用上述训练好的卷积神经网络对待搜索图像进行特征提取，得到图像卷积特征，对图像卷积特征进行哈希处理，获得待搜索图像对应的图像哈希特征值。根据图像哈希特征值在预设视频卷积特征库中进行索引，确定与图像哈希特征值相同的索引值对应的各候选视频帧卷积特征。候选视频帧卷积特征、候选视频帧卷积特征对应候选视频帧对应的视频信息（在本实施例中采用视频标识信息）以及候选视频帧在候选视频中的时间点是对应的。

如图5所示，各候选视频帧卷积特征包括在分桶1中的视频D1在时间点time1的视频帧的卷积特征、视频D1在时间点time2的视频帧的卷积特征、D1在时间点time3的视频帧的卷积特征、D1在时间点time4的视频帧的卷积特征、视频D1在时间点time5的视频帧的卷积特征、视频D2在时间点time6的视频帧的卷积特征和视频D2在时间点time7的视频帧的卷积特征，以及在分桶N中的视频D3在时间点time8的视频帧的卷积特征。其中，time1、time2、time3、time4、time5、time6、time7和time8依次增大，在本实施例中，可将预设间隔设为2秒，time1和time2的时间间隔小于2秒，time4和time5的时间间隔小于2秒，time3分别和与其时间相邻的time2和time4的间隔时间均大于2秒（time2为在time3之前的与time3时间相邻，time4为在time3之后的与time3时间相邻），time2和time3的时间间隔大于2秒，time5和time6的时间间隔小于2秒，time6和time7的时间间隔大于2秒，则time7和其余时间点的时间间隔大于2秒。

为进一步提高搜索精确性，后续还需根据预设过滤条件对各候选视频帧卷积特征进行过滤，获得各目的视频帧卷积特征。可将上述各候选视频帧卷积特征中同一视频的在时间上离散的卷积特征过滤掉，同一视频中时间点与任意一个相邻时间点（与该时间点相邻的时间点）的时间间隔大于间隔时间，则确定该时间点对应卷积特征在时间上离散。其中，针对视频D1，time3分别和与其时间相邻的time2和time4的间隔时间均大于2秒，可以确定time3分别与time1、time2、time4、time5的时间间隔都大于2秒，确定视频D1在time3对应的视频帧的卷积特征在时间上离散。另外，视频D3仅对应一个候选视频帧卷积特征，即视频D3在时间点time8的视频帧的卷积特征，在各候选视频帧卷积特征中不存在视频D3对应的其他候选视频帧卷积特征，从而也不存在时间点与在time8的时间间隔小于2秒的卷积特征，确定time8的视频帧的卷积特征在时间上是离散的。如此，可将视频D1在时间点time3的视频帧的卷积特征和视频D3在时间点time8的视频帧的卷积特征过滤掉。

然后，将各目的视频帧卷积特征与待搜索图像的图像卷积特征进行特征比对，确定目标帧卷积特征。具体在进行特征比对确定目标帧卷积特征的过程中，首先确定待搜索图像的图像卷积特征分别与各目的视频帧卷积特征之间的第一相似度，将各第一相似度中最大值对应的目的视频帧卷积特征作为目标帧卷积特征。在图5中，视频D1在时间点time2对应的视频帧卷积特征（一个目的视频帧卷积特征）与图像卷积特征的第一相似度最大，即该视频帧卷积特征为目标帧卷积特征，然后再将该目标帧卷积特征对应的目标帧所在的视频信息确定为目标视频信息（即搜索结果），并对可确定该目标帧卷积特征在该目标视频信息对应的目标视频中的时间点，可作为待搜索图像在该目标视频信息对应的目标视频中的时间点。例如，图5中搜索结果为视频D1，目标视频信息对应的目标视频中的时间点为time2。

通过上述方法，通过卷积神经网络对待搜索图像进行特征提取以及对视频的视频帧进行特征提取时，得到的图像特征具有高层级的语义信息，从而构建的预设视频卷积特征库具有高抗噪且特征数量少的优点，可提高视频搜索准确性，且召回率高。用户可直接通过剧照（对应待搜索图像）搜索想看的视频信息（目标视频信息），直接解决用户看剧而不知剧名的难题。提高了用户体验。

另一方面，通过该技术还能做视频中违规内容的检索，协助解决视频的内容审核困难问题。

如图6所示，提供一种实施例的视频搜索装置，可设置于图1的终端110或服务器120中，包括：

图像获取模块610，用于获取待搜索图像。

图像特征获取模块620，用于基于确定的卷积神经网络对待搜索图像进行特征提取，获得图像卷积特征；

候选特征确定模块630，用于根据图像卷积特征，从预设视频卷积特征库中确定对应的各候选视频帧卷积特征，预设视频卷积特征库中包括各视频的视频信息、各视频的视频信息对应的各视频帧卷积特征以及各视频帧在对应视频中的时间点；

信息确定模块640，用于确定各候选视频帧所在候选视频对应的视频信息以及各候选视频帧在对应候选视频中的时间点；

目标视频确定模块650，用于基于各候选视频帧卷积特征、各候选视频帧所在候选视频对应的视频信息、各候选视频帧在对应候选视频中的时间点以及待搜索图像的图像卷积特征，从各候选视频对应的视频信息中确定与待搜索图像对应的目标视频信息。

在一个实施例中，候选特征确定模块630，包括：

图像哈希处理模块，用于对图像卷积特征进行哈希处理，获得待搜索图像对应的图像哈希特征值；

索引模块，用于根据图像哈希特征值在预设视频卷积特征库中进行索引，确定与图像哈希特征值相同的索引值对应的各候选视频帧卷积特征，预设视频卷积特征库中还包括与各视频帧卷积特征分别对应的索引值。

在一个实施例中，目标视频确定模块，包括：

过滤模块，用于根据预设过滤条件对各候选视频帧卷积特征进行过滤，获得各目的视频帧卷积特征；

比对模块，用于将各目的视频帧卷积特征与待搜索图像的图像卷积特征进行比对，从各目的视频帧卷积特征中筛选出待搜索图像对应的目标帧卷积特征；

目标视频获取模块，用于将目标帧卷积特征对应的目标帧所在目标视频的视频信息确定为目标视频信息。

在一个实施例中，比对模块，包括：

第一相似度确定模块，用于确定待搜索图像的图像卷积特征分别与各目的视频帧卷积特征之间的第一相似度；

目标帧卷积特征确定模块，用于将各第一相似度中最大值对应的目的视频帧卷积特征作为目标帧卷积特征。

在一个实施例中，上述装置，还包括：

时间获取模块，用于获取目标帧卷积特征在目标视频中对应的时间点。

在一个实施例中，上述装置还包括：

视频特征提取模块，用于获取各视频以及各视频对应的视频信息，并基于卷积神经网络分别对各视频中的各视频帧进行特征提取，确定各视频帧卷积特征；

视频哈希处理模块，用于对各视频帧卷积特征进行哈希处理，获得各视频中的各视频帧对应的哈希特征值；

索引值确定模块，用于将哈希特征值作为对应的视频帧卷积特征的索引值；

存储模块，用于各视频帧卷积特征、各视频帧所在视频对应的视频信息、各视频帧在对应视频中的时间点以及各视频帧卷积特征对应的索引值关联存储于预设视频卷积特征库；

其中，预设视频卷积特征库中视频的视频信息与视频帧卷积特征对应。

在一个实施例中，存储模块，用于将各视频帧卷积特征、各视频帧所在视频对应的视频信息以及各视频帧在对应视频中的时间点分桶存入预设数据库中。

在一个实施例中，视频特征提取模块，包括：

采样模块，用于分别对对各视频中的各视频帧进行帧采样，确定各视频分别对应的关键帧集；

视频特征获取模块，用于基于卷积神经网络对各关键帧集中的关键帧进行特征提取，获得各关键帧卷积特征，并将各关键帧卷积特征作为各视频帧卷积特征。

在一个实施例中，存储模块，包括：

第二相似度确定模块，用于确定各视频中的各视频帧卷积特征分别与预设视频卷积特征库中已存视频帧特征之间的第二相似度；

关联存储模块，用于在视频对应的各第二相似度中大于预设相似度的数量不超过预设数量时，将各视频帧卷积特征以及对应的索引值关联存储于预设视频卷积特征库。

在一个实施例中，上述装置，还包括：

初始模块，用于初始化初始卷积神经网络；

样本图片获取模块，用于获取各样本图片；

训练模块，用于基于各样本图片对初始卷积神经网络进行训练，确定卷积神经网络。

在一个实施例中，训练模块，用于基于各样本图像，通过共享存储并行编程对卷积神经网络进行训练，确定卷积神经网络。

在一个实施例中，视频信息包括视频名称或/和视频标识信息。

上述视频搜索装置中的技术特征分别与上述视频搜索方法中的技术特征是对应的，在此不再赘述。

图7示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的终端110（或服务器120）。如图7所示，该计算机设备包括通过系统总线连接的处理器、存储器、网络接口。其中，存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现上述视频搜索方法和计算机设备及存储介质。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行视频搜索方法和计算机设备及存储介质。在计算机设备为终端110时，还包括显示屏和输入装置，计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图7中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，本申请提供的视频搜索装置可以实现为一种计算机程序的形式，计算机程序可在如图7所示的计算机设备上运行。计算机设备的存储器中可存储组成该视频搜索装置的各个程序模块，比如，图6所示的图像获取模块610、图像特征获取模块620、候选特征确定模块630、信息确定模块640和目标视频确定模块650。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的图像处理方法中的步骤。

例如，图7所示的计算机设备可以通过如图6所示的图像处理装置中的图像获取模块610，执行步骤S210，图像特征获取模块620执行步骤S220。计算机设备可通过候选特征确定模块630执行步骤S230。计算机设备可通过信息确定模块640执行步骤S240，计算机设备可通过目标视频确定模块650执行步骤S250。

本申请提供了一种实施例的计算机设备，包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述方法的步骤。其中，方法包括视频搜索方法和计算机设备及存储介质。

本申请提供一种实施例的计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述方法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种视频搜索方法，其特征在于，包括以下步骤：

获取待搜索图像；

对所述图像卷积特征进行哈希处理，获得所述待搜索图像对应的图像哈希特征值；

根据所述图像哈希特征值在预设视频卷积特征库中进行索引，确定与所述图像哈希特征值相同的索引值对应的各候选视频帧卷积特征；所述预设视频卷积特征库中包括多个视频的视频信息、每一所述视频的多个视频帧各自对应的视频帧卷积特征、各所述视频帧在对应视频中的时间点、以及各所述视频帧卷积特征分别对应的索引值；各所述视频卷积特征各自对应的索引值，是指对各所述视频帧卷积特征分别进行哈希处理，获得的所述视频卷积特征各自对应的哈希特征值；所述预设视频卷积特征库中，每一视频对应的各所述视频帧卷积特征中，相似度大于预设相似度的视频帧卷积特征的数量不超过预设数量；

确定各候选视频帧所在候选视频对应的视频信息以及各所述候选视频帧在对应候选视频中的时间点，过滤各所述候选视频帧各自对应的候选视频帧卷积特征中的孤立特征，获得剩余的目的视频帧卷积特征、以及各所述目的视频帧卷积特征各自对应的目的视频帧；所述孤立特征是指同一视频所对应的唯一的视频帧卷积特征，或者，与同一视频中相邻视频帧卷积特征对应视频帧的时间点的时间间隔大于预设间隔；

基于各所述目的视频帧卷积特征、各所述目的视频帧所在候选视频对应的视频信息以及所述待搜索图像的图像卷积特征，从各所述目的视频帧卷积特征中，确定与所述图像卷积特征的特征相似度最高的目标帧卷积特征，将各所述候选视频中所述目标帧卷积特征对应的目标视频的视频信息确定为与所述待搜索图像对应的目标视频信息。

2.根据权利要求1所述的视频搜索方法，其特征在于，所述从各所述目的视频帧卷积特征中，确定与所述图像卷积特征的特征相似度最高的目标帧卷积特征，将各所述候选视频中所述目标帧卷积特征对应的目标视频的视频信息确定为与所述待搜索图像对应的目标视频信息，包括：

确定所述待搜索图像的图像卷积特征分别与各所述目的视频帧卷积特征之间的第一相似度；

将各所述第一相似度中最大值对应的所述目的视频帧卷积特征作为目标帧卷积特征；

将所述目标帧卷积特征对应的目标帧所在目标视频的视频信息确定为目标视频信息。

3.根据权利要求2所述的视频搜索方法，其特征在于，所述将所述目标帧卷积特征对应的目标帧所在目标视频的视频信息确定为目标视频信息之后，还包括：

获取所述目标帧卷积特征在所述目标视频中对应的时间点。

4.根据权利要求1所述的视频搜索方法，其特征在于，所述根据所述图像哈希特征值在预设视频卷积特征库中进行索引，确定与所述图像哈希特征值相同的索引值对应的各候选视频帧卷积特征之前，还包括：

获取各视频以及各所述视频对应的视频信息，并基于所述卷积神经网络分别对各所述视频中的各视频帧进行特征提取，确定各视频帧卷积特征；

对各所述视频帧卷积特征进行哈希处理，获得各视频中的各视频帧对应的哈希特征值；

将所述哈希特征值作为对应的所述视频帧卷积特征的索引值；

将各所述视频帧卷积特征、各所述视频帧所在视频对应的视频信息、各所述视频帧在对应视频中的时间点以及各所述视频帧卷积特征对应的索引值关联存储于预设视频卷积特征库；

其中，所述预设视频卷积特征库中所述视频的视频信息与所述视频帧卷积特征对应。

5.根据权利要求4所述的视频搜索方法，其特征在于，所述将各所述视频帧卷积特征、各所述视频帧所在视频对应的视频信息、各所述视频帧在对应视频中的时间点以及各所述视频帧卷积特征对应的索引值关联存储于预设视频卷积特征库，包括：

基于各所述视频帧特征对应的索引值，将各所述视频帧卷积特征、各所述视频帧所在视频对应的视频信息以及各所述视频帧在对应视频中的时间点分桶存入预设数据库中。

6.根据权利要求4所述的视频搜索方法，其特征在于，所述基于所述卷积神经网络分别对各所述视频中的各视频帧进行特征提取，确定各视频帧卷积特征，包括：

分别对各所述视频中的各视频帧进行帧采样，确定各所述视频分别对应的关键帧集；

基于所述卷积神经网络对各所述关键帧集中的关键帧进行特征提取，获得各关键帧卷积特征，并将各所述关键帧卷积特征作为各所述视频帧卷积特征。

7.根据权利要求4至6中任意一项所述的视频搜索方法，其特征在于，所述将各所述视频帧卷积特征、各所述视频帧所在视频对应的视频信息、各所述视频帧在对应视频中的时间点以及各所述视频帧卷积特征对应的索引值关联存储于预设视频卷积特征库，包括：

确定各所述视频中的各视频帧卷积特征分别与所述预设视频卷积特征库中已存视频帧特征之间的第二相似度；

在所述视频对应的各所述第二相似度中大于预设相似度的数量不超过预设数量时，将各所述视频帧卷积特征以及对应的所述索引值关联存储于所述预设视频卷积特征库；

针对每一所述视频帧卷积特征，将所述视频帧卷积特征对应的视频帧所在视频的视频信息、所述视频帧卷积特征对应的视频帧在对应视频中的时间点分别与所述视频帧卷积特征关联存储于所述预设视频卷积特征库。

8.根据权利要求1所述的视频搜索方法，其特征在于，所述基于确定的卷积神经网络对所述待搜索图像进行特征提取之前，还包括：

初始化初始卷积神经网络；

获取各样本图片；

基于各所述样本图片对所述初始卷积神经网络进行训练，确定卷积神经网络。

9.根据权利要求8所述的视频搜索方法，其特征在于，所述初始卷积神经网络中卷积层包括深度卷积层和逐点卷积层。

10.根据权利要求8或9所述的视频搜索方法，其特征在于，所述基于各所述样本图片对所述初始卷积神经网络进行训练，确定卷积神经网络，包括：

基于各所述样本图片，通过共享存储并行编程对所述初始卷积神经网络进行训练，确定卷积神经网络。

11.一种视频搜索装置，其特征在于，包括：

图像获取模块，用于获取待搜索图像；

图像特征获取模块，用于基于确定的卷积神经网络对所述待搜索图像进行特征提取，获得图像卷积特征；

图像哈希处理模块，用于对所述图像卷积特征进行哈希处理，获得所述待搜索图像对应的图像哈希特征值；

索引模块，用于根据所述图像哈希特征值在预设视频卷积特征库中进行索引，确定与所述图像哈希特征值相同的索引值对应的各候选视频帧卷积特征；所述预设视频卷积特征库中包括多个视频的视频信息、每一所述视频的多个视频帧各自对应的视频帧卷积特征、各所述视频帧在对应视频中的时间点、以及各所述视频帧卷积特征分别对应的索引值；各所述视频卷积特征各自对应的索引值，是指对各所述视频帧卷积特征分别进行哈希处理，获得的所述视频卷积特征各自对应的哈希特征值；所述预设视频卷积特征库中，每一视频对应的各所述视频帧卷积特征中，相似度大于预设相似度的视频帧卷积特征的数量不超过预设数量；

信息确定模块，用于确定各候选视频帧所在候选视频对应的视频信息以及各所述候选视频帧在对应候选视频中的时间点，过滤各所述候选视频帧各自对应的候选视频帧卷积特征中的孤立特征，获得剩余的目的视频帧卷积特征、以及各所述目的视频帧卷积特征各自对应的目的视频帧；所述孤立特征是指同一视频所对应的唯一的视频帧卷积特征，或者，与同一视频中相邻视频帧卷积特征对应视频帧的时间点的时间间隔大于预设间隔；

目标视频确定模块，用于基于各所述目的视频帧卷积特征、各所述目的视频帧所在候选视频对应的视频信息以及所述待搜索图像的图像卷积特征，从各所述目的视频帧卷积特征中，确定与所述图像卷积特征的特征相似度最高的目标帧卷积特征，将各所述候选视频中所述目标帧卷积特征对应的目标视频的视频信息确定为与所述待搜索图像对应的目标视频信息。

12.根据权利要求11所述的视频搜索装置，其特征在于，所述目标视频确定模块包括：

第一相似度确定模块，用于确定所述待搜索图像的图像卷积特征分别与各所述目的视频帧卷积特征之间的第一相似度；

目标帧卷积特征确定模块，用于将各所述第一相似度中最大值对应的所述目的视频帧卷积特征作为目标帧卷积特征；

目标视频获取模块，用于将所述目标帧卷积特征对应的目标帧所在目标视频的视频信息确定为目标视频信息。

13.根据权利要求12所述的视频搜索装置，其特征在于，所述装置还包括：

时间获取模块，用于获取所述目标帧卷积特征在所述目标视频中对应的时间点。

14.根据权利要求11所述的视频搜索装置，其特征在于，所述装置还包括：

视频特征提取模块，用于获取各视频以及各所述视频对应的视频信息，并基于所述卷积神经网络分别对各所述视频中的各视频帧进行特征提取，确定各视频帧卷积特征；

视频哈希处理模块，用于对各所述视频帧卷积特征进行哈希处理，获得各视频中的各视频帧对应的哈希特征值；

索引值确定模块，用于将所述哈希特征值作为对应的所述视频帧卷积特征的索引值；

存储模块，用于将各所述视频帧卷积特征、各所述视频帧所在视频对应的视频信息、各所述视频帧在对应视频中的时间点以及各所述视频帧卷积特征对应的索引值关联存储于预设视频卷积特征库；

15.根据权利要求14所述的视频搜索装置，其特征在于，所述存储模块具体用于：

16.根据权利要求14所述的视频搜索装置，其特征在于，所述视频特征提取模块包括：

采样模块，用于分别对各所述视频中的各视频帧进行帧采样，确定各所述视频分别对应的关键帧集；

视频特征获取模块，用于基于所述卷积神经网络对各所述关键帧集中的关键帧进行特征提取，获得各关键帧卷积特征，并将各所述关键帧卷积特征作为各所述视频帧卷积特征。

17.根据权利要求14至16中任意一项所述的视频搜索装置，其特征在于，所述存储模块包括：

第二相似度确定模块，用于确定各所述视频中的各视频帧卷积特征分别与所述预设视频卷积特征库中已存视频帧特征之间的第二相似度；

关联存储模块，用于在所述视频对应的各所述第二相似度中大于预设相似度的数量不超过预设数量时，将各所述视频帧卷积特征以及对应的所述索引值关联存储于所述预设视频卷积特征库；还用于针对每一所述视频帧卷积特征，将所述视频帧卷积特征对应的视频帧所在视频的视频信息、所述视频帧卷积特征对应的视频帧在对应视频中的时间点分别与所述视频帧卷积特征关联存储于所述预设视频卷积特征库。

18.根据权利要求11所述的视频搜索装置，其特征在于，所述装置还包括：

初始模块，用于初始化初始卷积神经网络；

样本图片获取模块，用于获取各样本图片；

训练模块，用于基于各所述样本图片对所述初始卷积神经网络进行训练，确定卷积神经网络。

19.根据权利要求18所述的视频搜索装置，其特征在于，所述初始卷积神经网络中卷积层包括深度卷积层和逐点卷积层。

20.根据权利要求18或19所述的视频搜索装置，其特征在于，所述训练模块具体用于：

21.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至10中任意一项所述的方法的步骤。

22.一种计算机存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10中任意一项所述方法的步骤。