CN110019895B

CN110019895B - 一种图像检索方法、装置及电子设备

Info

Publication number: CN110019895B
Application number: CN201710622600.5A
Authority: CN
Inventors: 陆磊; 郭阶添
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2017-07-27
Filing date: 2017-07-27
Publication date: 2021-05-14
Anticipated expiration: 2037-07-27
Also published as: CN110019895A

Abstract

本发明实施例提供了一种图像检索方法、装置及电子设备，应用于图像检索技术领域，所述方法包括：在样本视频片段中提取待检索目标对应的多张视频帧图片；根据所述待检索目标在每一张视频帧图片中的位置，提取所述每一张视频帧图片中所述待检索目标的目标特征，并对提取到的多个目标特征进行特征融合，得到目标融合特征；计算检索图片数据库中各被检索图片中目标的目标特征与所述目标融合特征的第一特征相似度，将所述第一特征相似度大于预设阈值的被检索图片作为检索结果。本发明实施例通过对待检索目标的多个目标特征进行融合，有效利用待检索目标的多种结构化信息，提高了检索结果的准确性。

Description

一种图像检索方法、装置及电子设备

技术领域

本发明涉及图像检索技术领域，特别是涉及一种图像检索方法、装置及电子设备。

背景技术

随着信息技术的发展，图像检索的应用越来越广，而衡量图像检索的重要指标为图像检索的准确度。

目前的图像检索技术大多是通过提供包含待检索目标的样本图片给检索系统，由检索系统提取样本图片中待检索目标的特征，然后与图片数据库中的目标的特征进行比对查询，将相似度最高的图片作为目标图片。

但是，由于光照、背景等原因，使得样本图片具有不稳定性，导致提取的待检索目标的特征准确性较低，因此，检索到的目标图片的准确性也比较低。

发明内容

本发明实施例的目的在于提供一种图像检索方法、装置及电子设备，以提高图像检索的准确性。具体技术方案如下：

本发明实施例公开了一种图像检索方法，包括：

在样本视频片段中提取待检索目标对应的多张视频帧图片；

根据所述待检索目标在每一张视频帧图片中的位置，提取所述每一张视频帧图片中所述待检索目标的目标特征，并对提取到的多个目标特征进行特征融合，得到目标融合特征；

计算检索图片数据库中各被检索图片中目标的目标特征与所述目标融合特征的第一特征相似度，将所述第一特征相似度大于预设阈值的被检索图片作为检索结果。

可选的，所述在样本视频片段中提取待检索目标对应的多张视频帧图片，包括：

检测所述样本视频片段中的样本目标；

显示所述样本目标；

接收用户发送的对待检索目标进行检索的检索指令，其中，所述待检索目标为所述样本目标中的一个或多个；

在所述样本视频片段中提取所述待检索目标对应的多张视频帧图片。

提取用户发送的图片中待检索目标的第一目标特征；

检测所述样本视频片段中的样本目标，提取所述样本目标在所述样本视频片段对应的帧序列中的多个第二目标特征；

分别计算所述第一目标特征和提取的多个第二目标特征的第二特征相似度，将所述待检索目标更新为所述第二特征相似度中最大值对应的样本目标；

可选的，在所述根据所述待检索目标在每一张视频帧图片中的位置，提取所述每一张视频帧图片中所述待检索目标的目标特征之前，所述方法还包括：

向用户发送所述多张视频帧图片；

在接收到所述用户对所述多张视频帧图片进行纠正的操作指令时，对所述多张视频帧图片进行纠正，得到纠正后的视频帧图片；

所述提取所述每一张视频帧图片中所述待检索目标的目标特征，包括：

提取纠正后的视频帧图片中所述待检索目标的目标特征。

通过快速区域卷积神经网络FRCNN检测所述待检索目标在每一张视频帧图片中的位置。

可选的，所述提取所述每一张视频帧图片中所述待检索目标的目标特征，并对提取到的多个目标特征进行特征融合，得到目标融合特征，包括：

通过卷积神经网络前向传播算法提取所述每一张视频帧图片中所述待检索目标的目标特征f_{i_d}；

根据公式：F_d＝max(f_{1_d},f_{2_d}…f_{i_d}…f_{n_d})，对所述目标特征f_{i_d}进行最大池化，得到目标融合特征F_d；或，

根据公式：F_d＝mean(f_{1_d},f_{2_d}…f_{i_d}…f_{n_d})，对所述目标特征f_{i_d}进行平均池化，得到目标融合特征F_d；

其中，n表示所述多张视频帧图片的数量，f_{i_d}表示第i张视频帧图片的第d维特征。

可选的，所述计算检索图片数据库中各被检索图片中目标的目标特征与所述目标融合特征的第一特征相似度，包括：

计算检索图片数据库中各被检索图片中每一个目标的目标特征与所述目标融合特征的余弦值，将所述余弦值作为第一特征相似度；或，

计算检索图片数据库中各被检索图片中每一个目标的目标特征与所述目标融合特征的欧式距离，将整数1与所述欧式距离的差值作为第一特征相似度。

本发明实施例还公开了一种图像检索装置，包括：

图片提取模块，用于在样本视频片段中提取待检索目标对应的多张视频帧图片；

特征融合模块，用于根据所述待检索目标在每一张视频帧图片中的位置，提取所述每一张视频帧图片中所述待检索目标的目标特征，并对提取到的多个目标特征进行特征融合，得到目标融合特征；

检索结果获取模块，用于计算检索图片数据库中各被检索图片中目标的目标特征与所述目标融合特征的第一特征相似度，将所述第一特征相似度大于预设阈值的被检索图片作为检索结果。

可选的，所述图片提取模块，具体用于检测所述样本视频片段中的样本目标，显示所述样本目标，接收用户发送的对待检索目标进行检索的检索指令，在所述样本视频片段中提取所述待检索目标对应的多张视频帧图片，其中，所述待检索目标为所述样本目标中的一个或多个。

可选的，所述图片提取模块，具体用于提取用户发送的图片中待检索目标的第一目标特征，检测所述样本视频片段中的样本目标，提取所述样本目标在所述样本视频片段对应的帧序列中的多个第二目标特征，分别计算所述第一目标特征和提取的多个第二目标特征的第二特征相似度，将所述待检索目标更新为所述第二特征相似度中最大值对应的样本目标，在所述样本视频片段中提取所述待检索目标对应的多张视频帧图片。

可选的，本发明实施例的图像检索装置，还包括：

图片发送模块，用于向用户发送所述多张视频帧图片；

图片纠正模块，用于在接收到所述用户对所述多张视频帧图片进行纠正的操作指令时，对所述多张视频帧图片进行纠正，得到纠正后的视频帧图片；

所述特征融合模块进一步用于，提取纠正后的视频帧图片中所述待检索目标的目标特征。

可选的，本发明实施例的图像检索装置，还包括：

目标位置检测模块，用于通过快速区域卷积神经网络FRCNN检测所述待检索目标在每一张视频帧图片中的位置。

可选的，所述特征融合模块，具体用于通过卷积神经网络前向传播算法提取所述每一张视频帧图片中所述待检索目标的目标特征f_{i_d}，根据公式：F_d＝max(f_{1_d},f_{2_d}…f_{i_d}…f_{n_d})，对所述目标特征f_{i_d}进行最大池化，得到目标融合特征F_d；或，根据公式：F_d＝mean(f_{1_d},f_{2_d}…f_{i_d}…f_{n_d})，对所述目标特征f_{i_d}进行平均池化，得到目标融合特征F_d；其中，n表示所述多张视频帧图片的数量，f_{i_d}表示第i张视频帧图片的第d维特征。

可选的，所述检索结果获取模块，具体用于计算检索图片数据库中各被检索图片中每一个目标的目标特征与所述目标融合特征的余弦值，将所述余弦值作为第一特征相似度；或计算检索图片数据库中各被检索图片中每一个目标的目标特征与所述目标融合特征的欧式距离，将整数1与所述欧式距离的差值作为第一特征相似度。

本发明实施例还公开了一种电子设备，包括：处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现上述任一所述的图像检索方法的步骤。

本发明实施例还公开了一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时，实现上述任一所述的图像检索方法的步骤。

本发明实施例提供的图像检索方法、装置及电子设备，通过在样本视频片段中提取待检索目标对应的多张视频帧图片，根据待检索目标在每一张视频帧图片中的位置，提取每一张视频帧图片中待检索目标的目标特征，并对提取到的多个目标特征进行特征融合，得到目标融合特征。计算检索图片数据库中各被检索图片中目标的目标特征与目标融合特征的第一特征相似度，将第一特征相似度大于预设阈值的被检索图片作为检索结果。由于从样本视频片段中提取的多张视频帧图片具有一定的连续性，多张视频帧图片中待检索目标的目标特征能够更加准确地表征待检索目标的目标特征，本发明实施例通过特征融合得到更加准确的待检索目标的目标融合特征，将该目标融合特征与检索图片数据库中各被检索图片中目标的目标特征进行比较，可以得到更加准确的检索结果。当然，实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的图像检索方法的一种流程图；

图2为本发明实施例的图像检索方法的另一种流程图；

图3为本发明实施例的图像检索方法的另一种流程图；

图4为本发明实施例的图像检索方法的另一种流程图；

图5为本发明实施例的图像检索装置的一种结构图；

图6为本发明实施例的电子设备的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了解决现有技术中图像检索准确性低的问题，本发明实施例提供了一种图像检索方法、装置及电子设备，以提高图像检索的准确性。下面首先对本发明实施例所提供的图像检索方法进行介绍。

参见图1，图1为本发明实施例的图像检索方法的一种流程图，包括以下步骤：

S101，在样本视频片段中提取待检索目标对应的多张视频帧图片。

具体的，在进行图像检索时，需要确定检索的样本，传统的图像检索方法中，检索样本为单张的样本图片，但由于光照、背景等原因，使得样本图片具有不稳定性，从而可能对图像检索的结果产生影响。

在本发明实施例中，采用样本视频片段作为检索样本。样本视频片段由一帧一帧的图片构成，该样本视频片段中的某一帧图片中，可能包含待检索目标，也可能不包含待检索目标，但该样本视频片段中，至少有两帧图片包含待检索目标。由于本发明实施例中提取的是待检索目标的目标特征，那么，需要首先提取出样本视频片段中包含待检索目标的图片，得到样本视频片段中待检索目标对应的多张视频帧图片。待检索目标在不同的图片中，由于位置、姿态、背景等多种因素的影响，可能表征出待检索目标的不同特征。由于样本视频片段中至少有两张视频帧图片包含待检索目标，那么从至少两张视频帧图片中将可以获取到待检索目标的更多特征。

这样，通过将样本视频片段作为图像检索的输入，可以得到待检索目标对应的多张视频帧图片。与将单张图片作为图像检索的输入相比，本发明实施例中连续的样本视频片段有利于提取准确的待检测目标的目标特征。其中，待检索目标可以包括：人物、车辆等，并且本发明实施例中的待检索目标可以为一个，也可以为多个，当待检索目标为多个时，不同的待检索目标之间的检索是独立的，且检索的方法相同，本发明实施例以一个待检索目标为例进行说明。

S102，根据待检索目标在每一张视频帧图片中的位置，提取每一张视频帧图片中待检索目标的目标特征，并对提取到的多个目标特征进行特征融合，得到目标融合特征。

需要说明的是，S101中得到的多张视频帧图片中的每一张视频帧图片可以都包含待检索目标，并且待检索目标在每一张视频帧图片中的位置是不同的。因此，在提取待检索目标的目标特征时，首先确定待检索目标在每一张视频帧图片中的位置，然后提取待检索目标所在位置附近预设区域的图像特征，将其作为待检索目标的目标特征。其中，目标特征可以包括：颜色特征、纹理特征、形状特征和空间关系特征等，预设区域可以是包含待检索目标的矩形区域等。在提取到每张视频帧图片中的目标特征后，对多个目标特征进行特征融合，得到目标融合特征。特征融合的具体方法可以采用相关技术中的任一种特征融合方法。对多个目标特征进行特征融合，可以更有效地利用待检索目标的多种结构化信息。与提取一张图片中目标的目标特征相比，本发明实施例得到的目标融合特征更准确，通过该目标融合特征进行检索，使检索结果更准确。

S103，计算检索图片数据库中各被检索图片中目标的目标特征与目标融合特征的第一特征相似度，将第一特征相似度大于预设阈值的被检索图片作为检索结果。

本发明实施例中，被检索图片可以为检索图片数据库中的图片，用户可以在检索图片数据库中检索需要的图片。为了提取被检索图片中目标与待检索目标相似度较高的图片，通过计算被检索图片中目标的目标特征与目标融合特征的第一特征相似度，第一特征相似度越大，表明被检索图片中目标的目标特征与目标融合特征越接近，那么，被检索图片中目标与待检索目标越相似。因此，将第一特征相似度大于预设阈值的被检索图片作为检索结果。其中，预设阈值为根据实际应用设定的数值，并且第一特征相似度的计算方法不同，预设阈值的大小也会不同，因此，本发明实施例不对预设阈值的大小做具体限定。

本发明实施例的图像检索方法，通过在样本视频片段中提取待检索目标对应的多张视频帧图片，提取每一张视频帧图片中待检索目标的目标特征，并对提取到的多个目标特征进行特征融合，得到目标融合特征。计算检索图片数据库中各被检索图片中目标的目标特征与目标融合特征的第一特征相似度，将第一特征相似度大于预设阈值的被检索图片作为检索结果。由于从样本视频片段中提取了多张视频帧图片，多张视频帧图片中待检索目标的目标特征能够更加准确地表征待检索目标的目标特征，本发明实施例将得到的更加准确的目标融合特征与被检索图片中目标的目标特征进行比较，从而得到更加准确的检索结果。

在图1所示实施例中，步骤S101，从样本视频片段中提取待检索目标对应的多张视频帧图片的方法至少包括两种，下面分别对这两种方法进行详细说明。在S101的一种实现方式中，参见图2，图2为本发明实施例的图像检索方法的另一种流程图，包括以下步骤：

S201，检测样本视频片段中的样本目标。

需要说明的是，样本视频片段为用户选择的包含待检索目标的视频片段，那么，样本视频片段中可能包含很多个样本目标，待检索目标可以为样本目标中的一个或多个。因此，本发明实施例中，为了得到待检索目标，首先需要检测样本视频片段中的样本目标。

S202，显示样本目标。

具体的，在检测到样本视频片段中的样本目标之后，可以显示样本目标给用户，这样，用户可以在显示的样本目标中选择待检索目标。

S203，接收用户发送的对待检索目标进行检索的检索指令，其中，待检索目标为样本目标中的一个或多个。

本发明实施例中，在用户查看显示的样本目标之后，用户可以在显示的样本目标中选择待检索目标。在确定待检索目标之后，用户发送对待检索目标进行检索的检索指令给检索系统，相应地，检索系统接收用户发送的对待检索目标进行检索的检索指令。

S204，在样本视频片段中提取待检索目标对应的多张视频帧图片。

具体的，检索系统在接收到用户发送的对待检索目标进行检索的检索指令后，在样本视频片段中提取待检索目标对应的多张视频帧图片。本发明实施例根据输入的样本视频片段，可以提取待检索目标对应的多张视频帧图片，并且，连续的样本视频片段有利于检测样本视频片段中的样本目标，得到更加准确的待检索目标在图片中的位置，然后，根据该位置提取待检索目标的目标特征。

举例而言，样本视频片段为目标关于行人的视频，该样本视频片段中包含多个行人，待检索目标为其中的一个行人。

首先检测样本视频片段对应的帧序列的每一帧，如果检测到某一帧中包含行人，那么，保存检测到的行人对应的图像。在对样本视频片段的每一帧都检测完毕之后，得到样本视频片段中每个行人分别对应的图像集合。在每个行人对应的图像集合中，选择一张图像作为每个行人对应的显示图像，并将其显示给用户。一般的，每个行人对应的显示图像是图像集合中包含最多特征的图像。

如果该样本视频片段中检测到的行人包括：行人A、行人B和行人C，那么，将行人A、行人B和行人C分别对应的显示图像显示给用户。

在行人A、行人B和行人C显示给用户之后，用户可以根据需求选择待检索目标。如果用户选择的待检索目标为行人B，用户发送对行人B进行检索的检索指令，根据该检索指令提取样本视频片段中行人B的所有图片，得到行人B对应的多张视频帧图片。

在S101的另一种实现方式中，参见图3，图3为本发明实施例的图像检索方法的另一种流程图，包括以下步骤：

S301，提取用户发送的图片中待检索目标的第一目标特征。

本发明实施例中，待检索目标还可以是用户提供的样本图片中的目标，根据该样本图片中的目标，可以得到样本视频片段中的目标。一般的，样本图片包含待检索目标的目标特征，但是，样本图片中待检索目标的目标特征可能仅仅是部分特征，那么，可以根据待检索目标的部分特征，提取样本视频片段中待检索目标的更多的特征，进而根据更多的特征对待检索目标进行检索。具体的，接收用户发送的包含待检索目标的图片，该图片即为样本图片，提取该样本图片中待检索目标的第一目标特征。

S302，检测样本视频片段中的样本目标，提取样本目标在样本视频片段对应的帧序列中的多个第二目标特征。

具体的，样本视频片段为用户选择的包含待检索目标的视频片段，样本视频片段中可能包含很多个样本目标。对于各样本目标，可以确定各样本目标在样本视频片段中对应的帧序列，也就是可以得到各样本目标对应的图像集合。分别计算图像集合中各样本目标的目标特征，并对得到的各样本目标的目标特征进行融合，得到各样本目标的第二目标特征，通常样本目标为多个，即可以得到多个第二目标特征。

S303，分别计算第一目标特征和提取的多个第二目标特征的第二特征相似度，将待检索目标更新为第二特征相似度中最大值对应的样本目标。

本发明实施例中，分别计算待检索目标的第一目标特征与多个第二目标特征的第二特征相似度，第二特征相似度越大，表明待检索目标的目标特征与样本目标的目标特征越接近，因此，可以将第二特征相似度中最大值对应的样本目标作为最终的待检索目标，即将待检索目标更新为第二特征相似度中最大值对应的样本目标。

S304，在样本视频片段中提取待检索目标对应的多张视频帧图片。

具体的，更新后的待检索目标与用户发送的图片中的待检索目标相比，包含更多的目标特征，那么，可以在样本视频片段中提取更新后的待检索目标对应的多张视频帧图片。这样，提取到的多张视频帧图片将更加准确，从而可以提高图像检索的准确性。

举例而言，样本视频片段为样本目标关于行人的视频，该样本视频片段中包含待检索目标。样本图片为用户提供的待检索目标行人D的图片，但是该样本图片中仅仅包含行人D的头像。

首先提取样本图片中包含的行人D的头像中的特征信息。可选的，根据样本图片中行人D的头像，提取行人D的人脸VGG(Visual Geometry Group)特征，其中，VGG通过对表情数据库进行深度学习建立的模型为VGG模型，根据VGG模型提取的特征为VGG特征。

然后检测样本视频片段对应的帧序列的每一帧，如果检测到某一帧中包含行人，那么，保存检测到的行人对应的图像。在对样本视频片段的每一帧都检测完毕之后，得到样本视频片段中每个行人分别对应的图像集合。再提取每个行人对应的图像集合中各图像中的人脸VGG特征，将每个图像集合中各图像中的人脸VGG特征进行融合，得到代表每个图像集合的人脸VGG特征，即得到每个行人的第二目标特征。

将行人D的人脸VGG特征与样本视频片段中每个行人的人脸VGG特征进行比较，即计算行人D的人脸VGG特征与样本视频片段中每个行人的人脸VGG特征的第二特征相似度，将第二特征相似度中最大值对应的样本视频片段中的行人确定为行人D。显然，更新后的行人D除了包含人脸VGG特征外，还可以包含肢体特征等。这样，在根据行人D的特征进行图像检索时，可以提高图像检索的准确性。

最后提取样本视频片段中行人D对应的图片，得到行人D对应的多张视频帧图片。

需要说明的是，图2和图3所示方法所实现的效果相同，都是从样本视频片段中得到待检索目标对应的多张视频帧图片，只是实际应用场景不同。在图2所示方法中，用户仅需为检索系统提供样本视频片段，并在检索系统所提供的多个样本目标中选择待检索目标即可。在图3所示方法中，用户需要同时为检索系统提供样本视频片段和包含待检索目标的样本图片。检索系统也可以根据用户输入信息的不同，采用不同的方法进行处理。

参见图4，图4为本发明实施例的图像检索方法的另一种流程图，包括以下步骤：

S401，在样本视频片段中提取待检索目标对应的多张视频帧图片。

S402，向用户发送多张视频帧图片，在接收到用户对多张视频帧图片进行纠正的操作指令时，对多张视频帧图片进行纠正，得到纠正后的视频帧图片。

本发明实施例中，提取的多张视频帧图片中可能每一张视频帧图片都包含待检索目标，此时，得到的多张视频帧图片是正确的。但是，也可能由于与待检索目标特征的相似性，提取的多张视频帧图片中部分图片不包含待检索目标，此时，得到的多张视频帧图片是错误的，那么，需要用户对多张视频帧图片进行纠正。也就是说，向用户发送检索到的多张视频帧图片之后，用户可以删除多张视频帧图片中不包含待检索目标的图片。在接收到用户对多张视频帧图片进行纠正的操作指令时，对多张视频帧图片进行纠正，得到纠正后的视频帧图片，这样，纠正后的视频帧图片中的每一张视频帧图片都包含待检索目标。

S403，通过快速区域卷积神经网络FRCNN检测待检索目标在每一张视频帧图片中的位置。

需要解释的是，RCNN(Region convolutional neural network，区域卷积神经网络)算法的具体过程为：对每个区域通过CNN(Convolutional neural network，卷积神经网络)提取特征，然后通过分类器预测每个区域包含的对象的置信度。但是，由于在对所有region进行特征提取时会有重复计算，RCNN仍会有严重的速度瓶颈，而FRCNN(Fasterregion convolutional neural network，快速区域卷积神经网络)正是为了解决该问题诞生的，FRCNN仍采用流行的物体检测策略，以求达到更好的精度。本发明实施例中，通过FRCNN建立相应的网络模型，该网络模型包括：图片和该图片中的目标在该图片中的位置的对应关系。那么，通过将纠正后的每一张视频帧图片输入该网络模型，即可得到待检索目标在每一张视频帧图片中的位置。

S404，根据待检索目标在每一张视频帧图片中的位置，通过卷积神经网络前向传播算法提取每一张视频帧图片中待检索目标的目标特征。

本发明实施例中，通过已知特征提取模型或者预先建立的特征提取模型，提取纠正后的每一张视频帧图片中待检索目标的目标特征，其中，目标特征可以包括：VGG特征、HOG(Histogram of Oriented Gradient，方向梯度直方图)特征和LBP(Local BinaryPattern，局部二值模式)特征等。

S405，对目标特征进行最大池化，得到目标融合特征；或，对目标特征进行平均池化，得到目标融合特征。

需要说明的是，在通过卷积神经网络前向传播算法得到待检索目标的目标特征之后，需要对提取到的目标特征进行分类，由于提取到的目标特征包括很高维数，通过很高输入维数的分类器对目标特征进行分类会增加分类器的设计负担，因此，需要对目标特征进行池化，池化是在目标特征的基础上，对每个目标特征进行计算等，继续缩小隐藏节点对于目标特征的维数，从而减小分类器的设计负担。

具体的，池化的方法包括：最大池化和平均池化。最大池化，即对邻域内特征取最大值；平均池化，即对邻域内特征求平均。特征提取的误差主要来自两个方面：(1)邻域大小受限造成的估计值方差增大；(2)卷积层参数误差造成估计均值的偏移。最大池化能减小第二种误差，更多的保留纹理信息。平均池化能减小第一种误差，更多的保留图像的背景信息。

根据公式：F_d＝max(f_{1_d},f_{2_d}…f_{i_d}…f_{n_d})，对目标特征f_{i_d}进行最大池化，得到目标融合特征F_d。或，

根据公式：F_d＝mean(f_{1_d},f_{2_d}…f_{i_d}…f_{n_d})，对目标特征f_{i_d}进行平均池化，得到目标融合特征F_d。

其中，n表示多张视频帧图片的数量，f_{i_d}表示第i张视频帧图片的第d维特征。

本发明实施例中，对目标特征进行融合的方法可以是最大池化，也可以是平均池化，当然，其他相关技术中对目标特征进行融合的方法也属于本发明实施例的保护范围。

S406，计算检索图片数据库中各被检索图片中每一个目标的目标特征与目标融合特征的余弦值，将余弦值作为第一特征相似度；或，计算检索图片数据库中各被检索图片中每一个目标的目标特征与目标融合特征的欧式距离，将整数1与欧式距离的差值作为第一特征相似度。

需要说明的是，由于目标融合特征是一个多维向量，两个多维向量之间的接近程度可以通过计算两个向量之间的余弦值判断，也可以通过计算两个向量之间的欧式距离判断。两个向量之间的余弦值指的是，两个向量形成的夹角的余弦值；欧式距离指在多维空间中两个点之间的真实距离，或者向量的自然长度。本发明实施例中，欧式距离指的是，两个向量之间的向量差的长度。在通过余弦值进行判断时，余弦值与整数1越接近，表明两个向量越接近，因此，第一特征相似度即为余弦值。而在通过欧式距离进行判断时，欧式距离越小，表明两个向量越接近，第一特征相似度可以为整数1与欧氏距离的差值。因此，在通过余弦值计算第一特征相似度或者通过欧式距离计算第一特征相似度时，第一特征相似度越大，表明被检索图片中目标的目标特征与目标融合特征越接近。

S407，将第一特征相似度大于预设阈值的被检索图片作为检索结果。

需要说明的是，由于图4实施例中的S401与图1实施例中的S101相同，S407与图1实施例中S103的部分步骤相同，因此，S101的所有实现方式均适用于S401，S103中确定检索结果的所有实现方式均适用于S407，且均能达到相同或相似的有益效果，在此不再赘述。

本发明实施例的图像检索方法，通过在样本视频片段中提取待检索目标对应的多张视频帧图片，将多张视频帧图片发送给用户，并接收用户对多张视频帧图片进行纠正的操作指令，对多张视频帧图片进行纠正，得到纠正后的视频帧图片。提取纠正后的每一张视频帧图片中待检索目标的目标特征，并对提取到的多个目标特征进行特征融合，得到目标融合特征。计算检索图片数据库中各被检索图片中目标的目标特征与目标融合特征的第一特征相似度，将第一特征相似度大于预设阈值的被检索图片作为检索结果。由于从样本视频片段中提取的多张视频帧图片具有一定的连续性，并且多张视频帧图片中待检索目标的目标特征能够更加准确地表征待检索目标的目标特征，本发明实施例将得到的更加准确的目标融合特征与被检索图片中目标的目标特征进行比较，从而得到更加准确的检索结果。

相应于上述方法实施例，本发明实施例还公开了一种图像检索装置，参见图5，图5为本发明实施例的图像检索装置的一种结构图，包括：

图片提取模块501，用于在样本视频片段中提取待检索目标对应的多张视频帧图片。

特征融合模块502，用于根据待检索目标在每一张视频帧图片中的位置，提取每一张视频帧图片中待检索目标的目标特征，并对提取到的多个目标特征进行特征融合，得到目标融合特征。

检索结果获取模块503，用于计算检索图片数据库中各被检索图片中目标的目标特征与目标融合特征的第一特征相似度，将第一特征相似度大于预设阈值的被检索图片作为检索结果。

本发明实施例的图像检索装置，通过在样本视频片段中提取待检索目标对应的多张视频帧图片，提取每一张视频帧图片中待检索目标的目标特征，并对提取到的多个目标特征进行特征融合，得到目标融合特征。计算检索图片数据库中各被检索图片中目标的目标特征与目标融合特征的第一特征相似度，将第一特征相似度大于预设阈值的图片作为检索结果。本发明实施例将得到的更加准确的目标融合特征与被检索图片中目标的目标特征进行比较，从而得到更加准确的检索结果。

需要说明的是，本发明实施例的装置是应用上述图像检索方法的装置，则上述图像检索方法的所有实施例均适用于该装置，且均能达到相同或相似的有益效果。

可选的，图片提取模块501，具体用于检测样本视频片段中的样本目标，显示样本，接收用户发送的对待检索目标进行检索的检索指令，在样本视频片段中提取待检索目标对应的多张视频帧图片，其中，待检索目标为样本目标中的一个或多个。

可选的，图片提取模块501，具体用于提取用户发送的待检索目标的第一目标特征，检测样本视频片段中的样本目标，提取样本目标在样本视频片段对应的帧序列中的多个第二目标特征，分别计算第一目标特征和提取的多个第二目标特征的第二特征相似度，将待检索目标更新为第二特征相似度中最大值对应的样本目标，在样本视频片段中提取待检索目标对应的多张视频帧图片。

可选的，本发明实施例的图像检索装置，还包括：

图片发送模块，用于向用户发送多张视频帧图片。

图片纠正模块，用于在接收到用户对多张视频帧图片进行纠正的操作指令时，对多张视频帧图片进行纠正，得到纠正后的视频帧图片。

特征融合模块502进一步用于，提取纠正后的视频帧图片中待检索目标的目标特征。

可选的，本发明实施例的图像检索装置，还包括：

目标位置检测模块，用于通过快速区域卷积神经网络FRCNN检测待检索目标在每一张视频帧图片中的位置。

可选的，特征融合模块502，具体用于通过卷积神经网络前向传播算法提取每一张视频帧图片中待检索目标的目标特征f_{i_d}，根据公式：F_d＝max(f_{1_d},f_{2_d}…f_{i_d}…f_{n_d})，对目标特征f_{i_d}进行最大池化，得到目标融合特征F_d。或，根据公式：F_d＝mean(f_{1_d},f_{2_d}…f_{i_d}…f_{n_d})，对目标特征f_{i_d}进行平均池化，得到目标融合特征F_d。其中，n表示多张视频帧图片的数量，f_{i_d}表示第i张视频帧图片的第d维特征。

可选的，检索结果获取模块503，具体用于计算检索图片数据库中各被检索图片中每一个目标的目标特征与目标融合特征的余弦值，将余弦值作为第一特征相似度。或，计算检索图片数据库中各被检索图片中每一个目标的目标特征与目标融合特征的欧式距离，将整数1与欧式距离的差值作为第一特征相似度。

本发明实施例还提供了一种电子设备，参见图6，图6为本发明实施例的电子设备的结构图，包括：处理器601、通信接口602、存储器603和通信总线604，其中，处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信；

存储器603，用于存放计算机程序；

处理器601，用于执行存储器603上所存放的程序时，实现上述任一图像检索方法的步骤。

需要说明的是，上述电子设备提到的通信总线604可以是PCI(PeripheralComponent Interconnect，外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture，扩展工业标准结构)总线等。该通信总线604可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口602用于上述电子设备与其他设备之间的通信。

存储器603可以包括RAM(Random Access Memory，随机存取存储器)，也可以包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器601可以是通用处理器，包括：CPU(Central Processing Unit，中央处理器)、NP(Network Processor，网络处理器)等；还可以是DSP(Digital SignalProcessing，数字信号处理器)、ASIC(Application Specific Integrated Circuit，专用集成电路)、FPGA(Field-Programmable Gate Array，现场可编程门阵列)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质内存储有计算机程序，计算机程序被处理器执行时，实现上述任一图像检索方法的步骤。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于图像检索装置、电子设备及计算机可读存储介质实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种图像检索方法，其特征在于，包括：

在样本视频片段中提取待检索目标对应的多张视频帧图片；

计算检索图片数据库中各被检索图片中目标的目标特征与所述目标融合特征的第一特征相似度，将所述第一特征相似度大于预设阈值的被检索图片作为检索结果；

所述在样本视频片段中提取待检索目标对应的多张视频帧图片，包括：

提取用户发送的图片中待检索目标的第一目标特征；

2.根据权利要求1所述的图像检索方法，其特征在于，所述在样本视频片段中提取待检索目标对应的多张视频帧图片，包括：

检测所述样本视频片段中的样本目标；

显示所述样本目标；

3.根据权利要求1或2所述的图像检索方法，其特征在于，在所述根据所述待检索目标在每一张视频帧图片中的位置，提取所述每一张视频帧图片中所述待检索目标的目标特征之前，所述方法还包括：

向用户发送所述多张视频帧图片；

提取纠正后的视频帧图片中所述待检索目标的目标特征。

4.根据权利要求1或2所述的图像检索方法，其特征在于，在所述根据所述待检索目标在每一张视频帧图片中的位置，提取所述每一张视频帧图片中所述待检索目标的目标特征之前，所述方法还包括：

5.根据权利要求1或2所述的图像检索方法，其特征在于，所述提取所述每一张视频帧图片中所述待检索目标的目标特征，并对提取到的多个目标特征进行特征融合，得到目标融合特征，包括：

6.根据权利要求1或2所述的图像检索方法，其特征在于，所述计算检索图片数据库中各被检索图片中目标的目标特征与所述目标融合特征的第一特征相似度，包括：

7.一种图像检索装置，其特征在于，包括：

检索结果获取模块，用于计算检索图片数据库中各被检索图片中目标的目标特征与所述目标融合特征的第一特征相似度，将所述第一特征相似度大于预设阈值的被检索图片作为检索结果；

所述图片提取模块，具体用于提取用户发送的图片中待检索目标的第一目标特征，检测所述样本视频片段中的样本目标，提取所述样本目标在所述样本视频片段对应的帧序列中的多个第二目标特征，分别计算所述第一目标特征和提取的多个第二目标特征的第二特征相似度，将所述待检索目标更新为所述第二特征相似度中最大值对应的样本目标，在所述样本视频片段中提取所述待检索目标对应的多张视频帧图片。

8.根据权利要求7所述的图像检索装置，其特征在于，所述图片提取模块，具体用于检测所述样本视频片段中的样本目标，显示所述样本目标，接收用户发送的对待检索目标进行检索的检索指令，在所述样本视频片段中提取所述待检索目标对应的多张视频帧图片，其中，所述待检索目标为所述样本目标中的一个或多个。

9.根据权利要求7或8所述的图像检索装置，其特征在于，所述装置还包括：

图片发送模块，用于向用户发送所述多张视频帧图片；

10.根据权利要求7或8所述的图像检索装置，其特征在于，所述装置还包括：

11.根据权利要求7或8所述的图像检索装置，其特征在于，所述特征融合模块，具体用于通过卷积神经网络前向传播算法提取所述每一张视频帧图片中所述待检索目标的目标特征f_{i_d}，

12.根据权利要求7或8所述的图像检索装置，其特征在于，所述检索结果获取模块，具体用于计算检索图片数据库中各被检索图片中每一个目标的目标特征与所述目标融合特征的余弦值，将所述余弦值作为第一特征相似度；或计算检索图片数据库中各被检索图片中每一个目标的目标特征与所述目标融合特征的欧式距离，将整数1与所述欧式距离的差值作为第一特征相似度。

13.一种电子设备，其特征在于，包括：处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的程序时，实现权利要求1-6任一所述的方法步骤。