CN112668632B

CN112668632B - 一种数据处理方法、装置、计算机设备及存储介质

Info

Publication number: CN112668632B
Application number: CN202011558292.2A
Authority: CN
Inventors: 杨凯航; 邸德宁
Original assignee: Zhejiang Dahua Technology Co Ltd
Current assignee: Zhejiang Dahua Technology Co Ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2022-04-08
Anticipated expiration: 2040-12-25
Also published as: CN112668632A; WO2022134881A1

Abstract

本申请提供一种数据处理方法、装置、计算机设备及存储介质，用于解决数据处理效率较低的问题。该方法包括：根据预存的各个标准特征子向量，确定与目标特征向量之间的相似度满足第一预设相似度条件的第一标准特征子向量序列，以及，分别与各个预存的参考特征向量之间的相似度满足第一预设相似度条件的各个第二标准特征子向量序列；分别确定所述第一标准特征子向量序列与每个所述第二标准特征子向量序列之间的序列相似度，获得所述目标特征向量与所述每个参考特征向量之间的特征向量相似度。

Description

一种数据处理方法、装置、计算机设备及存储介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法、装置、计算机设备及存储介质。

背景技术

随着科技的不断发展，设备可以代替人工处理数据量较大的任务。例如，在图像处理领域中，设备可以通过比对目标图像的特征向量，与各个备选图像的特征向量，确定出与目标图像相似的备选图像等。

然而，随着图像清晰度的不断提升，为了可以准确地描述图像，以及准确地确定出与目标图像相似的备选图像，设备提取出的图像的特征向量的维度也越来越高，使得比对目标图像的特征向量，与各个备选图像的特征向量的过程中，设备需要处理的数据量较大，设备处理数据的效率较低，在其他领域当中，也存在类似的问题。

发明内容

本申请实施例提供一种数据处理方法、装置、计算机设备及存储介质，用于解决数据处理效率较低的问题。

第一方面，提供一种数据处理方法，包括：

根据预存的各个标准特征子向量，确定与目标特征向量之间的相似度满足第一预设相似度条件的第一标准特征子向量序列，以及，与参考特征向量之间的相似度满足所述第一预设相似度条件的第二标准特征子向量序列；其中，所述第一标准特征子向量序列是由各个标准特征子向量中的至少一个第一标准特征子向量组成；所述参考特征向量是预存的各个参考特征向量中的参考特征向量，所述第二标准特征子向量序列是由各个标准特征子向量中的至少一个第二标准特征子向量组成；

分别确定所述第一标准特征子向量序列与每个所述第二标准特征子向量序列之间的序列相似度，获得所述目标特征向量与所述每个参考特征向量之间的特征向量相似度。

可选的，在根据预存的各个标准特征子向量，确定与目标特征向量之间的相似度满足第一预设相似度条件的第一标准特征子向量序列之前，还包括：

将每个所述参考特征向量分别划分为相同数量的多个参考特征子向量，获得每个所述参考特征向量分别对应的参考特征子向量序列；其中，所述参考特征子向量序列中的各个参考特征子向量按照各个参考特征子向量在对应的参考特征向量中的位置排列；

基于每个所述参考特征子向量序列中，相同位置上的参考特征子向量，确定对应的至少一个标准特征子向量，获得预存的各个标准特征子向量。

可选的，基于每个所述参考特征子向量序列中，相同位置上的参考特征子向量，确定对应的至少一个标准特征子向量，获得预存的各个标准特征子向量，包括：

将每个所述参考特征子向量序列中，相同位置上的参考特征子向量作为一个子向量数据集，对每个子向量数据集进行聚类处理，获得每个子向量数据集分别对应的至少一个标准特征子向量；

根据每个所述子向量数据集分别对应的至少一个标准特征子向量，获得预存的各个标准特征子向量。

可选的，在子向量数据集与子向量数据集中包括的参考特征子向量在对应的参考特征向量中的位置关联时，根据预存的各个标准特征子向量，确定与目标特征向量之间的相似度满足第一预设相似度条件的第一标准特征子向量序列，包括：

将所述目标特征向量划分为多个目标特征子向量，获得所述目标特征向量的目标特征子向量序列；其中，所述目标特征子向量序列中的各个目标特征子向量按照各个目标特征子向量在目标特征向量中的位置排列；

确定所述子向量数据集对应的至少一个标准特征子向量中，与所述目标特征子向量之间的相似度满足第二预设相似度条件的第一标准特征子向量；其中，所述目标特征子向量在所述目标特征子向量序列中的位置，与所述子向量数据集的关联位置相同；

在每个所述目标特征子向量均存在一个对应的所述第一标准特征子向量时，确定由各个所述第一标准特征子向量组成的所述第一标准特征子向量序列，与所述目标特征向量之间的相似度满足第一预设相似度条件，获得所述目标特征向量对应的所述第一标准特征子向量序列。

可选的，在预存的各个标准特征子向量分别具有向量标识，所述向量标识用于唯一表示每个标准特征子向量时，获得所述目标特征向量对应的第一标准特征子向量序列，包括：

根据各个所述第一标准特征子向量的向量标识，获得所述目标特征向量对应的第一标准特征子向量序列。

可选的，在子向量数据集与子向量数据集中包括的参考特征子向量在对应的参考特征向量中的位置关联时，根据预存的各个标准特征子向量，确定分别与各个预存的参考特征向量之间的相似度满足第一预设相似度条件的各个第二标准特征子向量序列，包括：

在所述子向量数据集对应的至少一个标准特征子向量中，确定与所述参考特征子向量之间的相似度满足第二预设相似度条件的第二标准特征子向量；其中，所述参考特征子向量在所述参考特征子向量序列中的位置，与所述子向量数据集的关联位置相同；

在每个所述参考特征子向量均存在一个对应的所述第二标准特征子向量时，确定由各个所述第二标准特征子向量组成的所述第二标准特征子向量序列，与所述参考特征向量之间的相似度满足第一预设相似度条件，获得所述参考特征向量对应的所述第二标准特征子向量序列。

可选的，在所述第一标准特征子向量序列中第一标准特征子向量的数量与所述第二标准特征子向量序列中第二标准特征子向量的数量相同时，分别确定所述第一标准特征子向量序列向量与每个所述第二标准特征子向量序列之间的序列相似度，包括：

分别确定所述第一标准特征子向量序列中每个第一标准特征子向量，与所述第二标准特征子向量序列中对应位置的第二标准特征子向量之间的子向量相似度；

对获得的子向量相似度进行加权求和处理，获得所述第一标准特征子向量序列与所述第二标准特征子向量序列之间的序列相似度。

可选的，在获得所述目标特征向量与所述每个参考特征向量之间的特征向量相似度之后，还包括：

按照特征向量相似度由大到小，对各个所述参考特征向量排序；

输出各个所述参考特征向量中，预设排位之前的参考特征向量。

第二方面，提供一种数据处理装置，包括：

第一处理模块：用于根据预存的各个标准特征子向量，确定与目标特征向量之间的相似度满足第一预设相似度条件的第一标准特征子向量序列，以及，与参考特征向量之间的相似度满足所述第一预设相似度条件的第二标准特征子向量序列；其中，所述第一标准特征子向量序列是由各个标准特征子向量中的至少一个第一标准特征子向量组成；所述参考特征向量是预存的各个参考特征向量中的参考特征向量，所述第二标准特征子向量序列是由各个标准特征子向量中的至少一个第二标准特征子向量组成；

第二处理模块：用于分别确定所述第一标准特征子向量序列与每个所述第二标准特征子向量序列之间的序列相似度，获得所述目标特征向量与所述每个参考特征向量之间的特征向量相似度。

可选的，所述第一处理模块还用于：

在根据预存的各个标准特征子向量，确定与目标特征向量之间的相似度满足第一预设相似度条件的第一标准特征子向量序列之前，将每个所述参考特征向量分别划分为相同数量的多个参考特征子向量，获得每个所述参考特征向量分别对应的参考特征子向量序列；其中，所述参考特征子向量序列中的各个参考特征子向量按照各个参考特征子向量在对应的参考特征向量中的位置排列；

可选的，所述第一处理模块具体用于：

可选的，在子向量数据集与子向量数据集中包括的参考特征子向量在对应的参考特征向量中的位置关联时，所述第一处理模块具体用于：

可选的，在预存的各个标准特征子向量分别具有向量标识，所述向量标识用于唯一表示每个标准特征子向量时，所述第一处理模块具体用于：

可选的，在所述第一标准特征子向量序列中第一标准特征子向量的数量与所述第二标准特征子向量序列中第二标准特征子向量的数量相同时，所述第二处理模块具体用于：

可选的，所述第二处理模块还用于：

在获得所述目标特征向量与所述每个参考特征向量之间的特征向量相似度之后，按照特征向量相似度由大到小，对各个所述参考特征向量排序；

第三方面，一种计算机设备，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如第一方面所述的方法。

第四方面，一种存储介质，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如第一方面所述的方法。

本申请实施例中，在预存的各个标准特征子向量中，确定与目标特征向量之间的相似度满足第一预设相似度条件的至少一个第一标准特征子向量，获得目标特征向量对应的第一标准特征向量序列，以及与参考特征向量之间的相似度满足第一预设相似度条件的至少一个第二标准特征子向量，获得各个参考特征向量对应的第二标准子向量序列。从而，将目标特征向量和各个参考特征向量映射到同一标准参考系中进行比较，根据预存的各个标准特征子向量之间的相似度，确定第一标准特征向量序列与每个第二标准特征向量序列之间序列相似度，从而获得目标特征向量与各个参考特征向量之间的特征向量相似度，简化了计算目标特征向量与各个参考特征向量之间的相似度的过程，提高了数据处理的效率。

附图说明

图1为本申请实施例提供的数据处理方法的一种应用场景示意图；

图2为本申请实施例提供的数据处理方法的一种流程示意图；

图3为本申请实施例提供的数据处理方法的一种原理示意图一；

图4为本申请实施例提供的数据处理方法的一种原理示意图二；

图5为本申请实施例提供的数据处理装置的结构示意图一；

图6为本申请实施例提供的数据处理装置的结构示意图二。

具体实施方式

为了使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述。

另外，本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。

随着科技的不断发展，设备可以代替人工处理越来越多的数据量较大的任务。例如，在图像处理领域中，设备可以通过比对目标图像的特征向量，与各个备选图像的特征向量，确定出与目标图像相似的备选图像等。

在备选图像的特征向量的数据量不大时，可以通过依次比较目标图像的特征向量与每个备选图像的特征向量，来确定与目标图像相似的备选图像等。然而，在备选图像的特征向量的数据量较大时，例如，在安防和监控领域中，公安局所注册的人脸证件照等业务中是一人一档的方式建立备选图像库，不同型号的网络录像机(Network Video Recorder，NVR)或其它的电子设备所抓拍到的人脸图像作为目标图像。从而，人脸图像不仅包括每个用户的正脸图像，还可能包括不同角度的侧脸图像，那么依据人脸图像获得的人脸图像的特征向量的数据量是数以百万计的，甚至数以千万计的等，如果按照依次比较目标图像的特征向量与每个备选图像的特征向量这种线性方式，获得比较结果的效率较低，无法应用于实时性要求较高的领域当中。

并且，随着图像清晰度的不断提升，为了可以准确地描述图像，以及准确地确定出与目标图像相似的备选图像，设备提取出的图像的特征向量的维度也越来越高，使得比对目标图像的特征向量，与各个备选图像的特征向量的过程中，需要处理的数据量较大，从而产生处理数据的效率较低的问题，在其他领域当中，也存在类似的问题。

鉴于此，为了解决数据处理效率较低的问题，本申请实施例提供一种数据处理方法，该方法可以应用于终端设备或网络设备中。终端设备可以是手机、平板电脑或个人计算机等；网络设备可以是本地服务器、第三方服务器或云服务器等。

请参考图1，为本申请实施例提供的数据处理方法的一种应用场景示意图。该应用场景包括存储设备101和处理设备102。存储设备101和处理设备102之间可以通信。通信方式可以是有线通信方式，例如通过连接网线或串口线进行通信；也可以是无线通信方式，例如通过蓝牙或无线保真(wireless fidelity，WIFI)等技术进行通信，具体不做限制。

存储设备101泛指可以用于存储数据的设备，例如处理设备102的本地数据库，或处理设备102关联的第三方数据库，或处理设备102关联的数据库等，具体不做限制。处理设备102泛指可以对数据进行处理的设备，例如终端设备、客户端或服务器等。客户端可以是终端设备可以访问的网页或第三方程序等，具体不做限制。

作为一种实施例，存储设备101和处理设备102可以是同一个设备。本申请实施例中，以存储设备101和处理设备102分别为不同的设备为例进行介绍。

下面基于图1的应用场景，对各个设备之间的交互过程进行简单介绍。

处理设备102向存储设备101获取预存的各个标准特征子向量。处理设备102根据预存的各个标准特征子向量，确定与目标特征向量之间的相似度满足第一预设相似度条件的第一标准特征子向量序列。处理设备102根据预存的各个标准特征子向量，确定与每个预存的参考特征向量之间的相似度满足第一预设相似度条件的第二标准特征子向量序列。第一标准特征子向量序列是由各个标准特征子向量中的至少一个第一标准特征子向量组成，第二标准特征子向量序列是由各个标准特征子向量中的至少一个第二标准特征子向量组成。

处理设备102分别确定第一标准特征子向量序列与每个第二标准特征子向量序列之间的序列相似度，获得目标特征向量与每个参考特征向量之间的特征向量相似度。

请参考图2，为本申请实施例提供的数据处理方法的一种流程示意图。下面对数据处理方法进行具体介绍。

S201，获得各个标准特征子向量。

存储设备101中预存的各个标准特征子向量可以是处理设备102在获得各个参考特征向量之后，根据各个参考特征向量确定的；或者，可以是处理设备102在自身处理资源占用率较低时，根据各个参考特征向量确定的；或者，可以是处理设备102在接收用于确定各个标准特征子向量的指示信息之后，根据各个参考特征向量确定的等，具体不做限制。参考特征向量是参考图像经过特征提取之后获得的参考图像的特征向量，可以是一种高纬度的浮点型数据，例如256维或512维等。

在处理设备102获得各个标准特征子向量之后，可以将各个标准特征子向量存储于存储设备101中，以便于在需要根据各个标准特征子向量确定目标特征向量时，向存储设备101读取各个标准特征子向量。

作为一种实施例，存储设备101中可以存储每个参考图像和参考图像对应的参考特征向量之间的对应关系，通过确定参考特征向量，可以相应的确定出参考特征向量对应的参考图像。

作为一种实施例，存储的参考特征向量可以是在对参考图像进行特征提取获得的特征向量之后，对获得的特征向量进行归一化处理后获得的，归一化处理例如是L2范数处理等，从而可以减少像素值本身的大小对于相似度计算的影响，提高了计算相似度的准确性。

作为一种实施例，存储的参考特征向量可以是在对参考图像进行特征提取获得的特征向量之后，对获得的特征向量进行降维处理后获得的，降维处理例如是主成分分析法(principal component analysis，PCA)或奇异值分解(Singular Value Decomposition，SVD)等方法等，先寻找特征向量的正交基矩阵P，再通过Y＝PX方式获取特征向量压缩后的压缩矩阵Y，其中，X是特征向量。通过降低特征之间相关性，提高后续计算特征向量之间的相似度时的性能和有效性。

下面对获得各个标准特征子向量的过程进行具体介绍。

S1.1，将每个参考特征向量分别划分为相同数量的多个参考特征子向量，获得每个参考特征向量分别对应的参考特征子向量序列。

在获得参考特征向量之后，可以分别将每个参考特征向量划分为相同数量的多个参考特征子向量，获得每个参考特征向量分别对应的参考特征子向量序列。例如，参考特征向量为[123456789]，如果划分为3个参考特征子向量，那么3个参考特征子向量可以分别为[123]、[456]和[789]，从而获得的参考特征子向量序列可以是[[123][456][789]]。参考特征子向量序列中的各个参考特征子向量按照各个参考特征子向量在参考特征向量中的位置排列。

作为一种实施例，在划分参考特征向量时，可以是根据划分参考特征子向量的数量，对参考特征向量进行均分；或者，可以根据参考特征向量中的各个值，对参考特征向量进行不均匀划分，具体不做限制。

作为一种实施例，划分参考特征子向量的数量可以是参考特征向量的维度确定的，参考特征向量的维度可以是划分参考特征子向量的数量的整数倍，例如，参考特征向量的维度为256维，那么划分参考特征子向量的数量可以是8个等。参考特征子向量的数量可以是预先根据经验值设置的，或者，可以是根据历史划分数量确定出来的，具体不做限制。

S1.2，将每个参考特征子向量序列中，相同位置上的参考特征子向量作为一个子向量数据集，对每个子向量数据集进行聚类处理，获得每个子向量数据集分别对应的至少一个标准特征子向量。

在对每个参考特征向量进行划分，获得每个参考特征向量的参考特征子向量序列之后，将每个参考特征子向量序列中，相同位置上的参考特征子向量作为一个子向量数据集。例如，一个参考特征子向量序列是[[123][456][789]]，另一个参考特征子向量序列是[[234][567][891]]，那么将第一个位置上的参考特征子向量[123]和[234]，作为一个子向量数据集，将第二个位置上的参考特征子向量[456]和[567]，作为一个子向量数据集，将第三个位置上的参考特征子向量[789]和[891]，作为一个子向量数据集。

获得的子向量数据集的数量与参考特征子向量的数量相同，每个子向量数据集对应至少一个参考特征子向量，对每个子向量数据集进行聚类处理，将类似的参考特征子向量汇聚为一类。对子向量数据集进行聚类处理之后，可以获得子向量数据集对应的至少一个聚类中心，同一类中的参考特征子向量，与该类的聚类中心之间的相似度在预设范围内。从而可以获得每个子向量数据集分别对应的至少一个聚类中心，一个聚类中心即为一个标准特征子向量。

作为一种实施例，由于参考特征向量越多，参考特征向量之间的差异性可能越大，因此在对子向量数据集进行聚类处理时，标准特征子向量的数量可以随着参考特征向量的增加而增加，或随着参考特征向量的减少而减少，以提高确定标准特征子向量的准确性，从而提高计算相似度的准确性。例如，对于数以百万的参考特征向量，标准特征子向量的数量可以设置为10000个，对于数以千万的参考特征向量，标准特征子向量的数量可以设置为20000个等，具体不做限制。

S1.3，根据每个子向量数据集分别对应的至少一个标准特征子向量，获得预存的各个标准特征子向量。

在获得每个子向量数据集分别对应的至少一个标准特征子向量之后，处理设备102可以将各个标准特征子向量发送至存储设备101，存储设备101接收处理设备102发送的各个标准特征子向量之后，将各个标准特征子向量存储，获得预存的各个标准特征子向量。

S202，根据预存的各个标准特征子向量，确定分别与各个预存的参考特征向量之间的相似度满足第一预设相似度条件的各个第二标准特征子向量序列。

子向量数据集与子向量数据集中包括的参考特征子向量在对应的参考特征向量序列中的位置关联，即子向量数据集中包括各个参考特征向量序列中第一个位置的参考特征子向量时，那么子向量数据集与第一个位置关联。

在子向量数据集对应的至少一个标准特征子向量中，确定与子向量数据集关联位置上的参考特征子向量之间的相似度满足第二预设相似度条件的第二标准特征子向量。例如，在关联位置为第一个位置的子向量数据集对应的至少一个标准特征子向量中，确定与参考特征向量序列中第一个位置上的参考特征子向量之间的相似度满足第二预设相似度条件的第二标准特征子向量。

第二预设相似度条件可以是相似度在预设范围内，或者，可以是相似度大于预设阈值等。因此，确定出的第二标准特征子向量的数量可以是多个。第二预设相似度条件还可以是相似度最大，因此，确定出的第二标准特征子向量的数量可以是一个，具体不做限制。在第二标准特征子向量的数量为多个时，各个第二标准特征子向量可以按照相似度的大小进行排列。

根据每个子向量数据集对应的至少一个标准特征子向量，可以确定参考特征子向量序列中每个参考特征子向量对应的第二标准特征子向量，在每个参考特征子向量均存在一个对应的第二标准特征子向量时，确定由各个第二标准特征子向量组成的第二标准特征子向量序列，与参考特征向量之间的相似度满足第一预设相似度条件。在第二标准特征子向量序列与参考特征向量之间的相似度满足第一预设相似度条件时，获得参考特征向量对应的第二标准特征子向量序列。

在获得每个参考特征向量对应的第二标准特征子向量序列之后，处理设备102可以将每个参考特征向量对应的第二标准特征子向量序列发送至存储设备101，存储设备101接收处理设备102发送的每个参考特征向量对应的第二标准特征子向量序列之后进行存储，从而处理设备102可以在确定目标特征向量与各个参考特征向量之间的相似度时，直接获取各个参考特征向量对应的第二标准特征子向量序列进行计算，不需要实时计算每个参考特征向量对应的第二标准特征子向量序列，提高了确定目标特征向量与各个参考特征向量之间的相似度的及时性。

作为一种实施例，每个标准特征子向量可以具有一个可以唯一标识每个标准特征子向量的向量标识；或者，每个标准特征子向量可以在其对应的子向量数据集中具有可以唯一标识标准特征子向量的向量标识。参考特征向量的第二标准特征子向量序列可以通过向量标识序列进行表示，从而，处理设备102在处理过程中，不需要通过传输各个标准特征子向量对各个标准特征子向量进行相应的处理，仅传输向量标识就可以确定需要处理的标准特征子向量，减少了处理资源的占用。

S203，根据预存的各个标准特征子向量，确定与目标特征向量之间的相似度满足第一预设相似度条件的第一标准特征子向量序列。

在需要确定目标特征向量与各个参考特征向量之间的特征向量相似度时，可以先对目标特征向量进行划分，获得目标特征向量对应的各个目标特征子向量。目标特征子向量与参考特征向量的参考特征子向量的数量相同，将目标特征向量划分为各个目标特征子向量，获得目标特征子向量序列的过程，与将参考特征向量划分为各个参考特征子向量，获得参考特征子向量序列的过程相同，在此不再赘述。

在预存的各个标准特征子向量中，确定与目标特征向量之间的相似度满足第一预设相似度条件的第一标准特征子向量序列的过程，与在预存的各个标准特征子向量中，确定与参考特征向量之间的相似度满足第一预设相似度条件的第二标准特征子向量序列的过程相同，在此不再赘述。

作为一种实施例，目标特征向量的第一标准特征子向量序列可以通过向量标识序列进行表示，从而，处理设备102在处理过程中，不需要通过传输各个标准特征子向量对各个标准特征子向量进行相应的处理，仅传输向量标识就可以确定需要处理的标准特征子向量，减少了处理资源的占用。

S204，分别确定第一标准特征子向量序列与每个第二标准特征子向量序列之间的序列相似度，获得目标特征向量与每个参考特征向量之间的特征向量相似度。

在获得目标特征向量的第一标准特征子向量序列之后，可以确定第一标准特征子向量序列与每个第二标准特征子向量序列之间的序列相似度。由于第一标准特征子向量序列与各个第二标准特征子向量序列均是由各个标准特征子向量组成的，因此，可以通过确定第一标准特征子向量序列与第二标准特征子向量序列中对应位置的第一标准特征子向量与第二标准特征子向量之间的子向量相似度，确定第一标准特征子向量序列与第二标准特征子向量序列的序列相似度。

在确定对应位置的第一标准特征子向量与第二标准特征子向量之间的子向量相似度时，可以通过对应位置的第一标准特征子向量的向量标识与第二标准特征子向量的向量标识，在预存的各个标准特征子向量之间的子向量相似度中查询第一标准特征子向量与第二标准特征子向量之间的子向量相似度。查询第一标准特征子向量的向量标识与第二标准特征子向量的向量标识对应的子向量相似度时，可以是根据向量标识直接在存储设备101中查询，或者，可以建立第一标准特征子向量序列的各个向量标识，与对应的子向量数据集中的各个标准特征子向量的各个向量标识之间的对应关系，获得第一标准特征子向量序列与子向量数据集中的各个标准特征子向量的子向量相似度对应关系表，从而可以通过向量标识查表获得每个第一标准特征子向量与各个第二标准特征子向量之间的子向量相似度。在获得第一标准特征子向量与各个第二标准特征子向量之间的子向量相似度之后，可以对获得的各个子向量相似度进行加权求和处理，获得第一标准特征子向量序列与第二标准特征子向量序列之间的序列相似度，相较于单一的根据平均子向量相似度确定第一标准特征子向量序列与第二标准特征子向量序列的方式，可以调整不同子向量相似度的重要程度，确定第一标准特征子向量序列与第二标准特征子向量序列的准确性更高。

请参考表1，为第一标准特征子向量序列与对应的子向量数据集中的各个标准特征子向量的子向量相似度对应关系表。其中，M表示第一标准特征子向量序列中第一标准特征子向量的数量。K表示子向量数据集中标准特征子向量的数量。0～K为子向量数据集中唯一标识每个标准特征子向量的向量标识。Sim(1，1)表示子向量数据集中标识为1的标准特征子向量，与第一标准特征子向量序列中标识为第一标准特征子向量1的第一标准特征子向量之间的子向量相似度。

表1

作为一种实施例，如果一个目标特征子向量对应多个第一标准特征子向量，例如，目标特征子向量对应N个第一标准特征子向量，那么第一标准特征子向量序列与子向量数据集中的各个标准特征子向量的子向量相似度对应关系表，可以如表2所示。

表2

如果一个目标特征子向量对应多个第一标准特征子向量，那么每个第一标准特征子向量可以具有权重，第一标准特征子向量与对应的目标特征子向量之间的相似度越大，那么第一标准特征子向量的权重越大。分别确定目标特征子向量对应多个第一标准特征子向量中每个第一标准特征子向量，与第二标准特征子向量之间的子向量相似度，根据每个第一标准特征子向量的权重，对获得的子向量相似度进行加权求和处理，获得第一标准特征子向量与第二标准特征子向量之间的子向量相似度。在获得第一标准特征子向量与各个第二标准特征子向量之间的子向量相似度之后，可以对获得的各个子向量相似度进行加权求和处理，获得第一标准特征子向量序列与第二标准特征子向量序列之间的序列相似度。

在获得第一标准特征子向量序列与第二标准特征子向量序列之间的序列相似度之后，将第一标准特征子向量序列与第二标准特征子向量序列之间的序列相似度作为目标特征向量与参考特征向量之间的特征向量相似度，从而可以获得目标特征向量与每个参考特征向量之间的特征向量相似度。

作为一种实施例，在获得目标特征向量与每个参考特征向量之间的特征向量相似度之后，可以根据特征向量相似度的大小，对各个参考特征向量进行排序，根据预设排位，输出各个参考特征向量中，排在预设排位之前的参考特征向量。例如，在安防领域中，可以在预存的各个证件照中，找出与抓拍图像相似度较大的几个证件照，从而可以高效的确定出嫌疑人身份等。

作为一种实施例，本申请实施例中的相似度计算，可以是通过计算两个向量之间的欧式距离，或马氏距离，或余弦相似度等获得的，具体计算相似度的方法不做限制。

下面对本申请实施例提供的数据处理方法进行示例说明。请参考图3，为数据处理方法的一种原理示意图。

S301，处理设备102获得各个参考特征向量；

S302，处理设备102根据各个参考特征向量，对各个参考特征向量进行归一化处理，和降维处理，获得各个处理后的参考特征向量；

S303，处理设备102根据各个处理后的参考特征向量，确定各个标准特征子向量；

S304，处理设备102将各个标准特征子向量存储于存储设备101中；

S305，处理设备102确定每两个标准特征子向量之间的相似度；

S306，处理设备102将各个标准特征子向量之间的相似度存储于存储设备101中；

S307，处理设备102根据各个标准特征子向量，确定各个参考特征向量分别对应的第二标准特征子向量序列；

S308，处理设备102可以将各个第二标准特征子向量序列存储于存储设备101中。

S309，在需要在各个参考特征向量确定出与目标特征向量相似的参考特征向量时，处理设备102获得目标特征向量。

S310，处理设备102根据各个标准特征子向量，确定目标特征向量对应的第一标准特征子向量序列。

S311，处理设备102读取存储设备101中的各个参考特征向量分别对应的第二标准特征子向量序列，以及各个标准特征子向量之间的相似度；

S312，处理设备102确定第一标准特征子向量序列与第二标准特征子向量序列之间的序列相似度。请参考图4，为确定第一标准特征子向量序列与第二标准特征子向量序列之间的序列相似度的原理示意图。参考特征向量划分为三个参考特征子向量，相应的，目标特征向量划分为三个目标特征子向量。每个参考特征子向量对应两个第二标准特征子向量，相应的，每个目标特征子向量对应两个第一标准特征子向量，确定每个对应的第一标准特征子向量和第二标准特征子向量之间的子向量相似度，对各个子向量相似度进行加权求和，获得第一标准特征子向量序列与第二标准特征子向量序列之间的序列相似度，从而，获得目标特征向量与参考特征向量之间的特征向量相似度。

对各个子向量相似度进行加权求和可以参考如下公式(1)。

其中，probe表示目标特征向量，gallery1表示各个参考特征向量中的一个参考特征向量，Sim(probe,gallery1)表示目标特征向量与一个参考特征向量之间的特征向量相似度；i表示第i个目标特征子向量，i为大于0小于或等于目标特征子向量的数量M的整数值；top_probej表示目标特征子向量对应的第j个第一标准特征子向量，top_gallery1j表示参考特征子向量对应的第j个第二标准特征子向量，j为大于0小于或等于目标特征子向量中第一标准特征子向量的数量k的整数值，或者j为大于0小于或等于参考特征子向量中第二标准特征子向量的数量的整数值；ω_j表示权重，ω_j满足

权重ω_j可根据实际情况进行更新，如果参考特征子向量分布紧密或聚类中心比较多时，则权重ω_j可适当缩小差异，如果参考特征子向量分布分散或聚类中心比较少时，权重ω_j可适当增大差异。

基于同一发明构思，本申请实施例提供一种数据处理装置，该装置相当于前文论述的处理设备102，能够实现前述数据处理方法对应的功能。请参考图5，该装置包括第一处理模块501和第二处理模块502，其中：

第一处理模块501：用于根据预存的各个标准特征子向量，确定与目标特征向量之间的相似度满足第一预设相似度条件的第一标准特征子向量序列，以及，与参考特征向量之间的相似度满足第一预设相似度条件的第二标准特征子向量序列；其中，第一标准特征子向量序列是由各个标准特征子向量中的至少一个第一标准特征子向量组成；参考特征向量是预存的各个参考特征向量中的参考特征向量，第二标准特征子向量序列是由各个标准特征子向量中的至少一个第二标准特征子向量组成；

第二处理模块502：用于分别确定第一标准特征子向量序列与每个第二标准特征子向量序列之间的序列相似度，获得目标特征向量与每个参考特征向量之间的特征向量相似度。

在一种可能的实施例中，第一处理模块501还用于：

在根据预存的各个标准特征子向量，确定与目标特征向量之间的相似度满足第一预设相似度条件的第一标准特征子向量序列之前，将每个参考特征向量分别划分为相同数量的多个参考特征子向量，获得每个参考特征向量分别对应的参考特征子向量序列；其中，参考特征子向量序列中的各个参考特征子向量按照各个参考特征子向量在对应的参考特征向量中的位置排列；

基于每个参考特征子向量序列中，相同位置上的参考特征子向量，确定对应的至少一个标准特征子向量，获得预存的各个标准特征子向量。

在一种可能的实施例中，第一处理模块501具体用于：

将每个参考特征子向量序列中，相同位置上的参考特征子向量作为一个子向量数据集，对每个子向量数据集进行聚类处理，获得每个子向量数据集分别对应的至少一个标准特征子向量；

根据每个子向量数据集分别对应的至少一个标准特征子向量，获得预存的各个标准特征子向量。

在一种可能的实施例中，在子向量数据集与子向量数据集中包括的参考特征子向量在对应的参考特征向量中的位置关联时，第一处理模块501具体用于：

将目标特征向量划分为多个目标特征子向量，获得目标特征向量的目标特征子向量序列；其中，目标特征子向量序列中的各个目标特征子向量按照各个目标特征子向量在目标特征向量中的位置排列；

确定子向量数据集对应的至少一个标准特征子向量中，与目标特征子向量之间的相似度满足第二预设相似度条件的第一标准特征子向量；其中，目标特征子向量在目标特征子向量序列中的位置，与子向量数据集的关联位置相同；

在每个目标特征子向量均存在一个对应的第一标准特征子向量时，确定由各个第一标准特征子向量组成的第一标准特征子向量序列，与目标特征向量之间的相似度满足第一预设相似度条件，获得目标特征向量对应的第一标准特征子向量序列。

在一种可能的实施例中，在预存的各个标准特征子向量分别具有向量标识，向量标识用于唯一表示每个标准特征子向量时，第一处理模块501具体用于：

根据各个第一标准特征子向量的向量标识，获得目标特征向量对应的第一标准特征子向量序列。

在子向量数据集对应的至少一个标准特征子向量中，确定与参考特征子向量之间的相似度满足第二预设相似度条件的第二标准特征子向量；其中，参考特征子向量在参考特征子向量序列中的位置，与子向量数据集的关联位置相同；

在每个参考特征子向量均存在一个对应的第二标准特征子向量时，确定由各个第二标准特征子向量组成的第二标准特征子向量序列，与参考特征向量之间的相似度满足第一预设相似度条件，获得参考特征向量对应的第二标准特征子向量序列。

在一种可能的实施例中，在第一标准特征子向量序列中第一标准特征子向量的数量与第二标准特征子向量序列中第二标准特征子向量的数量相同时，第二处理模块502具体用于：

分别确定第一标准特征子向量序列中每个第一标准特征子向量，与第二标准特征子向量序列中对应位置的第二标准特征子向量之间的子向量相似度；

对获得的子向量相似度进行加权求和处理，获得第一标准特征子向量序列与第二标准特征子向量序列之间的序列相似度。

在一种可能的实施例中，第二处理模块502还用于：

在获得目标特征向量与每个参考特征向量之间的特征向量相似度之后，按照特征向量相似度由大到小，对各个参考特征向量排序；

输出各个参考特征向量中，预设排位之前的参考特征向量。

基于同一发明构思，本申请实施例提供一种计算机设备，该计算机设备能够实现前述的数据处理装置的功能，该计算机设备可以相当于前述的数据处理设备101，请参见图6，该计算机设备包括：

至少一个处理器601，以及与至少一个处理器601连接的存储器602，本申请实施例中不限定处理器601与存储器602之间的具体连接介质，图6中是以处理器601和存储器602之间通过总线600连接为例。总线600在图6中以粗线表示，其它部件之间的连接方式，仅是进行示意性说明，并不引以为限。总线600可以分为地址总线、数据总线、控制总线等，为便于表示，图6中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。或者，处理器601也可以称为控制器601，对于名称不做限制。

在本申请实施例中，存储器602存储有可被至少一个处理器601执行的指令，至少一个处理器601通过执行存储器602存储的指令，可以执行前文论述的数据处理方法。处理器601可以实现图5所示的装置中各个模块的功能。

其中，处理器601是该装置的控制中心，可以利用各种接口和线路连接整个该装置的各个部分，通过运行或执行存储在存储器602内的指令以及调用存储在存储器602内的数据，该装置的各种功能和处理数据，从而对该装置进行整体监控。

在一种可能的实施例中，处理器601可包括一个或多个处理单元，处理器601可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器601中。在一些实施例中，处理器601和存储器602可以在同一芯片上实现，在一些实施例中，它们也可以在独立的芯片上分别实现。

处理器601可以是通用处理器，例如中央处理器(CPU)、数字信号处理器、专用集成电路、现场可编程门阵列或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件，可以实现或者执行本申请实施例中公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的数据处理方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器602作为一种非易失性计算机可读存储介质，可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块。存储器602可以包括至少一种类型的存储介质，例如可以包括闪存、硬盘、多媒体卡、卡型存储器、随机访问存储器(Random AccessMemory，RAM)、静态随机访问存储器(Static Random Access Memory，SRAM)、可编程只读存储器(Programmable Read Only Memory，PROM)、只读存储器(Read Only Memory，ROM)、带电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、磁性存储器、磁盘、光盘等等。存储器602是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。本申请实施例中的存储器602还可以是电路或者其它任意能够实现存储功能的装置，用于存储程序指令和/或数据。

通过对处理器601进行设计编程，可以将前述实施例中介绍的数据处理方法所对应的代码固化到芯片内，从而使芯片在运行时能够执行图2所示的实施例的数据处理方法的步骤。如何对处理器601进行设计编程为本领域技术人员所公知的技术，这里不再赘述。

基于同一发明构思，本申请实施例还提供一种存储介质，该存储介质存储有计算机指令，当该计算机指令在计算机上运行时，使得计算机执行前文论述识别异常行为的方法。

在一些可能的实施方式中，本申请提供的数据处理方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当程序产品在装置上运行时，程序代码用于使该装置执行本说明书上述描述的根据本申请各种示例性实施方式的数据处理方法中的步骤。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种数据处理方法，其特征在于，包括：

获取目标图像的目标特征向量，以及预存的各个备选图像各自的参考特征向量；

根据预存的各个标准特征子向量，确定与所述目标特征向量之间的相似度满足第一预设相似度条件的第一标准特征子向量序列，以及，分别与各个参考特征向量之间的相似度满足所述第一预设相似度条件的第二标准特征子向量序列；其中，所述第一标准特征子向量序列是由各个标准特征子向量中的至少一个第一标准特征子向量组成；所述第二标准特征子向量序列是由各个标准特征子向量中的至少一个第二标准特征子向量组成；

分别确定所述第一标准特征子向量序列与每个所述第二标准特征子向量序列之间的序列相似度；

基于各个序列相似度，从所述各个备选图像中，选取与所述目标图像相似的备选图像。

2.根据权利要求1所述的方法，其特征在于，在根据预存的各个标准特征子向量，确定与所述目标特征向量之间的相似度满足第一预设相似度条件的第一标准特征子向量序列之前，还包括：

3.根据权利要求2所述的方法，其特征在于，基于每个所述参考特征子向量序列中，相同位置上的参考特征子向量，确定对应的至少一个标准特征子向量，获得预存的各个标准特征子向量，包括：

4.根据权利要求3所述的方法，其特征在于，在子向量数据集与子向量数据集中包括的参考特征子向量在对应的参考特征向量中的位置关联时，根据预存的各个标准特征子向量，确定与目标特征向量之间的相似度满足第一预设相似度条件的第一标准特征子向量序列，包括：

5.根据权利要求4项所述的方法，其特征在于，在预存的各个标准特征子向量分别具有向量标识，所述向量标识用于唯一表示每个标准特征子向量时，获得所述目标特征向量对应的第一标准特征子向量序列，包括：

6.根据权利要求3所述的方法，其特征在于，在子向量数据集与子向量数据集中包括的参考特征子向量在对应的参考特征向量中的位置关联时，根据预存的各个标准特征子向量，确定分别与各个预存的参考特征向量之间的相似度满足第一预设相似度条件的各个第二标准特征子向量序列，包括：

7.根据权利要求1所述的方法，其特征在于，在所述第一标准特征子向量序列中第一标准特征子向量的数量与所述第二标准特征子向量序列中第二标准特征子向量的数量相同时，分别确定所述第一标准特征子向量序列向量与每个所述第二标准特征子向量序列之间的序列相似度，包括：

8.一种数据处理装置，其特征在于，包括：

第一处理模块：用于获取目标图像的目标特征向量，以及预存的各个备选图像各自的参考特征向量；根据预存的各个标准特征子向量，确定与所述目标特征向量之间的相似度满足第一预设相似度条件的第一标准特征子向量序列，以及，分别与各个参考特征向量之间的相似度满足第一预设相似度条件的各个第二标准特征子向量序列；其中，所述第一标准特征子向量序列是由各个标准特征子向量中的至少一个第一标准特征子向量组成；所述第二标准特征子向量序列是由各个标准特征子向量中的至少一个第二标准特征子向量组成；

第二处理模块：用于分别确定所述第一标准特征子向量序列与每个所述第二标准特征子向量序列之间的序列相似度；基于各个序列相似度，从所述各个备选图像中，选取与所述目标图像相似的备选图像。

9.一种计算机设备，其特征在于，包括：

存储器，用于存储程序指令；

处理器，用于调用所述存储器中存储的程序指令，按照获得的程序指令执行如权利要求1～7中任一项所述的方法。

10.一种存储介质，其特征在于，所述存储介质存储有计算机可执行指令，所述计算机可执行指令用于使计算机执行如权利要求1～7中任一项所述的方法。