CN110704708A

CN110704708A - 数据处理方法、装置、设备和存储介质

Info

Publication number: CN110704708A
Application number: CN201910927831.6A
Authority: CN
Inventors: 郭森辉; 徐静; 赵瑞
Original assignee: Shenzhen Sensetime Technology Co Ltd
Current assignee: Shenzhen Sensetime Technology Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2020-01-17
Anticipated expiration: 2039-09-27
Also published as: CN110704708B

Abstract

本申请提供一种数据处理方法、装置、设备和存储介质，通过多路待处理数据，其中，所述多路待处理数据中的每一路所述待处理数据包括至少一个数据特征；根据每一路所述待处理数据的每一个所述数据特征，确定所述多路待处理数据中的每两路所述待处理数据的至少一个所述数据特征的特征相似度，得到所述多路待处理数据中的每两路所述待处理数据的至少一个特征相似度；根据每两路所述待处理数据的每一个所述特征相似度，确定第一聚类结果，所述第一聚类结果用于描述各路所述待处理数据是否属于同一分类。

Description

数据处理方法、装置、设备和存储介质

技术领域

本申请涉及一种数据处理方法、装置、设备和存储介质。

背景技术

随着数据处理技术的迅速发展，其应用的广度和深度极大地影响着人类社会的发展。在面对数量庞大、内容各异，甚至形式可能不同的待处理数据时，我们有时需要识别大量的待处理数据是否属于同一分类以及包括具体什么分类。

相关技术中，通过比较所有待处理数据的相同类别的数据特征的相似度，来确定各路待处理数据是否属于同一分类。

然而，当不同路待处理数据不包含相同类别的数据特征时，则无法通过比较数据特征的相似度，来确定不同路待处理数据是否属于同一分类。

发明内容

本申请实施例提供一种数据处理技术方案。

第一方面，本申请实施例提供一种数据处理方法，包括：

获取多路待处理数据，其中，所述多路待处理数据中的每一路所述待处理数据包括至少一个数据特征；

根据每一路所述待处理数据的每一个所述数据特征，确定所述多路待处理数据中的每两路所述待处理数据的至少一个所述数据特征的特征相似度，得到所述多路待处理数据中的每两路所述待处理数据的至少一个特征相似度；

根据每两路所述待处理数据的每一个所述特征相似度，确定第一聚类结果，所述第一聚类结果用于表示所述多路待处理数据的聚类结果。

结合本申请一个或多个实施例，每一路所述待处理数据包括至少一个数据对象，每一个所述数据对象包括至少一个数据特征；根据每一路所述待处理数据的每一个所述数据特征，确定所述多路待处理数据中的每两路所述待处理数据的至少一个所述数据特征的特征相似度，包括：

根据每一路所述待处理数据的各数据对象，确定所述多路待处理数据中的每一路所述待处理数据的目标数据对象，其中，所述目标数据对象为需要进行聚类的数据对象；

根据每一路所述待处理数据的所述目标数据对象的每一个所述数据特征，确定所述多路待处理数据中的每两路所述待处理数据的所述目标数据对象的至少一个所述数据特征的特征相似度，得到所述多路待处理数据中的每两路所述待处理数据的所述目标数据对象的至少一个特征相似度。

结合本申请一个或多个实施例，根据每两路所述待处理数据的每一个所述特征相似度，确定第一聚类结果，包括：

根据每两路所述待处理数据的每一个所述特征相似度，确定每两路所述待处理数据的第二聚类结果，其中，所述第二聚类结果用于表示每两路所述待处理数据的聚类结果；

根据每两路所述待处理数据的第二聚类结果，确定所述第一聚类结果。

结合本申请一个或多个实施例，每一路所述待处理数据包括至少一个目标数据对象，其中，所述目标数据对象为需要进行属性识别的数据对象；

根据每两路所述待处理数据的每一个所述特征相似度，确定每两路所述待处理数据的第二聚类结果，包括：

根据每两路所述待处理数据的至少一个目标数据对象的每一个所述特征相似度，确定每两路所述待处理数据的至少一个目标数据对象的第二聚类结果；

根据每两路所述待处理数据的第二聚类结果，确定所述第一聚类结果，包括：

根据每两路所述待处理数据的至少一个目标数据对象的第二聚类结果，确定所述第一聚类结果。

结合本申请一个或多个实施例，所述第二聚类结果包括聚类结果可确定和聚类结果不可确定，所述聚类结果可确定包括属于同一分类和属于不同分类；根据每两路所述待处理数据的第二聚类结果，确定所述第一聚类结果，包括：

对于所述聚类结果不可确定的两路待处理数据，确定两个聚类结果可确定的数据对，其中，两个所述数据对中的一个数据对包括所述聚类结果不可确定的两路待处理数据中的一路待处理数据、一路其他的待处理数据，两个所述数据对中的另一个数据对包括所述聚类结果不可确定的两路待处理数据中的另一路待处理数据、所述一路其他的待处理数据；

根据两个所述数据对的第二聚类结果，确定所述聚类结果不可确定的两路待处理数据的第二聚类结果。

结合本申请一个或多个实施例，在根据每一路所述待处理数据的每一个所述数据特征，确定每两路所述待处理数据的至少一个所述数据特征的特征相似度之前，还包括：

将获取到的所述多路待处理数据划分为N个数据分组，其中，N为大于1的整数，每一个所述数据分组中包括至少两路所述待处理数据；

所述根据每一路所述待处理数据的每一个所述数据特征，确定每两路所述待处理数据的至少一个所述数据特征的特征相似度，包括：

根据每一个所述数据分组中的每一路所述待处理数据的每一个所述数据特征，确定每一个所述数据分组中的每两路所述待处理数据的至少一个所述数据特征的特征相似度；

所述根据每两路所述待处理数据的每一个所述特征相似度，确定第一聚类结果，包括：

根据每一个所述数据分组的每两路所述待处理数据的每一个所述特征相似度，确定每一个所述数据分组的第三聚类结果；

根据每一个所述数据分组的第三聚类结果，确定第一聚类结果。

结合本申请一个或多个实施例，任意两个相邻的所述数据分组中包括至少一路相同的待处理数据。

结合本申请一个或多个实施例，所述数据处理方法由神经网络执行。

第二方面，本申请实施例提供一种数据处理装置，包括：

获取单元，用于获取多路待处理数据，其中，所述多路待处理数据中的每一路所述待处理数据包括至少一个数据特征；

第一处理单元，用于根据每一路所述待处理数据的每一个所述数据特征，确定所述多路待处理数据中的每两路所述待处理数据的至少一个所述数据特征的特征相似度，得到所述多路待处理数据中的每两路所述待处理数据的至少一个特征相似度；

第二处理单元，用于根据每两路所述待处理数据的每一个所述特征相似度，确定第一聚类结果，所述第一聚类结果用于表示所述多路待处理数据的聚类结果。

结合本申请一个或多个实施例，每一路所述待处理数据包括至少一个数据对象，每一个所述数据对象包括至少一个数据特征；第一处理单元，包括：

第一处理子单元，用于根据每一路所述待处理数据的各数据对象，确定所述多路待处理数据中的每一路所述待处理数据的目标数据对象，其中，所述目标数据对象为需要进行聚类的数据对象；

第二处理子单元，用于根据每一路所述待处理数据的所述目标数据对象的每一个所述数据特征，确定所述多路待处理数据中的每两路所述待处理数据的所述目标数据对象的至少一个所述数据特征的特征相似度，得到所述多路待处理数据中的每两路所述待处理数据的所述目标数据对象的至少一个特征相似度。

结合本申请一个或多个实施例，第二处理单元，包括：

第三处理子单元，用于根据每两路所述待处理数据的每一个所述特征相似度，确定每两路所述待处理数据的第二聚类结果，其中，所述第二聚类结果用于表示每两路所述待处理数据的聚类结果；

第四处理子单元，用于根据每两路所述待处理数据的第二聚类结果，确定所述第一聚类结果。

第三处理子单元，包括：

第一处理模块，用于根据每两路所述待处理数据的至少一个目标数据对象的每一个所述特征相似度，确定每两路所述待处理数据的至少一个目标数据对象的第二聚类结果；

第四处理子单元，包括：

第二处理模块，用于根据每两路所述待处理数据的至少一个目标数据对象的第二聚类结果，确定所述第一聚类结果。

结合本申请一个或多个实施例，所述第二聚类结果包括聚类结果可确定和聚类结果不可确定，所述聚类结果可确定包括属于同一分类和属于不同分类；第二处理子单元，包括：

第三处理模块，对于所述聚类结果不可确定的两路待处理数据，用于确定两个聚类结果可确定的数据对，其中，两个所述数据对中的一个数据对包括所述聚类结果不可确定的两路待处理数据中的一路待处理数据、一路其他的待处理数据，两个所述数据对中的另一个数据对包括所述聚类结果不可确定的两路待处理数据中的另一路待处理数据、所述一路其他的待处理数据；

第四处理模块，用于根据两个所述数据对的第二聚类结果，确定所述聚类结果不可确定的两路待处理数据的第二聚类结果。

结合本申请一个或多个实施例，所述装置，还包括：

第三处理单元，用于将获取到的所述多路待处理数据划分为N个数据分组，其中，N为大于1的整数，每一个所述数据分组中包括至少两路所述待处理数据；

第一处理单元，还包括：

第五处理子单元，用于根据每一个所述数据分组中的每一路所述待处理数据的每一个所述数据特征，确定每一个所述数据分组中的每两路所述待处理数据的至少一个所述数据特征的特征相似度；

第二处理单元，还包括：

第六处理子单元，用于根据每一个所述数据分组的每两路所述待处理数据的每一个所述特征相似度，确定每一个所述数据分组的第三聚类结果；

第七处理子单元，用于根据每一个所述数据分组的第三聚类结果，确定第一聚类结果。

第三方面，本申请实施例提供一种数据处理设备，包括：发送器、接收器、存储器和处理器；

所述存储器用于存储计算机指令；所述处理器用于运行所述存储器存储的所述计算机指令实现第一方面任一实现方式提供的数据处理方法。

第四方面，本申请实施例提供一种存储介质，包括：可读存储介质和计算机指令，所述计算机指令存储在所述可读存储介质中；所述计算机指令用于实现第一方面任一实现方式提供的数据处理方法。

本申请提供一种数据处理方法、装置、设备和存储介质，其中，方法包括：获取多路待处理数据，其中，每一路待处理数据包括至少一个数据特征；根据每一路待处理数据的每一个数据特征，确定每两路待处理数据的至少一个数据特征的特征相似度；根据每两路待处理数据的每一个特征相似度，确定第一聚类结果，第一聚类结果用于描述各路待处理数据是否属于同一分类。根据每两路待处理数据的特征相似度，确定各路待处理数据是否属于同一分类，相比于相关技术中的通过确定所有待处理数据的相同类别的数据特征之间的相似度，来确定各路待处理数据是否属于同一分类，本方案在进行多路待处理数据的聚类处理时，不要求所有待处理数据具有相同类别的数据特征，实现了包含不同类别数据特征的多路待处理数据的聚类处理，有效提高了数据聚类的适用范围。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1为本申请实施例提供的一种数据处理方法的流程示意图；

图2为本申请实施例提供的又一种数据处理方法的流程示意图；

图2a为本申请实施例提供的数据分类的适用场景示例图；

图3为本申请实施例提供的一种数据处理装置的结构示意图；

图4为本申请实施例提供的又一种数据处理装置的结构示意图；

图5为本申请实施例提供的又一种数据处理系统的结构示意图。

通过上述附图，已示出本公开明确的实施例，后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围，而是通过参考特定实施例为本领域技术人员说明本公开的概念。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本申请涉及的名词解释：

数据对象：任何数据结构元素，如数据内容、数据变量等都可以是数据对象。

数据特征：数据的一般特性或特征的汇总，数据特征的划分可以因数据处理目的的不同而不同。

Filter式特征选择：使用评价准则来使特征与类别间的相关性最大，特征间的相关性最小的特征选择方法，该方法可以很快地排除掉很多不相关的噪声特征，缩小优化特征子集搜索的规模，计算效率高，通用性好，可用作特征的预筛选器。

Wrapper式特征选择：根据选择子集最终被用于的构造分类模型，把特征选择算法作为学习算法的一个组成部分，直接使用训练结果的准确率作为特征重要性程度的评价标准。

Embedded式特征选择：利用Filter式特征选择方法初步去掉无关或噪声特征，只保留少量特征，减少后续搜索规模，然后利用Wrapper式特征选择方法进一步优化，选择分类准确率最高的特征子集。

邻接矩阵：Adjacency Matrix，用于表示顶点之间的相邻关系的矩阵。

激活函数：在人工神经网络的神经元上运行的函数，负责将神经元的输入映射到输出端，引入激活函数是为了增加神经网络模型的非线性。

本申请具体的应用场景为：随着数据处理技术的迅速发展，其应用的广度和深度极大地影响着人类社会的发展。在面对数量庞大、内容各异，甚至形式可能不同的待处理数据时，我们有时需要识别大量的待处理数据是否属于同一分类以及包括具体什么分类。例如，智能视频分析领域，通过采用视频算法对视频内容进行分析，通过提取视频中的关键信息，确定视频数据中包含的视频对象，形成相应事件确认和告警的监控方式，智能视频分析的应用形式包括安防监控、车牌识别、车型统计计数等；安防领域，公安部门根据采集到的目标人的视频数据，将目标人的视频数据进行聚类，以确定目标人的行为轨迹；内容匹配领域，用户在输入一段文字或一张图片后，为用户匹配出与输入内容对应的其他格式的内容。

相关技术中，通过比较所有待处理数据的相同类别的数据特征的相似度，来确定各路待处理数据是否属于同一分类。然而，当不同路待处理数据不包含相同类别的数据特征时，则无法通过比较数据特征的相似度，来确定不同路待处理数据是否属于同一分类。

本申请提供的数据处理方法、装置、设备和存储介质，旨在解决现有技术中的如上技术问题。

图1为本申请实施例提供的一种数据处理方法的流程示意图，如图1所示，该方法包括：

步骤101、获取多路待处理数据，其中，多路待处理数据中的每一路待处理数据包括至少一个数据特征。

在本实施例中，具体的，本实施例的执行主体为终端、或者控制器、或者其他可以执行本实施例的装置或设备。本实施例以执行主体为终端进行说明，可以在终端中设置应用软件，以执行本实施例提供的方法。

获取多路待处理数据，待处理数据为需要识别属于是否同一分类的数据。获取的多路待处理数据的数据内容可能不同，数据格式也可能不同。在判断数据内容不同、数据格式不同的多路待处理数据是否属于同一分类时，需要利用各路待处理数据的数据特征进行判断。提取出的某一路待处理数据的数据特征，可以用于表征该路待处理数据。每一路待处理数据包括至少一个数据特征，不同待处理数据之间可能存在相同类别的数据特征，也可能存在不同类别的数据特征。其中，提取的某一路待处理数据的数据特征，是根据该路待处理数据的数据内容、数据格式和根据数据处理的目的决定的。提取待处理数据的数据特征的方法可采用基于全局寻优的分支定界法、基于启发式搜索方法、随机搜索方法、Filter式特征选择方法、Wrapper式特征选择方法、Embedded式特征选择方法等方法来实现。

示例性的，获取的多路待处理数据为15帧监控图像，15帧监控图像的数据格式相同，数据内容不同，数据处理的目的是需要识别15帧监控图像的人物是否为同一个人。每一帧监控图像包括时间特征、地点特征、人脸特征、身体特征等至少一个数据特征。

或者，获取的多路待处理数据包括至少一路文本数据和至少一路图像数据，文本数据与图像数据的数据内容不同、数据格式也不同。文本数据可能包括时间特征、地点特征、事件特征、人物特征等至少一个数据特征，图像数据可能包括时间特征、地点特征、人物特征、其他图像内容特征等至少一个数据特征。

步骤102、根据每一路待处理数据的每一个数据特征，确定多路待处理数据中的每两路待处理数据的至少一个数据特征的特征相似度，得到多路待处理数据中的每两路待处理数据的至少一个特征相似度。

在本实施例中，具体的，获取到的每一路待处理数据包括至少一个数据特征，根据每一路待处理数据的每一个数据特征，确定每两路待处理数据的至少一个数据特征之间的相似度，构成每两路待处理数据的至少一个特征相似度。不同类别的特征相似度的量度可能不同，因此，不同类别的特征相似度不能直接进行比较。

示例性的，获取的某两路待处理数据均包括时间特征，可以利用时间特征的差值来表示特征相似度；同时该两路待处理数据还均包括人脸特征，利用该两路待处理数据的人脸特征在欧式空间中的距离来表示特征相似度。特征相似度越小，表示数据特征越相近，时间特征的特征相似度为60s，人脸特征的特征相似度为0.1，该两种类别的特征相似度的量度不同，因此不能直接比较该两种类别的特征相似度的大小。

步骤103、根据每两路待处理数据的每一个特征相似度，确定第一聚类结果，第一聚类结果用于表示多路待处理数据的聚类结果。

在本实施例中，具体的，每一路待处理数据包括至少一个数据特征，不同路待处理数据的数据特征的类别可能相同，也可能不同，相同类别的数据特征之间具有特征相似度，不同类别的数据特征之间的特征相似度为零，所以，每两路待处理数据的特征相似度可能全部为零，也可能包括一个或者多个非零特征相似度。根据每两路待处理数据的每一个特征相似度，确定出所有待处理数据的第一聚类结果，第一聚类结果描述了多路待处理数据的聚类结果，具体的，描述了各路待处理数据是否属于同一分类，因此，也可根据第一聚类结果确定各路待处理数据中共包括多少分类。

示例性的，获取的多路待处理数据为15帧监控图像，每一帧监控图像中包括至少一个数据特征，比如，第1帧监控图像包括人脸特征，第2帧监控图像包括身体特征，第3帧监控图像包括人脸特征和身体特征，等等。15帧监控图像中的每两帧监控图像可能不存在特征相似度，也可能存在一个或者多个特征相似度，例如，第1、2帧监控图像不存在特征相似度，第1、3帧监控图像存在一个人脸特征的特征相似度，第2、3帧监控图像存在一个身体特征的特征相似度。根据15帧监控图像中的每两帧监控图像的每一个特征相似度，确定15帧监控图像的第一聚类结果，第一聚类结果描述了15帧监控图像中哪几帧监控图像中的人为同一个人，以及15帧监控图像中共存在几个人。

本实施例通过获取多路待处理数据，其中，每一路待处理数据包括至少一个数据特征；根据每一路待处理数据的每一个数据特征，确定每两路待处理数据的至少一个数据特征的特征相似度；根据每两路待处理数据的每一个特征相似度，确定第一聚类结果，第一聚类结果用于描述各路待处理数据是否属于同一分类。根据每两路待处理数据的特征相似度，确定各路待处理数据是否属于同一分类，相比于相关技术中的通过确定所有待处理数据的相同类别的数据特征之间的相似度，来确定各路待处理数据是否属于同一分类，本实施例在进行多路待处理数据的聚类处理时，不要求所有待处理数据具有相同类别的数据特征，实现了包含不同类别数据特征的多路待处理数据的聚类处理，有效提高了数据分类的适用范围，同时，数据聚类的准确性也得以提升，有利于发掘出待处理数据的更多数据规律。

图2为本申请实施例提供的又一种数据处理方法的流程示意图，如图2所示，该方法包括：

步骤201、获取多路待处理数据，其中，多路待处理数据中的每一路待处理数据包括至少一个数据特征。

在本实施例中，具体的，获取到的每一路待处理数据中可能包括多个数据对象，根据数据处理的处理目标，在多个数据对象中，利用粗聚类方法确定出一个或者多个目标数据对象，用目标数据对象来表征整个待处理数据。在后续的数据特征相似度分析、数据相似度确定、数据属性识别等步骤中，以目标数据对象为分析对象，待处理数据中的其他数据对象则不再考虑。粗聚类方法可采用现有方法实现，在此本申请不做赘述。

示例性的，采集到多帧监控图像，每一帧监控图像中包括人、车、植物、动物四种数据对象，数据处理的处理目标是确定出哪几帧监控图像中的人物为同一个人，因此，确定“人”这一数据对象为目标数据对象，后续的数据处理步骤中只分析确定出“人”这一目标数据对象。假设某帧监控图像中出现了两个人，则该帧监控图像中包含两个目标数据对象。

再示例性的，图2a为本申请实施例提供的数据分类适用示例图，用户输入“今天带着我的狗去骑自行车了”，在进行该段文字的图片匹配时，确定图片中的动物和交通工具为目标数据对象，确定同时包含狗和自行车的图片为与该段文字属于同一分类的图片。

通过确定每一路待处理数据的目标数据对象，并在后续步骤中根据每一路待处理数据的目标数据对象的数据特征，确定多路待处理数据的第一聚类结果，这可以有效减小数据聚类的工作量，有利于提高数据聚类的处理效率，同时，有利于提高数据聚类的准确性。

步骤202、根据每一路待处理数据的每一个数据特征，确定多路待处理数据中的每两路待处理数据的至少一个数据特征的特征相似度，得到多路待处理数据中的每两路待处理数据的至少一个特征相似度。

在本实施例中，具体的，每一路待处理数据的每一个目标数据对象包括至少一个数据特征，计算出每两个目标数据对象的至少一个数据特征的特征相似度。获取到的多路待处理数据,共包括N个目标数据对象，N为大于1的整数，利用矩阵(C*N*N)表示N个目标数据对象中的每两个目标数据对象之间的特征相似度，其中，C表示特征相似度的维度，假设N个目标数据对象共有m个类别的数据特征，则C共有m个维度的特征相似度。利用(c,i,j)表示第i个目标数据对象和第j个目标数据对象在第c维度上的特征相似度。对于相同类别的数据特征，可确定出不同目标数据对象的该类别数据特征之间的特征相似度，对于不同类别的数据特征，无法直接确定出不同目标数据对象的该类别数据特征之间的特征相似度，此时，(c,i,j)赋值为0。每两个目标数据对象的每一个特征相似度构成的矩阵(C*N*N)，即为获取到的多路待处理数据的相似度矩阵。

步骤203、根据每两路待处理数据的每一个特征相似度，确定每两路待处理数据的第二聚类结果，其中，第二聚类结果为每两路待处理数据的聚类结果。

在本实施例中，具体的，将获取的多路待处理数据的相似度矩阵(C*N*N)作为输入数据输入至神经网络模型中，得到用于表征多路待处理数据中的每两路待处理数据的第二聚类结果的邻接矩阵。可选的，将多路待处理数据的相似度矩阵(C*N*N)输入至编码-解码神经网络中，利用编码-解码神经网络中的编码网络提取相似度矩阵(C*N*N)的有效信息，有效信息包括非零特征相似度的分布区域，和不同目标数据对象之间的关联关系，其中，不同目标数据对象之间的关联关系即为任意一个非0的(c,i,j)和不同(c,i,j)之间的关联关系。示例性的，元素(face,1,3)＝0.2和元素(face,2,3)＝0.25之间具有关联关系，该两个元素中包括共同的目标数据对象3，由于(face,1,3)和(face,2,3)为非零元素，因此，(face,1,3)、(face,2,3)以及(face,1,3)、(face,2,3)之间的关联关系，构成了相似度矩阵(C*N*N)的部分有效信息。

然后，利用编码-解码神经网络中的编码网络对相似度矩阵(C*N*N)的有效信息进行编码处理，得到相似度矩阵(C*N*N)的特征图，特征图为非人类可读数据。利用编码-解码神经网络中的解码网络对特征图进行解码处理，得到用于表征多路待处理数据中的每两路待处理数据的第二聚类结果的邻接矩阵，具体的，然后结合激活函数，对相似度矩阵(C*N*N)的特征图进行若干次的卷积处理和若干次池化处理，然后进行多次全连接处理，得到邻接矩阵(N*N)，邻接矩阵(N*N)描述了任意两个目标数据对象的属性识别结果，其中，(i,j)＝1表示第i个目标数据对象和第j个目标数据对象属于同一分类，(i,j)＝0表示第i个目标数据对象和第j个目标数据对象不属于同一分类，(i,j)＝NOR表示无法确定第i个目标数据对象和第j个目标数据对象是否属于同一分类，(N*N)构成每两路待处理数据的目标数据对象的第二聚类结果。编码-解码神经网络为本领域内的通用网络模型，可利用包含多种类别数据特征的样本数据训练得到，编码-解码神经网络的训练过程为标准神经网络的训练过程，本申请在此不做赘述。

利用每两路待处理数据的目标数据对象的每一个特征相似度，确定出每两路待处理数据的目标数据对象的第二聚类结果。在确定第二聚类结果时，仅要求进行属性识别的两路待处理数据的目标数据对象具有至少一个相同类别的数据特征，不限制所有待处理数据的目标数据对象均具有相同类别数据特征，特征相似度比较具有灵活性和多样性，能够有效扩大数据聚类的适用范围，也能够明显提高数据聚类的准确性。

步骤204、根据每两路待处理数据的第二聚类结果，确定第一聚类结果。

在本实施例中，具体的，第二聚类结果包括聚类结果可确定和聚类结果不可确定，聚类结果可确定包括属于同一分类和属于不同分类，聚类结果不可确定表示无法确定两个目标数据对象是否为同一分类。第二聚类结果是根据每两个目标数据对象的每一个特征相似度确定的，具有相同类别数据特征的任意两个目标数据对象，对应的第二聚类结果可确定，不具有相同类别数据特征的任意两个目标数据对象，对应的第二聚类结果不可确定，即无法确定不包含相同类别的数据特征的任意两个目标数据对象是否属于同一分类。

根据每两路待处理数据的第二聚类结果，确定第一聚类结果，包括：对于聚类结果不可确定的两路待处理数据，确定任意两个聚类结果可确定的数据对，其中，两个数据对中的一个数据对包括聚类结果不可确定的两路待处理数据中的一路待处理数据、一路其他的待处理数据，两个数据对中的另一个数据对包括聚类结果不可确定的两路待处理数据中的另一路待处理数据、上述一路其他的待处理数据；根据两个数据对的第二聚类结果，确定聚类结果不可确定的两路待处理数据的第二聚类结果。当任意两路待处理数据不包含相同类别的数据特征时，该任意两路待处理数据的特征相似度均为零，此时无法根据该任意两路待处理数据的特征相似度，确定其是否属于同一分类，该任意两路待处理数据的第二聚类结果为聚类结果不可确定。对于聚类结果不可确定的任意两路待处理数据，利用分别包含该任意两路待处理数据中的一路待处理数据，且同时包含相同一路待处理数据的聚类结果可确定的两个数据对，来再次确定任意两路待处理数据的第二聚类结果，实现了对不包含相同类别数据特征的待处理数据的聚类处理，有效扩大了数据聚类的适用范围，有效降低了数据聚类对数据内容和数据格式的要求，实现了对异质数据的聚类处理。

当某两个目标数据对象不包含相同类别的数据特征，无法确定出该两个目标数据对象是否属于同一分类，此时可以利用其他目标数据对象的第二聚类结果的传递性，来确定该两个目标数据对象的第二聚类结果。第二聚类结果的传递性体现在若A和B聚类结果可确定，C和B聚类结果可确定，即使A与C不包含相同类别的数据特征，仍可确定出A和C是否属于同一分类，A和C聚类结果可确定的第二聚类结果不是根据的A和C的特征相似度确定的，而是利用其他两个目标数据对象的第二聚类结果确定的，A和C的第二聚类结果由聚类结果不可确定变成了聚类结果可确定，同时，聚类结果可确定的A和C，也可用于确定其他聚类结果不可确定的两个目标数据对象的第二聚类结果，由此，不包含相同类别数据特征的两个目标数据对象也可能是聚类结果可确定。利用第二聚类结果的传递性，进行第二聚类结果的优化，通过进一步确定每两个目标数据对象的分类情况，得到第一聚类结果，第一聚类结果描述了多路待处理数据的目标数据对象是否属于同一分类，进而也能根据第一聚类结果，确定出哪些目标数据对象属于同一分类，和多路待处理数据中共包括多少类别的目标数据对象。

示例性的，获取的多路待处理数据为15帧监控图像，每一帧监控图像均包括一个目标数据对象“人”，根据每两个目标数据对象的每一个特征相似度，得到每两个目标数据对象的第二聚类结果。由于第1帧监控图像只拍到了人物探出头动作的脸部照片，因此第1帧监控图像仅包括人脸特征；第2帧监控图像拍到了人物的背影照片，因此第2帧监控图像仅包括身体特征，由于第1、2帧监控图像不包含相同类别的数据特征，因此第1、2帧监控图像的目标数据对象的第二聚类结果为聚类结果不可确定。确定任意两个聚类结果可确定的监控图像对，其中一个监控图像对包括第1帧监控图像和其他任意一帧监控图像，其中另一个监控图像对包括第2帧监控图像和上述其他任意一帧监控图像，即两个聚类结果可确定的监控图像对包括相同帧的监控图像。利用两个聚类结果可确定的监控图像对的第二聚类结果的传递性，确定第1、2帧监控图像的目标数据对象是否属于同一分类，确定第1、2帧监控图像由聚类结果不可确定变成了聚类结果可确定。若不存在满足上述条件的任意两个聚类结果可确定的监控图像对，则第1、2帧监控图像的第二聚类结果只能是聚类结果不可确定。如果利用不同监控图像对确定出的第1、2帧监控图像的第二聚类结果不同时，取占比数超过半数的识别结果为正确的第二聚类结果。

可选的，本实施例还包括：将获取到的多路待处理数据划分为N个数据分组，其中，N为大于1的整数，每一个数据分组中包括至少两路待处理数据，任意两个相邻的数据分组中包括至少一路相同的待处理数据；然后，根据每一个数据分组中的每一路待处理数据的每一个数据特征，确定每一个数据分组中的每两路待处理数据的至少一个数据特征的特征相似度；根据每一个数据分组的每两路待处理数据的每一个特征相似度，确定每一个数据分组的第三聚类结果；根据每一个数据分组的第三聚类结果，确定第一聚类结果。

对获取到的多路待处理数据进行分组处理，分别确定每一个数据分组的第三聚类结果，可以明显减小数据处理的工作量，有利于保证数据分类结果的准确性。由于任意两个相邻的数据分组中包括至少一路相同的待处理数据，因此任意两个相邻的数据分组的第三聚类结果仍然是可以相互传递的，可以利用不同数据分组的第三聚类结果的传递性，实现第三聚类结果的进一步优化，然后结合各个数据分组优化后的第三聚类结果，得到第一聚类结果。由于本实施例中不要求所有待处理数据均包括相同类别的数据特征，因此，可能存在待处理数据之间不包括相同类别的数据特征，该部分待处理数据是无法直接进行相似度比较的异质数据，本实施例实现了对异质数据的聚类。

本实施例通过获取多路待处理数据，其中，每一路待处理数据包括至少一个数据特征；根据每一路待处理数据的每一个数据特征，确定每两路待处理数据的至少一个数据特征的特征相似度；根据每两路待处理数据的每一个特征相似度，确定每两路待处理数据的第二聚类结果；根据每两路待处理数据的第二聚类结果，确定第一聚类结果。利用每两路待处理数据的至少一个特征相似度，确定出对应每两路待处理数据的第二聚类结果，当某两路待处理数据具有至少一个相同类别的数据特征时，该两路待处理数据即是聚类结果可确定的，数据分类过程中不要求所有待处理数据均具有相同类别的数据特征，这能够有效提高数据分类的适用范围；在确定第一聚类结果时，利用到了每两路待处理数据的第二聚类结果，由于第二聚类结果具有传递性，这实现了不具有相同类别数据特征的待处理数据间的属性识别结果确定，有效改善了数据分类的适用范围，大大降低了数据聚类过程对数据内容和数据格式的要求；利用第二聚类结果的传递性，能够对数据聚类结果进行自检和纠正，有利于提高数据聚类的准确性。

图3为本申请实施例提供的一种数据处理装置的结构示意图，如图3所示，该装置包括：

获取单元1，用于获取多路待处理数据，其中，多路待处理数据中的每一路待处理数据包括至少一个数据特征；

第一处理单元2，用于根据每一路待处理数据的每一个数据特征，确定多路待处理数据中的每两路待处理数据的至少一个数据特征的特征相似度，得到多路待处理数据中的每两路待处理数据的至少一个特征相似度；

第二处理单元3，用于根据每两路待处理数据的每一个特征相似度，确定第一聚类结果，第一聚类结果用于表示多路待处理数据的聚类结果。

本实施例通过获取多路待处理数据，其中，每一路待处理数据包括至少一个数据特征；根据每一路待处理数据的每一个数据特征，确定每两路待处理数据的至少一个数据特征的特征相似度；根据每两路待处理数据的每一个特征相似度，确定第一聚类结果，第一聚类结果用于描述各路待处理数据是否属于同一分类。根据每两路待处理数据的特征相似度，确定各路待处理数据是否属于同一分类，相比于相关技术中的通过确定所有待处理数据的相同类别的数据特征之间的相似度，来确定各路待处理数据是否属于同一分类，本实施例在进行多路待处理数据的聚类处理时，不要求所有待处理数据具有相同类别的数据特征，实现了对包含不同类别数据特征的多路待处理数据的聚类处理，有效提高了数据聚类的适用范围，同时，数据聚类的准确性也得以提升，有利于发掘出待处理数据的更多数据规律。

图4为本申请实施例提供的又一种数据处理装置的结构示意图，在图3的基础上，如图4所示，

每一路待处理数据包括至少一个数据对象，每一个数据对象包括至少一个数据特征；第一处理单元2，包括：

第一处理子单元21，用于根据每一路待处理数据的各数据对象，确定多路待处理数据中的每一路待处理数据的目标数据对象，其中，目标数据对象为需要进行属性识别的数据对象；

第二处理子单元22，用于根据每一路待处理数据的目标数据对象的每一个数据特征，确定多路待处理数据中的每两路待处理数据的目标数据对象的至少一个数据特征的特征相似度，得到多路待处理数据中的每两路待处理数据的目标数据对象的至少一个特征相似度。

第二处理单元3，包括：

第三处理子单元31，用于根据每两路待处理数据的每一个特征相似度，确定每两路待处理数据的第二聚类结果；

第四处理子单元32，用于根据每两路待处理数据的第二聚类结果，确定第一聚类结果。

每一路待处理数据包括至少一个目标数据对象，其中，目标数据对象为需要进行属性识别的数据对象；

第三处理子单元31，包括：

第一处理模块311，用于根据每两路待处理数据的至少一个目标数据对象的每一个特征相似度，确定每两路待处理数据的至少一个目标数据对象的第二聚类结果；

第四处理子单元32，包括：

第二处理模块321，用于根据每两路待处理数据的至少一个目标数据对象的第二聚类结果，确定第一聚类结果。

第二聚类结果包括聚类结果可确定和聚类结果不可确定，聚类结果可确定包括属于同一分类和属于不同分类；第二处理子单元32，包括：

第三处理模块322，对于聚类结果不可确定的两路待处理数据，用于确定两个聚类结果可确定的数据对，其中，两个数据对中的一个数据对包括聚类结果不可确定的两路待处理数据中的一路待处理数据、一路其他的待处理数据，两个数据对中的另一个数据对包括聚类结果不可确定的两路待处理数据中的另一路待处理数据、一路其他的待处理数据；

第四处理模块323，用于根据两个数据对的第二聚类结果，确定聚类结果不可确定的两路待处理数据的第二聚类结果。

本装置，还包括：

第三处理单元4，用于将获取到的多路待处理数据划分为N个数据分组，其中，N为大于1的整数，每一个数据分组中包括至少两路待处理数据；

第一处理单元2，还包括：

第五处理子单元23，用于根据每一个数据分组中的每一路待处理数据的每一个数据特征，确定每一个数据分组中的每两路待处理数据的至少一个数据特征的特征相似度；

第二处理单元3，还包括：

第六处理子单元33，用于根据每一个数据分组的每两路待处理数据的每一个特征相似度，确定每一个数据分组的第三聚类结果；

第七处理子单元34，用于根据每一个数据分组的第三聚类结果，确定第一聚类结果。

任意两个相邻的数据分组中包括至少一路相同的待处理数据。

本装置，还包括：

第四处理单元4，用于对属于同一分类的至少一路待处理数据进行聚类处理。

本实施例通过获取多路待处理数据，其中，每一路待处理数据包括至少一个数据特征；根据每一路待处理数据的每一个数据特征，确定每两路待处理数据的至少一个数据特征的特征相似度；根据每两路待处理数据的每一个特征相似度，确定每两路待处理数据的第二聚类结果；根据每两路待处理数据的第二聚类结果，确定第一聚类结果。利用每两路待处理数据的至少一个特征相似度，确定出对应每两路待处理数据的第二聚类结果，当某两路待处理数据具有至少一个相同类别的数据特征时，该两路待处理数据即是聚类结果可确定的，数据分类过程中不要求所有待处理数据均具有相同类别的数据特征，这能够有效提高数据分类的适用范围；在确定第一聚类结果时，利用到了每两路待处理数据的第二聚类结果，由于第二聚类结果具有传递性，这实现了不具有相同类别数据特征的待处理数据间的属性识别结果确定，有效改善了数据聚类的适用范围，大大降低了数据聚类过程对数据内容和数据格式的要求；利用第二聚类结果的传递性，能够对数据聚类结果进行自检和纠正，有利于提高数据分类的准确性。

图5为本申请实施例提供的一种数据处理设备的结构示意图，如图5所示，本申请实施例提供了一种数据处理设备，可以用于执行图1-图2所示实施例中数据处理动作或步骤，具体包括：处理器501，存储器502和通信接口503。

存储器502，用于存储计算机程序。

处理器501，用于执行存储器502中存储的计算机程序，以实现图1-图4所示实施例中数据处理的动作，不再赘述。

可选的，数据处理设备还可以包括总线504。其中，处理器501、存储器502以及通信接口503可以通过总线504相互连接；总线504可以是外设部件互连标准(PeripheralComponent Interconnect，简称PCI)总线或扩展工业标准结构(Extended IndustryStandard Architecture，简称EISA)总线等。上述总线504可以分为地址总线、数据总线和控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

在本申请实施例中，上述各实施例之间可以相互参考和借鉴，相同或相似的步骤以及名词均不再一一赘述。

或者，以上各个模块的部分或全部也可以通过集成电路的形式内嵌于该多传感器数据的播放设备的某一个芯片上来实现。且它们可以单独实现，也可以集成在一起。即以上这些模块可以被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(Digital Singnal Processor，简称DSP)，或，一个或者多个现场可编程门阵列(FieldProgrammable Gate Array，简称FPGA)。

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行以实现上述处理方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时，全部或部分地产生按照本申请实施例的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，计算机指令可以从一个网站站点、计算机、问答处理设备或数据中心通过有线(例如，同轴电缆、光纤、数字用户线(digitalsubscriber line，DSL))或无线(例如，红外、无线、微波等)方式向另一个网站站点、计算机、问答处理设备或数据中心进行传输。计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的问答处理设备、数据中心等数据存储设备。可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如，固态硬盘(solid state disk，SSD))等。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本申请实施例描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本发明旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求书指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求书来限制。

Claims

1.一种数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，每一路所述待处理数据包括至少一个数据对象，每一个所述数据对象包括至少一个数据特征；根据每一路所述待处理数据的每一个所述数据特征，确定所述多路待处理数据中的每两路所述待处理数据的至少一个所述数据特征的特征相似度，包括：

3.根据权利要求1所述的方法，其特征在于，根据每两路所述待处理数据的每一个所述特征相似度，确定第一聚类结果，包括：

4.根据权利要求3所述的方法，其特征在于，每一路所述待处理数据包括至少一个目标数据对象，其中，所述目标数据对象为需要进行属性识别的数据对象；

5.根据权利要求3所述的方法，其特征在于，所述第二聚类结果包括聚类结果可确定和聚类结果不可确定，所述聚类结果可确定包括属于同一分类和属于不同分类；根据每两路所述待处理数据的第二聚类结果，确定所述第一聚类结果，包括：

6.根据权利要求1所述的方法，其特征在于，在根据每一路所述待处理数据的每一个所述数据特征，确定每两路所述待处理数据的至少一个所述数据特征的特征相似度之前，还包括：

7.根据权利要求6所述的方法，其特征在于，任意两个相邻的所述数据分组中包括至少一路相同的待处理数据。

8.一种数据处理装置，其特征在于，包括：

9.一种数据处理设备，其特征在于，包括：处理器、存储器以及计算机程序；

其中，计算机程序存储在存储器中，并被配置为由处理器执行以实现如权利要求1-7任一项的方法。

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，计算机程序被处理器执行以实现如权利要求1-7任一项的方法。