CN111339210B

CN111339210B - 数据聚类方法及装置

Info

Publication number: CN111339210B
Application number: CN201811555326.5A
Authority: CN
Inventors: 董明; 张庆强; 黄伟
Original assignee: Hangzhou Hikvision Digital Technology Co Ltd
Current assignee: Hangzhou Hikvision Digital Technology Co Ltd
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2023-04-28
Anticipated expiration: 2038-12-18
Also published as: WO2020125689A1; CN111339210A

Abstract

本发明提供一种数据聚类方法及装置。本发明实施例中，通过采集第一数据，将采集的第一数据与基准库中的基准数据进行比对，若第一数据未命中基准库中的任一基准数据，则将第一数据与缓存区中缓存的数据进行比对，若第一数据命中缓存区中缓存的第二数据，则将第一数据聚类至第二数据所属的分类中，若第一数据未命中缓存区中缓存的任一数据，将第一数据缓存至缓存区，使得采集数据能够与尚未存储到基准库中的未命中数据进行比对，避免了应该聚类在一个分类中的相同类的数据被聚类成多个分类，因此不需要耗费大量的计算资源和时间进行数据碰撞处理，节省了资源和时间。

Description

数据聚类方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种数据聚类方法及装置。

背景技术

数据聚类是一种数据分析技术，广泛应用于机器学习、数据挖掘等许多领域。数据聚类中通常涉及到两个数据库。其中，一个数据库存储用于与待聚类的数据进行比对的基准数据，该数据库称为基准库。另一个数据库存储已经聚类好的数据，该数据库称为大数据库。

相关技术中，将待聚类的数据与基准库中的基准数据进行比对后，命中的数据聚类后存储到大数据库中，未命中的数据更新到基准库中。这种技术中，将未命中的数据更新到基准库中需要一定的时间，在这段时间内，未命中的数据不能作为基准数据与新到的数据进行比对，这样造成本应该聚类在一个分类中的相同类的数据，被聚类成多个分类。后期需要进行大量的数据碰撞处理，将属于相同类的多个分类再聚类到一个分类中，这会消耗大量的计算资源和时间，导致资源的浪费。

发明内容

为克服相关技术中存在的问题，本发明提供了一种数据聚类方法及装置。

根据本发明实施例的第一方面，提供一种数据聚类方法，所述方法包括：

采集第一数据；

将采集的所述第一数据与基准库中的基准数据进行比对；

若所述第一数据未命中所述基准库中的任一基准数据，则将所述第一数据与缓存区中缓存的数据进行比对；

若所述第一数据命中所述缓存区中缓存的第二数据，则将所述第一数据聚类至所述第二数据所属的分类中，若所述第一数据未命中所述缓存区中缓存的任一数据，将所述第一数据缓存至所述缓存区。

根据本发明实施例的第二方面，提供一种数据聚类装置，所述装置包括：

采集模块，用于采集第一数据；

第一比对模块，用于将采集的所述第一数据与基准库中的基准数据进行比对；

第二比对模块，用于若所述第一数据未命中所述基准库中的任一基准数据，则将所述第一数据与缓存区中缓存的数据进行比对；

处理模块，用于若所述第一数据命中所述缓存区中缓存的第二数据，则将所述第一数据聚类至所述第二数据所属的分类中，若所述第一数据未命中所述缓存区中缓存的任一数据，将所述第一数据缓存至所述缓存区。

本发明的实施例提供的技术方案可以包括以下有益效果：

本发明实施例中，通过采集第一数据，将采集的第一数据与基准库中的基准数据进行比对，若第一数据未命中基准库中的任一基准数据，则将第一数据与缓存区中缓存的数据进行比对，若第一数据命中缓存区中缓存的第二数据，则将第一数据聚类至第二数据所属的分类中，若第一数据未命中缓存区中缓存的任一数据，将第一数据缓存至缓存区，使得采集数据能够与尚未存储到基准库中的未命中数据进行比对，避免了应该聚类在一个分类中的相同类的数据被聚类成多个分类，因此不需要耗费大量的计算资源和时间进行数据碰撞处理，节省了资源和时间。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。

附图说明

此处的附图被并入说明书中并构成本发明的一部分，示出了符合本发明的实施例，并与说明书一起用于解释本发明的原理。

图1是本发明实施例提供的数据聚类方法的流程示例图。

图2是本发明实施例提供的数据聚类装置的功能方块图。

图3是本发明实施例提供的服务器的一个硬件结构图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本发明。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本发明范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

接下来对本发明实施例进行详细说明。

本发明实施例中的数据聚类方法可以应用于对人脸数据的实时聚类过程。本发明实施例中的数据聚类方法可以应用于比对服务器上。

图1是本发明实施例提供的数据聚类方法的流程示例图。如图1所示，该方法可以包括以下步骤：

S101，采集第一数据。

S102，将采集的第一数据与基准库中的基准数据进行比对。

S103，若第一数据未命中基准库中的任一基准数据，则将第一数据与缓存区中缓存的数据进行比对。

S104，若第一数据命中缓存区中缓存的第二数据，则将第一数据聚类至第二数据所属的分类中，若第一数据未命中缓存区中缓存的任一数据，将第一数据缓存至缓存区。

本发明实施例是一个实时聚类方案。

其中，第一数据可以是人脸图像数据，例如抓拍到的人脸图像。

其中，基准库中的基准数据是数据聚类中的比对基础。在步骤S102中，将采集的第一数据先与基准库中的基准数据进行比对。

步骤S103中，缓存区中的缓存数据是预先存储在缓存区中的。并且，缓存区中的缓存数据随着时间的变化而更新。随着时间的增长，缓存区中已有的一些缓存数据会被删除，另一些缓存区中没有的新的数据被存储到缓存区，成为新的缓存数据。

其中，缓存区中的缓存数据可以是，在以当前时刻为终止时刻的指定时间段内未命中的数据。需要说明的是，这里的“未命中”是指在指定时间段内既没有命中基准库中的基准数据，也没有命中当前的缓存区中的缓存数据。

其中，指定时间段的时长可以预先设置。假设指定时间段的时长等于设定时间阈值，则设定时间阈值通常可以为大于未命中的数据被更新到基准库中所需的时长。例如，假设将未命中的数据更新到基准库中需要20s(秒)，则可以将设定时间阈值设置为大于20秒。

本质上，缓存区中的缓存数据是之前未命中且当前没有被更新到基准库中的数据。这些数据本来应该处于基准库中，作为与第一数据进行比对的基准数据。但是，由于这些数据的比对完成时刻到被更新到基准库之间有一定的延时，造成可以与这些数据聚类到同一分类的数据进行比对时，这些数据还不是基准库中的基准数据，无法进行比对，从而将可以与这些数据聚类到同一分类的数据再分到一个新的分类中，该新的分类与这些数据所属的分类不同，这样就造成了本应该聚类在一个分类中的相同类的数据，被聚类成了多个分类。

举例说明。假设将数据更新到基准库需要15s。在0s时，出现一个没有命中任何基准数据的数据a1，新生成分类A1，数据a1属于分类A1；在5s时，同时出现两个需要进行比对的数据a2和a3(a2和a3与a1属于同一分类)，由于此时数据a1及其所属的分类A1还没有被更新到基准库中，因此数据a2和数据a3的比对结果都是未命中任何基准数据，分别生成新的分类A2和分类A3，数据a2属于分类A2，数据a3属于分类A3，这样，应该聚类在同一个分类中的数据a1、数据a2和数据a3被聚类成了三个分类。

通过步骤S103和S104，在第一数据未命中基准库的任一基准数据时，进一步将第一数据与缓存区中的缓存数据进行比对，使得之前未命中且当前没有更新到基准库中的数据能够与第一数据进行比对，在第一数据命中缓存区中的数据时将两者聚类到同一分类，从而避免了应该聚类在同一个分类中的多个数据被聚类成多个分类的情况。这样，就不需要在后期耗费大量的计算资源和时间进行数据碰撞处理，从而能够节省资源和时间。

举例说明。假设将未命中数据更新到基准库需要15s，设定时间阈值为20s。在0s时，出现一个没有命中任何基准数据的数据a1，新生成分类A1，数据a1属于分类A1；在5s时，数据a1的缓存时间没有超过设定时间阈值，因此数据a1属于缓存区中的缓存数据，此时同时出现两个需要进行比对的数据a2和数据a3(a2和a3与a1属于同一分类)，由于此时数据a1还没有被更新到基准库中，因此a2和a3都没有命中基准库中的基准数据；然后将a2和a3分别与缓存区中的缓存数据进行比对，命中数据a1，因此将a2和a3都聚类到a1所在的分类A1中。

通过步骤S103和S104，将待聚类数据聚类到命中的目标数据所在的分类中，能够避免应该聚类在一个分类中的相同类的数据被聚类成多个分类，不需要耗费大量的计算资源和时间进行数据碰撞处理，从而节省了资源和时间。

其中，步骤S104中，将第一数据聚类至第二数据所属的分类中的方式可以是：为第一数据打上第二数据所属分类的分类标识(ID)。

图1所示实施例，通过采集第一数据，将采集的第一数据与基准库中的基准数据进行比对，若第一数据未命中基准库中的任一基准数据，则将第一数据与缓存区中缓存的数据进行比对，若第一数据命中缓存区中缓存的第二数据，则将第一数据聚类至第二数据所属的分类中，若第一数据未命中缓存区中缓存的任一数据，将第一数据缓存至缓存区，使得采集数据能够与尚未存储到基准库中的未命中数据进行比对，避免了应该聚类在一个分类中的相同类的数据被聚类成多个分类，因此不需要耗费大量的计算资源和时间进行数据碰撞处理，节省了资源和时间。

在一个示例性的实现过程中，步骤S104中，将第一数据聚类至第二数据所属的分类中可以进一步包括：将第一数据存储到与基准库不同的指定数据库中。

其中，指定数据库即背景技术中所述的大数据库。指定数据库可以为一些上层应用提供数据基础。

通过本示例，未命中基准库中的基准数据但是能够命中缓存区的缓存数据的第一数据能够被准确及时地添加到指定数据库中，因此提高了指定数据库中数据的准确性。

在一个示例性的实现过程中，所述方法可以还包括：若第一数据命中基准库中的基准数据，将第一数据聚类至第一数据命中的基准数据所属的分类中，并存储至与基准库不同的指定数据库。

在一个示例性的实现过程中，步骤S104中，将第一数据缓存至缓存区进一步包括：将第一数据存储至与基准库不同的指定数据库。

通过本示例，未命中基准库中的基准数据、也没有命中缓存区的缓存数据的第一数据能够被准确及时地添加到指定数据库中，因此提高了指定数据库中数据的准确性。

在第一数据既没有命中基准库中的基准数据，也没有命中缓存区缓存的数据时，可以生成新的分类标识(ID)，并为第一数据打上该新生成的分类ID，按照该分类ID将第一数据存储至指定数据库中。

在一个示例性的实现过程中，所述方法还可以包括：在指定数据库中查找未被聚类的数据；将查找到的数据作为基准数据更新至基准库。

通过本示例，将未被聚类的数据更新至基准库，使得未被聚类的数据成为后续数据比对的基准数据，避免与该未被聚类的数据属于同一分类的数据被聚类到其他不同的分类中。

在第一数据的比对过程中，如果第一数据命中基准库中的基准数据，或者命中缓存区缓存的数据，则为第一数据设置命中标识hit；如果第一数据既没有命中基准库中的基准数据，也没有命中缓存区缓存的数据，则不为第一数据设置命中标识hit。这样，在指定数据库中，可以通过判断数据是否有命中标识hit来查找是否是未被聚类的数据。即：如果数据无命中标识hit，则是未被聚类的数据；如果数据有命中标识hit，则不是未被聚类的数据。

在一个示例性的实现过程中，所述方法还可以包括：监测缓存区中数据的缓存时间；将缓存区中缓存时间超过设定时间阈值的数据从缓存区中删除。

例如，如果设定时间阈值为20s，则可以在数据存储至缓存区时起开始计时，计时达到20s后自动将数据从缓存区中删除。

在缓存区中数据的缓存时间超过设定时间阈值后，该数据已经被更新到基准库中，可以作为后续比对的基准数据了，其在第一数据与基准数据的比对过程中就可以被比对到，无需再次在缓存区中被重复比对。

本示例一方面可以减少重复的比对，降低系统开销，另一方面可以控制缓存区中的数据量，节约存储资源，同时可以提高处理效率。

由于缓存区中的数据的读取速度快，因此，将需要作为比对基准的数据放在缓存区中与采集到的第一数据进行比对，可以缩短比对的时间，从而能够提高处理效率。

下面通过示例进一步详细阐述本发明实施例的数据聚类方法的过程。

假设数据库1为基准库，数据库2为指定数据库。

数据库1的存储信息如表1所示。

表1

分类标识	数据
		B	b1

缓存区中的数据如表2所示。

表2

分类标识	数据
		C	c1

当采集到数据b2(数据b2与数据b1属于同一分类)、数据c2(数据c2与数据c1属于同一分类)、数据d1时，聚类过程如下：

数据b2：数据b2命中数据库1中的b1，将数据b2聚类到分类B中，并为数据b2设置命中标识hit，然后将数据b2存储到数据库2中。

数据c2：数据c2未命中数据库1中的b1，将数据c2与缓存中的数据c1进行比对，命中缓存中的数据c1，将数据c2聚类到分类C中，并为数据c2设置命中标识hit，然后将数据c2存储到数据库2中。

数据d1：数据d1未命中数据库1中的b1，将数据d1与缓存中的数据c1进行比对，也未命中缓存中的数据c1，生成分类标识D，将数据d1聚类到分类D中，不为数据d1设置命中标识hit，并将数据d1存储到数据库2中。

在数据库2中查找没有命中标识hit的数据，即可找到未被聚类的数据d1，然后将数据d1更新到数据库1中。

基于上述的数据聚类方法实施例，本申请实施例还提供了相应的装置、设备及存储介质实施例。

图2是本发明实施例提供的数据聚类装置的功能方块图。如图2所示，本实施例中，数据聚类装置可以包括：

采集模块210，用于采集第一数据；

第一比对模块220，用于将采集的第一数据与基准库中的基准数据进行比对；

第二比对模块230，用于若第一数据未命中基准库中的任一基准数据，则将第一数据与缓存区中缓存的数据进行比对；

处理模块240，用于若第一数据命中缓存区中缓存的第二数据，则将第一数据聚类至第二数据所属的分类中，若第一数据未命中缓存区中缓存的任一数据，将第一数据缓存至缓存区。

在一个示例性的实现过程中，处理模块240在用于将第一数据聚类至第二数据所属的分类中时，可以具体用于：将第一数据存储至与基准库不同的指定数据库。

在一个示例性的实现过程中，数据聚类装置还可以包括：聚类及存储模块，用于若第一数据命中所述基准库中的基准数据，将第一数据聚类至所述第一数据命中的基准数据所属的分类中，并存储至与基准库不同的指定数据库。

在一个示例性的实现过程中，处理模块240在用于将第一数据缓存至缓存区时，可以具体用于：将第一数据存储至与基准库不同的指定数据库。

在一个示例性的实现过程中，数据聚类装置还可以包括：

查找模块，用于在指定数据库中查找未被聚类的数据；

更新模块，用于将查找到的数据作为基准数据更新至基准库。

在一个示例性的实现过程中，数据聚类装置还可以包括：

监测模块，用于监测缓存区中数据的缓存时间；

删除模块，用于将缓存区中缓存时间超过设定时间阈值的数据从缓存区中删除。

本发明实施例还提供了一种服务器。图3是本发明实施例提供的服务器的一个硬件结构图。如图3所示，服务器包括：内部总线301，以及通过内部总线连接的存储器302，处理器303和外部接口304，其中，

所述处理器303，用于读取存储器302上的机器可读指令，并执行所述指令以实现如下操作：

采集第一数据；

将采集的第一数据与基准库中的基准数据进行比对；

若第一数据未命中基准库中的任一基准数据，则将第一数据与缓存区中缓存的数据进行比对；

若第一数据命中缓存区中缓存的第二数据，则将第一数据聚类至第二数据所属的分类中，若第一数据未命中缓存区中缓存的任一数据，将第一数据缓存至缓存区。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有若干计算机指令，所述计算机指令被执行时进行如下处理：

采集第一数据；

将采集的第一数据与基准库中的基准数据进行比对；

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述对本发明特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本发明的真正范围和精神由下面的权利要求指出。

应当理解的是，本发明并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种数据聚类方法，其特征在于，所述方法包括：

采集第一数据；

将采集的所述第一数据与基准库中的基准数据进行比对；

2.根据权利要求1所述的方法，其特征在于，所述将所述第一数据聚类至所述第二数据所属的分类中进一步包括：

将所述第一数据存储到与所述基准库不同的指定数据库中。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

若所述第一数据命中所述基准库中的基准数据，将所述第一数据聚类至所述第一数据命中的基准数据所属的分类中，并存储至与所述基准库不同的指定数据库。

4.根据权利要求1所述的方法，其特征在于，所述将所述第一数据缓存至所述缓存区进一步包括：

将所述第一数据存储至与所述基准库不同的指定数据库。

5.根据权利要求2至4任一所述的方法，其特征在于，该方法进一步包括：

在所述指定数据库中查找未被聚类的数据；

将查找到的数据作为基准数据更新至所述基准库。

6.根据权利要求1所述的方法，其特征在于，所述方法还包括：

监测所述缓存区中数据的缓存时间；

将所述缓存区中缓存时间超过设定时间阈值的数据从所述缓存区中删除。

7.一种数据聚类装置，其特征在于，所述装置包括：

采集模块，用于采集第一数据；

8.根据权利要求7所述的装置，其特征在于，所述处理模块具体用于：

将所述第一数据存储至与所述基准库不同的指定数据库。

9.根据权利要求8所述的装置，其特征在于，该装置进一步包括：

查找模块，用于在所述指定数据库中查找未被聚类的数据；

更新模块，用于将查找到的数据作为基准数据更新至所述基准库。

10.根据权利要求7所述的装置，其特征在于，所述装置还包括：

监测模块，用于监测所述缓存区中数据的缓存时间；

删除模块，用于将所述缓存区中缓存时间超过设定时间阈值的数据从所述缓存区中删除。