CN112232290A

CN112232290A - 数据聚类方法、服务器、系统以及计算机可读存储介质

Info

Publication number: CN112232290A
Application number: CN202011233268.1A
Authority: CN
Inventors: 程子翰; 田国栋
Original assignee: Sichuan Yuncong Tianfu Artificial Intelligence Technology Co Ltd
Current assignee: Sichuan Yuncong Tianfu Artificial Intelligence Technology Co Ltd
Priority date: 2020-11-06
Filing date: 2020-11-06
Publication date: 2021-01-15
Anticipated expiration: 2040-11-06
Also published as: CN112232290B

Abstract

本发明涉及数据处理技术领域，具体提供了一种数据聚类方法、服务器、系统以及存储介质，旨在解决如何对大批量待聚类数据进行快速聚类的技术问题。为此目的，根据本发明实施例的方法，可以接收每个分组节点服务器各自反馈的待聚类数据组对应的相似数据检索结果，进而对待聚类数据组与相似数据检索结果进行聚类处理。通过相似数据检索，可以筛除数据样本中与待聚类数据相似度较差的数据样本，从而不仅可以显著降低在利用计算机设备进行聚类处理时的数据量，还克服了计算机设备运算能力下降的缺陷。同时，将待聚类数据分散至不同的检索节点服务器进行相似数据检索，可以克服同时对大批量数据进行相似数据检索导致服务器运算能力下降的缺陷。

Description

数据聚类方法、服务器、系统以及计算机可读存储介质

技术领域

本发明涉及数据处理技术领域，具体涉及一种数据聚类方法、服务器、系统以及计算机可读存储介质。

背景技术

在根据人脸图像进行人脸类别分析时，通常是对待分析人脸图像的图像特征与数据库中人脸样本的图像特征进行聚类分析，根据聚类分析的结果判断待分析人脸图像与数据库中的哪些人脸样本属于相同类别的人脸图像，然后根据这些人脸样本的类别确定待分析人脸图像的类别(例如：判断待分析人脸图像具体属于哪一个人的人脸图像)。目前常规的数据聚类系统主要是利用单台服务器存储人脸样本与待聚类人脸数据，进而对人脸样本与待聚类人脸数据进行聚类。然而，在待聚类人脸数据的数据量较大的应用场景如车站、某个行政区域的安防监控等场景进行人脸数据聚类时，这些待聚类人脸数据不仅会显著增加数据聚类系统的数据存储压力，还会极大地降低数据聚类系统的数据运算能力，致使数据聚类系统无法快速地完成待聚类人脸数据的聚类。

发明内容

为了克服上述缺陷，提出了本发明，以提供解决或至少部分地解决如何对大批量待聚类数据进行快速聚类的技术问题的数据聚类方法、服务器、系统以及计算机可读存储介质。

第一方面，提供一种数据聚类方法，所述方法包括：

接收每个分组节点服务器各自反馈的当前待聚类数据组对应的相似数据检索结果；

对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理；

其中，每个所述分组节点服务器关联对应的多个检索节点服务器，每个所述检索节点服务器根据所述当前待聚类数据组中每个第一子数据组中的每个待聚类数据，对预先存储的数据样本进行检索得到所述相似数据检索结果，并将其发送至所述分组节点服务器。

在上述数据聚类方法的一个技术方案中，所述预先存储的数据样本是对预设的数据样本组进行数据划分后形成的多个子数据样本组中的一个子数据样本组的数据样本，并且与相同分组节点服务器关联的每个检索节点服务器中预先存储的数据样本相同。

在上述数据聚类方法的一个技术方案中，“对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理”的步骤具体包括：

根据每个分组节点服务器各自反馈的当前待聚类数据组对应的相似数据检索结果，获取所述当前待聚类数据组中每个待聚类数据各自对应的相似数据检索结果集合；

根据每个相似数据检索结果集合中每个相似数据检索结果各自对应的相似度，按照相似度由大至小的顺序分别从每个相似数据检索结果集合中选取多个相似数据检索结果并且将选取到的多个相似数据检索结果作为相应待聚类数据的最优相似数据检索结果；

根据所述每个待聚类数据以及所述每个待聚类数据各自对应的最优相似数据检索结果进行聚类处理。

利用并行聚类算法对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理。

在上述数据聚类方法的一个技术方案中，在“对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理”的步骤之后，所述方法还包括：

响应于接收到的样本数据拆分指令，对所述当前待聚类数据组进行数据拆分以形成多个第二子数据组；

将所述第二子数据组作为新的数据样本并且将每个第二子数据组分别发送至每个分组节点服务器，以便所述每个分组节点服务器能够将接收到第二子数据组分别发送至相关联的检索节点服务器进行数据样本更新。

在上述数据聚类方法的一个技术方案中，所述方法还包括：

判断当前接收到的待聚类数据组的数据量是否大于等于预设的数据量阈值；

若是，则对所述待聚类数据组进行数据拆分以形成多个待聚类数据组，以便对每个待聚类数据组分别进行聚类处理。

第二方面，提供一种聚类节点服务器，所述聚类节点服务器包括：

数据接收模块，其被配置成接收每个分组节点服务器各自反馈的当前待聚类数据组对应的相似数据检索结果；

数据聚类模块，其被配置成对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理；

在上述聚类节点服务器的一个技术方案中，所述预先存储的数据样本是对预设的数据样本组进行数据划分后形成的多个子数据样本组中的一个子数据样本组的数据样本，并且与相同分组节点服务器关联的每个检索节点服务器中预先存储的数据样本相同。

在上述聚类节点服务器的一个技术方案中，所述数据聚类模块包括数据获取单元、数据筛选单元和数据聚类单元；

所述数据获取单元被配置成根据每个分组节点服务器各自反馈的当前待聚类数据组对应的相似数据检索结果，获取所述当前待聚类数据组中每个待聚类数据各自对应的相似数据检索结果集合；

所述数据筛选单元被配置成根据每个相似数据检索结果集合中每个相似数据检索结果各自对应的相似度，按照相似度由大至小的顺序分别从每个相似数据检索结果集合中选取多个相似数据检索结果并且将选取到的多个相似数据检索结果作为相应待聚类数据的最优相似数据检索结果；

所述数据聚类单元被配置成根据所述每个待聚类数据以及所述每个待聚类数据各自对应的最优相似数据检索结果进行聚类处理。

在上述聚类节点服务器的一个技术方案中，所述数据聚类模块还被配置成利用并行聚类算法对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理。

在上述聚类节点服务器的一个技术方案中，所述聚类节点服务器还包括样本数据处理模块，所述样本数据处理模块被配置成执行以下操作：

将所述第二子数据组作为新的数据样本并且将每个第二子数据组分别发送至每个分组节点服务器，以便所述每个分组节点服务器能够将接收到第二子数据组分别发送至相关联的检索节点服务器进行数据样本更新；

其中，所述样本数据拆分指令是所述聚类节点服务器在所述数据聚类模块对当前待聚类数据组与相似数据检索结果完成聚类处理之后输出的指令。

在上述聚类节点服务器的一个技术方案中，所述聚类节点服务器还包括待聚类数据组分组模块，所述待聚类数据组分组模块被配置成执行以下操作：

若是，则对所述待聚类数据组进行数据拆分以形成多个待聚类数据组，以便所述聚类节点服务器对每个待聚类数据组分别进行聚类处理。

第三方面，提供一种聚类节点服务器，包括处理器和存储装置，所述存储装置适于存储多条程序代码，所述程序代码适于由所述处理器加载并运行以执行上述数据聚类方法的技术方案中任一项所述的数据聚类方法。

第四方面，提供一种数据聚类系统，所述系统包括分组节点服务器、检索节点服务器以及上述聚类节点服务器的技术方案中任一项所述的聚类节点服务器，每个所述分组节点服务器分别与多个所述检索节点服务器关联；

所述聚类节点服务器被配置成接收每个分组节点服务器各自反馈的当前待聚类数据组对应的相似数据检索结果，并且对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理；

所述分组节点服务器被配置成接相关联的每个检索节点服务器根据所述当前待聚类数据组中每个第一子数据组进行检索得到的相似数据检索结果，并且将所述相似数据检索结果发送至所述聚类节点服务器；

所述检索节点服务器被配置成接收相关联的分组节点服务器发送的所述当前待聚类数据组中的某个第一子数据组、根据所述某个第一子数据组中的每个待聚类数据对预先存储的数据样本进行检索并且将检索到的相似数据检索结果发送至所述分组节点服务器。

在上述数据聚类系统的一个技术方案中，所述预先存储的数据样本是对预设的数据样本组进行数据划分后形成的多个子数据样本组中的一个子数据样本组的数据样本，并且与相同分组节点服务器关联的每个检索节点服务器中预先存储的数据样本相同。

在上述数据聚类系统的一个技术方案中，所述分组节点服务器还被配置成执行以下操作：

对接收到的所述当前待聚类数据组中每个第一子数据组各自对应的相似数据检索结果进行数据合并处理，以形成所述当前待聚类数据组对应的相似数据检索结果；

将数据合并处理后的相似数据检索结果发送至所述聚类节点服务器。

响应于接收到的待聚类数据拆分指令，对所述聚类节点服务器发送的所述当前待聚类数据组进行数据拆分以形成多个第一子数据组；

将每个第一子数据组分别发送至预先与所述分组节点服务器关联的每个检索节点服务器。

在上述数据聚类系统的一个技术方案中，所述聚类节点服务器的数量是多个。

第五方面，提供一种计算机可读存储介质，其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述数据聚类方法的技术方案中任一项所述的数据聚类方法。

本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

在实施本发明的技术方案中，可以接收每个分组节点服务器各自反馈的当前待聚类数据组对应的相似数据检索结果，进而对当前待聚类数据组与相似数据检索结果进行聚类处理。其中，分组节点服务器反馈的当前待聚类数据组对应的相似数据检索结果包括：预先与分组节点服务器关联的每个检索节点服务器分别根据当前待聚类数据组中每个第一子数据组各自反馈的第一子数据组对应的相似数据检索结果。第一子数据组对应的相似数据检索结果包括：检索节点服务器根据第一子数据组中的每个待聚类数据分别对预先存储的数据样本进行相似数据检索得到的检索结果。根据上述内容可知，根据本发明实施例的数据聚类方法，可以利用检索节点服务器对待聚类数据与数据样本进行相似数据检索，筛除数据样本中那些与待聚类数据相似度较差的数据样本，得到与每个待聚类数据各自对应的相似数据样本，从而不仅可以显著降低在利用服务器等计算机设备对待聚类数据以及相应的相似数据样本进行聚类处理时的数据量，还克服了对大批量数据进行数据聚类处理导致服务器的运算能力下降，无法快速完成数据聚类的缺陷。同时，在待聚类数据的相似数据样本的基础上对待聚类数据进行聚类，还能够提高聚类结果的准确性。此外，通过将待聚类数据组中的待聚类数据分散至不同的检索节点服务器进行相似数据检索，也可以克服对检索节点服务器对大批量数据实时进行相似数据检索导致的服务器的运算能力下降，无法快速完成数据检索的缺陷。

进一步，在实施本发明的技术方案中，检索节点服务器中预先存储的数据样本可以是对预设的数据样本组进行数据划分后形成的多个子数据样本组中的一个子数据样本组的数据样本，并且预先与相同分组节点服务器关联的每个检索节点服务器中预先存储的数据样本相同。通过将数据样本分散至不同的检索节点服务器中存储，可以克服利用单台服务器存储数据样本导致的数据存储压力急剧增加与服务器的运算处理能力下降的缺陷。

附图说明

下面参照附图来描述本发明的具体实施方式，附图中：

图1是根据本发明的一个实施例的数据聚类方法的主要步骤流程示意图；

图2是根据本发明的一个实施例的聚类节点服务器的主要结构框图；

图3是根据本发明的一个实施例的数据聚类系统的主要结构框图。

附图标记列表：

11：数据接收模块；12：数据聚类模块。

具体实施方式

下面参照附图来描述本发明的一些实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非旨在限制本发明的保护范围。

在本发明的描述中，“模块”、“处理器”可以包括硬件、软件或者两者的组合。一个模块可以包括硬件电路，各种合适的感应器，通信端口，存储器，也可以包括软件部分，比如程序代码，也可以是软件和硬件的组合。处理器可以是中央处理器、微处理器、图像处理器、数字信号处理器或者其他任何合适的处理器。处理器具有数据和/或信号处理功能。处理器可以以软件方式实现、硬件方式实现或者二者结合方式实现。非暂时性的计算机可读存储介质包括任何合适的可存储程序代码的介质，比如磁碟、硬盘、光碟、闪存、只读存储器、随机存取存储器等等。术语“A和/或B”表示所有可能的A与B的组合，比如只是A、只是B或者A和B。术语“至少一个A或B”或者“A和B中的至少一个”含义与“A和/或B”类似，可以包括只是A、只是B或者A和B。单数形式的术语“一个”、“这个”、“某个”也可以包含复数形式。

目前常规的数据聚类系统主要是利用单台服务器存储人脸样本与待聚类人脸数据，进而对人脸样本与待聚类人脸数据进行聚类。然而，在待聚类人脸数据的数据量较大的应用场景如车站、某个行政区域的安防监控等场景中进行人脸数据聚类时，这些待聚类人脸数据不仅会显著增加数据聚类系统的数据存储压力，还会极大地降低数据聚类系统的数据运算能力，致使数据聚类系统无法快速地完成待聚类人脸数据的聚类。

在本发明实施例中，可以通过聚类节点服务器、分组节点服务器和检索节点服务器形成的多层数据处理架构，利用该多层数据处理架构对大批量的数据如人脸图像数据进行聚类分析。聚类节点服务器可以将待聚类数据组分别发送至每个分组节点服务器，而分组节点服务器可以将接收到的待聚类数据组划分为多个第一子数据组并且将每个第一子数据组分别发送至预先与分组节点服务器关联的每个检索节点服务器，检索节点服务器可以根据接收到的第一子数据组中的每个待聚类数据分别对预先存储的数据样本进行相似数据检索并且将检索到的相似数据检索结果发送至分组节点服务器。进一步，分组节点服务器可以将与其关联的每个检索节点服务器各自反馈的检索结果合并处理为完整的待聚类数据组对应的检索结果，进而将该完整的待聚类数据组对应的检索结果发送至聚类节点服务器。聚类节点服务器在接收到每个分组节点服务器各自反馈的待聚类数据组对应的相似数据检索结果后，即可对待聚类数据组中的待聚类数据与这些相似数据检索结果进行聚类处理。

本发明实施例利用检索节点服务器对待聚类数据与数据样本进行相似数据检索，可以筛除数据样本中那些与待聚类数据相似度较差的数据样本，得到与每个待聚类数据各自对应的相似数据样本，聚类节点服务器对待聚类数据以及相应的相似数据样本进行聚类处理，不仅可以显著降低聚类节点服务器在进行聚类处理时的数据量，克服了同时对大批量数据进行数据聚类处理导致服务器的运算能力下降，无法快速完成数据聚类的缺陷。同时，在待聚类数据的相似数据样本的基础上对待聚类数据进行聚类，还能够提高聚类结果的准确性。

进一步，本发明实施例通过将待聚类数据组中的待聚类数据分散至不同的检索节点服务器进行相似数据检索，也可以克服对检索节点服务器对大批量数据实时进行相似数据检索导致的服务器的运算能力下降，无法快速完成数据检索的缺陷。

此外，检索节点服务器中预先存储的数据样本可以是对预设的数据样本组进行数据划分后形成的多个子数据样本组中的一个子数据样本组的数据样本，并且预先与相同分组节点服务器关联的每个检索节点服务器中预先存储的数据样本相同。本发明实施例通过将数据样本分散至不同的检索节点服务器中存储，可以克服利用单台服务器存储数据样本导致的数据存储压力急剧增加与服务器的运算处理能力下降的缺陷。

在本发明的一个应用场景的例子中，某个火车站安装有根据本发明的一个实施例的数据聚类系统，该系统包括一个聚类节点服务器、两个分组节点服务器(分组节点服务器A和B)和六个检索节点服务器，这两个分组节点服务器分别与聚类节点服务器通信连接并且每个分组节点服务器分别与三个检索节点服务器连接(分组节点服务器A分别与检索节点服务器a1、a2和a3连接，分组节点服务器B分别与检索节点服务器b1、b2和b3连接)。在每个检索节点服务器中都预先存储有一定数据量的人脸图像样本。此外，火车站内还安装有图像采集装置和后台服务器，图像采集装置可以采集火车站内的图像信息并且将采集到的图像信息发送至后台服务器，后台服务器在接收到这些图像信息后会对这些图像信息进行人脸识别并且将人脸识别的结果(待聚类数据)发送至聚类节点服务器进行聚类处理。

聚类节点服务器将接收到的待聚类数据分别发送至分组节点服务器A和B，分组节点服务器A和B接收到的待聚类数据相同。

分组节点服务器A将接收到的待聚类数据划分成三个第一子数据组(每个第一子数据组分别包括多个待聚类数据)，将每个第一子数据组分别发送至检索节点服务器a1、a2和a3。检索节点服务器a1、a2和a3分别根据接收到的待聚类数据对各自本地存储的人脸图像样本进行相似数据检索，并且将相似数据检索结果发送至分组节点服务器A。分组节点服务器A在接收到检索节点服务器a1、a2和a3各自反馈的相似数据检索结果之后，将这些相似数据检索结果合并为完整的相似数据检索结果并且将合并完成的相似数据检索结果发送至聚类节点服务器。分组节点服务器B的数据处理过程与分组节点服务器A类似，为了描述简洁，在此不再赘述。

聚类节点服务器接收到分组节点服务器A和B各自反馈的相似数据检索结果后，即可对待聚类数据与这些相似数据检索结果进行聚类处理，根据聚类处理的结果判断待聚类数据与人脸图像样本中的哪些样本属于相同类别的人脸图像，然后根据这些样本的类别确定待聚类数据的类别(待聚类数据具体属于哪一个人的人脸图像)。

下面结合附图，对本发明中的数据聚类方法进行说明。

首先参阅附图1，图1是根据本发明的一个实施例的数据聚类方法的主要步骤流程示意图。如图1所示，本发明实施例中的数据聚类方法主要包括以下步骤：

步骤S101：接收每个分组节点服务器各自反馈的当前待聚类数据组对应的相似数据检索结果。

待聚类数据组指的是包括多个待聚类数据的数据组。

分组节点服务器指的是能够执行以下操作的计算机设备：

对接收到的待聚类数据组进行数据划分以形成多个第一子数据组(每个第一子数据组均包括多个待聚类数据)、将每个第一子数据组分别发送至与当前分组节点服务器关联的检索节点服务器(每个分组节点服务器关联对应的多个检索节点服务器)，以及接收并且输出每个检索节点服务器各自反馈的第一子数据组对应的相似数据检索结果。也就是说，本实施例中分组节点服务器反馈的当前待聚类数据组对应的相似数据检索结果包括：预先与分组节点服务器关联的每个检索节点服务器分别根据当前待聚类数据组中每个第一子数据组进行检索得到的相似数据检索结果。

检索节点服务器指的是能够执行以下操作的计算机设备：

接收预先与当前检索节点服务器关联的分组节点服务器发送的当前待聚类数据组中的某个第一子数据组、根据这个第一子数据组中的每个待聚类数据对当前检索节点服务器中预先存储的数据样本进行检索并且能够将检索到的相似数据检索结果发送至分组节点服务器。也就是说，检索节点服务器向分组节点服务器反馈的一子数据组对应的相似数据检索结果包括：检索节点服务器根据第一子数据组中的每个待聚类数据对预先存储的数据样本进行检索得到的相似数据检索结果。

需要说明的是，在本发明实施例中可以控制检索节点服务器采用数据处理技术领域中常规的相似数据检索方法对待聚类数据和预先存储的数据样本进行相似数据检索。相似数据检索方法包括但不限于：基于HNSW(Hierarchical Navigable Small World)算法的相似数据检索方法、基于FAISS(Facebook AI Similarity Search)算法的相似数据检索方法等。为了描述简洁，在此不再对上述相似数据检索方法的具体工作原理和运算过程进行赘述。

步骤S102：对当前待聚类数据组与相似数据检索结果进行聚类处理。

在本发明实施例中可以采用数据处理技术领域中常规的聚类方法对待聚类数据与相似数据检索结果进行聚类处理。聚类方法包括但不限于：K均值聚类算法(K-Meansclustering algorithm，K-Means)、DBSCAN(Density-Based Spatial Clustering ofApplications with Noise)聚类算法、谱聚类算法(Spectral Clustering，SC)等。为了描述简洁，在此不再对上述聚类方法的具体工作原理和运算过程进行赘述。

本发明实施例利用检索节点服务器对待聚类数据与数据样本进行相似数据检索，可以筛除数据样本中那些与待聚类数据相似度较差的数据样本，得到与每个待聚类数据各自对应的相似数据样本。从而，可以显著降低在利用服务器等计算机设备对待聚类数据以及相应的相似数据样本进行聚类处理时的数据量，克服了同时对大批量数据进行数据聚类处理导致服务器的运算能力下降，无法快速完成数据聚类的缺陷。同时，在待聚类数据的相似数据样本的基础上对待聚类数据进行聚类，还能够提高聚类结果的准确性。进一步，为了降低检索节点服务器存储数据样本的存储压力以及提高检索节点服务器进行相似数据检索的处理效率，可以将数据样本分散至不同的检索节点服务器中存储。具体而言，在一个实施方式中检索节点服务器中预先存储的数据样本可以是对预设的数据样本组进行数据划分后形成的多个子数据样本组中的一个子数据样本组的数据样本，并且预先与相同分组节点服务器关联的每个检索节点服务器中预先存储的数据样本相同。也就是说，每个分组节点服务器各自对应的数据样本都是各不相同的，而与分组节点服务器关联的每个检索节点服务器中存储的数据样本都是相同的。

由上述描述可知，在待聚类数据的相似数据样本的基础上对待聚类数据进行聚类，不仅可以提高聚类效率，还可以显著提高聚类结果的准确性。而在每个分组节点服务器各自对应的数据样本都不相同的情况下，每个分组节点服务器针对每个待聚类数据反馈的相似的数据样本也不相同，此时可以对每个待聚类数据各自对应的相似的数据样本(分组节点服务器反馈的相似数据检索结果)再次进行相似数据筛选，从这些数据样本中筛选出与每个待聚类数据最相似的少量的数据样本(最优相似数据检索结果)，然后在这些重新筛选出的数据样本的基础上对待聚类数据进行聚类，能够进一步地提高聚类效率以及聚类结果的准确性。具体而言，在步骤S102的一个实施方式中，可以按照以下步骤对待聚类数据组中的待聚类数据与相似数据检索结果进行聚类处理：

步骤11：根据每个分组节点服务器各自反馈的当前待聚类数据组对应的相似数据检索结果，获取当前待聚类数据组中每个待聚类数据各自对应的相似数据检索结果集合。

一个例子：在分组节点服务器A反馈的当前待聚类数据组对应的相似数据检索结果中，待聚类数据a对应的相似数据检索结果包括数据样本α和数据样本β，在分组节点服务器B反馈的当前待聚类数据组对应的相似数据检索结果中，待聚类数据a对应的相似数据检索结果包括数据样本γ、数据样本δ和数据样本ε，那么可以得到当前待聚类数据组中待聚类数据a对应的相似数据检索结果集合是由“数据样本α、数据样本β、数据样本γ、数据样本δ和数据样本ε”组成的数据集合。

步骤12：根据每个相似数据检索结果集合中每个相似数据检索结果各自对应的相似度，按照相似度由大至小的顺序分别从每个相似数据检索结果集合中选取多个相似数据检索结果并且将选取到的多个相似数据检索结果作为相应待聚类数据的最优相似数据检索结果。

本实施方式中相似度的评估指标的具体类型取决于在步骤S101中检索节点服务器采用的相似数据检索方法，不同的相似数据检索方法对应的相似度的评估指标的类型不同。如果相似度越大则表明待聚类数据与数据样本之间越相似。例如：采用基于欧式距离的相似数据检索方法时，相似数据检索结果对应的相似度的评估指标可以是待聚类数据与数据样本之间的欧式距离，如果这个欧式距离的距离值越小则表明待聚类数据与数据样本之间的相似度越大。

步骤13：根据每个待聚类数据以及每个待聚类数据各自对应的最优相似数据检索结果进行聚类处理。

在本发明实施例中可以利用能够执行上述步骤S101-步骤S102所描述的具体操作的服务器进行数据聚类。在一个实施方式中，为了进一步提高数据聚类的处理效率，可以设置多个能够执行上述步骤S101-步骤S102所描述的具体操作的服务器，并且这些服务器在接收到每个分组节点服务器各自反馈的相似数据检索结果后，能够利用并行聚类算法对待聚类数据与相似数据检索结果进行聚类处理。

需要说明的是，本实施方式中可以采用数据聚类技术领域中常规的并行聚类算法进行数据聚类，充分利用多台服务器，使聚类算法在多个服务器上同时运行，并行地处理数据，从而极大地缩短聚类算法的执行时间。为了描述简洁，在此不再对并行聚类算法的具体工作原理和处理过程进行赘述。

在根据本发明的数据聚类方法实施例的一个实施方式中，为了提高数据聚类的准确性，可以在对待聚类数据完成聚类处理后，将这些待聚类数据作为新的数据样本，以供后续对接收到的新的待聚类数据进行聚类处理使用。具体而言，在执行步骤S102之后，还可以执行以下步骤S103-步骤S104。

步骤S103：响应于接收到的样本数据拆分指令，对当前待聚类数据组进行数据拆分以形成多个第二子数据组。其中，“当前待聚类数据组”指的是步骤S101-步骤S102中所述的“当前待聚类数据组”。每个第二子数据组均可以包括多个待聚类数据。

样本数据拆分指令可以包括数据拆分方式，以便可以根据这个数据拆分方式对待聚类数据组中的待聚类数据进行拆分。在本实施方式中数据拆分方式可以是本领域技术人员根据实际需求灵活设置的。例如：数据拆分方式可以是根据检索节点服务器的数量对待聚类数据组中的待聚类数据进行均分，数据拆分方式还可以是根据每个检索节点服务器的剩余存储空间，确定分配到每个检索节点服务器的分配数据量，根据每个检索节点服务器各自对应的分配数据量对待聚类数据组中的待聚类数据进行划分。

步骤S104：将第二子数据组作为新的数据样本并且将每个第二子数据组分别发送至每个分组节点服务器，以便每个分组节点服务器能够将接收到第二子数据组分别发送至相关联的检索节点服务器进行数据样本更新。

根据本发明实施例的数据聚类方法，利用多个检索节点服务器对待聚类数据进行相似数据检索，进而在这些相似数据的基础上对待聚类数据进行聚类处理，能够极大地降低在利用服务器等计算机设备对大批量数据进行聚类处理时的数据存储压力，同时还能够克服同时对大批量数据进行聚类处理导致的服务器的运算能力下降的缺陷。然而，在实际应用中，每个检索节点服务器的数据处理能力并非是能够无限扩展的，如果通过增加检索节点服务器的数量来对大批量的数据进行数据处理，那么会显著增加数据处理的成本。对此，在本发明实施例中，可以将待聚类数据组拆分为多个待聚类数据组，针对每个待聚类数组分别采用上述步骤S101-步骤S102所述的数据聚类方法或者上述步骤S101-步骤S104所述的数据聚类方法进行数据聚类。具体而言，在本发明实施例的一个实施方式中，在执行上述步骤S101之前，还可以包括下述步骤S100。

步骤S100：判断当前接收到的待聚类数据组的数据量是否大于等于预设的数据量阈值，若是，则对待聚类数据组进行数据拆分以形成多个待聚类数据组，以便对每个待聚类数据组分别进行聚类处理。在本实施方式中，可以针对每个待聚类数组分别采用上述步骤S101-步骤S102所述的数据聚类方法或者上述步骤S101-步骤S104所述的数据聚类方法进行数据聚类。

预设的数据量阈值可以是根据执行本发明实施例所述的数据聚类方法的服务器等计算机设备能够处理的最大数据量来设定。例如：可以将预设的数据量阈值直接设定为上述最大数据量，也可以对上述最大数据量进行数值调整后，将数值调整后的数据量设定为预设的数据量阈值。

一个例子：将待聚类数据组拆分为三个待聚类数据组A、B和C，先采用上述步骤S101-步骤S102所述的数据聚类方法对待聚类数据组A中的待聚类数据进行聚类处理，然后采用上述步骤S101-步骤S102所述的数据聚类方法对待聚类数据组B中的待聚类数据进行聚类处理，最后采用上述步骤S101-步骤S102所述的数据聚类方法对待聚类数据组C中的待聚类数据进行聚类处理。

需要指出的是，尽管上述实施例中将各个步骤按照特定的先后顺序进行了描述，但是本领域技术人员可以理解，为了实现本发明的效果，不同的步骤之间并非必须按照这样的顺序执行，其可以同时(并行)执行或以其他顺序执行，这些变化都在本发明的保护范围之内。

进一步，本发明还提供了一种聚类节点服务器。

参阅附图2，图2是根据本发明的一个实施例的聚类节点服务器的主要结构框图。如图2所示，本发明实施例中的聚类节点服务器主要包括数据接收模块11和数据聚类模块12。在一些实施例中，数据接收模块11和数据聚类模块12可以合并在一起成为一个模块。在一些实施例中，数据接收模块11可以被配置成接收每个分组节点服务器各自反馈的当前待聚类数据组对应的相似数据检索结果。数据聚类模块12可以被配置成对当前待聚类数据组与相似数据检索结果进行聚类处理。其中，每个分组节点服务器关联对应的多个检索节点服务器，每个检索节点服务器根据当前待聚类数据组中每个第一子数据组中的每个待聚类数据，对预先存储的数据样本进行检索得到相似数据检索结果，并将其发送至分组节点服务器。一个实施方式中，具体实现功能的描述可以参见步骤S101-步骤S102所述。

在一个实施方式中，检索节点服务器中预先存储的数据样本是对预设的数据样本组进行数据划分后形成的多个子数据样本组中的一个子数据样本组的数据样本，并且与相同分组节点服务器关联的每个检索节点服务器中预先存储的数据样本相同。一个实施方式中，具体实现功能的描述可以参见步骤S102所述。

在一个实施方式中，数据聚类模块12可以包括数据获取单元、数据筛选单元和数据聚类单元。具体而言，在本实施方式中，数据获取单元可以被配置成根据每个分组节点服务器各自反馈的当前待聚类数据组对应的相似数据检索结果，获取当前待聚类数据组中每个待聚类数据各自对应的相似数据检索结果集合。数据筛选单元可以被配置成根据每个相似数据检索结果集合中每个相似数据检索结果各自对应的相似度，按照相似度由大至小的顺序分别从每个相似数据检索结果集合中选取多个相似数据检索结果并且将选取到的多个相似数据检索结果作为相应待聚类数据的最优相似数据检索结果。数据聚类单元可以被配置成根据每个待聚类数据以及每个待聚类数据各自对应的最优相似数据检索结果进行聚类处理。一个实施方式中，具体实现功能的描述可以参见步骤11-步骤13所述。

在一个实施方式中，数据聚类模块12还可以被配置成利用并行聚类算法对当前待聚类数据组与相似数据检索结果进行聚类处理。一个实施方式中，具体实现功能的描述可以参见步骤S102所述。

在一个实施方式中，聚类节点服务器还可以包括样本数据处理模块。在本实施方式中，样本数据处理模块可以被配置成执行以下操作：响应于接收到的样本数据拆分指令，对当前待聚类数据组进行数据拆分以形成多个第二子数据组；将第二子数据组作为新的数据样本并且将每个第二子数据组分别发送至每个分组节点服务器，以便每个分组节点服务器能够将接收到第二子数据组分别发送至相关联的检索节点服务器进行数据样本更新；其中，样本数据拆分指令是聚类节点服务器在数据聚类模块12对当前待聚类数据组与相似数据检索结果完成聚类处理之后输出的指令。一个实施方式中，具体实现功能的描述可以参见步骤S103-步骤S104所述。

在一个实施方式中，聚类节点服务器还可以包括待聚类数据组分组模块。在本实施方式中，待聚类数据组分组模块可以被配置成执行以下操作：判断当前接收到的待聚类数据组的数据量是否大于等于预设的数据量阈值；若是，则对待聚类数据组进行数据拆分以形成多个待聚类数据组，以便聚类节点服务器可以对每个待聚类数据组分别进行聚类处理。一个实施方式中，具体实现功能的描述可以参见步骤S100所述。

上述聚类节点服务器以用于执行图1所示的数据聚类方法实施例，两者的技术原理、所解决的技术问题及产生的技术效果相似，本技术领域技术人员可以清楚地了解到，为了描述的方便和简洁，聚类节点服务器的具体工作过程及有关说明，可以参考数据聚类方法的实施例所描述的内容，此处不再赘述。

本领域技术人员能够理解的是，本发明实现上述一实施例的方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器、随机存取存储器、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

进一步，本发明还提供了一种聚类节点服务器。在根据本发明的一个聚类节点服务器实施例中，聚类节点服务器可以包括处理器和存储装置，存储装置可以被配置成存储执行上述方法实施例的数据聚类方法的程序，处理器可以被配置成用于执行存储装置中的程序，该程序包括但不限于执行上述方法实施例的数据聚类方法的程序。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该聚类节点服务器可以是包括各种电子设备形成的计算机设备。

进一步，本发明还提供了一种计算机可读存储介质。在根据本发明的一个计算机可读存储介质实施例中，计算机可读存储介质可以被配置成存储执行上述方法实施例的数据聚类方法的程序，该程序可以由处理器加载并运行以实现上述数据聚类方法。为了便于说明，仅示出了与本发明实施例相关的部分，具体技术细节未揭示的，请参照本发明实施例方法部分。该计算机可读存储介质可以是包括各种电子设备形成的存储装置设备，可选的，本发明实施例中计算机可读存储介质是非暂时性的计算机可读存储介质。

进一步，本发明还提供了一种数据聚类系统。

参阅附图3，图3是根据本发明的一个实施例的数据聚类系统的主要结构示意图。如图3所示，本发明实施例中的数据聚类系统可以包括聚类节点服务器、多个分组节点服务器(图3所示的分组节点服务器1-N)和多个检索节点服务器(图3所示的检索节点服务器11-M1，…，检索节点服务器N1-NP)。分组节点服务器1-N分别与聚类节点服务器通信连接，每个分组节点服务器分别与多个检索节点服务器通信连接，即通过通信连接的方式使每个分组节点服务器分别与多个检索节点服务器进行关联。需要说明的是，虽然本发明实施例仅提供了通过通信连接的方式对上述服务器进行关联，但是，本领域技术人员可以根据实际需求灵活地设置分组节点服务器与检索节点服务器的关联方式，对上述服务器关联方式的更改或替换后的技术方案都将落入本发明的保护范围之内。

聚类节点服务器、分组节点服务器和检索节点服务器均可以是计算机技术领域中的计算机设备。其中，聚类节点服务器可以采用前述聚类节点服务器实施例所述的聚类节点服务器。

聚类节点服务器可以被配置成接收每个分组节点服务器各自反馈的当前待聚类数据组对应的相似数据检索结果，并且对当前待聚类数据组与相似数据检索结果进行聚类处理。分组节点服务器可以被配置成接收相关联的每个检索节点服务器根据当前待聚类数据组中每个第一子数据组进行检索得到的相似数据检索结果，并且将相似数据检索结果发送至聚类节点服务器。检索节点服务器可以被配置成接收相关联的分组节点服务器发送的当前待聚类数据组中的某个第一子数据组、根据这个第一子数据组中的每个待聚类数据对预先存储的数据样本进行检索并且将检索到的相似数据检索结果发送至分组节点服务器。

需要说明的是，本实施例中聚类节点服务器的具体工作过程，与前述聚类节点服务器实施例中所描述的聚类节点服务器的工作过程相同，为了描述简洁，在此不再赘述。此外，本实施例中分组节点服务器和检索节点服务器的具体工作过程，分别与前述数据聚类方法实施例中涉及的分组节点服务器和检索节点服务器的工作过程类似，为了描述简洁，在此不再赘述。

在一个实施方式中，检索节点服务器中预先存储的数据样本是对预设的数据样本组进行数据划分后形成的多个子数据样本组中的一个子数据样本组的数据样本，并且与相同分组节点服务器关联的每个检索节点服务器中预先存储的数据样本相同。本实施方式通过将数据样本分散至不同的检索节点服务器中存储，可以克服利用单台服务器存储数据样本导致的数据存储压力急剧增加与服务器的运算处理能力下降的缺陷。进一步，如果与相同分组节点服务器关联的每个检索节点服务器中预先存储的数据样本相同，那么为了便于数据传输，可以将每个检索节点服务器反馈的相似数据检索结果进行数据合并处理以形成一个完整的相似数据检索结果。具体而言，在一个实施方式中，分组节点服务器还可以被配置成执行以下操作：对接收到的当前待聚类数据组中每个第一子数据组各自对应的相似数据检索结果进行数据合并处理，以形成当前待聚类数据组对应的相似数据检索结果；将数据合并处理后的相似数据检索结果发送至聚类节点服务器。

在一个实施方式中，分组节点服务器还可以被配置成执行以下操作：响应于接收到的待聚类数据拆分指令，对聚类节点服务器发送的当前待聚类数据组进行数据拆分以形成多个第一子数据组；将每个第一子数据组分别发送至预先与分组节点服务器关联的每个检索节点服务器。

待聚类数据拆分指令可以包括数据拆分方式，以便可以根据这个数据拆分方式对待聚类数据组中的待聚类数据进行拆分。在本实施方式中数据拆分方式可以是本领域技术人员根据实际需求灵活设置的。例如：数据拆分方式可以是根据检索节点服务器的数量对待聚类数据组中的待聚类数据进行均分，数据拆分方式还可以是根据每个检索节点服务器各自对应的能够处理的数据量，确定分配到每个检索节点服务器的分配数据量，根据每个检索节点服务器各自对应的分配数据量对待聚类数据组中的待聚类数据进行划分。本实施方式通过将待聚类数据组中的待聚类数据分散至不同的检索节点服务器进行相似数据检索，可以克服对检索节点服务器对大批量数据实时进行相似数据检索导致的服务器的运算能力下降，无法快速完成数据检索的缺陷。

在一个实施方式中，聚类节点服务器的数量可以是多个。由前述聚类节点服务器的实施例可知，聚类节点服务器能够利用并行聚类算法进行数据聚类，因此通过设置多个聚类节点服务器，可以使这些聚类节点服务器在接收到每个分组节点服务器各自反馈的相似数据检索结果后，利用并行聚类算法对待聚类数据与相似数据检索结果进行聚类处理，进一步提高数据聚类系统的数据聚类效率。

进一步，应该理解的是，由于各个模块的设定仅仅是为了说明本发明的系统的功能单元，这些模块对应的物理器件可以是处理器本身，或者处理器中软件的一部分，硬件的一部分，或者软件和硬件结合的一部分。因此，图中的各个模块的数量仅仅是示意性的。

本领域技术人员能够理解的是，可以对系统中的各个模块进行适应性地拆分或合并。对具体模块的这种拆分或合并并不会导致技术方案偏离本发明的原理，因此，拆分或合并之后的技术方案都将落入本发明的保护范围内。

至此，已经结合附图所示的一个实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种数据聚类方法，其特征在于，所述方法包括：

2.根据权利要求1所述的数据聚类方法，其特征在于，所述预先存储的数据样本是对预设的数据样本组进行数据划分后形成的多个子数据样本组中的一个子数据样本组的数据样本，并且与相同分组节点服务器关联的每个检索节点服务器中预先存储的数据样本相同。

3.根据权利要求2所述的数据聚类方法，其特征在于，“对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理”的步骤具体包括：

4.根据权利要求1所述的数据聚类方法，其特征在于，“对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理”的步骤具体包括：

5.根据权利要求1至4中任一项所述的数据聚类方法，其特征在于，在“对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理”的步骤之后，所述方法还包括：

6.根据权利要求1至4中任一项所述的数据聚类方法，其特征在于，所述方法还包括：

7.一种聚类节点服务器，其特征在于，所述聚类节点服务器包括：

8.根据权利要求7所述的聚类节点服务器，其特征在于，所述预先存储的数据样本是对预设的数据样本组进行数据划分后形成的多个子数据样本组中的一个子数据样本组的数据样本，并且与相同分组节点服务器关联的每个检索节点服务器中预先存储的数据样本相同。

9.根据权利要求8所述的聚类节点服务器，其特征在于，所述数据聚类模块包括数据获取单元、数据筛选单元和数据聚类单元；

10.根据权利要求7所述的聚类节点服务器，其特征在于，所述数据聚类模块还被配置成利用并行聚类算法对所述当前待聚类数据组与所述相似数据检索结果进行聚类处理。

11.根据权利要求7至10中任一项所述的聚类节点服务器，其特征在于，所述聚类节点服务器还包括样本数据处理模块，所述样本数据处理模块被配置成执行以下操作：

12.根据权利要求7至10中任一项所述的聚类节点服务器，其特征在于，所述聚类节点服务器还包括待聚类数据组分组模块，所述待聚类数据组分组模块被配置成执行以下操作：

13.一种聚类节点服务器，其特征在于，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至6中任一项所述的数据聚类方法。

14.一种数据聚类系统，其特征在于，所述系统包括分组节点服务器、检索节点服务器以及权利要求7至13中任一项所述的聚类节点服务器，每个所述分组节点服务器分别与多个所述检索节点服务器关联；

所述分组节点服务器被配置成接收相关联的每个检索节点服务器根据所述当前待聚类数据组中每个第一子数据组进行检索得到的相似数据检索结果，并且将所述相似数据检索结果发送至所述聚类节点服务器；

15.根据权利要求14所述的数据聚类系统，其特征在于，所述预先存储的数据样本是对预设的数据样本组进行数据划分后形成的多个子数据样本组中的一个子数据样本组的数据样本，并且与相同分组节点服务器关联的每个检索节点服务器中预先存储的数据样本相同。

16.根据权利要求15所述的数据聚类系统，其特征在于，所述分组节点服务器还被配置成执行以下操作：

17.根据权利要求15所述的数据聚类系统，其特征在于，所述分组节点服务器还被配置成执行以下操作：

18.根据权利要求14至17中任一项所述的数据聚类系统，其特征在于，所述聚类节点服务器的数量是多个。

19.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至6中任一项所述的数据聚类方法。