CN113239202B

CN113239202B - 数据处理方法、装置、服务器及存储介质

Info

Publication number: CN113239202B
Application number: CN202110573462.2A
Authority: CN
Inventors: 吴帅; 杨同洲; 王志鹏; 毛颖
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-05-25
Filing date: 2021-05-25
Publication date: 2024-03-05
Anticipated expiration: 2041-05-25
Also published as: CN113239202A

Abstract

本公开关于一种数据处理方法、装置、服务器及存储介质，所述方法包括：若检测到对象的对象信息发生变化，则在历史对象信息簇中，获取所述对象的第一对象信息簇的关联对象信息簇，所述第一对象信息簇包括变化后的对象信息，所述关联对象信息簇包含所述第一对象信息簇中的至少一个对象信息；确定所述第一对象信息簇与所述关联对象信息簇之间的相似度；若所述相似度大于相似度阈值，则确定所述第一对象信息簇的簇信息为所述关联对象信息簇的簇信息。采用本公开可以准确地追踪到对象信息簇在变更前后的关系。

Description

数据处理方法、装置、服务器及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种数据处理方法、装置、服务器及存储介质。

背景技术

簇，是指一个实体包括或关联的信息元素组成的集合，比如一个设备实体可能对应多个IMEI(International Mobile Equipment Identity，国际移动设备识别码)、IMSI(International Mobile Subscriber Identity，国际移动用户识别码)、IDFA(Identiferfor Advertising，广告识别码)、OAID(Open Anonymous Device Identifier，匿名设备标识符)等信息元素，这些信息元素组成的集合即为这个设备实体对应的信息簇。

发明人发现相关技术存在问题：在相关技术中，信息簇对应的簇信息往往只是基于簇中的各个信息元素生成的，一旦簇中的其中一个信息元素出现变更时，信息簇对应的簇信息也会随之变更，这说明相关技术没有达到稳定和继承的效果，无法准确地追踪簇在变更前后的关系。

发明内容

本公开提供一种数据处理方法、装置、服务器及存储介质，以至少解决相关技术中无法准确地追踪到簇在变更前后的关系的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种数据处理方法，包括：

若检测到对象的对象信息发生变化，则在历史对象信息簇中，获取所述对象的第一对象信息簇的关联对象信息簇，所述第一对象信息簇包括变化后的对象信息，所述关联对象信息簇包含所述第一对象信息簇中的至少一个对象信息；

确定所述第一对象信息簇与所述关联对象信息簇之间的相似度；

若所述相似度大于相似度阈值，则确定所述第一对象信息簇的簇信息为所述关联对象信息簇的簇信息。

在一种可能实现方式中，所述方法还包括：

若所述相似度小于或等于所述相似度阈值，则生成新的簇信息，并将所述新的簇信息作为所述第一对象信息簇的簇信息。

在一种可能实现方式中，所述在历史对象信息簇中，获取所述对象的第一对象信息簇的关联对象信息簇，包括：

获取所述第一对象信息簇中的至少一个对象信息；

基于所述至少一个对象信息，在所述历史对象信息簇中，查询第二对象信息簇；所述第二对象信息簇包含有与所述至少一个对象信息相同的信息；

若所述第二对象信息簇具有一个，则确定所述第二对象信息簇为所述关联对象信息簇。

在一种可能实现方式中，若所述第二对象信息簇具有多个，所述在历史对象信息簇中，获取所述对象的第一对象信息簇的关联对象信息簇，包括：

确定所述第一对象信息簇与所述第二对象信息簇之间的共有对象信息；

确定所述共有对象信息的信息数量占所述第一对象信息簇的信息数量的比值，得到所述第二对象信息簇对应的第一数量比值；

确定所述共有对象信息的信息数量占所述第二对象信息簇的信息数量的比值，得到所述第二对象信息簇对应的第二数量比值；

根据所述第一数量比值和所述第二数量比值，在所述第二对象信息簇中确定所述关联对象信息簇。

在一种可能实现方式中，所述根据第一数量比值和所述第二数量比值，在所述第二对象信息簇中确定所述关联对象信息簇，包括：

若任一第二对象信息簇对应的第一数量比值、第二数量比值大于数量比值阈值，则确定所述任一第二对象信息簇为所述关联对象信息簇；或

若任一第二对象信息簇对应的第一数量比值、第二数量比值的比值之和大于其他第二对象信息簇对应的第一数量比值、第二数量比值的比值之和，则确定所述任一第二对象信息簇为所述关联对象信息簇，所述其他第二对象信息簇为所述第二对象信息簇中除所述任一第二对象信息簇之外的对象信息簇；或

若任一第二对象信息簇对应的第一数量比值、第二数量比值大于数量比值阈值，且所述任一第二对象信息簇对应的第一数量比值、第二数量比值的比值之和大于其他第二对象信息簇对应的第一数量比值、第二数量比值的比值之和，则确定所述任一第二对象信息簇为所述关联对象信息簇。

在一种可能实现方式中，所述方法还包括：

若在所述历史对象信息簇中查询不到所述关联对象信息簇，则执行所述生成新的簇信息，并将所述新的簇信息作为所述第一对象信息簇的簇信息的步骤。

在一种可能实现方式中，所述确定所述第一对象信息簇与所述关联对象信息簇之间的相似度，包括：

获取所述第一对象信息簇与所述关联对象信息簇之间的共有对象信息；

确定所述共有对象信息的信息数量占所述第一对象信息簇的信息数量的第三数量比值，以及，确定所述共有对象信息的信息数量占所述关联对象信息簇的信息数量的第四数量比值；

根据所述第三数量比值与所述第四数量比值之间的差值，确定所述第一对象信息簇与所述关联对象信息簇之间的相似度。

根据本公开实施例的第二方面，提供一种数据处理装置，包括：

获取单元，被配置为执行若检测到对象的对象信息发生变化，则在历史对象信息簇中，获取所述对象的第一对象信息簇的关联对象信息簇，所述第一对象信息簇包括变化后的对象信息，所述关联对象信息簇包含所述第一对象信息簇中的至少一个对象信息；

确定单元，被配置为执行确定所述第一对象信息簇与所述关联对象信息簇之间的相似度；

标识单元，被配置为执行若所述相似度大于相似度阈值，则确定所述第一对象信息簇的簇信息为所述关联对象信息簇的簇信息。

在一种可能实现方式中，所述数据处理装置还包括：生成单元，被配置为执行所述相似度小于或等于所述相似度阈值，则生成新的簇信息，并将所述新的簇信息作为所述第一对象信息簇的簇信息。

在一种可能实现方式中，所述获取单元，具体被配置为执行获取所述第一对象信息簇中的至少一个对象信息；基于所述至少一个对象信息，在所述历史对象信息簇中，查询第二对象信息簇；所述第二对象信息簇包含有与所述至少一个对象信息相同的信息；若所述第二对象信息簇具有一个，则确定所述第二对象信息簇为所述关联对象信息簇。

在一种可能实现方式中，若所述第二对象信息簇具有多个，所述获取单元，具体被配置为执行确定所述第一对象信息簇与所述第二对象信息簇之间的共有对象信息；确定所述共有对象信息的信息数量占所述第一对象信息簇的信息数量的比值，得到所述第二对象信息簇对应的第一数量比值；确定所述共有对象信息的信息数量占所述第二对象信息簇的信息数量的比值，得到所述第二对象信息簇对应的第二数量比值；根据所述第一数量比值和所述第二数量比值，在所述第二对象信息簇中确定所述关联对象信息簇。

在一种可能实现方式中，所述获取单元，具体被配置为执行若任一第二对象信息簇对应的第一数量比值、第二数量比值大于数量比值阈值，则确定所述任一第二对象信息簇为所述关联对象信息簇；或

在一种可能实现方式中，所述数据处理装置还包括：执行单元，被配置为执行若在所述历史对象信息簇中查询不到所述关联对象信息簇，则执行所述生成新的簇信息，并将所述新的簇信息作为所述第一对象信息簇的簇信息的步骤。

在一种可能实现方式中，所述确定单元，具体被配置为执行获取所述第一对象信息簇与所述关联对象信息簇之间的共有对象信息；确定所述共有对象信息的信息数量占所述第一对象信息簇的信息数量的第三数量比值，以及，确定所述共有对象信息的信息数量占所述关联对象信息簇的信息数量的第四数量比值；根据所述第三数量比值与所述第四数量比值之间的差值，确定所述第一对象信息簇与所述关联对象信息簇之间的相似度。

根据本公开实施例的第三方面，提供一种服务器，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现如第一方面或第一方面的任一种可能实现方式所述的数据处理方法。

根据本公开实施例的第四方面，提供一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面或第一方面的任一种可能实现方式所述的数据处理方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面的任一种可能实现方式所述的数据处理方法。

本公开的实施例提供的技术方案至少带来以下有益效果：若检测到对象的对象信息发生变化，则通过在历史对象信息簇中，获取对象的第一对象信息簇的关联对象信息簇，第一对象信息簇包括变化后的对象信息，关联对象信息簇包含第一对象信息簇中的至少一个对象信息；确定第一对象信息簇与关联对象信息簇之间的相似度；若相似度大于相似度阈值，则确定第一对象信息簇的簇信息为关联对象信息簇的簇信息。如此信息簇对应的簇信息并不只是基于簇中的各个信息元素生成的，因而可以避免一旦信息簇中的其中一个信息元素出现变更时，信息簇对应的簇信息也会随之变更的情况，使信息簇对应的簇信息在信息元素出现变更时达到稳定性和继承性，实现了簇信息的高稳定性和继承的合理性，并具备良好的解释性，便于基于信息簇对应的簇信息准确地追踪到信息簇在信息元素变更前后的关系。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种数据处理方法的应用环境图。

图2是根据一示例性实施例示出的一种数据处理方法的流程图。

图3是根据一示例性实施例示出的另一种数据处理方法的流程图。

图4是根据一示例性实施例示出的一种数据处理方法的处理流程图。

图5是根据一示例性实施例示出的一种簇信息分配理方法的示意图。

图6是根据一示例性实施例示出的一种数据处理装置的框图。

图7是根据一示例性实施例示出的一种服务器的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所提供的数据处理方法，可以应用于如图1所示的应用环境中。其中，若服务器110检测到对象120的对象信息发生变化，则在历史对象信息簇中，获取对象120的第一对象信息簇的关联对象信息簇，第一对象信息簇包括变化后的对象信息，关联对象信息簇包含第一对象信息簇中的至少一个对象信息。如图1所示，已知对象120为终端，对象120的变化后的对象信息包括设备标识1、设备标识2和设备标识3；第一对象信息簇则为由设备标识1、设备标识2和设备标识3组成。历史对象信息簇包括第一历史对象信息簇、第二历史对象信息簇和第三历史对象信息簇；第一历史对象信息簇由设备标识7、设备标识6和设备标识9组成，第二历史对象信息簇由设备标识9和设备标识6组成，第三历史对象信息簇由设备标识3、设备标识6和设备标识1组成。服务器可以将包含第一对象信息簇中的至少一个对象信息(即设备标识3和设备标识1)的第三历史对象信息簇作为第一对象信息簇的关联对象信息簇130。服务器110确定第一对象信息簇与关联对象信息簇之间的相似度；若相似度大于相似度阈值，服务器110则确定第一对象信息簇的簇信息为关联对象信息簇的簇信息，将关联对象信息簇的簇ID“ID 130”作为第一对象信息簇的簇ID,得到第一对象信息簇的簇ID为“ID 130”。实际应用中，对象120还可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器110可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图2是根据一示例性实施例示出的一种数据处理方法的流程图，如图2所示，该数据处理方法用于图1的服务器110中，至少包括以下步骤。

在步骤S210中，若检测到对象的对象信息发生变化，则在历史对象信息簇中，获取对象的第一对象信息簇的关联对象信息簇。第一对象信息簇包括有变化后的对象信息；关联对象信息簇包含第一对象信息簇中的至少一个对象信息。

其中，对象可以是指一种现实生活中的事物，比如一台设备、一个人或者一个地点。

其中，簇可以是指一个实体(对象)的信息组成的集合，比如一个设备可能具有多个IMEI、IMSI、IDFA、OAID等信息，这些信息组成的集合即为这个设备实体对应的簇。

IMEI(International Mobile Equipment Identity，国际移动设备识别码)即通常所说的手机序列号，在移动网络中识别每一部独立的手机等移动通信设备，相当于移动电话的身份证。

IMSI(International Mobile Subscriber Identity，国际移动用户识别码)是用于区分蜂窝网络中不同用户的、在所有蜂窝网络中不重复的识别码。

IDFA(Identifier for Advertising，广告识别码)是苹果设备给各个广告提供商用来追踪用户设备的标志符。

OAID(Open Anonymous Device Identifier，匿名设备标识符)是移动安全联盟联合国内手机厂商推出的补充设备标准体系方案得到的标识符。

一个实施例中，，对象信息簇可以是指包括对象的某些信息所组成的集合。实际应用中，对象信息簇可以是设备A所具有多个不同类型的设备ID标识所组成的集合。

其中，关联对象信息簇可以是指与第一对象信息簇存在关联关系的对象信息簇，其包含第一对象信息簇中的至少一个对象信息。在本实施例中，关联对象信息簇包含第一对象信息簇中的至少一个对象信息，则认为关联对象信息簇继承了第一对象信息簇中的至少一个对象信息，关联对象信息簇与第一对象信息簇中相同的对象信息(共有对象信息)可被称为继续元素，由此关联对象信息簇也可以命名为第一对象信息簇的继承簇。

具体实现中，若服务器检测到第一对象信息簇中的至少一个对象信息出现变更，则在预储存的多个历史对象信息簇中，查询得到至少一个关联对象信息簇。服务器可以确定第一对象信息簇中的至少一个对象信息；服务器再基于该至少一个对象信息，在历史对象信息簇中查询到包含有与第一对象信息簇中的至少一个对象信息相同的信息的对象信息簇，作为关联对象信息簇。

举例来说,已知历史对象信息簇包括第一历史对象信息簇、第二历史对象信息簇、第三历史对象信息簇，第一历史对象信息簇由设备标识A、设备标识B和设备标识D组成，第二历史对象信息簇由设备标识F、设备标识G和设备标识H组成，第三历史对象信息簇由设备标识T、设备标识E和设备标识H组成。每个历史对象信息簇具有对应的簇信息，其中，第一历史对象信息簇对应的簇信息为标识“1qg523”、第二历史对象信息簇对应的簇信息为标识“128sd3”，第三历史对象信息簇对应的簇信息为标识“1asda3”。

当检测到设备a的设备标识发生变化，服务器确定该设备a的第一对象信息簇为由设备标识A、设备标识B和设备标识C组成的信息簇，由于第一历史对象信息簇与第一对象信息簇均包含有“设备标识A”和“设备标识B”，服务器则将第一历史对象信息簇作为第一对象信息簇的关联对象信息簇。

在步骤S220中，确定第一对象信息簇与关联对象信息簇之间的相似度。

具体实现中，当服务器在预储存的多个历史对象信息簇中，查询得到至少一个关联对象信息簇后，服务器则确定第一对象信息簇与关联对象信息簇之间的相似度。服务器可以通过比较第一对象信息簇与关联对象信息簇在对象信息组成结构上的差异，进而确定出第一对象信息簇与关联对象信息簇之间的相似度。

仍接上例，当服务器将第一历史对象信息簇作为第一对象信息簇的关联对象信息簇后，服务器则比对由设备标识A、设备标识B和设备标识D组成的关联对象信息簇与由设备标识A、设备标识B和设备标识C组成的第一对象信息簇之间的相似度。实际应用中，服务器可以基于关联对象信息簇与第一对象信息簇之间共同具有的设备标识的个数与第一对象信息簇的总信息个数之间的比值，来确定第一对象信息簇与关联对象信息簇之间的相似度。例如，关联对象信息簇与第一对象信息簇均具有“设备标识A”和“设备标识B”这两个信息，共同具有信息的个数为2，第一对象信息簇的总信息个数为3，则第一对象信息簇与关联对象信息簇之间的相似度为2/3，约等于67％。

在步骤S230中，若相似度大于预设的相似度阈值，则确定第一对象信息簇的簇信息为所述关联对象信息簇的簇信息。

具体实现中，当服务器确定第一对象信息簇与关联对象信息簇之间的相似度后，服务器则判定该相似度是否大于预设的相似度阈值。当服务器确定第一对象信息簇与关联对象信息簇之间的相似度大于预设的相似度阈值时，服务器则将关联对象信息簇的簇信息，作为第一对象信息簇的簇信息。

再接上例，假设预设的相似度阈值为60％，由于第一对象信息簇与关联对象信息簇之间的相似度67％大于预设的相似度阈值60％，服务器则确定该第一对象信息簇是由于关联对象信息簇中的“设备标识D”变更为“设备标识C”而得到的信息簇，也就是说第一对象信息簇与关联对象信息簇之间存在继承关系，因此，服务器可以将第一历史对象信息簇对应的簇信息即标识“128sd3”,作为第一对象信息簇的簇信息，即由设备标识A、设备标识B和设备标识C组成的信息簇的簇信息为标识“128sd3”。

当服务器确定第一对象信息簇与关联对象信息簇之间的相似度小于或等于相似度阈值，则服务器生成新的簇信息，作为第一对象信息簇的簇信息。

再接上例，假设预设的相似度阈值为80％，由于第一对象信息簇与关联对象信息簇之间的相似度67％小于预设的相似度阈值80％，此时服务器则重新为第一对象信息簇生成新的簇信息，且该新的簇信息与各个历史对象信息簇具有对应的簇信息不相同，如，标识“sa4jgl”，即由设备标识A、设备标识B和设备标识C组成的信息簇的簇信息为标识“sa4jgl”。

在上述某些实施例中，若服务器在历史对象信息簇中查询不到关联对象信息簇，则服务器生成新的簇信息，作为第一对象信息簇的簇信息。

例如，设备a的第一对象信息簇为由设备标识Y、设备标识X和设备标识Z组成的信息簇；由于上述的第一历史对象信息簇、第二历史对象信息簇和第三历史对象信息簇均不包括信息“设备标识Y”、“设备标识X”和“设备标识Z”，因此服务器在历史对象信息簇中查询不到关联对象信息簇，服务器则重新为第一对象信息簇生成新的簇信息，且该新的簇信息与各个历史对象信息簇具有对应的簇信息不相同，如，标识“sa4jgl”，即由设备标识A、设备标识B和设备标识C组成的信息簇的簇信息为标识“sa4jgl”。

上述数据处理方法中，若检测到对象的对象信息发生变化，则通过在历史对象信息簇中，获取对象的第一对象信息簇的关联对象信息簇，第一对象信息簇包括变化后的对象信息，关联对象信息簇包含第一对象信息簇中的至少一个对象信息；确定第一对象信息簇与关联对象信息簇之间的相似度；若相似度大于相似度阈值，则确定第一对象信息簇的簇信息为关联对象信息簇的簇信息。如此信息簇对应的簇信息并不只是基于簇中的各个信息元素生成的，因而可以避免一旦信息簇中的其中一个信息元素出现变更时，信息簇对应的簇信息也会随之变更的情况，使信息簇对应的簇信息在信息元素出现变更时达到稳定性和继承性，使得各个对象信息簇的簇信息具有高稳定性和继承的合理性，同时具备良好的解释性，便于基于各个对象信息簇对应的簇信息准确地追踪到信息簇在信息元素变更前后的关系。

在一示例性实施例中，在历史对象信息簇中，获取对象的第一对象信息簇的关联对象信息簇，包括：获取第一对象信息簇中的至少一个对象信息；基于至少一个对象信息，在多个历史对象信息簇中，查询得到第二对象信息簇；第二对象信息簇包含有与至少一个对象信息相同的信息；若第二对象信息簇具有一个，则确定第二对象信息簇为关联对象信息簇。

具体实现中，已知,历史对象信息簇包括第一历史对象信息簇、第二历史对象信息簇、第三历史对象信息簇，第一历史对象信息簇由设备标识A、设备标识B和设备标识D组成，第二历史对象信息簇由设备标识F、设备标识G和设备标识H组成；第三历史对象信息簇由设备标识T、由设备标识E和设备标识H组成，第一对象信息簇为由设备标识A、设备标识B和设备标识K组成的信息簇。服务器在预储存的多个历史对象信息簇中，查询得到至少一个关联对象信息簇的过程中，服务器获取第一对象信息簇中的至少一个对象信息,如，设备标识A、设备标识B或设备标识K中的其中一个；并基于至少一个对象信息，在多个历史对象信息簇中，查询得到至少一个第二对象信息簇；第二对象信息簇包含有与至少一个对象信息相同的信息。可以看出，由于第一历史对象信息簇包含有与“设备标识A”和“设备标识B”相同的设备标识，服务器则将该第一历史对象信息簇确定为第二对象信息簇；由于历史对象信息簇中只有一个第二对象信息簇，因此服务器则将该第二对象信息簇确定为关联对象信息簇。

本实施例的技术方案，通过获取第一对象信息簇中的至少一个对象信息，通过在多个历史对象信息簇中查询是否包含有与至少一个对象信息相同的信息的信息簇，可以有效降低服务器在历史对象信息簇中确定关联对象信息簇过程中的数据处理量，实现了快速地在历史对象信息簇中确定出第一对象信息簇的关联对象信息簇。

在一示例性实施例中，若第二对象信息簇具有多个，在历史对象信息簇中，获取对象的第一对象信息簇的关联对象信息簇，包括：确定第一对象信息簇与第二对象信息簇之间的共有对象信息；确定共有对象信息的信息数量占第一对象信息簇的信息数量的比值，得到第二对象信息簇对应的第一数量比值；确定共有对象信息的信息数量占第二对象信息簇的信息数量的比值，得到第二对象信息簇对应的第二数量比值；根据第一数量比值和第二数量比值，在第二对象信息簇中确定关联对象信息簇。

具体实现中，当第二对象信息簇具有多个时，服务器还需要在多个第二对象信息簇中，确定出与第一对象信息簇的相似度最高的第二对象信息簇作为关联对象信息簇。服务器可以分别确定第一对象信息簇与各个第二对象信息簇之间的共有对象信息；并确定该共有对象信息的信息数量占第一对象信息簇的信息数量的比值，得到第二对象信息簇对应的第一数量比值；确定共有对象信息的信息数量占第二对象信息簇的信息数量的比值，得到第二对象信息簇对应的第二数量比值；服务器根据第一数量比值和第二数量比值，在第二对象信息簇中确定关联对象信息簇。

举例来说，已知设备a的第一对象信息簇为由设备标识A、设备标识B和设备标识C组成的信息簇，第一对象信息簇的信息数量为3；第二对象信息簇包括：由设备标识A、设备标识B、设备标识D和设备标识G组成的信息簇a，信息簇a的信息数量为4，以及，由设备标识A、设备标识D和设备标识F组成的信息簇b，信息簇b的信息数量为3。

针对信息簇a，服务器确定第一对象信息簇与信息簇a的共有对象信息为设备标识A和设备标识B，共有对象信息的信息数量为2，确定共有对象信息的信息数量占第一对象信息簇的信息数量的比值，得到信息簇a对应的第一数量比值为2/3(约等于67％)；确定共有对象信息的信息数量占信息簇a的信息数量的比值，得到信息簇a对应的第二数量比值为2/4(等于50％)；

针对信息簇b，服务器确定第一对象信息簇与信息簇a的共有对象信息为设备标识A，共有对象信息的信息数量为1，确定共有对象信息的信息数量占第一对象信息簇的信息数量的比值，得到信息簇b对应的第一数量比值为1/3(约等于33％)；确定共有对象信息的信息数量占信息簇b的信息数量的比值，得到信息簇b对应的第二数量比值为1/3(约等于33％)。

服务器再将第一数量比值和第二数量比值作为判断依据，在第二对象信息簇中确定出与第一对象信息簇的相似度最高的关联对象信息簇时，具有如下判断方式：

方式一：若服务器确定任一第二对象信息簇对应的第一数量比值、第二数量比值大于数量比值阈值，服务器则确定任一第二对象信息簇为关联对象信息簇。接上例，假设数量比值阈值为40％，由于信息簇a对应的第一数量比值为67％大于40％，信息簇a对应的第二数量比值为50％大于40％；信息簇b对应的第一数量比值为33％小于40％，信息簇b对应的第二数量比值为33％小于40％；因而服务器则将由设备标识A、设备标识B、设备标识D和设备标识G组成的信息簇a作为第一对象信息簇的关联对象信息簇。

方式二：若服务器确定任一第二对象信息簇对应的第一数量比值、第二数量比值的比值之和大于其他第二对象信息簇对应的第一数量比值、第二数量比值的比值之和，则服务器确定任一第二对象信息簇为关联对象信息簇。

其中，其他第二对象信息簇为第二对象信息簇中除任一第二对象信息簇之外的对象信息簇；

仍接上例，由于信息簇a对应的第一数量比值(67％)大于信息簇b对应的第一数量比值(33％)；信息簇a对应的第二数量比值(50％)大于信息簇b对应的第二数量比值(33％)。因而，服务器将将由设备标识A、设备标识B、设备标识D和设备标识G组成的信息簇a作为第一对象信息簇的关联对象信息簇。

方式三：若服务器确定任一第二对象信息簇对应的第一数量比值、第二数量比值大于数量比值阈值，且任一第二对象信息簇对应的第一数量比值、第二数量比值的比值之和大于其他第二对象信息簇对应的第一数量比值、第二数量比值的比值之和，则服务器确定任一第二对象信息簇为关联对象信息簇。

再接上例，假设数量比值阈值为40％，由于信息簇a对应的第一数量比值为67％大于40％，信息簇a对应的第二数量比值为50％大于40％；信息簇b对应的第一数量比值为33％小于40％，信息簇b对应的第二数量比值为33％小于40％；且信息簇a对应的第一数量比值、第二数量比值的比值之和为(67％+50％)＝117％，信息簇b对应的第一数量比值、第二数量比值的比值之和为(33％+33％)＝66％，信息簇a对应的第一数量比值、第二数量比值的比值之和大于信息簇b对应的第一数量比值、第二数量比值的比值之和；因而，服务器将将由设备标识A、设备标识B、设备标识D和设备标识G组成的信息簇a作为第一对象信息簇的关联对象信息簇。

本实施例的技术方案，通过确定第一对象信息簇与第二对象信息簇之间的共有对象信息；确定共有对象信息的信息数量占第一对象信息簇的信息数量的比值，得到第二对象信息簇对应的第一数量比值；确定共有对象信息的信息数量占第二对象信息簇的信息数量的比值，得到第二对象信息簇对应的第二数量比值，并将第一数量比值和第二数量比值作为判断第二对象信息簇是否为关联对象信息簇的依据，实现了基于第一对象信息簇与第二对象信息簇之间的共有对象信息占各对象信息簇中的总信息量的比重，表征出第一对象信息簇与各个第二对象信息簇之间的相似度，减少了服务器在获取对象的第一对象信息簇的关联对象信息簇的过程中的数据计算量，提高了确定关联对象信息簇的效率。

在一示例性实施例中，确定第一对象信息簇与关联对象信息簇之间的相似度，包括：获取第一对象信息簇与关联对象信息簇之间的共有对象信息；确定共有对象信息的信息数量占第一对象信息簇的信息数量的第三数量比值，以及，确定共有对象信息的信息数量占关联对象信息簇的信息数量的第四数量比值；根据第三数量比值与第四数量比值之间的差值，确定第一对象信息簇与关联对象信息簇之间的相似度。

其中，共有对象信息也可以命名为继承元素。

具体实现中，服务器在确定第一对象信息簇与关联对象信息簇之间的相似度的过程中，由于簇中各个信息元素不具备顺序性。服务器可以获取第一对象信息簇与关联对象信息簇之间的共有对象信息。服务器分别确定出共有对象信息的信息数量占第一对象信息簇的信息数量的第三数量比值，以及，确定共有对象信息的信息数量占关联对象信息簇的信息数量的第四数量比值。

服务器再根据第三数量比值与第四数量比值之间的差值，确定第一对象信息簇与关联对象信息簇之间的相似度。

应当理解的是，本公开将第三数量比值与第四数量比值之间的差值用来表征第一对象信息簇与关联对象信息簇之间的相似度。换句话说，服务器可以将第三数量比值与第四数量比值之间的差值映射为第一对象信息簇与关联对象信息簇之间的相似度，第三数量比值与第四数量比值之间的差值和第一对象信息簇与关联对象信息簇之间的相似度呈负相关关系，即第三数量比值与第四数量比值之间的差值越小，第一对象信息簇与关联对象信息簇之间的相似度则越高。

本实施例的技术方案，通过获取第一对象信息簇与关联对象信息簇之间的共有对象信息；确定共有对象信息的信息数量占第一对象信息簇的信息数量的第三数量比值，以及，确定共有对象信息的信息数量占关联对象信息簇的信息数量的第四数量比值；进而采用第三数量比值与第四数量比值之间的差值来表征出第一对象信息簇与关联对象信息簇之间结构的差异，便于服务器快速地计算出第一对象信息簇与关联对象信息簇之间的相似度。

在一示例性实施例中，生成新的簇信息，作为变更后对象信息簇对应的簇信息，包括：通过调用分布式唯一性编码生成器，生成分布式唯一性编码；将分布式唯一性编码，作为新的簇信息。

具体实现中，服务器在生成新的簇信息，作为变更后对象信息簇对应的簇信息时，服务器可以通过调用分布式唯一性编码生成器，生成分布式唯一性编码；服务器再将分布式唯一性编码，作为新的簇信息。例如，假设服务器需要为变更后对象信息簇A生成新的簇信息，服务器可以调用分布式唯一性编码生成器，以时间戳+机器分配标识+自增序列组成64位数字ID，如，1292755860950487050，作为该变更后对象信息簇A的新的簇信息。

本实施例的技术方案，服务器在生成新的簇信息，作为变更后对象信息簇对应的簇信息的过程中，服务器通过调用分布式唯一性编码生成器，生成分布式唯一性编码；将分布式唯一性编码，作为新的簇信息，使得新的簇信息具有唯一性，避免簇信息存在重复的情况。

图3是根据一示例性实施例示出的另一种数据处理方法的流程图，如图3所示，该方法用于图1中的服务器110中，包括以下步骤。

在步骤S310中，若检测到对象的对象信息发生变化，则获取第一对象信息簇中的至少一个对象信息；所述第一对象信息簇包括变化后的对象信息。

在步骤S320中，基于所述至少一个对象信息，在所述历史对象信息簇中，查询第二对象信息簇；所述第二对象信息簇包含有与所述至少一个对象信息相同的信息。

在步骤S331中，若所述第二对象信息簇具有一个，则确定所述第二对象信息簇为关联对象信息簇。

在步骤S332中，若所述第二对象信息簇具有多个，确定所述第一对象信息簇与所述第二对象信息簇之间的共有对象信息。

在步骤S333中，确定所述共有对象信息的信息数量占所述第一对象信息簇的信息数量的比值，得到所述第二对象信息簇对应的第一数量比值。

在步骤S334中，确定所述共有对象信息的信息数量占所述第二对象信息簇的信息数量的比值，得到所述第二对象信息簇对应的第二数量比值。

在步骤S335中，若任一第二对象信息簇对应的第一数量比值、第二数量比值大于数量比值阈值，则确定所述任一第二对象信息簇为关联对象信息簇。

在步骤S340中，获取所述第一对象信息簇与所述关联对象信息簇之间的共有对象信息。

在步骤S350中，确定所述共有对象信息的信息数量占所述第一对象信息簇的信息数量的第三数量比值，以及，确定所述共有对象信息的信息数量占所述关联对象信息簇的信息数量的第四数量比值。

在步骤S360中，根据所述第三数量比值与所述第四数量比值之间的差值，确定所述第一对象信息簇与所述关联对象信息簇之间的相似度。

在步骤S370中，若所述相似度小于或等于所述相似度阈值，则生成新的簇信息，并将所述新的簇信息作为所述第一对象信息簇的簇信息。

在步骤S380中，若所述相似度小于或等于所述相似度阈值，则通过调用分布式唯一性编码生成器，生成分布式唯一性编码。

在步骤S381中，将所述分布式唯一性编码，作为所述新的簇信息。需要说明的是，上述步骤的具体限定可以参见上文对一种数据处理方法的具体限定，在此不再赘述。

应该理解的是，虽然图2和图3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2和图3中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

为了便于本领域技术人员的理解，图4实例性地提供了一种数据处理方法的处理流程图。其中，服务器确定该设备a的第一对象信息簇为由设备标识A、设备标识B和设备标识D组成的信息簇；服务器在多个历史对象信息簇中，将由设备标识A、设备标识B和设备标识C组成的历史对象信息簇作为第一对象信息簇的关联对象信息簇。然后，服务器对比关联对象信息簇与第一对象信息簇之间的相似度；实际应用中，服务器可以基于关联信息簇与第一对象信息簇之间共同具有的设备标识的个数与第一对象信息簇的总信息个数之间的比值，来确定第一对象信息簇与关联对象信息簇之间的相似度。例如，关联信息簇与第一对象信息簇均具有“设备标识A”和“设备标识B”这两个信息，共同具有信息的个数为2；第一对象信息簇的总信息个数为3；则第一对象信息簇与关联对象信息簇之间的相似度为2/3，约等于67％。

一个实施例中，预设的相似度阈值为60％，由于第一对象信息簇与关联对象信息簇之间的相似度67％大于预设的相似度阈值60％，服务器则确定该第一对象信息簇是由于关联信息簇中的“设备标识C”变更为“设备标识D”而得到的信息簇，也就是说第一对象信息簇与关联信息簇之间存在继承关系，因此，服务器可以将第一历史对象信息簇对应的簇信息即标识“128sd3”,作为第一对象信息簇的簇信息，即由设备标识A、设备标识B和设备标识C组成的信息簇的簇信息为标识“128sd3”。

在另一个实施例中，预设的相似度阈值为80％，由于第一对象信息簇与关联对象信息簇之间的相似度67％小于预设的相似度阈值80％，此时服务器则重新为第一对象信息簇生成新的簇信息，且该新的簇信息与各个历史对象信息簇具有对应的簇信息不相同，如，标识“sa4jgl”，即由设备标识A、设备标识B和设备标识C组成的信息簇的簇信息为标识“sa4jgl”。

为了便于本领域技术人员的理解，图5实例性地提供了一种簇信息分配方法的示意图。需要说明的是，图5中的圆点用于表征信息簇中的信息，圆点中的填充样式用于表征该信息的信息内容；如图5所示，若检测到对象的对象信息发生变化，确定包括变化后的对象信息的第一对象信息簇A和第一对象信息簇B。

针对第一对象信息簇B，在历史对象信息簇确定第一对象信息簇B的关联对象信息簇为对象信息簇B和对象信息簇C；服务器对比对象信息簇C与第一对象信息簇B之间的相似度，以及对比对象信息簇B与第一对象信息簇B之间的相似度；实际应用中，服务器可以基于对象信息簇C与第一对象信息簇B之间共同具有的信息个数与第一对象信息簇的总信息个数之间的比值，来确定第一对象信息簇与关联对象信息簇之间的相似度。对比对象信息簇B与第一对象信息簇B之间的相似度采用的方法与对比对象信息簇C与第一对象信息簇B之间的相似度采用的方法原理相同，在此不再赘述。

假设对比对象信息簇B与第一对象信息簇B之间的相似度B小于预设的相似度阈值，而对比对象信息簇C与第一对象信息簇B之间的相似度C大于预设的相似度阈值，服务器则可以将对象信息簇C对应的簇信息“ID3”,作为第一对象信息簇B的簇信息，即第一对象信息簇B的簇信息为ID3。

针对第一对象信息簇A，在历史对象信息簇确定第一对象信息簇A的关联对象信息簇为对象信息簇A、对象信息簇B和对象信息簇C；假设，第一对象信息簇A分别与对象信息簇A、对象信息簇B和对象信息簇C间的相似度均小于或等于预设的相似度阈值，服务器则重新为该第一对象信息簇A分配一个新的簇信息“ID4”，即第一对象信息簇A的簇信息为ID4。

图6是根据一示例性实施例示出的一种数据处理装置框图。参照图6，该装置包括：

获取单元610，被配置为执行若检测到对象的对象信息发生变化，则在历史对象信息簇中，获取所述对象的第一对象信息簇的关联对象信息簇，所述第一对象信息簇包括变化后的对象信息，所述关联对象信息簇包含所述第一对象信息簇中的至少一个对象信息；

确定单元620，被配置为执行确定所述第一对象信息簇与所述关联对象信息簇之间的相似度；

标识单元630，被配置为执行若所述相似度大于相似度阈值，则确定所述第一对象信息簇的簇信息为所述关联对象信息簇的簇信息。

在一种可能实现方式中，所述获取单元610，具体被配置为执行获取所述第一对象信息簇中的至少一个对象信息；基于所述至少一个对象信息，在所述历史对象信息簇中，查询第二对象信息簇；所述第二对象信息簇包含有与所述至少一个对象信息相同的信息；若所述第二对象信息簇具有一个，则确定所述第二对象信息簇为所述关联对象信息簇。

在一种可能实现方式中，若所述第二对象信息簇具有多个，所述获取单元610，具体被配置为执行确定所述第一对象信息簇与所述第二对象信息簇之间的共有对象信息；确定所述共有对象信息的信息数量占所述第一对象信息簇的信息数量的比值，得到所述第二对象信息簇对应的第一数量比值；确定所述共有对象信息的信息数量占所述第二对象信息簇的信息数量的比值，得到所述第二对象信息簇对应的第二数量比值；根据所述第一数量比值和所述第二数量比值，在所述第二对象信息簇中确定所述关联对象信息簇。

在一种可能实现方式中，所述获取单元610，具体被配置为执行若任一第二对象信息簇对应的第一数量比值、第二数量比值大于数量比值阈值，则确定所述任一第二对象信息簇为所述关联对象信息簇；或

在一种可能实现方式中，所述确定单元620，具体被配置为执行获取所述第一对象信息簇与所述关联对象信息簇之间的共有对象信息；确定所述共有对象信息的信息数量占所述第一对象信息簇的信息数量的第三数量比值，以及，确定所述共有对象信息的信息数量占所述关联对象信息簇的信息数量的第四数量比值；根据所述第三数量比值与所述第四数量比值之间的差值，确定所述第一对象信息簇与所述关联对象信息簇之间的相似度。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种用于执行数据处理方法的设备700的框图。例如，设备700可以为一服务器。参照图7，设备700包括处理组件720，其进一步包括一个或多个处理器，以及由存储器722所代表的存储器资源，用于存储可由处理组件720的执行的指令，例如应用程序。存储器722中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件720被配置为执行指令，以执行上述数据处理方法。

设备700还可以包括一个电源组件724被配置为执行设备700的电源管理，一个有线或无线网络接口726被配置为将设备700连接到网络，和一个输入输出(I/O)接口728。设备700可以操作基于存储在存储器722的操作系统，例如WindowS ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器722，上述指令可由设备700的处理器执行以完成上述方法。存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

若检测到对象的对象信息发生变化，则在历史对象信息簇中，获取所述对象的第一对象信息簇的关联对象信息簇，所述第一对象信息簇包括变化后的对象信息，所述关联对象信息簇包含所述第一对象信息簇中的至少一个对象信息；其中，对象信息簇包括设备实体所具有多个不同类型的设备ID标识所组成的集合；

若所述相似度大于相似度阈值，则确定所述第一对象信息簇的簇信息为所述关联对象信息簇的簇信息；

其中，所述在历史对象信息簇中，获取所述对象的第一对象信息簇的关联对象信息簇，包括：

获取所述第一对象信息簇中的至少一个对象信息；

2.根据权利要求1所述的数据处理方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的数据处理方法，其特征在于，若所述第二对象信息簇具有多个，所述在历史对象信息簇中，获取所述对象的第一对象信息簇的关联对象信息簇，包括：

4.根据权利要求3所述的数据处理方法，其特征在于，所述根据第一数量比值和所述第二数量比值，在所述第二对象信息簇中确定所述关联对象信息簇，包括：

5.根据权利要求2所述的数据处理方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的数据处理方法，其特征在于，所述确定所述第一对象信息簇与所述关联对象信息簇之间的相似度，包括：

7.一种数据处理装置，其特征在于，包括：

获取单元，被配置为执行若检测到对象的对象信息发生变化，则在历史对象信息簇中，获取所述对象的第一对象信息簇的关联对象信息簇，所述第一对象信息簇包括变化后的对象信息，所述关联对象信息簇包含所述第一对象信息簇中的至少一个对象信息；其中，对象信息簇包括设备实体所具有多个不同类型的设备ID标识所组成的集合；

标识单元，被配置为执行若所述相似度大于相似度阈值，则确定所述第一对象信息簇的簇信息为所述关联对象信息簇的簇信息；

其中，所述获取单元，具体被配置为执行获取所述第一对象信息簇中的至少一个对象信息；基于所述至少一个对象信息，在所述历史对象信息簇中，查询第二对象信息簇；所述第二对象信息簇包含有与所述至少一个对象信息相同的信息；若所述第二对象信息簇具有一个，则确定所述第二对象信息簇为所述关联对象信息簇。

8.根据权利要求7所述的数据处理装置，其特征在于，所述数据处理装置还包括：生成单元，被配置为执行所述相似度小于或等于所述相似度阈值，则生成新的簇信息，并将所述新的簇信息作为所述第一对象信息簇的簇信息。

9.根据权利要求7所述的数据处理装置，其特征在于，若所述第二对象信息簇具有多个，所述获取单元，具体被配置为执行确定所述第一对象信息簇与所述第二对象信息簇之间的共有对象信息；确定所述共有对象信息的信息数量占所述第一对象信息簇的信息数量的比值，得到所述第二对象信息簇对应的第一数量比值；确定所述共有对象信息的信息数量占所述第二对象信息簇的信息数量的比值，得到所述第二对象信息簇对应的第二数量比值；根据所述第一数量比值和所述第二数量比值，在所述第二对象信息簇中确定所述关联对象信息簇。

10.根据权利要求9所述的数据处理装置，其特征在于，所述获取单元，具体被配置为执行若任一第二对象信息簇对应的第一数量比值、第二数量比值大于数量比值阈值，则确定所述任一第二对象信息簇为所述关联对象信息簇；或

11.根据权利要求8所述的数据处理装置，其特征在于，所述数据处理装置还包括：执行单元，被配置为执行若在所述历史对象信息簇中查询不到所述关联对象信息簇，则执行所述生成新的簇信息，并将所述新的簇信息作为所述第一对象信息簇的簇信息的步骤。

12.根据权利要求7所述的数据处理装置，其特征在于，所述确定单元，具体被配置为执行获取所述第一对象信息簇与所述关联对象信息簇之间的共有对象信息；确定所述共有对象信息的信息数量占所述第一对象信息簇的信息数量的第三数量比值，以及，确定所述共有对象信息的信息数量占所述关联对象信息簇的信息数量的第四数量比值；根据所述第三数量比值与所述第四数量比值之间的差值，确定所述第一对象信息簇与所述关联对象信息簇之间的相似度。

13.一种服务器，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的数据处理方法。

14.一种存储介质，当所述存储介质中的指令由服务器的处理器执行时，使得所述服务器能够执行如权利要求1至6中任一项所述的数据处理方法。