CN106777285A

CN106777285A - 标签聚类的方法和装置

Info

Publication number: CN106777285A
Application number: CN201611246029.3A
Authority: CN
Inventors: 董琦琦; 郑建兵; 陈劼
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Jiangsu Co Ltd
Priority date: 2016-12-29
Filing date: 2016-12-29
Publication date: 2017-05-31
Anticipated expiration: 2036-12-29
Also published as: CN106777285B

Abstract

本申请涉及一种标签聚类的方法和装置。该方法包括：从多个标签中选择初始标签，以该初始标签形成子标签簇，其中初始标签为与多个标签中其它标签的平均相似度最小的标签；执行迭代处理以获得与子标签簇内所有标签的平均相似度值最小并且小于等于预设阈值的新标签，并在每次获得新标签后以该新标签更新子标签簇，直到新标签与子标签簇内所有标签的平均相似度值大于预设阈值为止；将由与子标签簇内所有标签的平均相似度值大于预设阈值的新标签之前获得的所有标签形成的子标签簇作为目标标签簇。

Description

标签聚类的方法和装置

技术领域

本申请涉及大数据挖掘领域，更具体地，涉及标签聚类的方法和装置。

背景技术

随着互联网技术的快速发展，数据挖掘特别是对大数据的挖掘已经成为电信运营商进行市场营销和决策支持的重要手段。在过去，由于事件的种类和用户数量都很少，数据量也不大，现有的数据标签聚类方法能够满足针对时间及空间的性能需求。但随着大数据技术的引入，数据量和标签种类出现了几何倍数的增长，现有的数据标签聚类方法所消耗的时间和空间大幅增长，已经难以满足行业的需求。

发明内容

根据本申请的一个方面，提供了一种标签聚类的方法，包括：从多个标签中选择初始标签，以所述初始标签形成子标签簇，其中所述初始标签为与所述多个标签中其它标签的平均相似度值最小的标签；执行迭代处理以获得与子标签簇内所有标签的平均相似度值最小并且小于等于预设阈值的新标签，并在每次获得所述新标签后以该新标签更新所述子标签簇，直到所述新标签与子标签簇内所有标签的平均相似度值大于预设阈值为止；将由与子标签簇内所有标签的平均相似度值大于预设阈值的新标签之前获得的所有标签形成的子标签簇作为目标标签簇。

根据本申请的另一方面，提供了一种标签聚类的装置，包括：初始标签确定单元，被配置为：从多个标签中选择初始标签，以所述初始标签形成子标签簇，其中所述初始标签为与所述多个标签中其它标签的平均相似度值最小的标签；新标签确定单元，被配置为：执行迭代处理以获得与子标签簇内所有标签的平均相似度值最小并且小于等于预设阈值的新标签，并在每次获得所述新标签后以该新标签更新所述子标签簇，直到所述新标签与子标签簇内所有标签的平均相似度值大于预设阈值为止；标签簇确定单元，被配置为：将由与子标签簇内所有标签的平均相似度值大于预设阈值的新标签之前获得的所有标签形成的子标签簇作为目标标签簇。

根据本申请实施例的标签聚类的方法和装置提供了一种可以对分散存储在数据库中的元素或对象进行聚类划分，从而找出具有相似特征的对象的集合。

附图说明

从下面结合附图对本发明的具体实施方式的描述中可以更好地理解本发明，其中，相似的标号指示相同或功能类似的元件：

图1示出根据本发明的实施例的标签聚类的方法的流程图。

图2示出根据本发明的实施例的标签聚类的装置的框图。

图3是能够实现根据本发明实施例的标签聚类的方法和装置的计算设备的示例性硬件架构的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面将详细描述本发明的各个方面的特征和示例性实施例。在下面的详细描述中，提出了许多具体细节，以便提供对本发明的全面理解。但是，对于本领域技术人员来说很明显的是，本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明的更好的理解。本发明决不限于下面所提出的任何具体配置和算法，而是在不脱离本发明的精神的前提下覆盖了元素、部件和算法的任何修改、替换和改进。在附图和下面的描述中，没有示出公知的结构和技术，以便避免对本发明造成不必要的模糊。

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明更全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中，为了清晰，可能夸大了区域和层的厚度。在图中相同的附图标记表示相同或类似的结构，因而将省略它们的详细描述。

此外，所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中，提供许多具体细节从而给出对本发明的实施例的充分理解。然而，本领域技术人员将意识到，可以实践本发明的技术方案而没有所述特定细节中的一个或更多，或者可以采用其它的方法、组元、材料等。在其它情况下，不详细示出或描述公知结构、材料或者操作以避免模糊本发明的主要技术创意。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

对大数据标签进行挖掘，需要对标签进行分类，即对大数据标签进行聚类划分。现有的数据标签聚类方法主要包括k-means算法、层次聚类算法、SOM算法、FCM算法四种。在上述四种聚类算法中存在固定缺点：k-means聚类算法的初始点选择不稳定，是随机选取的，这就引起聚类结果的不稳定；层次聚类虽然不需要确定分类数，但是一旦一个分裂或者合并被执行，就不能修正，聚类质量受限制；FCM对初始聚类中心敏感，需要人为确定聚类数，容易陷入局部最优解；SOM与实际大脑处理有很强的理论联系，但是处理时间较长，需要进一步研究使其适应大型数据库。

本发明提供了一种标签聚类的方法和装置，能够对分散存储在数据库中的元素或对象进行聚类划分，从而找出具有相似特征的对象的集合。下面结合附图对根据本发明实施例的执行标签聚类的方法和装置进行详细描述。

图1示出根据本发明的实施例的标签聚类的方法。如图1所示，标签聚类方法100包括：S102，从多个标签中选择初始标签，以该初始标签形成子标签簇，其中该初始标签为与所述多个标签中其它标签的平均相似度最小的标签；S104，执行迭代处理以获得与子标签簇内所有标签的平均相似度值最小并且小于等于预设阈值的新标签，并在每次获得该新标签后以该新标签更新上述子标签簇，直到新标签与子标签簇内所有标签的平均相似度值大于预设阈值为止；以及S106，将由与子标签簇内所有标签的平均相似度值大于预设阈值的新标签之前获得的所有标签形成的子标签簇作为目标标签簇。

在方法100中涉及的标签是由与该标签相关的若干事件组成的事件集合。例如，在电信运营商维护的关于用户的数据库中，可将每个用户看做一个标签，每个用户的行为或状态可以看作与该用户所对应的标签相关的事件。在该示例中，与标签相关的事件(即，用户的行为或状态)例如可以是(但不限于)每户每月通话时间(minutes of usage,MOU)、每户每月上网流量(dataflow of usage)、每户每月平均收入(Average Revenue Per User,ARPU)、位置信息(经纬度坐标)、城市信息、话费余额、通信费用、通信详单等。在一些实施例中，与标签相关的事件以数值方式表示并被存储在数据库中。在另一些实施例中，与标签相关的事件以文本形式表示并被存储在数据库中。在这种情形中，可以在数据库中维护文本形式的事件与数值的对应表，以适应基于数值的标签聚类方法。

此外，在进行标签聚类时通常考虑若干因素对于聚类的影响，不同因素的重要性程度各不相同。即，标签中各事件对标签的重要性程度各不相同。因此，在本申请中对每个事件设置相应的重要性权重，并且重要性越高的事件的重要性权重也越大。值得注意的是，标签中的各个事件所对应的重要性权重的和应当为1。

聚类操作的预设阈值根据定义聚类精确度的要求被确定，其可以是根据经验确定的数值，一般也称之为聚类相似度阈值。一般地，聚类相似度阈值越小，聚类越精确。

上述操作中新标签与子标签簇内的任一标签的相似度值为该新标签与该任一标签的事件相似度之和，其中事件相似度可以被定义为新标签的该事件与任一标签的该事件之差乘以该事件对应的重要性权重。在其它实施例中，事件相似度也可以被定义为新标签的该事件与任一标签的该事件之差的n次开方乘以该事件对应的重要性权重。

在一个示例中，将要对其进行聚类操作的所有标签定义为标签库C。标签库C的成员标签k_x是由与k_x相关的s个事件组成的事件集合。根据每个事件k_x ⁱ对于成员标签k_x的重要程度，为该事件设置相应的重要性权重Q_i，并且Q₁+Q₂+…...+Q_i＝1。将标签库C的聚类相似度阈值设定为F，将成员标签k_x和k_y之间的相似度定义为L(k_x,k_j)，并且在其它示例中，其中r为大于等于2的整数。然后基于聚类相似度阈值F在标签库C中进行聚类。

在该实现方式中，聚类操作包括首先在标签库C中选择与标签库C中其它标签的平均相似度最小的标签作为初始标签k₀。该初始标签k₀形成子标签簇J₁。在一些实施例中标签库C中的标签k_x与标签库C中其它p个标签的平均相似度L(k_x,k_j)的计算公式为：

然后在标签库C中寻找与子标签簇J₁内的标签的平均相似度最小且小于聚类相似度阈值F的标签k₁。在该步骤中子标签簇J₀仅包含一个标签，因此k₁实际上为标签库C中与标签k₀相似度最小的标签。将k₁添加到子标签簇J₁中以形成子标签簇J₂。

接着在标签库C中查找标签k₂，使得k₂与子标签簇J₂内标签的平均相似度最小且小于聚类相似度阈值F。将标签k₂添加到子标签簇J₂中以形成子标签簇J₃。循环执行该步骤，直到新查找到的标签k_m与子标签簇J_m内标签的平均相似度大于聚类相似度阈值F时停止查找，并将子标签簇J_m从标签库C中提取出来，形成目标标签簇。

下面结合具体情形说明采用图1中示出的方法进行标签聚类的流程。

电信运营商的数据库中维持有关于14个用户的消费行为的标签库C，其中成员k_n由两个事件ARPU值和MOU值组成。ARPU值权重为0.9，MOU值权重为0.1。C中标签值为{{40，239}、{42，298}，{54，566}、{128，108}、{55，569}、{65，1080}、{58，580}，{49，501}、{68，1367}、{69，1281}、{71，188}、{64，688}、{66，680}、{90，1288}}，聚类相似度阈值设定为F＝20。

首先从标签库C中选择初始标签k₀，具体为：

计算任一标签k_x与标签库C中其它13个标签的平均相似度L(k_x，k_j)，并选择与标签库C中其它13个标签的平均相似度最小的标签作为初始标签k₀。通过计算得到初始化标签k₀为{54，566}，k₀形成子标签簇J₁＝{54，566}。

然后通过迭代操作查找最小相邻标签：

第一个最小相邻标签为k₁＝{55，569}，与子标签簇J₁内的初始化标签k₀的平均相似度为|55-54|×0.9+|569-566|×0.1＝1.2，将k₁添加到J₁内形成子标签簇J₂＝{54，566}、{55，569}；

第二个最小相邻标签为k₂＝{58，580}，与子标签簇J₂内的标签{54，566}、{55，569}的平均相似度为[(|58-54|×0.9+|580-566|×0.1)+(|58-55|×0.9+|580-569|×0.1)]/2＝4.4，将k₂添加到J₂形成子标签簇J₃＝{54，566}、{55，569}、{58，580}；

第三个最小相邻标签为k₃＝{49，501}，与子标签簇J₃内的标签{54，566}、{55，569}、{58，580}的平均相似度为[(|49-54|×0.9+|501-566|×0.1)+(|49-55|×0.9+|501-569|×0.1)+(|49-58|×0.9+|501-580|×0.1)]/3＝7.7，将k₃添加到J₃形成子标签簇J₄＝{54，566}、{55，569}、{58，580}，{49，501}；

第四个最小相邻标签为k₄＝{64，688}，与子标签簇J₄内的标签{54，566}、{55，569}、{58，580}，{49，501}的平均相似度均值为[(|64-54|×0.9+|688-566|×0.1)+(|64-55|×0.9+|688-569|×0.1)+(|64-58|×0.9+|688-580|×0.1)+(|64-49|×0.9+|688-501|×0.1)]/4＝19.3，将k₄添加到J₄形成子标签簇J₅＝{54，566}、{55，569}、{58，580}、{49，501}、{64，688}；

第五个最小相邻标签为k₅＝{66，680}，与子标签簇J₅内的标签{54，566}、{55，569}、{58，580}、{49，501}、{64，688}的平均相似度均值为[(|66-54|×0.9+|680-566|×0.1)+(|66-55|×0.9+|680-569|×0.1)+(|66-58|×0.9+|680-580|×0.1)+(|66-49|×0.9+|680-501|×0.1)+(|66-64|×0.9+|680-688|×0.1)]/5＝21.76>聚类相似度阈值F＝20；

结束循环计算。

因此目标标签簇为J₅＝{{54，566}、{55，569}、{58，580}，{49，501}、{64，688}}。

图2示出根据本发明实施例的标签聚类的装置200。如图所示，装置200包括初始标签确定单元202、新标签确定单元204、以及标签簇确定单元206。其中，初始标签确定单元202被配置为从多个标签中选择初始标签，以所述初始标签形成子标签簇，其中所述初始标签为与所述多个标签中其它标签的平均相似度最小的标签。新标签确定单元204被配置为执行迭代处理以获得与子标签簇内所有标签的平均相似度值最小并且小于等于预设阈值的新标签，并在每次获得所述新标签后以该新标签更新所述子标签簇，直到所述新标签与子标签簇内所有标签的平均相似度值大于预设阈值为止。标签簇确定单元206被配置为将由与子标签簇内所有标签的平均相似度值大于预设阈值的新标签之前获得的所有标签形成的子标签簇作为目标标签簇。装置200功能与图1中示出的方法相对应，在此不再详细描述。

结合图1至图2描述的标签聚类的方法和装置可以由计算设备实现。图3是示出能够实现根据本发明实施例的标签聚类的方法和装置的计算设备的示例性硬件架构的结构图。如图3所示，计算设备300包括输入设备301、输入接口302、中央处理器303、存储器304、输出接口305、以及输出设备306。其中，输入接口302、中央处理器303、存储器304、以及输出接口305通过总线310相互连接，输入设备301和输出设备306分别通过输入接口302和输出接口305与总线310连接，进而与计算设备300的其他组件连接。具体地，输入设备301接收输入信息(例如，与各个标签相关的事件)，并通过输入接口302将输入信息传送到中央处理器303；中央处理器303基于存储器304中存储的计算机可执行指令对输入信息进行处理以生成输出信息，将输出信息临时或者永久地存储在存储器304中，然后通过输出接口305将输出信息传送到输出设备306；输出设备306将输出信息输出到计算设备300的外部供用户使用。

也就是说，图2所示的标签聚类的装置200也可以被实现为包括：存储有计算机可执行指令的存储器；以及处理器，该处理器在执行计算机可执行指令时可以实现结合图1-图2描述的标签聚类的方法和装置。这里，处理器可以基于输入信息执行计算机可执行指令，从而实现结合图1-图2描述的标签聚类的方法和装置。

需要明确的是，本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见，这里省略了对已知方法的详细描述。在上述实施例中，描述和示出了若干具体的步骤作为示例。但是，本发明的方法过程并不限于所描述和示出的具体步骤，本领域的技术人员可以在领会本发明的精神后，作出各种改变、修改和添加，或者改变步骤之间的顺序。

以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

本发明可以以其他的具体形式实现，而不脱离其精神和本质特征。例如，特定实施例中所描述的算法可以被修改，而系统体系结构并不脱离本发明的基本精神。因此，当前的实施例在所有方面都被看作是示例性的而非限定性的，本发明的范围由所附权利要求而非上述描述定义，并且，落入权利要求的含义和等同物的范围内的全部改变从而都被包括在本发明的范围之中。

Claims

1.一种标签聚类的方法，包括：

从多个标签中选择初始标签，以所述初始标签形成子标签簇，其中所述初始标签为与所述多个标签中其它标签的平均相似度值最小的标签；

执行迭代处理以获得与子标签簇内所有标签的平均相似度值最小并且小于等于预设阈值的新标签，并在每次获得所述新标签后以该新标签更新所述子标签簇，直到所述新标签与子标签簇内所有标签的平均相似度值大于预设阈值为止；

将由与子标签簇内所有标签的平均相似度值大于预设阈值的新标签之前获得的所有标签形成的子标签簇作为目标标签簇。

2.根据权利要求1所述的方法，其中，所述预设阈值根据聚类精确度的高低被确定。

3.根据权利要求1所述的方法，其中，所述多个标签中的每个标签包括与该标签相关的多个事件，每个事件具有相应的重要性权重，并且所述每个事件的重要性权重的加和为1。

4.根据权利要求3所述的方法，其中，所述新标签与所述子标签簇内的任一标签的相似度值为所述新标签与所述任一标签的事件相似度之和，其中所述事件相似度为所述新标签的该事件与所述任一标签的该事件之差乘以该事件对应的重要性权重。

5.根据权利要求3所述的方法，其中，所述事件至少包括每户每月通话时间(MOU)、每户每月上网流量(DOU)、每户每月平均收入(ARPU)、经纬度坐标中的一者。

6.一种标签聚类的装置，包括：

初始标签确定单元，被配置为：从多个标签中选择初始标签，以所述初始标签形成子标签簇，其中所述初始标签为与所述多个标签中其它标签的平均相似度值最小的标签；

新标签确定单元，被配置为：执行迭代处理以获得与子标签簇内所有标签的平均相似度值最小并且小于等于预设阈值的新标签，并在每次获得所述新标签后以该新标签更新所述子标签簇，直到所述新标签与子标签簇内所有标签的平均相似度值大于预设阈值为止；

标签簇确定单元，被配置为：将由与子标签簇内所有标签的平均相似度值大于预设阈值的新标签之前获得的所有标签形成的子标签簇作为目标标签簇。

7.根据权利要求6所述的装置，其中，所述预设阈值根据聚类精确度的高低被确定。

8.根据权利要求6所述的装置，其中，所述多个标签中的每个标签包括与该标签相关的多个事件，每个事件具有相应的重要性权重，并且所述多个事件的各重要性权重的加和为1。

9.根据权利要求8所述的装置，其中，所述多个标签中的任一标签与该多个标签中的另一标签的相似度值为所述新标签与所述任一标签的事件相似度之和，其中所述事件相似度为所述新标签的该事件与所述任一标签的该事件之差乘以该事件对应的重要性权重。

10.根据权利要求8所述的装置，其中，所述事件至少包括每户每月通话时间(MOU)、每户每月上网流量(DOU)、每户每月平均收入(ARPU)、和经纬度坐标中的一者。