CN113011460A

CN113011460A - 一种基于局部搜索聚类算法的用户画像方法和装置

Info

Publication number: CN113011460A
Application number: CN202110189237.9A
Authority: CN
Inventors: 杜永健
Original assignee: CCB Finetech Co Ltd
Current assignee: CCB Finetech Co Ltd
Priority date: 2021-02-19
Filing date: 2021-02-19
Publication date: 2021-06-22

Abstract

本发明公开了一种基于局部搜索聚类算法的用户画像方法和装置，其中，所述方法包括：获得预设簇数量K，根据所述预设簇数量，获得第一执行指令；将所述K个初始点组成第一集合；获得预设集合个数M，根据所述预设集合个数，重复执行所述第一执行指令，获得第二集合、第三集合，直到第M集合；将所述第一集合、第二集合、第三集合、直到所述第M集合在所述待处理数据集上进行K‑means算法，获得M个划分结果；对所述M个划分结果进行局部搜索机制处理，确定最终聚类结果。解决了现有技术中用户画像不够准确，使用的算法其结果依赖于初始聚类中心，容易陷入局部最优的技术问题。

Description

一种基于局部搜索聚类算法的用户画像方法和装置

技术领域

本发明涉及用户画像领域，尤其涉及一种基于局部搜索聚类算法的用户画像方法和装置。

背景技术

聚类算法是指将一堆没有标签的数据自动划分成几类的方法，属于无监督学习方法，典型的如k-means聚类算法，以K为参数，把n个对象分成K个簇，使簇内具有较高的相似度，而簇间的相似度较低，聚类算法可应用于多种场景中，如银行用户画像等。

但本申请发明人在实现本申请实施例中发明技术方案的过程中，发现上述技术至少存在如下技术问题：

现有技术中用户画像不够准确，使用的算法其结果依赖于初始聚类中心，容易陷入局部最优的技术问题。

发明内容

本申请实施例通过提供一种基于局部搜索聚类算法的用户画像方法和装置，解决了现有技术中用户画像不够准确，使用的算法其结果依赖于初始聚类中心，容易陷入局部最优技术问题，达到通过改变初始点，通过多次迭代计算，利用熵值进行结果验算评价，提高分类结果的精准度，避免初始聚类点对聚类结果的影响的技术效果。

鉴于上述问题，提出了本申请实施例提供一种基于局部搜索聚类算法的用户画像方法和装置。

第一方面，本申请实施例提供了一种基于局部搜索聚类算法的用户画像方法，所述算法包括：获得预设筛选要求；根据所述预设筛选要求，获得用户历史信息；根据所述用户历史信息，获得待处理数据集；获得预设簇数量K，其中，K为大于2的自然数；根据所述预设簇数量，获得第一执行指令，所述第一执行指令为从待处理数据集中获得K个初始点；将所述K个初始点组成第一集合；获得预设集合个数M，其中，M为大于1的自然数；根据所述预设集合个数，重复执行所述第一执行指令，获得第二集合、第三集合，直到第M集合；将所述第一集合、第二集合、第三集合、直到所述第M集合在所述待处理数据集上进行K-means算法，获得M个划分结果；对所述M个划分结果进行局部搜索机制处理，确定最终聚类结果。

另一方面，本申请还提供了一种基于局部搜索聚类算法的用户画像装置，所述装置包括：第一获得单元，所述第一获得单元用于获得预设筛选要求；第二获得单元，所述第二获得单元用于根据所述预设筛选要求，获得用户历史信息；第三获得单元，所述第三获得单元用于根据所述用户历史信息，获得待处理数据集；第四获得单元，所述第四获得单元用于获得预设簇数量K，其中，K为大于2的自然数；第五获得单元，所述第五获得单元用于根据所述预设簇数量，获得第一执行指令，所述第一执行指令为从待处理数据集中获得K个初始点；第一组成单元，所述第一组成单元用于将所述K个初始点组成第一集合；第六获得单元，所述第六获得单元用于获得预设集合个数M，其中，M为大于1的自然数；第七获得单元，所述第七获得单元用于根据所述预设集合个数，重复执行所述第一执行指令，获得第二集合、第三集合，直到第M集合；第八获得单元，所述第八获得单元用于将所述第一集合、第二集合、第三集合、直到所述第M集合在所述待处理数据集上进行K-means算法，获得M个划分结果；第一确定单元，所述第一确定单元用于对所述M个划分结果进行局部搜索机制处理，确定最终聚类结果；第九获得单元，所述第九获得单元用于根据所述聚类结果，获得用户信息。

第三方面，本发明提供了一种基于局部搜索聚类算法的用户画像装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现第一方面所述方法的步骤。

本申请实施例中提供的一个或多个技术方案，至少具有如下技术效果或优点：

由于采用了获得预设簇数量K，其中，K为大于2的自然数；根据所述预设簇数量，获得第一执行指令，所述第一执行指令为从待处理数据集中获得K个初始点；将所述K个初始点组成第一集合；获得预设集合个数M，其中，M为大于1的自然数；根据所述预设集合个数，重复执行所述第一执行指令，获得第二集合、第三集合，直到第M集合；将所述第一集合、第二集合、第三集合、直到所述第M集合在所述待处理数据集上进行K-means算法，获得M个划分结果；对所述M个划分结果进行局部搜索机制处理，确定最终聚类结果，进而达到通过改变初始点，通过多次迭代计算，利用熵值进行结果验算评价，提高分类结果的精准度，避免初始聚类点对聚类结果的影响的技术效果。

上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

附图说明

图1为本申请实施例一种基于局部搜索聚类算法的用户画像方法的流程示意图；

图2为本申请实施例一种基于局部搜索聚类算法的用户画像装置的结构示意图；

图3为本申请实施例示例性电子设备的结构示意图。

附图标记说明：第一获得单元11，第二获得单元12，第三获得单元13，第四获得单元14，第五获得单元15，第一组成单元16，第六获得单元17，第七获得单元18，第八获得单元19，第一确定单元20，第九获得单元21，总线300，接收器301，处理器302，发送器303，存储器304，总线接口305。

具体实施方式

本申请实施例通过提供一种基于局部搜索聚类算法的用户画像方法和装置，解决了现有技术中用户画像不够准确，使用的算法其结果依赖于初始聚类中心，容易陷入局部最优的技术问题，达到通过改变初始点，通过多次迭代计算，利用熵值进行结果验算评价，提高分类结果的精准度，避免初始聚类点对聚类结果的影响的技术效果。下面，将参考附图详细的描述根据本申请的示例实施例。显然，所描述的实施例仅是本申请的一部分实施例，而不是本申请的全部实施例，应理解，本申请不受这里描述的示例实施例的限制。

申请概述

聚类算法是指将一堆没有标签的数据自动划分成几类的方法，属于无监督学习方法，典型的如k-means聚类算法，以K为参数，把n个对象分成K个簇，使簇内具有较高的相似度，而簇间的相似度较低。但现有技术中用户画像不够准确，使用的算法其结果依赖于初始聚类中心，容易陷入局部最优的技术问题。

针对上述技术问题，本申请提供的技术方案总体思路如下：

本申请实施例提供了一种基于局部搜索聚类算法的用户画像方法，所述算法包括：获得预设筛选要求；根据所述预设筛选要求，获得用户历史信息；根据所述用户历史信息，获得待处理数据集；获得预设簇数量K，其中，K为大于2的自然数；根据所述预设簇数量，获得第一执行指令，所述第一执行指令为从待处理数据集中获得K个初始点；将所述K个初始点组成第一集合；获得预设集合个数M，其中，M为大于1的自然数；根据所述预设集合个数，重复执行所述第一执行指令，获得第二集合、第三集合，直到第M集合；将所述第一集合、第二集合、第三集合、直到所述第M集合在所述待处理数据集上进行K-means算法，获得M个划分结果；对所述M个划分结果进行局部搜索机制处理，确定最终聚类结果。

在介绍了本申请基本原理后，下面将结合说明书附图来具体介绍本申请的各种非限制性的实施方式。

实施例一

如图1所示，本申请实施例提供了一种基于局部搜索聚类算法的用户画像方法，其中，所述算法包括：

步骤S100：获得预设筛选要求；

步骤S200：根据所述预设筛选要求，获得用户历史信息；

步骤S300：根据所述用户历史信息，获得待处理数据集；

具体而言，所述预设筛选要求为银行预先设定的用户消费筛选要求，所述用户历史信息为通过所述预设筛选要求，获得符合筛选要求的历史客户，所述待处理数据集为使用本算法处理的客户的消费行为数据集合，达到通过客户消费行为数据运用本算法进行用户分组，进而发现高质量客户的目的。

步骤S400：获得预设簇数量K，其中，K为大于2的自然数；

具体而言，所述预设簇为预设所有数据点的集合，簇中的对象是相似的，簇数量个数K是用户给定的，K为大于2的自然数，每一个簇有一个质心，即簇的中心点。

步骤S500：根据所述预设簇数量，获得第一执行指令，所述第一执行指令为从待处理数据集中获得K个初始点；

具体而言，根据所述预设簇数量，假设有n个数据data[n]，则需要所述执行指令进行K个划分，对data[n]进行随机选择K个初始点，形成K个初始中心点c₀[0]c₀[1]……c₀[k-1]。

步骤S600：将所述K个初始点组成第一集合；

步骤S700：获得预设集合个数M，其中，M为大于1的自然数；

步骤S800：根据所述预设集合个数，重复执行所述第一执行指令，获得第二集合、第三集合，直到第M集合；

具体而言，所述第一集合为将所述K个初始点组成集合C₀，所述预设集合为预设的集合个数M，M为大于1的自然数，根据所述预设集合个数，重复进行所述第一执行指令即上述步骤，形成M个数预设集合C₁，C₂，……，C_m。

步骤S900：将所述第一集合、第二集合、第三集合、直到所述第M集合在所述待处理数据集上进行K-means算法，获得M个划分结果；

具体而言，所述K-means算法为发现给定数据集的K个簇的算法，是一种基于划分的聚类算法，以较快的聚类速度、较好的可伸缩性而被广泛采用，对M个初始点集合C₁，C₂，……，C_m在data[n]上进行K-means算法，形成M个划分结果P₁＝(S₁₁,S₁₂,……,S_1k),P₂＝(S₂₁,S₂₂,……,S_2k),……,P_m＝(S_m1,S_m2,……,S_mk)

步骤S1000：对所述M个划分结果进行局部搜索机制处理，确定最终聚类结果；

具体而言，所述局部搜索机制为解决最优化问题的一种启发式算法，该算法每次从当前解的邻域解空间中选择一个最好邻居作为下次迭代的当前解，直到达到一个局部最优解，局部搜索机制从一个初始解出发，然后搜索解的邻域，如有更优的解则移动至该解并继续执行搜索，否则就停止算法获得局部最优解，对所述M个划分结果进行局部搜索机制处理，以此确定最终聚类结果。

步骤S1100：根据所述聚类结果，获得用户信息。

具体而言，使用本聚类算法计算后得到算法结果，即对用户进行分组后得到的高质量客户信息，达到用于银行用户画像的目的。

进一步而言，其中，对所述M个划分结果进行局部搜索机制处理，确定最终聚类结果，本申请实施例步骤S1000还包括：

步骤S1010：步骤1：根据所述M个划分结果，进行初始点转移操作，获得M个新初始点集合；

步骤S1020：步骤2：对M个所述新初始点集合进行K-means算法，获得新M个划分结果；

步骤S1030：步骤3：计算所述新M个划分结果的熵值，获得最小熵值集合；

步骤S1040：步骤4：重复步骤1-步骤3，将获得的最小熵值集合的熵值进行比较，直到所述最小熵值集合的对应熵值满足预定次数不变时，确定所述最小熵值集合为所述最终聚类结果。

进一步而言，其中，本申请实施例步骤S1010还包括：所述M个新初始点集合中包含K个初始点。

具体而言，根据所述M个划分结果P₁，P₂，……，P_m集合，并对这M个集合进行初始中心点转移操作，即将初始中心点从原有P集合中转移到邻近集合中，从而得到M个新初始点集合，其中，所述M个新初始点集合中包含K个初始点，并对M个所述新初始点进行K-means算法，形成新的M个划分结果，对所述新M个划分结果进行熵值计算，并按熵值进行从小到大排序，得到最小熵值集合，重复上述步骤，将获得的最小熵值集合的熵值进行比较，直到所述最小熵值集合P的对应熵值满足预定次数不变时，则确定所述最小熵值集合P为优化后的所述最终聚类结果，达到有效解决了K-means算法的缺点，且熵值评估改进在20％至30％左右，进而达到通过改变初始点，通过多次迭代计算，利用熵值进行结果验算评价，提高分类结果的精准度，避免初始聚类点对聚类结果的影响的技术效果。

进一步而言，其中，述步骤1：根据所述M个划分结果，进行初始点转移操作，获得M个新初始点集合，本申请实施例步骤S1010还包括：

步骤S1011：根据所述M个划分结果，获得第一划分结果；

步骤S1012：根据所述第一划分结果，获得第一初始中心点；

步骤S1013：计算所述第一初始中心点与所述M个划分结果中的其他M-1个划分结果的距离；

步骤S1014：将距离最小的对应划分结果作为目标转移集合；

步骤S1015：将所述第一初始中心点转移至所述目标转移集合中；

步骤S1016：依次对所述M个划分结果中的初始中心点进行转移，获得所述M个新初始点集合。

具体而言，所述第一划分结果为所述M个划分结果P₁，P₂，……，P_m集合，所述第一初始中心点为所述P₁集合中所有点的中心，是计算所有点的均值而来，计算所述第一初始中心点与所述M个划分结果中的其他M-1个划分结果的距离，将距离最小的对应划分结果作为目标转移集合，将所述第一初始中心点转移至所述目标转移集合中，依次对所述M个划分结果中P₁，P₂，……，P_m集合的初始中心点进行转移，从而得到所述M个新初始点集合。

进一步而言，其中，所述计算所述第一初始中心点与所述M个划分结果中的其他M-1个划分结果的距离，本申请实施例步骤S1013还包括：

步骤S10131：根据所述M个结果、所述第一划分结果，获得所述其他M-1个划分结果，所述其他M-1个划分结果为M个划分结果除去所述第一划分结果之外的其他剩余划分结果；

步骤S10132：根据所述其他M-1个划分结果，获得M-1个中心点位置；

步骤S10133：根据所述M-1个中心点位置，获得第二中心点位置，所述第二中心点位置为第二划分结果的中心点位置；

步骤S10134：计算所述第一初始中心点与所述第二中心点位置之间的距离，获得第一距离；

步骤S10135：依次计算所述第一初始中心点距离剩余M-2个中心点位置的距离，获得第二距离、第三距离，直到第M-1距离。

具体而言，根据所述第一划分结果P₁，P₂，……，P_m集合，得到所述其他M-1个划分结果，所述其他M-1个划分结果为M个划分结果除去所述第一划分结果之外的其他剩余划分结果，所述M-1个中心点位置为所述其他M-1个划分结果中所有点的中心位置，根据所述M-1个中心点位置，获得第二中心点位置，所述第二中心点位置为第二划分结果的中心点位置，所述第一距离为所述第一初始中心点与所述第二中心点位置之间的距离，依次计算所述第一初始中心点距离剩余M-2个中心点位置的距离，获得第二距离、第三距离，直到第M-1距离。

进一步而言，其中，本申请实施例步骤S10135还包括：

步骤S101351：根据所述第二距离、第三距离，直到所述第M-1距离，获得第一最小距离；

步骤S101352：根据所述第一最小距离，确定对应的划分结果，并将该划分结果作为所述目标转移集合。

具体而言，根据计算所述第一初始中心点距离剩余M-2个中心点位置的距离，得到所述第二距离、第三距离，直到所述第M-1距离，所述第一最小距离为其中距离最小的，将所述第一最小距离对应的划分结果作为目标转移集合。

进一步而言，其中，本申请实施例步骤S10135还包括：

步骤S101353：步骤11：根据所述第一划分结果，获得第二初始中心点，所述第二初始中心点与所述第一初始中心点不同；

步骤S101354：步骤12：计算所述第二初始中心点与所述第二中心点位置，所述第二中心点位置为第二划分结果的中心点位置之间的距离；

步骤S101355：步骤13：从计算获得的所有距离中，确定第二最小距离，并将所述第二最小距离对应的划分结果作为目标转移集合；

步骤S101356：步骤14：将所述第二初始中心点转移至对应的目标转移集合中；

步骤S101357：步骤15：重复执行步骤11-步骤14，直到所述第一划分结果中的K个初始中心点全部完成转移。

具体而言，根据所述第一划分结果P₁，P₂，……，P_m集合，得到与所述第一初始中心点不同的所述第二初始中心点，计算所述第二初始中心点与所述第二中心点位置，其中所述第二中心点位置为第二划分结果的中心点位置之间的距离，从计算获得的所有距离中，确定第二最小距离，并将所述第二最小距离对应的划分结果作为目标转移集合，将所述第二初始中心点转移至对应的目标转移集合中，重复执行上述步骤，直到所述第一划分结果中的K个初始中心点全部完成转移。

进一步而言，其中，本申请实施例步骤S101357还包括：

步骤S1013571：根据所述第二划分结果，获得所述第二划分结果中的各初始中心点；

步骤S1013572：重复执行步骤11-步骤14，依次转移所述第二划分结果中的所有初始中心点至对应的目标转移集合中；

步骤S1013573：依次获得第三划分结果、第四划分结果、直到第M划分结果；

步骤S1013574：重复执行步骤11-步骤14，直到M个划分结果中的所有初始中心点转移至新的目标转移集合中为止。

具体而言，如上述操作步骤，根据所述第二划分结果，获得所述第二划分结果中的各初始中心点，并依次转移所述第二划分结果中的所有初始中心点至对应的目标转移集合中，并根据同样处理方法依次获得第三划分结果、第四划分结果、直到第M划分结果，直到M个划分结果中的所有初始中心点转移至新的目标转移集合中为止。

步骤S1050：步骤21：计算所述M个划分结果的熵值，并按照从小到大进行排列，获得M个划分结果的第一熵值排序信息；

步骤S1060：步骤22：获得预设优化集合数量P，其中，P为小于M的自然数；

步骤S1070：步骤23：根据所述预设优化集合数量P，从所述第一熵值排序信息中取前P个划分结果；

步骤S1080：步骤24：根据所述P个划分结果，进行初始点转移操作，获得P个新初始点集合；

步骤S1090：步骤25：对P个所述新初始点集合进行K-means算法，获得新P个划分结果；

步骤S1100：步骤26：计算所述新P个划分结果的熵值，获得最小熵值集合；

步骤S1110：步骤27：重复步骤24-步骤26，将获得的最小熵值集合的熵值进行比较，直到所述最小熵值集合的对应熵值满足预定次数不变时，确定所述最小熵值集合为所述最终聚类结果。

具体而言，对P₁,P₂,……,P_m进行熵值计算，并按熵值进行从小到大排序，得到M个划分结果的第一熵值排序信息，根据所述预设优化集合数量P，其中，P为小于M的自然数，如P＝M/3，从所述第一熵值排序信息中取前P个划分结果P₁，P₂，……，P_m/3集合，并对这M/3个集合进行初始中心点转移操作，即将初始中心点从原有P集合中转移到邻近集合中，从而得到P个新初始点集合，并对其进行K-means算法，形成新的P个划分结果，计算所述新P个划分结果的熵值，得到最小熵值集合，重复上述步骤，直至熵值最小的P集合满足预定次数不变时，则此时的最小熵值的P集合为优化后的所述最终聚类结果，达到有效解决了K-means算法的缺点，且熵值评估改进在20％至30％左右，进而达到通过改变初始点，通过多次迭代计算，利用熵值进行结果验算评价，提高分类结果的精准度，避免初始聚类点对聚类结果的影响的技术效果。

进一步而言，其中，本申请实施例步骤S1060还包括：所述预设优化集合数量P＝M/2。

进一步而言，其中，本申请实施例步骤S1080还包括：所述P个新初始点集合中包含K个初始点。

具体而言，根据所述预设优化集合数量P，其中，当P＝M/2时，从所述第一熵值排序信息中取前P个划分结果P₁，P₂，……，P_m/2集合，并对这M/2个集合进行初始中心点转移操作，即将初始中心点从原有P集合中转移到邻近集合中，从而得到P个新初始点集合，其中所述P个新初始点集合中包含K个初始点，并对其进行K-means算法，操作步骤如上述，进而达到通过改变初始点，通过多次迭代计算，利用熵值进行结果验算评价，提高分类结果的精准度，避免初始聚类点对聚类结果的影响的技术效果。

进一步而言，其中，所述步骤24：根据所述P个划分结果，进行初始点转移操作，获得P个新初始点集合，本申请实施例步骤S1080还包括：

步骤S1081：根据所述P个划分结果，获得第P1划分结果；

步骤S1082：根据所述第P1划分结果，获得P1集合第一初始中心点；

步骤S1083：计算所述P1集合第一初始中心点与所述P个划分结果中的其他P-1个划分结果的距离；

步骤S1084：将距离最小的对应划分结果作为目标转移集合；

步骤S1085：将所述P1集合第一初始中心点转移至所述目标转移集合中；

步骤S1086：依次对所述P个划分结果中的初始中心点进行转移，获得所述P个新初始点集合。

具体而言，对所述P个划分结果，得到所述P1集合第一初始中心点，计算所述P1集合第一初始中心点与所述P个划分结果中的其他P-1个划分结果的距离，如上述步骤，将距离最小的对应划分结果作为目标转移集合，并将所述P1集合第一初始中心点转移至所述目标转移集合中，最后依次对所述P个划分结果中的初始中心点进行转移，获得所述P个新初始点集合。

进一步而言，其中，依次对所述P个划分结果中的初始中心点进行转移，获得所述P个新初始点集合，本申请实施例步骤S1110还包括：

步骤S1111：获得目标转移集合中初始中心点的数量；

步骤S1112：判断所述目标转移集合中初始中心点的数量是否达到所述预设簇数量K；

步骤S1113：当不达到时，将对应的初始中心点转移至目标转移集合中；

步骤S1114：当所述目标转移集合中初始中心点的数量达到所述预设簇数量K时，获得第二执行指令，所述第二执行指令用于重写获取目标转移集合。

具体而言，根据判断所述目标转移集合中初始中心点的数量是否达到所述预设簇数量K，如果达不到，将对应的初始中心点转移至目标转移集合中，当达到所述预设簇数量K时，执行指令重新获取目标转移集合，进而达到通过改变初始点，通过多次迭代计算，利用熵值进行结果验算评价，提高分类结果的精准度，避免初始聚类点对聚类结果的影响的技术效果。

进一步而言，其中，所述根据所述聚类结果，获得用户信息之后，本申请实施例步骤S1110还包括：

步骤S1111：根据所述用户信息，获得用户图像信息；

步骤S1112：根据所述用户图像信息，获得图像信息像素点；

步骤S1113：获得预设簇数J，其中，J为大于2的自然数；

步骤S1114：根据所述预设簇数J，获得第三执行指令，所述第三执行指令为从图像信息像素点中获得G个初始点；

步骤S1115：将所述G个初始点组成第四集合；

步骤S1116：获得预设集合个数G，其中，G为大于1的自然数；

步骤S1117：获根据所述预设集合个数G，重复执行所述第三执行指令，获得第五集合、第六集合，直到第G集合；

步骤S1118：将所述第四集合、第五集合、第六集合、直到所述第G集合在所述图像信息像素点上进行K-means算法，获得G个划分结果；

步骤S1119：对所述G个划分结果进行局部搜索机制处理，确定第二聚类结果；

步骤S1120：根据所述第二聚类结果，获得用户图像分割信息。

具体而言，已知通过所述用户信息，获得用户图像信息，对银行用户画像进行图像分割，即将图像空间中的像素对应的特征空间点表示，通过按照图像信息中各点的图像像素信息的大小不同，根据它们在特征空间的聚集对特征空间进行分割，通过本聚类算法对其进行处理，确定最终聚类结果，详细计算过程如上述聚类算法过程，通过最终的聚类结果，获得用户图像分割信息，达到提高用户图像分割分类结果的精准度的技术效果。

综上所述，本申请实施例所提供的一种基于局部搜索聚类算法的用户画像方法和装置具有如下技术效果：

1、由于采用了获得预设簇数量K，其中，K为大于2的自然数；根据所述预设簇数量，获得第一执行指令，所述第一执行指令为从待处理数据集中获得K个初始点；将所述K个初始点组成第一集合；获得预设集合个数M，其中，M为大于1的自然数；根据所述预设集合个数，重复执行所述第一执行指令，获得第二集合、第三集合，直到第M集合；将所述第一集合、第二集合、第三集合、直到所述第M集合在所述待处理数据集上进行K-means算法，获得M个划分结果；对所述M个划分结果进行局部搜索机制处理，确定最终聚类结果，进而达到通过改变初始点，通过多次迭代计算，利用熵值进行结果验算评价，提高分类结果的精准度，避免初始聚类点对聚类结果的影响的技术效果。

2、由于采用了通过将局部搜索的机制和K-means算法相结合方式来提升聚类质量，从而解决了现有技术存在聚类结果依赖于初始聚类中心出发所遇到的第一个局部极值点，因此不同的初始聚类中心对聚类的质量影响很大，容易陷入局部最优的技术问题，进而达到有效解决了K-means算法的缺点，且熵值评估改进在20％至30％左右，进而达到通过改变初始点，通过多次迭代计算，利用熵值进行结果验算评价，提高分类结果的精准度，避免初始聚类点对聚类结果的影响的技术效果。

实施例二

基于与前述实施例中一种基于局部搜索聚类算法的用户画像方法同样发明构思，本发明还提供了一种基于局部搜索聚类算法的用户画像装置，如图2所示，所述装置包括：

第一获得单元11，所述第一获得单元11用于获得预设筛选要求；

第二获得单元12，所述第二获得单元12用于根据所述预设筛选要求，获得用户历史信息；

第三获得单元13，所述第三获得单元13用于根据所述用户历史信息，获得待处理数据集；

第四获得单元14，所述第四获得单元14用于获得预设簇数量K，其中，K为大于2的自然数；

第五获得单元15，所述第五获得单元15用于根据所述预设簇数量，获得第一执行指令，所述第一执行指令为从待处理数据集中获得K个初始点；

第一组成单元16，所述第一组成单元16用于将所述K个初始点组成第一集合；

第六获得单元17，所述第六获得单元17用于获得预设集合个数M，其中，M为大于1的自然数；

第七获得单元18，所述第七获得单元18用于根据所述预设集合个数，重复执行所述第一执行指令，获得第二集合、第三集合，直到第M集合；

第八获得单元19，所述第八获得单元19用于将所述第一集合、第二集合、第三集合、直到所述第M集合在所述待处理数据集上进行K-means算法，获得M个划分结果；

第一确定单元20，所述第一确定单元20用于对所述M个划分结果进行局部搜索机制处理，确定最终聚类结果；

第九获得单元21，所述第九获得单元21用于根据所述聚类结果，获得用户信息。

进一步的，所述系统还包括：

第十获得单元，所述第十获得单元用于步骤1：根据所述M个划分结果，进行初始点转移操作，获得M个新初始点集合；

第十一获得单元，所述第十一获得单元用于步骤2：对M个所述新初始点集合进行K-means算法，获得新M个划分结果；

第十二获得单元，所述第十二获得单元用于步骤3：计算所述新M个划分结果的熵值，获得最小熵值集合；

第二确定单元，所述第二确定单元用于步骤4：重复步骤1-步骤3，将获得的最小熵值集合的熵值进行比较，直到所述最小熵值集合的对应熵值满足预定次数不变时，确定所述最小熵值集合为所述最终聚类结果。

进一步的，所述系统还包括：

第十三获得单元，所述第十三获得单元用于根据所述M个划分结果，获得第一划分结果；

第十四获得单元，所述第十四获得单元用于根据所述第一划分结果，获得第一初始中心点；

第一计算单元，所述第一计算单元用于计算所述第一初始中心点与所述M个划分结果中的其他M-1个划分结果的距离；

第一作为单元，所述第一作为单元用于将距离最小的对应划分结果作为目标转移集合；

第一转移单元，所述第一转移单元用于将所述第一初始中心点转移至所述目标转移集合中；

第十五获得单元，所述第十五获得单元用于依次对所述M个划分结果中的初始中心点进行转移，获得所述M个新初始点集合。

进一步的，所述系统还包括：

第十六获得单元，所述第十六获得单元用于根据所述M个结果、所述第一划分结果，获得所述其他M-1个划分结果，所述其他M-1个划分结果为M个划分结果除去所述第一划分结果之外的其他剩余划分结果；

第十七获得单元，所述第十七获得单元用于根据所述其他M-1个划分结果，获得M-1个中心点位置；

第十八获得单元，所述第十八获得单元用于根据所述M-1个中心点位置，获得第二中心点位置，所述第二中心点位置为第二划分结果的中心点位置；

第十九获得单元，所述第十九获得单元用于计算所述第一初始中心点与所述第二中心点位置之间的距离，获得第一距离；

第二十获得单元，所述第二十获得单元用于依次计算所述第一初始中心点距离剩余M-2个中心点位置的距离，获得第二距离、第三距离，直到第M-1距离。

进一步的，所述系统还包括：

第二十一获得单元，所述第二十一获得单元用于根据所述第二距离、第三距离，直到所述第M-1距离，获得第一最小距离；

第三确定单元，所述第三确定单元用于根据所述第一最小距离，确定对应的划分结果，并将该划分结果作为所述目标转移集合。

进一步的，所述系统还包括：

第二十二获得单元，所述第二十二获得单元用于步骤11：根据所述第一划分结果，获得第二初始中心点，所述第二初始中心点与所述第一初始中心点不同；

第二计算单元，所述第二计算单元用于步骤12：计算所述第二初始中心点与所述第二中心点位置，所述第二中心点位置为第二划分结果的中心点位置之间的距离；

第四确定单元，所述第四确定单元用于步骤13：从计算获得的所有距离中，确定第二最小距离，并将所述第二最小距离对应的划分结果作为目标转移集合；

第二转移单元，所述第二转移单元用于步骤14：将所述第二初始中心点转移至对应的目标转移集合中；

第一执行单元，所述第一执行单元用于步骤15：重复执行步骤11-步骤14，直到所述第一划分结果中的K个初始中心点全部完成转移。

进一步的，所述系统还包括：

第二十三获得单元，所述第二十三获得单元用于根据所述第二划分结果，获得所述第二划分结果中的各初始中心点；

第二执行单元，所述第二执行单元用于重复执行步骤11-步骤14，依次转移所述第二划分结果中的所有初始中心点至对应的目标转移集合中；

第二十四获得单元，所述第二十四获得单元用于依次获得第三划分结果、第四划分结果、直到第M划分结果；

第三执行单元，所述第三执行单元用于重复执行步骤11-步骤14，直到M个划分结果中的所有初始中心点转移至新的目标转移集合中为止。

进一步的，所述系统还包括：

第二十五获得单元，所述第二十五获得单元用于步骤21：计算所述M个划分结果的熵值，并按照从小到大进行排列，获得M个划分结果的第一熵值排序信息；

第二十六获得单元，所述第二十六获得单元用于步骤22：获得预设优化集合数量P，其中，P为小于M的自然数；

第一获取单元，所述第一获取单元用于步骤23：根据所述预设优化集合数量P，从所述第一熵值排序信息中取前P个划分结果；

第二十七获得单元，所述第二十七获得单元用于步骤24：根据所述P个划分结果，进行初始点转移操作，获得P个新初始点集合；

第二十八获得单元，所述第二十八获得单元用于步骤25：对P个所述新初始点集合进行K-means算法，获得新P个划分结果；

第二十九获得单元，所述第二十九获得单元用于步骤26：计算所述新P个划分结果的熵值，获得最小熵值集合；

第四确定单元，所述第四确定单元用于步骤27：重复步骤24-步骤26，将获得的最小熵值集合的熵值进行比较，直到所述最小熵值集合的对应熵值满足预定次数不变时，确定所述最小熵值集合为所述最终聚类结果。

进一步的，所述系统还包括：

第三十获得单元，所述第三十获得单元用于根据所述P个划分结果，获得第P1划分结果；

第三十一获得单元，所述第三十一获得单元用于根据所述第P1划分结果，获得P1集合第一初始中心点；

第三计算单元，所述第三计算单元用于计算所述P1集合第一初始中心点与所述P个划分结果中的其他P-1个划分结果的距离；

第二作为单元，所述第二作为单元用于将距离最小的对应划分结果作为目标转移集合；

第三转移单元，所述第三转移单元用于将所述P1集合第一初始中心点转移至所述目标转移集合中；

第三十二获得单元，所述第三十二获得单元用于依次对所述P个划分结果中的初始中心点进行转移，获得所述P个新初始点集合。

进一步的，所述系统还包括：

第三十三获得单元，所述第三十三获得单元用于获得目标转移集合中初始中心点的数量；

第一判断单元，所述第一判断单元用于判断所述目标转移集合中初始中心点的数量是否达到所述预设簇数量K；

第四转移单元，所述第四转移单元用于当不达到时，将对应的初始中心点转移至目标转移集合中；

第三十四获得单元，所述第三十四获得单元用于当所述目标转移集合中初始中心点的数量达到所述预设簇数量K时，获得第二执行指令，所述第二执行指令用于重写获取目标转移集合。

进一步的，所述系统还包括：

第一包含单元，所述第一包含单元用于所述M个新初始点集合中包含K个初始点。

进一步的，所述系统还包括：

第三十五获得单元，所述第三十五获得单元用于根据所述用户信息，获得用户图像信息；

第三十六获得单元，所述第三十六获得单元用于根据所述用户图像信息，获得图像信息像素点；

第三十七获得单元，所述第三十七获得单元用于获得预设簇数J，其中，J为大于2的自然数；

第三十八获得单元，所述第三十八获得单元用于根据所述预设簇数J，获得第三执行指令，所述第三执行指令为从图像信息像素点中获得G个初始点；

第三十九获得单元，所述第三十九获得单元用于将所述G个初始点组成第四集合；

第四十获得单元，所述第四十获得单元用于获得预设集合个数G，其中，G为大于1的自然数；

第四十一获得单元，所述第四十一获得单元用于根据所述预设集合个数G，重复执行所述第三执行指令，获得第五集合、第六集合，直到第G集合；

第四十二获得单元，所述第四十二获得单元用于将所述第四集合、第五集合、第六集合、直到所述第G集合在所述图像信息像素点上进行K-means算法，获得G个划分结果；

第五确定单元，所述第五确定单元用于对所述G个划分结果进行局部搜索机制处理，确定第二聚类结果；

第四十三获得单元，所述第四十三获得单元用于根据所述第二聚类结果，获得用户图像分割信息。

前述图1实施例一中的一种基于局部搜索聚类算法的用户画像方法的各种变化方式和具体实例同样适用于本实施例的一种基于局部搜索聚类算法的用户画像装置，通过前述对一种基于局部搜索聚类算法的用户画像方法的详细描述，本领域技术人员可以清楚的知道本实施例中一种基于局部搜索聚类算法的用户画像装置的实施方法，所以为了说明书的简洁，在此不再详述。

示例性电子设备

下面参考图3来描述本申请实施例的电子设备。

图3图示了根据本申请实施例的电子设备的结构示意图。

基于与前述实施例中一种基于局部搜索聚类算法的用户画像方法的发明构思，本发明还提供一种基于局部搜索聚类算法的用户画像装置，其上存储有计算机程序，该程序被处理器执行时实现前文所述一种基于局部搜索聚类算法的用户画像方法的任一方法的步骤。

其中，在图3中，总线架构(用总线300来代表)，总线300可以包括任意数量的互联的总线和桥，总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口305在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件，即收发机，提供用于在传输介质上与各种其他系统通信的单元。

处理器302负责管理总线300和通常的处理，而存储器304可以被用于存储处理器302在执行操作时所使用的数据。

本发明实施例提供的一种基于局部搜索聚类算法的用户画像方法，所述算法包括：获得预设筛选要求；根据所述预设筛选要求，获得用户历史信息；根据所述用户历史信息，获得待处理数据集；获得预设簇数量K，其中，K为大于2的自然数；根据所述预设簇数量，获得第一执行指令，所述第一执行指令为从待处理数据集中获得K个初始点；将所述K个初始点组成第一集合；获得预设集合个数M，其中，M为大于1的自然数；根据所述预设集合个数，重复执行所述第一执行指令，获得第二集合、第三集合，直到第M集合；将所述第一集合、第二集合、第三集合、直到所述第M集合在所述待处理数据集上进行K-means算法，获得M个划分结果；对所述M个划分结果进行局部搜索机制处理，确定最终聚类结果。解决了现有技术中用户画像不够准确，使用的算法其结果依赖于初始聚类中心，容易陷入局部最优的技术问题，达到通过改变初始点，通过多次迭代计算，利用熵值进行结果验算评价，提高分类结果的精准度，避免初始聚类点对聚类结果的影响的技术效果。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的系统。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令系统的制造品，该指令系统实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于局部搜索聚类算法的用户画像方法，其中，所述方法包括：

获得预设筛选要求；

根据所述预设筛选要求，获得用户历史信息；

根据所述用户历史信息，获得待处理数据集；

获得预设簇数量K，其中，K为大于2的自然数；

根据所述预设簇数量，获得第一执行指令，所述第一执行指令为从待处理数据集中获得K个初始点；

将所述K个初始点组成第一集合；

获得预设集合个数M，其中，M为大于1的自然数；

根据所述预设集合个数，重复执行所述第一执行指令，获得第二集合、第三集合，直到第M集合；

将所述第一集合、第二集合、第三集合、直到所述第M集合在所述待处理数据集上进行K-means算法，获得M个划分结果；

对所述M个划分结果进行局部搜索机制处理，确定最终聚类结果；

根据所述聚类结果，获得用户信息。

2.如权利要求1所述的方法，其中，对所述M个划分结果进行局部搜索机制处理，确定最终聚类结果，包括：

步骤1：根据所述M个划分结果，进行初始点转移操作，获得M个新初始点集合；

步骤2：对M个所述新初始点集合进行K-means算法，获得新M个划分结果；

步骤3：计算所述新M个划分结果的熵值，获得最小熵值集合；

步骤4：重复步骤1-步骤3，将获得的最小熵值集合的熵值进行比较，直到所述最小熵值集合的对应熵值满足预定次数不变时，确定所述最小熵值集合为所述最终聚类结果。

3.如权利要求2所述的方法，其中，所述步骤1：根据所述M个划分结果，进行初始点转移操作，获得M个新初始点集合，包括：

根据所述M个划分结果，获得第一划分结果；

根据所述第一划分结果，获得第一初始中心点；

计算所述第一初始中心点与所述M个划分结果中的其他M-1个划分结果的距离；

将距离最小的对应划分结果作为目标转移集合；

将所述第一初始中心点转移至所述目标转移集合中；

依次对所述M个划分结果中的初始中心点进行转移，获得所述M个新初始点集合。

4.如权利要求3所述的方法，其中，所述计算所述第一初始中心点与所述M个划分结果中的其他M-1个划分结果的距离，包括：

根据所述M个结果、所述第一划分结果，获得所述其他M-1个划分结果，所述其他M-1个划分结果为M个划分结果除去所述第一划分结果之外的其他剩余划分结果；

根据所述其他M-1个划分结果，获得M-1个中心点位置；

根据所述M-1个中心点位置，获得第二中心点位置，所述第二中心点位置为第二划分结果的中心点位置；

计算所述第一初始中心点与所述第二中心点位置之间的距离，获得第一距离；

依次计算所述第一初始中心点距离剩余M-2个中心点位置的距离，获得第二距离、第三距离，直到第M-1距离。

5.如权利要求4所述的方法，其中，所述方法包括：

根据所述第二距离、第三距离，直到所述第M-1距离，获得第一最小距离；

根据所述第一最小距离，确定对应的划分结果，并将该划分结果作为所述目标转移集合。

6.如权利要求4所述的方法，其中，所述方法还包括：

步骤11：根据所述第一划分结果，获得第二初始中心点，所述第二初始中心点与所述第一初始中心点不同；

步骤12：计算所述第二初始中心点与所述第二中心点位置，所述第二中心点位置为第二划分结果的中心点位置之间的距离；

步骤13：从计算获得的所有距离中，确定第二最小距离，并将所述第二最小距离对应的划分结果作为目标转移集合；

步骤14：将所述第二初始中心点转移至对应的目标转移集合中；

步骤15：重复执行步骤11-步骤14，直到所述第一划分结果中的K个初始中心点全部完成转移。

7.如权利要求6所述的方法，其中，所述方法包括：

根据所述第二划分结果，获得所述第二划分结果中的各初始中心点；

重复执行步骤11-步骤14，依次转移所述第二划分结果中的所有初始中心点至对应的目标转移集合中；

依次获得第三划分结果、第四划分结果、直到第M划分结果；

重复执行步骤11-步骤14，直到M个划分结果中的所有初始中心点转移至新的目标转移集合中为止。

8.如权利要求1所述的方法，其中，对所述M个划分结果进行局部搜索机制处理，确定最终聚类结果，还包括：

步骤21：计算所述M个划分结果的熵值，并按照从小到大进行排列，获得M个划分结果的第一熵值排序信息；

步骤22：获得预设优化集合数量P，其中，P为小于M的自然数；

步骤23：根据所述预设优化集合数量P，从所述第一熵值排序信息中取前P个划分结果；

步骤24：根据所述P个划分结果，进行初始点转移操作，获得P个新初始点集合；

步骤25：对P个所述新初始点集合进行K-means算法，获得新P个划分结果；

步骤26：计算所述新P个划分结果的熵值，获得最小熵值集合；

步骤27：重复步骤24-步骤26，将获得的最小熵值集合的熵值进行比较，直到所述最小熵值集合的对应熵值满足预定次数不变时，确定所述最小熵值集合为所述最终聚类结果。

9.如权利要求8所述的方法，其中，所述预设优化集合数量P＝M/2。

10.如权利要求8所述的方法，其中，所述P个新初始点集合中包含K个初始点。

11.如权利要求8所述的方法，其中，所述步骤24：根据所述P个划分结果，进行初始点转移操作，获得P个新初始点集合，包括：

根据所述P个划分结果，获得第P1划分结果；

根据所述第P1划分结果，获得P1集合第一初始中心点；

计算所述P1集合第一初始中心点与所述P个划分结果中的其他P-1个划分结果的距离；

将距离最小的对应划分结果作为目标转移集合；

将所述P1集合第一初始中心点转移至所述目标转移集合中；

依次对所述P个划分结果中的初始中心点进行转移，获得所述P个新初始点集合。

12.如权利要求8所述的方法，其中，依次对所述P个划分结果中的初始中心点进行转移，获得所述P个新初始点集合，包括：

获得目标转移集合中初始中心点的数量；

判断所述目标转移集合中初始中心点的数量是否达到所述预设簇数量K；

当不达到时，将对应的初始中心点转移至目标转移集合中；

当所述目标转移集合中初始中心点的数量达到所述预设簇数量K时，获得第二执行指令，所述第二执行指令用于重写获取目标转移集合。

13.如权利要求2所述的方法，其中，所述M个新初始点集合中包含K个初始点。

14.如权利要求1所述的方法，其中，所述根据所述聚类结果，获得用户信息之后，包括：

根据所述用户信息，获得用户图像信息；

根据所述用户图像信息，获得图像信息像素点；

获得预设簇数J，其中，J为大于2的自然数；

根据所述预设簇数J，获得第三执行指令，所述第三执行指令为从图像信息像素点中获得G个初始点；

将所述G个初始点组成第四集合；

获得预设集合个数G，其中，G为大于1的自然数；

根据所述预设集合个数G，重复执行所述第三执行指令，获得第五集合、第六集合，直到第G集合；

将所述第四集合、第五集合、第六集合、直到所述第G集合在所述图像信息像素点上进行K-means算法，获得G个划分结果；

对所述G个划分结果进行局部搜索机制处理，确定第二聚类结果；

根据所述第二聚类结果，获得用户图像分割信息。

15.一种基于局部搜索聚类算法的用户画像装置，其中，所述装置包括：

第一获得单元，所述第一获得单元用于获得预设筛选要求；

第二获得单元，所述第二获得单元用于根据所述预设筛选要求，获得用户历史信息；

第三获得单元，所述第三获得单元用于根据所述用户历史信息，获得待处理数据集；

第四获得单元，所述第四获得单元用于获得预设簇数量K，其中，K为大于2的自然数；

第五获得单元，所述第五获得单元用于根据所述预设簇数量，获得第一执行指令，所述第一执行指令为从待处理数据集中获得K个初始点；

第一组成单元，所述第一组成单元用于将所述K个初始点组成第一集合；

第六获得单元，所述第六获得单元用于获得预设集合个数M，其中，M为大于1的自然数；

第七获得单元，所述第七获得单元用于根据所述预设集合个数，重复执行所述第一执行指令，获得第二集合、第三集合，直到第M集合；

第八获得单元，所述第八获得单元用于将所述第一集合、第二集合、第三集合、直到所述第M集合在所述待处理数据集上进行K-means算法，获得M个划分结果；

第一确定单元，所述第一确定单元用于对所述M个划分结果进行局部搜索机制处理，确定最终聚类结果；

第九获得单元，所述第九获得单元用于根据所述聚类结果，获得用户信息。

16.一种基于局部搜索聚类算法的用户画像装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现权利要求1-14任一项所述方法的步骤。