CN109272009A

CN109272009A - 一种基于大数据分析的人群画像提取方法及装置

Info

Publication number: CN109272009A
Application number: CN201810814638.7A
Authority: CN
Inventors: 彭骏; 张立; 张艳红; 黄刚
Original assignee: ROUTON ELECTRONIC CO Ltd; Wuhan Puli Commercial Machine Co Ltd
Current assignee: ROUTON ELECTRONIC CO Ltd; Wuhan Puli Commercial Machine Co Ltd
Priority date: 2018-07-23
Filing date: 2018-07-23
Publication date: 2019-01-25

Abstract

本发明提供一种基于大数据分析的人群画像提取方法及装置，所述方法包括：将获取到的人群大数据输入至预设的聚类分析模型，输出若干个子人群数据；计算每一子人群数据的聚类中心点特征值；对于任一目标子人群数据，根据所述目标子人群数据的聚类中心点特征值，确定所述目标子人群数据的人群画像。本发明提供的基于大数据分析的人群画像提取方法及装置，通过精细地选择人群大数据的特征值，并经过试验选择聚类的个数，然后，人群数据的聚类中心点特征值，确定人群数据的人群画像，提高了获取的人群画像的准确性。

Description

一种基于大数据分析的人群画像提取方法及装置

技术领域

本发明涉及大数据分析技术领域，尤其涉及一种基于大数据分析的人群画像提取方法及装置。

背景技术

在信息时代，人们无时无刻不在产生数据。公交卡刷卡数据，银行卡支付数据，手机通话数据、上网数据等等，每个人的个人数据就构成了一个大数据集，多个人的数据就构成了一个更大的大数据集，而人群大数据中存储了海量的信息，如何对海量的大数据进行分析，并得出人群画像，对管理人群和服务人群至关重要。

人群画像可以简单理解成是海量数据的标签，根据人群的目标、行为和观点的差异，将他们区分为不同的类型，然后每种类型中抽取出典型特征，形成了一类人物原型。构建人群画像的核心工作是给人群贴“标签”，即人群信息标签化。

现有技术中，对人群进行画像的过程中，特征的提取往往不够精细，并且在通过聚类分析模型对人群进行聚类分析时使用的超参数都是通过经验手动输入的，不同的操作人员的经验不同，导致聚类结果不同，进而导致对人群的画像也不够准确。

发明内容

本发明的目的是提供一种基于大数据分析的人群画像提取方法及装置，解决了现有技术中人群画像结果不准确的技术问题。

为了解决上述技术问题，一方面，本发明提供一种基于大数据分析的人群画像提取方法，包括：

将获取到的人群大数据输入至预设的聚类分析模型，输出若干个子人群数据；

计算每一子人群数据的聚类中心点特征值；

对于任一目标子人群数据，根据所述目标子人群数据的聚类中心点特征值，确定所述目标子人群数据的人群画像

另一方面，本发明提供一种基于大数据分析的人群画像提取装置，包括：

聚类分析模块，用于将获取到的人群大数据输入至预设的聚类分析模型，输出若干个子人群数据；

计算模块，用于计算每一子人群数据的聚类中心点特征值；

确定模块，用于对于任一目标子人群数据，根据所述目标子人群数据的聚类中心点特征值，确定所述目标子人群数据的人群画像。

再一方面，本发明提供一种用于基于大数据分析的人群画像提取的电子设备，包括：

存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行上述的方法。

又一方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法。

本发明提供的基于大数据分析的人群画像提取方法及装置，通过精细地选择人群大数据的特征值，并经过试验选择聚类的个数，然后，人群数据的聚类中心点特征值，确定人群数据的人群画像，提高了获取的人群画像的准确性。

附图说明

图1为依照本发明实施例的基于大数据分析的人群画像提取方法示意图；

图2为依照本发明实施例的组内方差图；

图3为依照本发明实施例的各类别人群消费习惯图；

图4为依照本发明实施例的基于大数据分析的人群画像提取装置示意图；

图5为本发明实施例提供的用于基于大数据分析的人群画像提取的电子设备的结构示意图。

具体实施方式

为了使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为依照本发明实施例的基于大数据分析的人群画像提取方法示意图，如图1所示，本发明实施例提供一种基于大数据分析的人群画像提取方法，包括：

步骤S101、将获取到的人群大数据输入至预设的聚类分析模型，输出若干个子人群数据；

步骤S102、计算每一子人群数据的聚类中心点特征值；

步骤S103、对于任一目标子人群数据，根据所述目标子人群数据的聚类中心点特征值，确定所述目标子人群数据的人群画像。

具体的，首先，获取人群大数据，将获取到的人群大数据输入至预设的聚类分析模型，输出若干个子人群数据。

然后，计算每一子人群数据的聚类中心点特征值；

最后，对于任一目标子人群数据，根据目标子人群数据的聚类中心点特征值，确定目标子人群数据的人群画像。

下面以获取某学校学生大数据人群画像为例进行详细说明：

学生的食堂就餐消费和超市购物消费所产生的数据都存于消费数据库中，图书馆刷卡的数据都存于图书馆数据库中。经过数据预处理从中抽取出相关特征属性存放到数据仓库中，通过数据挖掘取样建模，采用K-means聚类算法对数据仓库中的数据集进行聚类，对聚类结果进行分析并以决策树加以展示。

采用K-means算法对学生刷卡数据进行聚类分析。

K-means算法的核心思想是把n个数据对象划分为k类,使每个聚类中的数据点到该聚类中心的平方和最小，基于K-means算法的用户特征聚类过程如下：

(l)数据预处理。原始数据经去噪、特征提取、特征值标准化后构成用户特征数据集n。

(2)用组内方差图选取合适K值，确定聚类个数。

(3)在用户一卡通特征数据集n中任意选取K个数据作为初始聚类中心。

(4)分别计算每个对象到各聚类中心的最短距离,将对象分配到距离最近的聚类中。

(5)所有对象分配完成后,重新计算K个聚类的中心。

(6)与前一次计算得到的K个聚类中心比较,若聚类中心发生变化,转(4),直到聚类中心不发生变化或达到最大迭代次数为止。

(7)输出聚类结果。

首先从n个数据对象中任意选择K个对象作为初始聚类中心，计算其他数据对象与这些聚类中心的相似度(距离),分别将他们分配给与其最相似的类簇。所有数据对象都分配结束后再重新计算每个类簇的聚类中心，不断重复这一过程直到标准测度函数开始收敛为止。本实施例采用均方差作为标准测度函数，标准测度函数的公式如下：

其中，SSE为误差的平方和，dist表示两个对象之间的标准欧氏距离，c_i为簇i的质心，x为属于簇i的数据点的集合。经过聚类后，相似行为特征的用户要聚成一簇，同一类簇尽可能的紧凑,不同类簇间尽可能的分开。

学生一卡通数据储存于oracle数据库中，有消费信息表、图书馆刷卡记录表等，建表方式为按月建表，存放当月全校所有的学生刷卡消费信息。为方便得到聚类数据集，需要对数据进行预处理，数据预处理主要剔除部分月份缺失和属性值缺失的数据。数据预处理后就可以根据建模的需要提取相关的特征值，本实施例选取有效早餐次数、有效正餐次数、食堂刷卡次数、超市刷卡次数、图书馆刷卡次数、有效食堂消费天数、年总额七维特征。

聚类算法中K值的选取非常关键，通常凭经验分辨聚类结果好坏选K值或者通过轮廓系数图等理论知识来指导K值选取。本实施例通过对处理后的样本集进行聚类实验，得到不同K值和中心值下聚类的组内方差值，绘制组内方差图以选取合适K值。最佳K值选取步骤如下：

(1)令K＝2,选取30组不同的seed(初始类中心值)进行30次聚类实验。

(2)记录下K＝2及所选seed值聚类得到的SSE值。

(3)求得30组聚类实验得到的SSE平均值作为K＝2时的组内方差。

(4)令K从2增加到10，得到10组聚类的组内方差值。

然后，利用特征数据值组内方差图，图2为依照本发明实施例的组内方差图，如图2所示，x轴表示聚类个数，y轴表示平均组内方差。当聚类数目越大时，每组的组内方差越小。可以得出当聚类个数K>5后组内方差下降趋势变缓，同时K足够小，故此选取K＝5为聚类个数。

选取2015年6月至2016年7月一学年的数据，数据集共包含17956人，其中男生4914人，女生13042人，聚类的最佳K值为5，对标准化后的数据选择30组不同的类中心值进行聚类处理，避免局部最优解，最终对应SSE误差平方和最小的即为最优聚类结果，结果如表1所示。

表1聚类结果比较

从表1得出，初始聚类中心为14400时所有样本数据的总方差和SSE最小，聚类结果最佳，因此采用这一组的结果作为最终聚类结果。

由上述的聚类分类结果，分别统计各类别消费原始数据的平均值，图3为依照本发明实施例的各类别人群消费习惯图，如图3所示，(a)部分表示不同类别的学生早餐次数分布图，(b)部分表示不同类别的学生正餐次数分布图，(c)部分表示不同类别的学生去食堂次数分布图，(d)部分表示不同类别的学生去超市次数分布图。

根据直方图比较各类别的消费差异，分析出聚类结果中的五类子人群的消费习惯如下：

第I类人群早餐次数、正餐次数和食堂次数都是最高值，且早餐次数明显高于其他类，这类人群乐于早起，正常在食堂就餐，属于生活极其自律的人群。第Ⅱ类人群和第I类人群相比，仅早餐次数差距较大，说明第Ⅱ类人群的在校生活也比较规律。第Ⅲ类人群各项消费在各类中都占第三，这类人群的消费习惯比较均衡。第Ⅳ类人群早餐次数、正餐次数、食堂次数和超市次数都较少，这类人群更倾向于校外消费，生活自由度较大。第Ⅴ类人群早餐次数、正餐次数、食堂次数和超市次数都是最少的，和其他类相比差距很大，这类人群很少在校消费。

学生五个类别聚类中心如表2所示，聚类中心点特征代表该类别人群特征的均值水平。

表2聚类中心

由表2可知，第I类人群(共2273人，男生465人，女生1808人)。早餐次数和图书馆次数都明显高于其他类，正餐次数、食堂刷卡次数、食堂刷卡天数和年消费额都明显高于均值，超市刷卡次数略高于均值。这类人群习惯早起吃早餐，按时在食堂就餐，生活极其规律，生活习惯非常好。还热爱去图书馆学习，学习习惯也非常好，是传统的好学生的生活习惯。这类人群是按时作息，学习成绩比较好的学霸型。

第Ⅱ类人群(共4079人，男生1510人，女生2569人)。早餐次数略大均值，正餐次数、食堂刷卡次数、食堂刷卡天数、年消费额都明显大于均值，超市刷卡次数也明显大于均值，图书馆次数略小于均值。这类人群在食堂超市消费的记录都很规律，按时就餐偶尔也能早起吃早餐，在校生活习惯较好。图书馆次数较少，说明学习积极性还有待提高，属于学习潜力型，若能再提高早餐习惯和去图书馆学习的习惯，这类人群的成绩将有很大的提升空间。

第Ⅲ类人群(共5198人，男生1105人，女生4093人)。除食堂刷卡天数略大于均值，其他特征值都与均值比较均衡。这类人群去食堂、超市、图书馆的情况比较正常，是大多数人的生活习惯，属于群众型。

第Ⅳ类人群(共4102人，男生999人，女生3103人)。早餐次数、午餐次数、食堂刷卡次数、食堂刷卡天数、年消费额都小于均值，超市刷卡次数和图书馆刷卡次数略小于均值。这类人群较少早起吃早餐，也较少在食堂就餐，经常晚睡晚起，偏爱叫外卖。去超市的次数也略少，喜欢网购。图书馆去得不多，说明学习不够勤奋。这类人群是偏爱网络生活的宅男宅女型。

第Ⅴ类人群(共2304人，男生835人，女生1469人)。各特征值为所有类别中最低值，早餐、正餐次数很低，食堂刷卡次数、食堂刷卡天数和年消费额都很低，很少在食堂就餐。超市刷卡次数和图书馆刷卡次数极低，说明也很少在学校超市消费，很少去图书馆学习，这类人群的个性化较强，自我掌控空间较大。

本发明实施例提供的基于大数据分析的人群画像提取方法，通过精细地选择人群大数据的特征值，并经过试验选择聚类的个数，然后，人群数据的聚类中心点特征值，确定人群数据的人群画像，提高了获取的人群画像的准确性。

在上述实施例的基础上，进一步地，所述预设的聚类分析模型为K-means聚类分析模型。

具体的，本发明实施例采用K-means算法对学生刷卡数据进行聚类分析。

(2)用组内方差图选取合适K值，确定聚类个数。

(5)所有对象分配完成后,重新计算K个聚类的中心。

(7)输出聚类结果。

在以上各实施例的基础上，进一步地，根据组内方差图确定所述K-means聚类分析模型的K值。

具体的，本实施例通过对处理后的样本集进行聚类实验，得到不同K值和中心值下聚类的组内方差值，绘制组内方差图以选取合适K值。最佳K值选取步骤如下：

(2)记录下K＝2及所选seed值聚类得到的SSE值。

(3)求得30组聚类实验得到的SSE平均值作为K＝2时的组内方差。

(4)令K从2增加到10，得到10组聚类的组内方差值。

在以上各实施例的基础上，进一步地，所述将获取到的人群大数据输入至预设的聚类分析模型，输出若干个子人群数据，具体为：

对所述获取到的人群大数据进行清洗；

提取清洗后的人群大数据的特征值；

将提取到的清洗后的人群大数据的特征值输入至预设的聚类分析模型，输出若干个子人群数据。

具体的，学生一卡通数据储存于oracle数据库中，有消费信息表、图书馆刷卡记录表等，建表方式为按月建表，存放当月全校所有的学生刷卡消费信息。为方便得到聚类数据集，需要对数据进行预处理，包括数据的清洗和转换，数据预处理主要剔除部分月份缺失和属性值缺失的数据。数据预处理后就可以根据建模的需要提取相关的特征值，本实施例选取有效早餐次数、有效正餐次数、食堂刷卡次数、超市刷卡次数、图书馆刷卡次数、有效食堂消费天数、年总额七维特征。将提取到的清洗后的人群大数据的特征值输入至预设的聚类分析模型，输出若干个子人群数据。

图4为依照本发明实施例的基于大数据分析的人群画像提取装置示意图，如图4所示，本发明实施例提供一种基于大数据分析的人群画像提取装置，用于完成上述实施例中所述的方法，具体包括聚类分析模块401、计算模块402和确定模块403，其中，

聚类分析模块401用于将获取到的人群大数据输入至预设的聚类分析模型，输出若干个子人群数据；

计算模块402用于计算每一子人群数据的聚类中心点特征值；

确定模块403用于对于任一目标子人群数据，根据所述目标子人群数据的聚类中心点特征值，确定所述目标子人群数据的人群画像。

本发明实施例提供一种基于大数据分析的人群画像提取装置，用于完成上述实施例中所述的方法，通过本实施例提供的装置完成上述实施例中所述的方法的具体步骤与上述实施例相同，此处不再赘述。

本发明实施例提供的基于大数据分析的人群画像提取装置，通过精细地选择人群大数据的特征值，并经过试验选择聚类的个数，然后，人群数据的聚类中心点特征值，确定人群数据的人群画像，提高了获取的人群画像的准确性。

图5为本发明实施例提供的用于基于大数据分析的人群画像提取的电子设备的结构示意图，如图5所示，所述设备包括：处理器501、存储器502和总线503；

其中，处理器501和存储器502通过所述总线503完成相互间的通信；

处理器501用于调用存储器502中的程序指令，以执行上述各方法实施例所提供的方法，例如包括：

计算每一子人群数据的聚类中心点特征值；

对于任一目标子人群数据，根据所述目标子人群数据的聚类中心点特征值，确定所述目标子人群数据的人群画像。

本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：

计算每一子人群数据的聚类中心点特征值；

本发明实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的方法，例如包括：

计算每一子人群数据的聚类中心点特征值；

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置及设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于大数据分析的人群画像提取方法，其特征在于，包括：

计算每一子人群数据的聚类中心点特征值；

2.根据权利要求1所述的方法，其特征在于，所述预设的聚类分析模型为K-means聚类分析模型。

3.根据权利要求2所述的方法，其特征在于，根据组内方差图确定所述K-means聚类分析模型的K值。

4.根据权利要求3所述的方法，其特征在于，所述将获取到的人群大数据输入至预设的聚类分析模型，输出若干个子人群数据，具体为：

对所述获取到的人群大数据进行清洗；

提取清洗后的人群大数据的特征值；

5.根据权利要求1所述的方法，其特征在于，所述聚类中心点特征值表示子人群特征的均值水平。

6.一种基于大数据分析的人群画像提取装置，其特征在于，包括：

计算模块，用于计算每一子人群数据的聚类中心点特征值；

7.根据权利要求6所述的装置，其特征在于，所述预设的聚类分析模型为K-means聚类分析模型。

8.根据权利要求7所述的装置，其特征在于，根据组内方差图确定所述K-means聚类分析模型的K值。

9.一种用于基于大数据分析的人群画像提取的电子设备，其特征在于，包括：

存储器和处理器，所述处理器和所述存储器通过总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至5任一所述的方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至5任一所述的方法。