一种人群分类方法和分类系统
技术领域
本发明涉及数据分类技术领域,具体涉及一种人群分类方法和分类系统。
背景技术
人群分类是一种应用于市场细分、精准营销、产品定位等领域的用户分析手段。是将一组人群,划分成几组人群子集,每组人群子集在特定人群特征上具有最大相似性。
在现有的人群分类技术例如k-means聚类,是通过样本采集、将样本矢量化、突出样本中主要影响因子、将主要影响因子作为分类基点对样本进行k-means聚类直至形成若干个聚类,然后再根据每个分类中的数据结果,人工反向定义每类人群的特征。
但目前的人群分类技术存在以下缺陷:
人工样本采集采用线下设计、执行、收集、计算,流程繁琐周期长,导致数据获取周期较长;人工采集样本质量参差不齐,导致采集数据准确性低;样本的抽样过程会形成样本数据的初始偏差;受聚类算法限制相对的分类判定结果与样本数据相关性较强,无法形成有效的分类标准。
发明内容
鉴于上述问题,本发明实施例提供一种人群分类方法和分类系统,解决现有人群分类技术无法形成标准分类、易受样本质量干扰的技术问题。
本发明实施例的人群分类方法,包括:
根据行为特征标签获得样本用户数据形成样本用户画像;
根据所述样本用户画像的分析维度和所述分析维度中的特征取向形成基础人群类别画像并根据所述基础人群类别划分样本用户;
根据所述基础人群类别画像形成所述基础人群类别间的量化差异,根据所述量化差异确定独立人群。
本发明一实施例中,所述根据行为特征标签获得样本用户数据形成样本用户画像包括:
获得形成所述样本用户画像的所述行为特征标签;
获得与所述行为特征标签对应的行为数据建立所述样本用户画像;
根据所述行为特征标签的阈值确定对应行为数据的取向值。
本发明一实施例中,还包括:
将所述取向值二值化简化所述样本用户画像。
本发明一实施例中,所述根据所述样本用户画像的分析维度和所述分析维度中的特征取向形成基础人群类别画像并根据所述基础人群类别划分样本用户包括:
设定所述样本用户画像有限的分析维度;
在每个所述分析维度中设定若干个特征取向;
根据所述样本用户画像中与所述特征取向相关的行为特征标签的取向值确定所述样本用户在不同所述分析维度中的特征取向;
利用所述不同分析维度内的特征取向组合形成基础人群类别画像;
根据所述基础人群类别画像将所述样本用户按所述基础人群类别划分。
本发明一实施例中,所述分析维度为社会阶层和价值取向,所述社会阶层层包括上层、中上层、中层、基层四个阶层特征取向,所述价值取向包括豪华体面、进取自信、时尚潮流、传统稳重、经济实用五个价值特征取向,根据所述社会阶层、所述价值取向、所述阶层特征取向和所述价值特征取向形成20个基础人群类别。
本发明一实施例中,所述根据所述基础人群类别画像形成所述基础人群类别间的量化差异,根据所述量化差异确定独立人群包括:
根据基础人群类别画像中的行为特征标签计算基础人群类别间的欧氏距离;
根据每个基础人群类别相对其他基础人群类别的欧氏距离形成所述每个基础人群类别的他类总距离,根据所述他类总距离形成一组独立人群和一组相似人群;
将所述相似人群逐一与欧式距离最接近的部分所述基础人群类别比较;
所述部分基础人群类别中是否存在所述独立人群;
如存在则将所述相似人群并入所述独立人群;
如不存在则将所述相似人群作为一个独立人群。
本发明一实施例中,所述与欧式距离最接近的部分所述基础人群类别中所述部分为基础人群类别数量的15%~25%,所述部分的优选数量为5个。
本发明实施例的人群分类系统包括:
存储器,用于存储上述的人群分类方法处理过程对应的程序代码;
处理器,用于执行所述程序代码。
本发明实施例的人群分类系统,包括:
特征形成装置,用于根据行为特征标签获得样本用户数据形成样本用户画像;
类别形成装置,用于根据所述样本用户画像的分析维度和所述分析维度中的特征取向形成基础人群类别画像并根据所述基础人群类别划分样本用户;
人群划分装置,用于根据所述基础人群类别画像形成所述基础人群类别间的量化差异,根据所述量化差异确定独立人群。
本发明一实施例中,所述类别形成装置包括:
维度设定模块,用于设定所述样本用户画像有限的分析维度;
取向设定模块,用于在每个所述分析维度中设定若干个特征取向;
取向确定模块,用于根据所述样本用户画像中与所述特征取向相关的行为特征标签的取向值确定所述样本用户在不同所述分析维度中的特征取向;
人群确定模块,用于利用所述不同分析维度内的特征取向组合形成基础人群类别画像;
样本划分模块,用于根据所述基础人群类别画像将所述样本用户按所述基础人群类别划分。
本发明实施例的人群分类和分类系统实现了人群分类标准化与样本用户有效分类的高效结合。利用预定义的行为特征标签对样本用户的复杂行为进行详细区别和有效量化实现了数据采集适用范围和数据维度的改进,充分利用网络资源直接面对样本用户线上的客观数据进行广泛数据采集,避免了样本用户的主观干扰。充分利用计算资源实现样本用户行为数据的海量采集和量化有效提高了复杂数据维度的处理效率。利用社会学定义类别直接对样本用户的行为特征标签进行定性筛选避免了采集数据量化漂移误差对样本用户分类形成的影响,保证了人群分类标准的稳定性。通过对标准人群分类的差异量化处理实现了人群分类标准的合理优化,保证了样本用户形成合理准确的人群分类。
附图说明
图1所示为本发明一实施例人群分类方法的主要流程示意图。
图2所示为本发明一实施例人群分类方法中形成样本用户画像的流程示意图。
图3所示为本发明一实施例人群分类方法中形成基础人群类别画像的流程示意图。
图4所示为本发明一实施例人群分类方法中确定独立人群的流程示意图。
图5所示为本发明一实施例人群分类系统的架构示意图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚、明白,以下结合附图及具体实施方式对本发明作进一步说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明一实施例人群分类方法的主要流程如图1所示。在图1中,本实施例的人群分类方法包括:
步骤100:根据行为特征标签获得样本用户数据形成样本用户画像。
样本用户的描述通过具体的用户行为量化,样本用户的行为数据根据预定义的行为标签进行划分,对行为数据的归一化、区间化形成行为标签下的具体量值,通过将样本用户的复杂行为标签化和量化形成对应的样本用户画像。行为特征标签是经过预定义的行为数据类型,包括但不限于物理环境的行为数据类型和人文情感的行为数据类型,例如人口基本特征信息、兴趣爱好信息、消费信息、位置信息等。
步骤200:根据样本用户画像的分析维度和分析维度中的特征取向形成基础人群类别画像并根据基础人群类别划分样本用户。
分析维度和分析维度中的特征取向可以预定义,分析维度包括特征取向,分析维度作为社会学定义类别是对样本用户进行人群分类的分类基础,例如社会阶层、价值取向等,特征取向作为社会学定义类别是对同一分析维度中特定社会形态的分类,例如一种社会阶层的特征取向分类包括但不限于上层、中上层、中层、基层等,例如一种价值取向的特征取向分类包括但不限于房产兴趣点、个护美体兴趣点、金融财经兴趣点、旅游出行兴趣点、体育健身兴趣点、休闲爱好兴趣点、消费习惯、行为习惯等。根据与分析维度和特征取向对应的行为标签可以形成基础人群类别的划分,根据样本用户画像可以形成样本用户的对应基础人群类别划分,根据样本用户画像的相似性可以形成基础人群类别画像。
步骤300:根据基础人群类别画像形成基础人群类别间的量化差异,根据量化差异确定独立人群。
基础人群类别画像包括源自样本用户画像的量化信息,可以在基础人群类别间进行量化比较获得基础人群类别间的差异程度,根据差异程度确定基础人群类别的合并或独立,最终形成独立人群的划分,相应形成样本用户的划分。
本发明实施例的人群分类方法实现了人群分类标准化与样本用户有效分类的高效结合。利用预定义的行为特征标签对样本用户的复杂行为进行详细区别和有效量化实现了数据采集适用范围和数据维度的改进,充分利用网络资源直接面对样本用户线上的客观数据进行广泛数据采集,避免了样本用户的主观干扰。充分利用计算资源实现样本用户行为数据的海量采集和量化有效提高了复杂数据维度的处理效率。利用社会学定义类别直接对样本用户的行为特征标签进行定性筛选避免了采集数据量化漂移误差对样本用户分类形成的影响,保证了人群分类标准的稳定性。通过对标准人群分类的差异量化处理实现了人群分类标准的合理优化,保证了样本用户形成合理准确的人群分类。
本发明一实施例的人群分类方法的主要流程如图2所示。在图2中,本实施例中步骤100包括:
步骤110:获得形成样本用户画像的行为特征标签。
获得行为特征标签可以是从现有分类标准中直接获得、也可以是以人工或机器学习的方式根据行业特点形成新的行为特征标签。
步骤120:获得与行为特征标签对应的行为数据建立样本用户画像。
行为数据与行为特征标签对应,可以通过配合的采集装置直接从线上增量数据中采集获取,也可以从形成的存量数据库中获取。每个样本用户的样本用户画像具有对应的行为特征标签和对应行为特征标签的行为数据,行为数据根据对应行为特征标签的数据结构存储。
步骤130:根据行为特征标签的阈值确定对应行为数据的取向值。
行为特征标签包括但不限于的基本量化规则例如行为数据的矢量化,行为数据的归一化,行为数据的区间量化。
在本发明一实施例中,每个行为特征标签下的行为数据根据基本量化规则形成与对应行为特征符合度相应的量化取向值0~100%,数值越大表示越符合该标签对应的特征,零即为完全不符合。
在本发明一实施例中,如图1所示,步骤100还包括:
步骤140:将取向值二值化简化样本用户画像。
取向值二值化即采用额外的量化规则简化取向值实现对样本用户画像的简化,提高后续海量数据的处理效率。
在本发明一实施例中,每个行为特征标签下的取向值被进一步量化是/ 否结果,零的取向值为“否”记为0,即为不符合该标签的行为特征,非零的取向值为“是”记为1,即为符合该标签的行为特征。
本发明实施例的人群分类方法利用行为特征标签形成了人群分类的底层数据标准,该标准保证形成基础人群类别间进行量化比较的可行性。
本发明一实施例人群分类方法的主要流程如图3所示。在图3中,本实施例中步骤200包括:
步骤210:设定样本用户画像有限的分析维度。
分析维度的设定包括但不限于社会学定义类别,社会学定义类别包括但不限于行业类型、社会热点、上下游产业特征、财富阶层、价值取向等。
步骤220:在每个分析维度中设定若干个特征取向。
特征取向具有样本用户画像中对应的行为特征标签限定,表明每个分析维度中的趋势性的特定社会形态。
在本发明一实施例中,有限的分析维度包括社会阶层、价值取向。
社会阶层包括上层、中上层、中层、基层四个阶层特征取向。价值取向包括豪华体面、进取自信、时尚潮流、传统稳重、经济实用五个价值特征取向。
步骤230:根据样本用户画像中与特征取向相关的行为特征标签的取向值确定样本用户在不同分析维度中的特征取向。
在本发明一实施例中,根据与阶层特征取向对应的行为特征标签下的取向值的总得分进行分段划分可以实现社会阶层的划分。根据与价值特征取向对应的行为特征标签下的取向值的总得分进行分段划分可以实现价值取向的划分。
步骤240:利用不同分析维度内的特征取向组合形成基础人群类别画像。
不同分析维度内的特征取向组合对应进行组合的特征取向所对应的行为特征标签的组合,行为特征标签的组合体现了对应组合的基础人群类别,组合的行为特征标签下的取向值结合形成了与基础人群类别对应的基础人群类别画像。
在本发明一实施例中,社会阶层中四个阶层特征取向与价值取向中五个价值特征取向相结合形成二十个基础人群类别。
步骤250:根据基础人群类别画像将样本用户按基础人群类别划分。
根据基础人群类别画像与样本用户画像在对应行为特征标签下取向值的匹配度,样本用户实现按基础人群类别划分。
在本发明一实施例中,样本用户根据基础人群类别画像与样本用户画像在对应行为特征标签下取向值的匹配度被划分在二十个基础人群类别中,实现基本的人群划分。
本发明实施例的人群分类方法利用社会学定义类别与标准量化数据相结合,形成稳定的人群分类标准,使得人群分类标准既可以用于样本用户的准确量化分类,又可以用于相似领域的人群分类,使得人群分类标准可以进一步扩展形成稳定的人群分类标准架构。
本发明一实施例人群分类方法的主要流程如图4所示。在图4中,本实施例中步骤300包括:
步骤310:根据基础人群类别画像中的行为特征标签计算基础人群类别间的欧氏距离。
基础人群类别画像中的行为特征标签下的取向值具有矢量特征,利用基础人群类别画像相同行为特征标签的欧氏距离累加形成基础人群类别间的特征相似性度量,可以较充分地体现基础人群类别间的定量差异。
基础人群类别间的欧氏距离包括每一个基础人群类别与其他基础人群类别间分别的欧氏距离。例如存在二十个基础人群类别,每个基础人群类别存在十九个欧氏距离对应于与其他十九个基础人群类别的差异。
具体的,假设基础人群类别画像中共有n个行为特征标签,现有基础人群类别x与基础人群类别y,则基础人群类别x与基础人群类别y之间的欧式距离为:
步骤320:根据每个基础人群类别相对其他基础人群类别的欧氏距离形成每个基础人群类别的他类总距离,根据他类总距离形成一组独立人群和一组相似人群。
每个基础人群类别的他类总距离表明与其他基础人群类别间的疏离程度,他类总距离越大表明与其他基础人群类别差别越大,相似性越小。根据对他类总距离排序,优选他类总距离最大的基础人群类别作为一组独立人群,其他的基础人群类别作为一组相似人群。独立人群对应的基础人群类别的部分人群分类确定。
针对一组相似人群的准确分类形成的循环判别过程包括:
步骤330:将相似人群逐一与欧式距离最接近的部分基础人群类别比较。
在本发明一实施例中,优选将相似人群中的一个基础人群类别与其欧式距离最接近的15%~25%基础人群类别相比较。例如存在二十个基础人群类别,将相似人群中的一个基础人群类别与其欧式距离最接近的5个基础人群类别相比较。
步骤340:部分基础人群类别中是否存在独立人群。
确定是否存在独立人群的目的是判断是否存在邻近的已确定的部分人群分类。
步骤350:如存在则将相似人群并入独立人群。
即直接将该一相似人群直接并入已确定的独立人群,使得两个对应的基础人群类别中的样本用户合并。
步骤360:如不存在则将相似人群作为一个独立人群。
即直接将该一相似人群作为确定的人群分类加入独立人群。
本发明实施例的人群分类方法优化了基本的量化分类,突出了基础人群类别的差异性,使得形成的人群分类间具有更突出的特征差异,人群分类内具有适度的相似性。
本发明实施例的人群分类系统包括:
存储器,用于存储与上述人群分类系统处理过程对应的程序代码;
处理器,用于执行上述人群分类系统处理过程对应的程序代码。
处理器可以采用DSP(Digital Signal Processing)数字信号处理器、FPGA(Field-Programmable Gate Array)现场可编程门阵列、MCU(Microcontroller Unit)系统板、SoC(system on a chip)系统板或包括I/O的PLC(Programmable Logic Controller)最小系统。
本发明实施例的人群分类系统如图5所示。在图5中,本实施例的人群分类系统包括:
特征形成装置10,用于根据行为特征标签获得样本用户数据形成样本用户画像;
类别形成装置20,用于根据样本用户画像的分析维度和分析维度中的特征取向形成基础人群类别画像并根据基础人群类别划分样本用户;
人群划分装置30,用于根据基础人群类别画像形成基础人群类别间的量化差异,根据量化差异确定独立人群。
本发明一实施例中,如图5所示,特征形成装置10包括:
标签获取模块11,用于获得形成样本用户画像的行为特征标签;
用户画像建立模块12,用于获得与行为特征标签对应的行为数据建立样本用户画像;
用户数据量化模块13,用于根据行为特征标签的阈值确定对应行为数据的取向值;
用户数据优化模块14,用于将取向值二值化简化样本用户画像。
本发明一实施例中,如图5所示,类别形成装置20包括:
维度设定模块21,用于设定样本用户画像有限的分析维度;
取向设定模块22,用于在每个分析维度中设定若干个特征取向;
取向确定模块23,用于根据样本用户画像中与特征取向相关的行为特征标签的取向值确定样本用户在不同分析维度中的特征取向;
人群确定模块24,用于利用不同分析维度内的特征取向组合形成基础人群类别画像;
样本划分模块25,用于根据基础人群类别画像将样本用户按基础人群类别划分。
本发明一实施例中,如图5所示,人群划分装置30包括:
单一距离计算模块31,用于根据基础人群类别画像中的行为特征标签计算基础人群类别间的欧氏距离;
他类距离计算模块32,用于根据每个基础人群类别相对其他基础人群类别的欧氏距离形成每个基础人群类别的他类总距离,根据他类总距离形成一组独立人群和一组相似人群;
人群划分模块33,用于将相似人群逐一与欧式距离最接近的部分基础人群类别比较;
人群判断模块34,用于部分基础人群类别中是否存在独立人群;
人群独立模块35,用于如存在则将相似人群并入独立人群;
人群合并模块36,用于如不存在则将相似人群作为一个独立人群。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。