CN111966951A - 一种基于社交电商交易数据的用户群体阶层划分方法 - Google Patents

一种基于社交电商交易数据的用户群体阶层划分方法 Download PDF

Info

Publication number
CN111966951A
CN111966951A CN202010639118.4A CN202010639118A CN111966951A CN 111966951 A CN111966951 A CN 111966951A CN 202010639118 A CN202010639118 A CN 202010639118A CN 111966951 A CN111966951 A CN 111966951A
Authority
CN
China
Prior art keywords
value
social
user group
transaction data
commerce
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010639118.4A
Other languages
English (en)
Inventor
张文
崔浩亮
陈轶
牛少彰
王让定
焦崇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Southeast Digital Economic Development Research Institute
Original Assignee
Southeast Digital Economic Development Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Southeast Digital Economic Development Research Institute filed Critical Southeast Digital Economic Development Research Institute
Priority to CN202010639118.4A priority Critical patent/CN111966951A/zh
Publication of CN111966951A publication Critical patent/CN111966951A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0203Market surveys; Market polls
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Evolutionary Biology (AREA)
  • Game Theory and Decision Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Primary Health Care (AREA)
  • Medical Informatics (AREA)
  • Human Resources & Organizations (AREA)
  • Tourism & Hospitality (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于社交电商交易数据的用户群体阶层划分方法,它解决了现有操作复杂精准度不高的问题。其方法包括:步骤S1:取单位时间段内的平台使用天数、日均交易笔数、平均单笔建议金额和平均每天使用时长;步骤S2:对S1中数据进行0‑1规格化处理;步骤S3:将S2得到的纯数值采用聚类算法计算,步骤S4:以k值为x轴,SSE值为y轴建立二维坐标系。以坐标系上k值的最小和最大值对应的两点确定直线L。对每个k值对应的点计算其到直线L的垂直距离,选择距离最长的点对应的k值为最终为社交电商用户群体按照交易数据划分的阶层数。本发明优点在于更为精准便捷的进行阶层划分。

Description

一种基于社交电商交易数据的用户群体阶层划分方法
技术领域
本发明涉及电商数据整合技术领域,具体涉及一种基于社交电商交易数据的用户群体阶层划分方法。
背景技术
随着移动互联网技术和大数据技术的日益成熟,社交电商这类以移动社交平台为基础进行电商交易的群体正出于高速发展阶段,也因此涌现出各类为社交电商从业者提供相关服务的社交电商平台。这类平台为了能更有针对性地为不同类型用户推出相应的服务策略和运营策略,就须要对社交电商用户群体进行有效地阶层划分。
目前,多数网络平台在处理用户阶层划分时多采用人工标记的方式。然而,社交电商用户群体相对于传统用户群体出现较晚且复杂度高,基于人工经验的方法在处理此类问题时会存在主观性强、模糊性高、思虑不周等问题影响划分标准的最终统一。此外,面对大规模数据集时人工操作的方式也会存在处理时间过长、人力成本过高等其他一系列问题影响决策者及时做出相应的策略更改,因此急需一种便捷高效精准的阶层划分方法。
发明内容
鉴于此,本发明的目的在于克服现有技术的不足,提供一种基于社交电商交易数据的用户群体阶层划分方法,更为精准便捷的进行阶层划分。
为实现以上目的,本发明采用如下技术方案:
一种基于社交电商交易数据的用户群体阶层划分方法,包括以下步骤:
步骤S1:取单位时间段内的平台使用天数、日均交易笔数、平均单笔建议金额和平均每天使用时长;
步骤S2:对S1中数据进行0-1规格化处理;
步骤S3:将S2得到的纯数值采用聚类算法计算,公式如下:
Figure BDA0002570209520000021
步骤S4:以k值为x轴,SSE值为y轴建立二维坐标系。以坐标系上k值的最小和最大值对应的两点确定直线L。对每个k值对应的点计算其到直线L的垂直距离,选择距离最长的点对应的k值为最终为社交电商用户群体按照交易数据划分的阶层数。
在上述的一种基于社交电商交易数据的用户群体阶层划分方法中,在S2中的0-1规格化处理的计算公式:
Figure BDA0002570209520000022
在上述的一种基于社交电商交易数据的用户群体阶层划分方法中,S3中k值取1-10中的整数。
本发明相比于传统手肘法以肉眼观察SSE值拐点的方式确定k值,本发明k值确定方法自动化程度高;本发明计算量小且计算复杂度低,相对于深度学习方法更适合大规模数据分析场景。
附图说明
附图1为本发明提供的流程示意图;
附图2为本发明提供的K值与SSE值的关系图;
附图3为本发明提供的5月份K值与SSE值的关系图;
附图4为本发明提供的6月份K值与SSE值的关系图。
具体实施方式
以下采用本发明的优选实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
参见附图1,本发明一实施例提供的一种基于社交电商交易数据的用户群体阶层划分方法,包括:
步骤S1:取单位时间段内的平台使用天数、日均交易笔数、平均单笔建议金额和平均每天使用时长;
步骤S2:对S1中数据进行0-1规格化处理;0-1规格化处理的计算公式:
Figure BDA0002570209520000031
步骤S3:将S2得到的纯数值采用聚类算法计算,公式如下:
Figure BDA0002570209520000032
平方误差和(SSE)值作为K值的调优指标,其中μi表示第i个聚类簇的中心,Ci是第i个聚类簇。
聚类算法选用k-means++算法。聚类算法是一种常见的数据挖掘算法,在处理大规模无标签场景数据时有着广泛的应用,其中,k-means是具有代表性的一种聚类分析算法。本发明采用的k-means++算法是k-means算法的改进版,优化了因人为选择初始聚类中心而造成结果不稳定的情况。
本发明中的k-means++聚类算法在k值选择时以传统手肘法思想为基础进行自动化分析,方法如图2所示:根据SSE计算公式得出不同k值下的SSE值,k值按照实际需求范围选定在0到10的整数。以k值为x轴,SSE值为y轴建立二维坐标系。以坐标系上k值等于1和10对应的两点确定直线L。对每个K值对应的点计算其到直线L的垂直距离,选择距离最长的点对应的k值为最终为社交电商用户群体按照交易数据划分的阶层数,并依据此k值对应的聚类结果对社交电商用户群体进行阶层划分。
步骤S4:以k值为x轴,SSE值为y轴建立二维坐标系。以坐标系上k值的最小和最大值对应的两点确定直线L。对每个k值对应的点计算其到直线L的垂直距离,选择距离最长的点对应的k值为最终为社交电商用户群体按照交易数据划分的阶层数。
我们以社交电商平台五、六月份的交易数据为原始数据,选择其中的使用天数、日均交易笔数、平均单笔交易金额和平均每天使用时长等为特征值,利用0-1规格化方法对其进行预处理。数据预处理完成后使用k-means++算法进行聚类分析,计算不同k值情况下平方误差和(SSE)值,计算公式为:
Figure BDA0002570209520000041
其中,μi表示第i个聚类簇的中心,Ci是第i个聚类簇。
k值按实际需求选择1到10。如图3和图4所示以k=1和k=10对应的两个点为基准建立关系直线。
计算各k值在坐标系上对应的点到关系直线的垂直距离,计算结果如下表所示。
K值 2 3 4 5 6 7 8 9
5月 4.94 4.99 4.75 4.28 3.48 2.64 1.78 0.90
6月 4.91 5.01 4.76 4.3 3.5 2.66 1.81 0.93
根据表1计算结果显示,k=3时的垂直距离最大。因此,我们选定3为该数据集的聚类k值。
为了进一步观察k=3时社交电商用户群体的阶层划分效果,我们选用业内最为关心的用户留存率作为观察指标。留存率计算公式如下:
Hi=pi/mi*100%
其中,mi是本月第i个聚类簇的数量,pi是第i个聚类簇在下个月用户中留存的数量。
五月份各阶层类别用户对应的人数和留存率如下表所示:
Figure BDA0002570209520000042
Figure BDA0002570209520000051
六月份各阶层类别用户对应的人数和留存率如下表所示:
Figure BDA0002570209520000052
从上表留存率结果来看,两个月份的聚类所得聚类簇在大多数维度上都比较相似。同时,聚类簇之间的留存率呈现阶梯状,聚类结果在留存率上表现良好,能够对社交电商用户进行较好的阶层划分。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (3)

1.一种基于社交电商交易数据的用户群体阶层划分方法,其特征在于,包括以下步骤:
步骤S1:取单位时间段内的平台使用天数、日均交易笔数、平均单笔建议金额和平均每天使用时长;
步骤S2:对S1中数据进行0-1规格化处理;
步骤S3:将S2得到的纯数值采用聚类算法计算,公式如下:
Figure FDA0002570209510000011
步骤S4:以k值为x轴,SSE值为y轴建立二维坐标系。以坐标系上k值的最小和最大值对应的两点确定直线L。对每个k值对应的点计算其到直线L的垂直距离,选择距离最长的点对应的k值为最终为社交电商用户群体按照交易数据划分的阶层数。
2.根据权利要求1所述的一种基于社交电商交易数据的用户群体阶层划分方法,其特征在于,在S2中的0-1规格化处理的计算公式:
Figure FDA0002570209510000012
3.根据权利要求2所述的一种基于社交电商交易数据的用户群体阶层划分方法,其特征在于,S3中k值取1-10中的整数。
CN202010639118.4A 2020-07-06 2020-07-06 一种基于社交电商交易数据的用户群体阶层划分方法 Pending CN111966951A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010639118.4A CN111966951A (zh) 2020-07-06 2020-07-06 一种基于社交电商交易数据的用户群体阶层划分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010639118.4A CN111966951A (zh) 2020-07-06 2020-07-06 一种基于社交电商交易数据的用户群体阶层划分方法

Publications (1)

Publication Number Publication Date
CN111966951A true CN111966951A (zh) 2020-11-20

Family

ID=73362354

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010639118.4A Pending CN111966951A (zh) 2020-07-06 2020-07-06 一种基于社交电商交易数据的用户群体阶层划分方法

Country Status (1)

Country Link
CN (1) CN111966951A (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477552A (zh) * 2009-02-03 2009-07-08 辽宁般若网络科技有限公司 网站用户等级划分方法
CN104376057A (zh) * 2014-11-06 2015-02-25 南京邮电大学 一种基于最大最小距离和K-means的自适应聚类方法
CN106202388A (zh) * 2016-07-08 2016-12-07 武汉斗鱼网络科技有限公司 一种用户等级自动划分方法及系统
CN106228178A (zh) * 2016-07-06 2016-12-14 吴本刚 网络用户行为预测系统
WO2017080398A1 (zh) * 2015-11-12 2017-05-18 阿里巴巴集团控股有限公司 一种用户群体的划分方法和装置
CN108491431A (zh) * 2018-02-09 2018-09-04 淮阴工学院 一种基于自编码机和聚类的混合推荐方法
CN108549913A (zh) * 2018-04-19 2018-09-18 成都康乔电子有限责任公司 基于密度半径的改进K-means聚类算法
CN109871412A (zh) * 2018-12-26 2019-06-11 航天科工广信智能技术有限公司 基于K-Means聚类的车道流量分析方法
CN110232398A (zh) * 2019-04-24 2019-09-13 广东交通职业技术学院 一种基于Canopy+Kmeans聚类的路网子区划分及其评估方法
CN110598755A (zh) * 2019-08-19 2019-12-20 北京建筑大学 基于向量约束的od流聚类方法
CN111209534A (zh) * 2019-12-23 2020-05-29 广西电网有限责任公司 基于居民客户用电量数据划分客户用电入住状态的方法

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101477552A (zh) * 2009-02-03 2009-07-08 辽宁般若网络科技有限公司 网站用户等级划分方法
CN104376057A (zh) * 2014-11-06 2015-02-25 南京邮电大学 一种基于最大最小距离和K-means的自适应聚类方法
WO2017080398A1 (zh) * 2015-11-12 2017-05-18 阿里巴巴集团控股有限公司 一种用户群体的划分方法和装置
CN106708844A (zh) * 2015-11-12 2017-05-24 阿里巴巴集团控股有限公司 一种用户群体的划分方法和装置
CN106228178A (zh) * 2016-07-06 2016-12-14 吴本刚 网络用户行为预测系统
CN106202388A (zh) * 2016-07-08 2016-12-07 武汉斗鱼网络科技有限公司 一种用户等级自动划分方法及系统
CN108491431A (zh) * 2018-02-09 2018-09-04 淮阴工学院 一种基于自编码机和聚类的混合推荐方法
CN108549913A (zh) * 2018-04-19 2018-09-18 成都康乔电子有限责任公司 基于密度半径的改进K-means聚类算法
CN109871412A (zh) * 2018-12-26 2019-06-11 航天科工广信智能技术有限公司 基于K-Means聚类的车道流量分析方法
CN110232398A (zh) * 2019-04-24 2019-09-13 广东交通职业技术学院 一种基于Canopy+Kmeans聚类的路网子区划分及其评估方法
CN110598755A (zh) * 2019-08-19 2019-12-20 北京建筑大学 基于向量约束的od流聚类方法
CN111209534A (zh) * 2019-12-23 2020-05-29 广西电网有限责任公司 基于居民客户用电量数据划分客户用电入住状态的方法

Similar Documents

Publication Publication Date Title
CN111899882B (zh) 一种预测癌症的方法及系统
CN109993100A (zh) 基于深层特征聚类的人脸表情识别的实现方法
CN112508726B (zh) 一种基于信息传播特点的虚假舆论识别系统及其处理方法
CN112819299A (zh) 一种基于中心优化的差分K-means负荷聚类方法
CN111709668A (zh) 基于数据挖掘技术的电网设备参数风险识别方法及装置
WO2018006631A1 (zh) 一种用户等级自动划分方法及系统
CN110348516B (zh) 数据处理方法、装置、存储介质及电子设备
CN114580572B (zh) 一种异常值的识别方法、装置、电子设备及存储介质
CN113641733B (zh) 一种河道断面流量实时智能推求方法
CN111581532A (zh) 一种基于随机块的社交网络交友推荐方法和系统
CN111339167A (zh) 基于K-means和主成分线性回归的台区线损率影响因素分析方法
CN106447385A (zh) 数据处理方法和装置
CN113569920A (zh) 基于自动编码的第二近邻异常检测方法
CN110706004B (zh) 一种基于层次聚类的农田重金属污染物溯源方法
CN111966951A (zh) 一种基于社交电商交易数据的用户群体阶层划分方法
CN109992592B (zh) 基于校园消费卡流水数据的高校贫困生识别方法
CN111798152A (zh) 一种门店智能管理方法和装置
CN111428510B (zh) 一种基于口碑的p2p平台风险分析方法
CN115017988A (zh) 一种用于状态异常诊断的竞争聚类方法
CN112508608B (zh) 一种推广活动配置方法、系统、计算机设备及存储介质
CN109933579B (zh) 一种局部k近邻缺失值插补系统与方法
CN109241448B (zh) 一种针对科技情报的个性化推荐方法
CN112465022A (zh) 一种基于改进层次聚类算法的变电站聚类方法
CN111488903A (zh) 基于特征权重的决策树特征选择方法
CN117575745B (zh) 基于ai大数据的课程教学资源个性推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination