CN111966951A - 一种基于社交电商交易数据的用户群体阶层划分方法 - Google Patents
一种基于社交电商交易数据的用户群体阶层划分方法 Download PDFInfo
- Publication number
- CN111966951A CN111966951A CN202010639118.4A CN202010639118A CN111966951A CN 111966951 A CN111966951 A CN 111966951A CN 202010639118 A CN202010639118 A CN 202010639118A CN 111966951 A CN111966951 A CN 111966951A
- Authority
- CN
- China
- Prior art keywords
- value
- social
- user group
- transaction data
- commerce
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000010606 normalization Methods 0.000 claims abstract description 8
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000014759 maintenance of location Effects 0.000 description 7
- 238000004458 analytical method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000013486 operation strategy Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000009394 selective breeding Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0203—Market surveys; Market polls
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- Marketing (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Economics (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Biology (AREA)
- Game Theory and Decision Science (AREA)
- General Health & Medical Sciences (AREA)
- Algebra (AREA)
- Probability & Statistics with Applications (AREA)
- Primary Health Care (AREA)
- Medical Informatics (AREA)
- Human Resources & Organizations (AREA)
- Tourism & Hospitality (AREA)
- Health & Medical Sciences (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于社交电商交易数据的用户群体阶层划分方法,它解决了现有操作复杂精准度不高的问题。其方法包括:步骤S1:取单位时间段内的平台使用天数、日均交易笔数、平均单笔建议金额和平均每天使用时长;步骤S2:对S1中数据进行0‑1规格化处理;步骤S3:将S2得到的纯数值采用聚类算法计算,步骤S4:以k值为x轴,SSE值为y轴建立二维坐标系。以坐标系上k值的最小和最大值对应的两点确定直线L。对每个k值对应的点计算其到直线L的垂直距离,选择距离最长的点对应的k值为最终为社交电商用户群体按照交易数据划分的阶层数。本发明优点在于更为精准便捷的进行阶层划分。
Description
技术领域
本发明涉及电商数据整合技术领域,具体涉及一种基于社交电商交易数据的用户群体阶层划分方法。
背景技术
随着移动互联网技术和大数据技术的日益成熟,社交电商这类以移动社交平台为基础进行电商交易的群体正出于高速发展阶段,也因此涌现出各类为社交电商从业者提供相关服务的社交电商平台。这类平台为了能更有针对性地为不同类型用户推出相应的服务策略和运营策略,就须要对社交电商用户群体进行有效地阶层划分。
目前,多数网络平台在处理用户阶层划分时多采用人工标记的方式。然而,社交电商用户群体相对于传统用户群体出现较晚且复杂度高,基于人工经验的方法在处理此类问题时会存在主观性强、模糊性高、思虑不周等问题影响划分标准的最终统一。此外,面对大规模数据集时人工操作的方式也会存在处理时间过长、人力成本过高等其他一系列问题影响决策者及时做出相应的策略更改,因此急需一种便捷高效精准的阶层划分方法。
发明内容
鉴于此,本发明的目的在于克服现有技术的不足,提供一种基于社交电商交易数据的用户群体阶层划分方法,更为精准便捷的进行阶层划分。
为实现以上目的,本发明采用如下技术方案:
一种基于社交电商交易数据的用户群体阶层划分方法,包括以下步骤:
步骤S1:取单位时间段内的平台使用天数、日均交易笔数、平均单笔建议金额和平均每天使用时长;
步骤S2:对S1中数据进行0-1规格化处理;
步骤S3:将S2得到的纯数值采用聚类算法计算,公式如下:
步骤S4:以k值为x轴,SSE值为y轴建立二维坐标系。以坐标系上k值的最小和最大值对应的两点确定直线L。对每个k值对应的点计算其到直线L的垂直距离,选择距离最长的点对应的k值为最终为社交电商用户群体按照交易数据划分的阶层数。
在上述的一种基于社交电商交易数据的用户群体阶层划分方法中,在S2中的0-1规格化处理的计算公式:
在上述的一种基于社交电商交易数据的用户群体阶层划分方法中,S3中k值取1-10中的整数。
本发明相比于传统手肘法以肉眼观察SSE值拐点的方式确定k值,本发明k值确定方法自动化程度高;本发明计算量小且计算复杂度低,相对于深度学习方法更适合大规模数据分析场景。
附图说明
附图1为本发明提供的流程示意图;
附图2为本发明提供的K值与SSE值的关系图;
附图3为本发明提供的5月份K值与SSE值的关系图;
附图4为本发明提供的6月份K值与SSE值的关系图。
具体实施方式
以下采用本发明的优选实施例并结合附图,对本发明的技术方案作进一步的描述,但本发明并不限于这些实施例。
参见附图1,本发明一实施例提供的一种基于社交电商交易数据的用户群体阶层划分方法,包括:
步骤S1:取单位时间段内的平台使用天数、日均交易笔数、平均单笔建议金额和平均每天使用时长;
步骤S2:对S1中数据进行0-1规格化处理;0-1规格化处理的计算公式:
步骤S3:将S2得到的纯数值采用聚类算法计算,公式如下:
平方误差和(SSE)值作为K值的调优指标,其中μi表示第i个聚类簇的中心,Ci是第i个聚类簇。
聚类算法选用k-means++算法。聚类算法是一种常见的数据挖掘算法,在处理大规模无标签场景数据时有着广泛的应用,其中,k-means是具有代表性的一种聚类分析算法。本发明采用的k-means++算法是k-means算法的改进版,优化了因人为选择初始聚类中心而造成结果不稳定的情况。
本发明中的k-means++聚类算法在k值选择时以传统手肘法思想为基础进行自动化分析,方法如图2所示:根据SSE计算公式得出不同k值下的SSE值,k值按照实际需求范围选定在0到10的整数。以k值为x轴,SSE值为y轴建立二维坐标系。以坐标系上k值等于1和10对应的两点确定直线L。对每个K值对应的点计算其到直线L的垂直距离,选择距离最长的点对应的k值为最终为社交电商用户群体按照交易数据划分的阶层数,并依据此k值对应的聚类结果对社交电商用户群体进行阶层划分。
步骤S4:以k值为x轴,SSE值为y轴建立二维坐标系。以坐标系上k值的最小和最大值对应的两点确定直线L。对每个k值对应的点计算其到直线L的垂直距离,选择距离最长的点对应的k值为最终为社交电商用户群体按照交易数据划分的阶层数。
我们以社交电商平台五、六月份的交易数据为原始数据,选择其中的使用天数、日均交易笔数、平均单笔交易金额和平均每天使用时长等为特征值,利用0-1规格化方法对其进行预处理。数据预处理完成后使用k-means++算法进行聚类分析,计算不同k值情况下平方误差和(SSE)值,计算公式为:
其中,μi表示第i个聚类簇的中心,Ci是第i个聚类簇。
k值按实际需求选择1到10。如图3和图4所示以k=1和k=10对应的两个点为基准建立关系直线。
计算各k值在坐标系上对应的点到关系直线的垂直距离,计算结果如下表所示。
K值 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
5月 | 4.94 | 4.99 | 4.75 | 4.28 | 3.48 | 2.64 | 1.78 | 0.90 |
6月 | 4.91 | 5.01 | 4.76 | 4.3 | 3.5 | 2.66 | 1.81 | 0.93 |
根据表1计算结果显示,k=3时的垂直距离最大。因此,我们选定3为该数据集的聚类k值。
为了进一步观察k=3时社交电商用户群体的阶层划分效果,我们选用业内最为关心的用户留存率作为观察指标。留存率计算公式如下:
Hi=pi/mi*100%
其中,mi是本月第i个聚类簇的数量,pi是第i个聚类簇在下个月用户中留存的数量。
五月份各阶层类别用户对应的人数和留存率如下表所示:
六月份各阶层类别用户对应的人数和留存率如下表所示:
从上表留存率结果来看,两个月份的聚类所得聚类簇在大多数维度上都比较相似。同时,聚类簇之间的留存率呈现阶梯状,聚类结果在留存率上表现良好,能够对社交电商用户进行较好的阶层划分。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
Claims (3)
3.根据权利要求2所述的一种基于社交电商交易数据的用户群体阶层划分方法,其特征在于,S3中k值取1-10中的整数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010639118.4A CN111966951A (zh) | 2020-07-06 | 2020-07-06 | 一种基于社交电商交易数据的用户群体阶层划分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010639118.4A CN111966951A (zh) | 2020-07-06 | 2020-07-06 | 一种基于社交电商交易数据的用户群体阶层划分方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111966951A true CN111966951A (zh) | 2020-11-20 |
Family
ID=73362354
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010639118.4A Pending CN111966951A (zh) | 2020-07-06 | 2020-07-06 | 一种基于社交电商交易数据的用户群体阶层划分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111966951A (zh) |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477552A (zh) * | 2009-02-03 | 2009-07-08 | 辽宁般若网络科技有限公司 | 网站用户等级划分方法 |
CN104376057A (zh) * | 2014-11-06 | 2015-02-25 | 南京邮电大学 | 一种基于最大最小距离和K-means的自适应聚类方法 |
CN106202388A (zh) * | 2016-07-08 | 2016-12-07 | 武汉斗鱼网络科技有限公司 | 一种用户等级自动划分方法及系统 |
CN106228178A (zh) * | 2016-07-06 | 2016-12-14 | 吴本刚 | 网络用户行为预测系统 |
WO2017080398A1 (zh) * | 2015-11-12 | 2017-05-18 | 阿里巴巴集团控股有限公司 | 一种用户群体的划分方法和装置 |
CN108491431A (zh) * | 2018-02-09 | 2018-09-04 | 淮阴工学院 | 一种基于自编码机和聚类的混合推荐方法 |
CN108549913A (zh) * | 2018-04-19 | 2018-09-18 | 成都康乔电子有限责任公司 | 基于密度半径的改进K-means聚类算法 |
CN109871412A (zh) * | 2018-12-26 | 2019-06-11 | 航天科工广信智能技术有限公司 | 基于K-Means聚类的车道流量分析方法 |
CN110232398A (zh) * | 2019-04-24 | 2019-09-13 | 广东交通职业技术学院 | 一种基于Canopy+Kmeans聚类的路网子区划分及其评估方法 |
CN110598755A (zh) * | 2019-08-19 | 2019-12-20 | 北京建筑大学 | 基于向量约束的od流聚类方法 |
CN111209534A (zh) * | 2019-12-23 | 2020-05-29 | 广西电网有限责任公司 | 基于居民客户用电量数据划分客户用电入住状态的方法 |
-
2020
- 2020-07-06 CN CN202010639118.4A patent/CN111966951A/zh active Pending
Patent Citations (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101477552A (zh) * | 2009-02-03 | 2009-07-08 | 辽宁般若网络科技有限公司 | 网站用户等级划分方法 |
CN104376057A (zh) * | 2014-11-06 | 2015-02-25 | 南京邮电大学 | 一种基于最大最小距离和K-means的自适应聚类方法 |
WO2017080398A1 (zh) * | 2015-11-12 | 2017-05-18 | 阿里巴巴集团控股有限公司 | 一种用户群体的划分方法和装置 |
CN106708844A (zh) * | 2015-11-12 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 一种用户群体的划分方法和装置 |
CN106228178A (zh) * | 2016-07-06 | 2016-12-14 | 吴本刚 | 网络用户行为预测系统 |
CN106202388A (zh) * | 2016-07-08 | 2016-12-07 | 武汉斗鱼网络科技有限公司 | 一种用户等级自动划分方法及系统 |
CN108491431A (zh) * | 2018-02-09 | 2018-09-04 | 淮阴工学院 | 一种基于自编码机和聚类的混合推荐方法 |
CN108549913A (zh) * | 2018-04-19 | 2018-09-18 | 成都康乔电子有限责任公司 | 基于密度半径的改进K-means聚类算法 |
CN109871412A (zh) * | 2018-12-26 | 2019-06-11 | 航天科工广信智能技术有限公司 | 基于K-Means聚类的车道流量分析方法 |
CN110232398A (zh) * | 2019-04-24 | 2019-09-13 | 广东交通职业技术学院 | 一种基于Canopy+Kmeans聚类的路网子区划分及其评估方法 |
CN110598755A (zh) * | 2019-08-19 | 2019-12-20 | 北京建筑大学 | 基于向量约束的od流聚类方法 |
CN111209534A (zh) * | 2019-12-23 | 2020-05-29 | 广西电网有限责任公司 | 基于居民客户用电量数据划分客户用电入住状态的方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111899882B (zh) | 一种预测癌症的方法及系统 | |
CN109993100A (zh) | 基于深层特征聚类的人脸表情识别的实现方法 | |
CN112508726B (zh) | 一种基于信息传播特点的虚假舆论识别系统及其处理方法 | |
CN112819299A (zh) | 一种基于中心优化的差分K-means负荷聚类方法 | |
CN111709668A (zh) | 基于数据挖掘技术的电网设备参数风险识别方法及装置 | |
WO2018006631A1 (zh) | 一种用户等级自动划分方法及系统 | |
CN110348516B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN114580572B (zh) | 一种异常值的识别方法、装置、电子设备及存储介质 | |
CN113641733B (zh) | 一种河道断面流量实时智能推求方法 | |
CN111581532A (zh) | 一种基于随机块的社交网络交友推荐方法和系统 | |
CN111339167A (zh) | 基于K-means和主成分线性回归的台区线损率影响因素分析方法 | |
CN106447385A (zh) | 数据处理方法和装置 | |
CN113569920A (zh) | 基于自动编码的第二近邻异常检测方法 | |
CN110706004B (zh) | 一种基于层次聚类的农田重金属污染物溯源方法 | |
CN111966951A (zh) | 一种基于社交电商交易数据的用户群体阶层划分方法 | |
CN109992592B (zh) | 基于校园消费卡流水数据的高校贫困生识别方法 | |
CN111798152A (zh) | 一种门店智能管理方法和装置 | |
CN111428510B (zh) | 一种基于口碑的p2p平台风险分析方法 | |
CN115017988A (zh) | 一种用于状态异常诊断的竞争聚类方法 | |
CN112508608B (zh) | 一种推广活动配置方法、系统、计算机设备及存储介质 | |
CN109933579B (zh) | 一种局部k近邻缺失值插补系统与方法 | |
CN109241448B (zh) | 一种针对科技情报的个性化推荐方法 | |
CN112465022A (zh) | 一种基于改进层次聚类算法的变电站聚类方法 | |
CN111488903A (zh) | 基于特征权重的决策树特征选择方法 | |
CN117575745B (zh) | 基于ai大数据的课程教学资源个性推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |