CN112163897A - 一种基于Flink的电商平台用户行为分析方法 - Google Patents
一种基于Flink的电商平台用户行为分析方法 Download PDFInfo
- Publication number
- CN112163897A CN112163897A CN202011120022.3A CN202011120022A CN112163897A CN 112163897 A CN112163897 A CN 112163897A CN 202011120022 A CN202011120022 A CN 202011120022A CN 112163897 A CN112163897 A CN 112163897A
- Authority
- CN
- China
- Prior art keywords
- user
- commodity
- flink
- algorithm
- analysis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/067—Enterprise or organisation modelling
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
- G06Q30/0202—Market predictions or forecasting for commercial activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Accounting & Taxation (AREA)
- Development Economics (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Data Mining & Analysis (AREA)
- Game Theory and Decision Science (AREA)
- Human Resources & Organizations (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Operations Research (AREA)
- Educational Administration (AREA)
- Quality & Reliability (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于Flink的电商平台用户行为分析方法,包括以下步骤:基于Flink流式计算框架和机器学习算法,构建用户行为分析系统,并定义分析场景规则语法;将用户访问商品日志数据写入Kafka,然后将Flink任务消费Kafka的日志Topic不做过滤直接写入Hbase中;更新用户访问表的对应商品访问数以及商品访问表的对应用户访问数;记录用户在指定的间隔时间内连续发生的操作行为并计算用户对商品的兴趣度;通过画像分析获得用户兴趣画像;通过画像分析获得产品画像;通过ListState存储热度商品,每5秒输出一次最近50秒的商品热度情况。
Description
技术领域
本发明涉及区块链技术领域,特别涉及一种基于Flink的电商平台用户行为分析方法。
背景技术
传统的用户行为分析都是以离线批量处理模式和既定简单规则对用户行为数据进行分析。规则的更新、替换需要对系统进行停机维护,严重影响效率和分析准确度,无法满足电子商务快速发展趋势。如何满足分析过程中的实时性高、数据量大、性能好的需求,是亟待解决的问题。
发明内容
为解决上述问题,本发明提供了一种基于Flink的电商平台用户行为分析方法。
本发明采用以下技术方案:
一种基于Flink的电商平台用户行为分析方法,包括以下步骤:
S1、基于Flink流式计算框架和机器学习算法,构建用户行为分析系统,并定义分析场景规则语法;
S2、将用户访问商品日志数据写入Kafka,然后将Flink任务消费Kafka的日志Topic不做过滤直接写入Hbase中;
S3、读取用户访问商品日志记录,更新用户访问表的对应商品访问数以及商品访问表的对应用户访问数;
S4、读取用户访问商品日志记录,并记录用户在指定的间隔时间内连续发生的操作行为,并计算用户对商品的兴趣度;
S5、读取用户访问商品日志记录,并根据商品的产地、颜色、风格特征,记录用户对这些特征的喜好程度,通过画像分析获得用户兴趣画像;
S6、读取用户访问商品日志记录,并根据浏览商品的用户的性别、年龄特征,记录商品受这些特征用户的喜好程度,通过画像分析获得产品画像;
S7、读取用户访问商品日志记录,通过List State存储热度商品,每5秒输出一次最近50秒的商品热度情况。
优选地,所述用户行为分析系统的具体构建方法如下:
利用机器学习算法对用户行为特征进行建模、预测;
结合基于群体智能的蚁群算法对机器学习算法中的xgboost算法进行优化,并在模型框架中进行模型融合,获得优化后的算法模型;
将优化后的算法模型与逻辑回归算法支持向量机算法、随机森林算法(RF)和xgboost算法进行对比,评估用户行为预测效果;
基于优化后的算法模型对用户行为进行预测分析,根据分析结果进行特征工程的构建,对特征进行预处理,根据用户的行为随时间的变化加入IDF值,使优势特征易于获得;
根据时间的变化趋势来对特征进行训练和测试,随着训练集数据增多,根据每次测试结果,对参数权重进行调整,提高预测准确率。
优选地,所述步骤S1中的定义分析场景规则语法采用drools规则引擎。
优选地,所述分析场景规则语法具体为:
判断一小时内登录失败的次数;
用户与设备之间的实体关系;
序列算法下异常值大于40的行为,将规则进行部署发布。
采用上述技术方案后,本发明与背景技术相比,具有如下优点:
本发明基于Flink流式计算框架和机器学习算法,构建用户行为分析系统,获得用户兴趣画像和产品画像,分析用户喜好,利用Flink的高效流式处理框架,核心的计算任务,并融合批处理和流处理模式,定义好易用的场景规则语法,利用Flink对复杂事件处理的原生支持,实现规则的动态更新。
附图说明
图1为本发明的流程示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
实施例
参考图1所示,本发明公开了一种基于Flink的电商平台用户行为分析方法,包括以下步骤:
S1、基于Flink流式计算框架和机器学习算法,构建用户行为分析系统,并定义分析场景规则语法。
用户行为分析系统的具体构建方法如下:
利用机器学习算法对用户行为特征进行建模、预测。
结合基于群体智能的蚁群算法对机器学习算法中的xgboost算法进行优化,并在模型框架中进行模型融合,获得优化后的算法模型。
将优化后的算法模型与逻辑回归算法支持向量机算法、随机森林算法(RF)和xgboost算法进行对比,评估用户行为预测效果。
基于优化后的算法模型对用户行为进行预测分析,根据分析结果进行特征工程的构建,对特征进行预处理,由于用户行为购买率随着时间的进行而下降,根据用户的行为随时间的变化加入IDF值,使优势特征易于获得。
根据时间的变化趋势来对特征进行训练和测试,随着训练集数据增多,根据每次测试结果,对参数权重进行调整,提高预测准确率。
定义分析场景规则语法采用drools规则引擎。分析场景规则语法具体为:判断一小时内登录失败的次数;用户与设备之间的实体关系;序列算法下异常值大于40的行为,将规则进行部署发布。
S2、将用户访问商品日志数据写入Kafka,然后将Flink任务消费Kafka的日志Topic不做过滤直接写入Hbase中。
S3、读取用户访问商品日志记录,更新用户访问表的对应商品访问数以及商品访问表的对应用户访问数。也就是,将用户访问表的对应用户的商品访问加1,将商品访问表的对应商品的用户的访问加1。
S4、读取用户访问商品日志记录,并记录用户在指定的间隔时间(规则定义100s)内连续发生的操作行为,并计算用户对商品的兴趣度。
S5、读取用户访问商品日志记录,并根据商品的产地、颜色、风格特征,记录用户对这些特征的喜好程度,通过画像分析获得用户兴趣画像。
S6、读取用户访问商品日志记录,并根据浏览商品的用户的性别、年龄特征,记录商品受这些特征用户的喜好程度,通过画像分析获得产品画像。
S7、读取用户访问商品日志记录,通过List State存储热度商品,每5秒输出一次最近50秒的商品热度情况。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (4)
1.一种基于Flink的电商平台用户行为分析方法,其特征在于,包括以下步骤:
S1、基于Flink流式计算框架和机器学习算法,构建用户行为分析系统,并定义分析场景规则语法;
S2、将用户访问商品日志数据写入Kafka,然后将Flink任务消费Kafka的日志Topic不做过滤直接写入Hbase中;
S3、读取用户访问商品日志记录,更新用户访问表的对应商品访问数以及商品访问表的对应用户访问数;
S4、读取用户访问商品日志记录,并记录用户在指定的间隔时间内连续发生的操作行为,并计算用户对商品的兴趣度;
S5、读取用户访问商品日志记录,并根据商品的产地、颜色、风格特征,记录用户对这些特征的喜好程度,通过画像分析获得用户兴趣画像;
S6、读取用户访问商品日志记录,并根据浏览商品的用户的性别、年龄特征,记录商品受这些特征用户的喜好程度,通过画像分析获得产品画像;
S7、读取用户访问商品日志记录,通过List State存储热度商品,每5秒输出一次最近50秒的商品热度情况。
2.如权利要求1所述的一种基于Flink的电商平台用户行为分析方法,其特征在于,所述用户行为分析系统的具体构建方法如下:
利用机器学习算法对用户行为特征进行建模、预测;
结合基于群体智能的蚁群算法对机器学习算法中的xgboost算法进行优化,并在模型框架中进行模型融合,获得优化后的算法模型;
将优化后的算法模型与逻辑回归算法支持向量机算法、随机森林算法(RF)和xgboost算法进行对比,评估用户行为预测效果;
基于优化后的算法模型对用户行为进行预测分析,根据分析结果进行特征工程的构建,对特征进行预处理,根据用户的行为随时间的变化加入IDF值,使优势特征易于获得;
根据时间的变化趋势来对特征进行训练和测试,随着训练集数据增多,根据每次测试结果,对参数权重进行调整,提高预测准确率。
3.如权利要求1所述的一种基于Flink的电商平台用户行为分析方法,其特征在于:所述步骤S1中的定义分析场景规则语法采用drools规则引擎。
4.如权利要求3所述的一种基于Flink的电商平台用户行为分析方法,其特征在于:所述分析场景规则语法具体为:
判断一小时内登录失败的次数;
用户与设备之间的实体关系;
序列算法下异常值大于40的行为,将规则进行部署发布。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011120022.3A CN112163897A (zh) | 2020-10-19 | 2020-10-19 | 一种基于Flink的电商平台用户行为分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011120022.3A CN112163897A (zh) | 2020-10-19 | 2020-10-19 | 一种基于Flink的电商平台用户行为分析方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112163897A true CN112163897A (zh) | 2021-01-01 |
Family
ID=73867481
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011120022.3A Pending CN112163897A (zh) | 2020-10-19 | 2020-10-19 | 一种基于Flink的电商平台用户行为分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112163897A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113742532A (zh) * | 2021-03-09 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 用户画像方法、装置和计算机可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104090886A (zh) * | 2013-12-09 | 2014-10-08 | 深圳市腾讯计算机系统有限公司 | 构建用户实时画像的方法及装置 |
CN108021929A (zh) * | 2017-11-16 | 2018-05-11 | 华南理工大学 | 基于大数据的移动端电商用户画像建立与分析方法及系统 |
US20200320410A1 (en) * | 2017-09-19 | 2020-10-08 | Warner Bros. Entertainment Inc. | Consumer intelligence for automatic real time message decisions and selection |
-
2020
- 2020-10-19 CN CN202011120022.3A patent/CN112163897A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104090886A (zh) * | 2013-12-09 | 2014-10-08 | 深圳市腾讯计算机系统有限公司 | 构建用户实时画像的方法及装置 |
US20200320410A1 (en) * | 2017-09-19 | 2020-10-08 | Warner Bros. Entertainment Inc. | Consumer intelligence for automatic real time message decisions and selection |
CN108021929A (zh) * | 2017-11-16 | 2018-05-11 | 华南理工大学 | 基于大数据的移动端电商用户画像建立与分析方法及系统 |
Non-Patent Citations (2)
Title |
---|
姚颖颖 等: "面向融合业务的有线网大数据平台技术体系研究", 《信息技术与标准化》 * |
姜红玉 等: "基于流式计算的实时用户画像系统研究", 《计算机技术与发展》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113742532A (zh) * | 2021-03-09 | 2021-12-03 | 北京沃东天骏信息技术有限公司 | 用户画像方法、装置和计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Zhai et al. | Enabling predictive maintenance integrated production scheduling by operation-specific health prognostics with generative deep learning | |
US20210042590A1 (en) | Machine learning system using a stochastic process and method | |
US20180268318A1 (en) | Training classification algorithms to predict end-user behavior based on historical conversation data | |
CN111738532B (zh) | 一种事件对对象影响度的获取方法和系统 | |
CN113837596B (zh) | 一种故障确定方法、装置、电子设备及存储介质 | |
Neto et al. | Building energy consumption models based on smartphone user’s usage patterns | |
CN117033039A (zh) | 故障检测方法、装置、计算机设备和存储介质 | |
CN112163897A (zh) | 一种基于Flink的电商平台用户行为分析方法 | |
Hu et al. | Research on a prediction model of online shopping behavior based on deep forest algorithm | |
Zhou et al. | Performance evaluation method for network monitoring based on separable temporal exponential random graph models with application to the study of autocorrelation effects | |
JP2009277110A (ja) | ソフトウェア試験及び開発支援装置並びに当該装置用プログラム | |
Maataoui et al. | Predictive maintenance in the industrial sector: a CRISP-DM approach for developing accurate machine failure prediction models | |
Zhang et al. | Multi-dimensional recommendation scheme for social networks considering a user relationship strength perspective | |
Zhang et al. | Reliability-oriented product manufacturing quality improvement approach based on R-KQC and DMAIC | |
Wilschut et al. | A dsm based method for the ranking of system components wrt system reliability and availability | |
US20230334362A1 (en) | Self-adaptive multi-model approach in representation feature space for propensity to action | |
EP4310736A1 (en) | Method and system of generating causal structure | |
Viedt et al. | Prescriptive and descriptive quality metrics for the quality assessment of operational data | |
Petri et al. | Information‐Enabled Decision‐Making in Big Data Scenarios | |
Polam | Sales and Logistics Analysis in E-Commerce using Machine Learning Models: UK | |
Ramakrishnan et al. | Distributed dynamic elastic nets: A scalable approach for regularization in dynamic manufacturing environments | |
CN116795705A (zh) | 异常节点的确定方法、装置和计算机设备 | |
Olsson et al. | Explainability of Machine Learning in Forecasts for Retail Sales Campaigns | |
Based et al. | Check for A Hybrid Recommendation Algorithm Based on Latent Factor Model and Collaborative Filtering Wenyun Xie () and Xin Sun | |
Amato et al. | Integration of Early Warning Systems and Customer Segmentation Methods in the Financial Industry-A Systematic Literature Review |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210101 |
|
RJ01 | Rejection of invention patent application after publication |