CN110968570A - 面向电商平台的分布式大数据挖掘系统 - Google Patents

面向电商平台的分布式大数据挖掘系统 Download PDF

Info

Publication number
CN110968570A
CN110968570A CN201811118075.4A CN201811118075A CN110968570A CN 110968570 A CN110968570 A CN 110968570A CN 201811118075 A CN201811118075 A CN 201811118075A CN 110968570 A CN110968570 A CN 110968570A
Authority
CN
China
Prior art keywords
data
layer
analysis
commerce platform
mining system
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811118075.4A
Other languages
English (en)
Inventor
钟舞霞
刘远丰
李伟标
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Weia Technology Co ltd
Original Assignee
Guangzhou Weia Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Weia Technology Co ltd filed Critical Guangzhou Weia Technology Co ltd
Priority to CN201811118075.4A priority Critical patent/CN110968570A/zh
Publication of CN110968570A publication Critical patent/CN110968570A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种面向电商平台的分布式大数据挖掘系统,该系统包括:数据来源层、数据收集层、数据组织层、数据存储层、数据分析层及数据应用层六个层次;其中,所述数据来源层主要是指电商平台、移动终端、社交网络、供应商等;所述数据收集层主要负责通过Needlebase等工具收集所述数据来源层的数据并对数据进行数据预处理及传送数据给所述数据组织层;所述数据组织层对所述数据收集层传来的数据进行过滤实时分析;所述数据存储层负责对数据进行存储;所述数据分析层负责分析并过滤出来一下有意义的数据,从而分析各用户群体的特点,分析用户个人特点,提取出有价值的知识数据;所述数据应用根据所述数据分析层提供的信息进行一些个性化推荐、异常检测等。

Description

面向电商平台的分布式大数据挖掘系统
技术领域
本发明属于大数据挖掘技术领域,涉及一种面向电商平台的分布式大数据挖掘系统。
背景技术
近年来,电子商务迅速发展,电商数据也变得无比复杂庞大。众所周知,电商数据是电商平台的生命线之一,利用这些海量数据与其业务进行关联,对用户的消费行为进行分析,借助数据挖掘技术,可以让平台更具有竞争性,从而获取商业价值。
但是,目前还没有满足用户需求的电商平台大数据挖掘系统。因此,社会急需要一种良好的关于电商平台大数据挖掘系统。
发明内容
本发明目的在于提供一种面向电商平台的分布式大数据挖掘系统,针对目前还没有满足用户需求的电商平台大数据挖掘系统的现状,通过Hadoop基础架构,对电商平台的数据进行深度分析,更精确和及时地挖掘出用户的行为特征、消费习惯和兴趣焦点,让电商平台各参与者获得具有极大价值的知识。
为解决上述技术问题,本发明采用如下的技术方案:一种面向电商平台的分布式大数据挖掘系统,该系统包括:数据来源层、数据收集层、数据组织层、数据存储层、数据分析层及数据应用层六个层次;其中,所述数据来源层主要是指电商平台、移动终端、社交网络、供应商等;所述数据收集层主要负责通过Needlebase等工具收集所述数据来源层的数据并对数据进行数据预处理及传送数据给所述数据组织层;所述数据组织层对所述数据收集层传来的数据进行过滤实时分析和接受分析;所述数据存储层负责对经过数据组织层处理的数据进行存储;所述数据分析层通过关联规则分析等对数据进行分析并过滤出来一下有意义的数据,从而分析各用户群体的特点,分析用户个人特点,提取出有价值的知识数据;所述数据应用层面向的是平台应用、商家应用、用户应用,它根据所述数据分析层提供的信息进行一些个性化推荐、异常检测等。
进一步地,所述数据预处理包括进行数据准备、数据转化、数据抽取。
进一步地,所述数据准备包括数据解析、数据清洗、数据重构。
进一步地,所述数据转化包括数据过滤、数据映射。
进一步地,所述数据抽取包括数据关联与数据融合。
本发明与现有技术相比具有以下的有益效果:
本发明方案针对目前还没有满足用户需求的电商平台大数据挖掘系统的问题,通过Hadoop基础架构,对电商平台的数据进行深度分析,更精确和及时地挖掘出用户的行为特征、消费习惯和兴趣焦点,让电商平台各参与者获得具有极大价值的知识。
附图说明
图1是面向电商平台的分布式大数据挖掘系统的整体框架图。
图2是面向电商平台的分布式大数据挖掘系统的挖掘流程图。
具体实施方式
下面结合附图及具体实施例对本发明进行更加详细与完整的说明。可以理解的是,此处所描述的具体实施例仅用于解释本发明,而非对本发明的限定。
参照图1,本发明一种基于Hadoop的电商平台大数据挖掘方法,该系统包括:数据来源层、数据收集层、数据组织层、数据存储层、数据分析层及数据应用层六个层次;其中,所述数据来源层主要是指电商平台、移动终端、社交网络、供应商等;所述数据收集层主要负责通过Needlebase等工具收集所述数据来源层的数据并对数据进行数据预处理及传送数据给所述数据组织层;所述数据组织层对所述数据收集层传来的数据进行过滤实时分析和接受分析;所述数据存储层负责对经过数据组织层处理的数据进行存储;所述数据分析层通过关联规则分析等对数据进行分析并过滤出来一下有意义的数据,从而分析各用户群体的特点,分析用户个人特点,提取出有价值的知识数据;所述数据应用层面向的是平台应用、商家应用、用户应用,它根据所述数据分析层提供的信息进行一些个性化推荐、异常检测等。
参照图2,所述数据采集层把收集来的数据进行相应的预处理,将这种简单、独立的数据通过解析、清洗、重构,转换成结构化、半结构化的数据,再对数据进行过滤、抽取和数据融合,过滤出来一下有意义的数据,从而分析各用户群体的特点,分析用户个人特点,获得有价值的知识数据。要让知识数据体现价值,还需要将其进行解释和挖掘应用,在数据挖掘应用中有很多挖掘方法,数据挖掘应用是数据挖掘方法的最后一步,通过整理完的数据可以预测电商平台未来发展趋势及用户各种行为,为电商平台提出决策性建议。从不同的角度对数据进行挖掘的常用方法主要有关联规则分析、分类聚类、变化和偏差分析等。
所述关联规则分析,就是寻找数据之间的联系,通过量化的方式衡量数据之间的关联性。可分为简单关联、时序关联、因果关联,为用户在电商平台留下的各种数据信息提供参考依据。
聚类分析算法中,是对电子商务用户行为进行识别分析,如用户的行为习惯、收益、意见、忠诚度等。根据聚类分析,将用户数据集合根据指定的模型进行分类,根据分类结果得出聚类对象。基于聚类分析方法优化设计点子商务用户行为识别决策,锁定商务营销目标客户,避免客户群流失,确定营销渠道。
数据挖掘中的偏差分析,是探测数据当前现状、历史记录,标准值之间的显著变化和偏离,如观测结果与期望的偏离,分类中的反常实例,模式的例外等。它可以应用到电商平台用户异常信息的发现、分析、识别、评价和用户流失预警等方面。
以上所述并不用于限制本发明,对于本领域技术人员而言,本发明可以有各种改动和变化。凡在本发明的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.面向电商平台的分布式大数据挖掘系统,其特征在于,所述系统包括:数据来源层、数据收集层、数据组织层、数据存储层、数据分析层及数据应用层六个层次;其中,所述数据来源层主要是指电商平台、移动终端、社交网络、供应商等多种异构数据源;所述数据收集层主要负责通过Needlebase等工具收集所述数据来源层的数据并对数据进行数据预处理及传送数据给所述数据组织层;所述数据组织层对所述数据收集层传来的数据进行过滤实时分析和接受分析;所述数据存储层负责对经过所述数据组织层处理的数据进行存储;所述数据分析层通过关联规则分析等操作对数据进行分析并过滤出有意义的数据,从而分析各用户群体的特点,分析用户个人特点,提取出有价值的知识数据;所述数据应用层面向的是平台应用、商家应用、用户应用,它根据所述数据分析层提供的信息进行一些个性化推荐、异常检测等。
2.根据权利要求1所述的面向电商平台的分布式大数据挖掘系统,其特征在于,所述数据预处理包含步骤:数据准备、数据转化、数据抽取。
3.根据权利要求2所述的面向电商平台的分布式大数据挖掘系统,其特征在于,所述数据准备包含步骤:数据解析、数据清洗、数据重构。
4.根据权利要求2所述的面向电商平台的分布式大数据挖掘系统,其特征在于,所述数据转化包含步骤:数据过滤、数据映射。
5.根据权利要求2所述的面向电商平台的分布式大数据挖掘系统,其特征在于,所述数据抽取包含步骤:数据关联、数据融合。
CN201811118075.4A 2018-09-28 2018-09-28 面向电商平台的分布式大数据挖掘系统 Pending CN110968570A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811118075.4A CN110968570A (zh) 2018-09-28 2018-09-28 面向电商平台的分布式大数据挖掘系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811118075.4A CN110968570A (zh) 2018-09-28 2018-09-28 面向电商平台的分布式大数据挖掘系统

Publications (1)

Publication Number Publication Date
CN110968570A true CN110968570A (zh) 2020-04-07

Family

ID=70026648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811118075.4A Pending CN110968570A (zh) 2018-09-28 2018-09-28 面向电商平台的分布式大数据挖掘系统

Country Status (1)

Country Link
CN (1) CN110968570A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112435074A (zh) * 2020-12-07 2021-03-02 浙江大学 一种新零售实时数据追踪、反馈方法和系统
CN115796924A (zh) * 2023-01-31 2023-03-14 武汉亿诚同创科技有限公司 一种基于大数据的云平台电子商务数据处理方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112435074A (zh) * 2020-12-07 2021-03-02 浙江大学 一种新零售实时数据追踪、反馈方法和系统
CN115796924A (zh) * 2023-01-31 2023-03-14 武汉亿诚同创科技有限公司 一种基于大数据的云平台电子商务数据处理方法及系统

Similar Documents

Publication Publication Date Title
CN109525595B (zh) 一种基于时间流特征的黑产账号识别方法及设备
CN109465676B (zh) 一种刀具寿命预测方法
CN103793484B (zh) 分类信息网站中的基于机器学习的欺诈行为识别系统
CN103117903B (zh) 上网流量异常检测方法及装置
CN111460312A (zh) 空壳企业识别方法、装置及计算机设备
CN104573016A (zh) 一种基于行业的垂直舆情分析系统及方法
CN109740573B (zh) 视频分析方法、装置、设备及服务器
US10387805B2 (en) System and method for ranking news feeds
CN106897359A (zh) 互联网信息收集及关联方法
Nguyen et al. Vasabi: Hierarchical user profiles for interactive visual user behaviour analytics
CN105426441B (zh) 一种时间序列自动预处理方法
CN102955894A (zh) 一种基于用户细分的流失率预测的控制方法
CN110968570A (zh) 面向电商平台的分布式大数据挖掘系统
Monalisa Analysis outlier data on RFM and LRFM models to determining customer loyalty with DBSCAN algorithm
CN116485020A (zh) 一种基于大数据的供应链风险识别预警方法、系统及介质
CN116541782A (zh) 一种电力营销数据异常识别方法
CN104102730A (zh) 一种基于已知标签的大数据常态模式提取方法及系统
CN104298702A (zh) 基于社交网络信息进行电子阅读读物推荐的方法及系统
CN105138552A (zh) 一种挖掘在线销售数据的时尚趋势分析系统
CN117495512A (zh) 订单数据的管理方法、装置、设备及存储介质
CN117455529A (zh) 基于大数据技术的用户用电特征画像构建方法及系统
CN111209955A (zh) 基于深度神经网络和随机森林的飞机电源系统故障识别方法
CN104268214A (zh) 一种基于微博用户关系的用户性别识别方法及系统
Wang et al. A Comparative Study on Contract Recommendation Model: Using Macao Mobile Phone Datasets
CN105654118A (zh) 民航旅客关系分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200407