CN109710820A - 一种基于大数据任意客群多维度实时聚类分析的方法 - Google Patents
一种基于大数据任意客群多维度实时聚类分析的方法 Download PDFInfo
- Publication number
- CN109710820A CN109710820A CN201811485143.0A CN201811485143A CN109710820A CN 109710820 A CN109710820 A CN 109710820A CN 201811485143 A CN201811485143 A CN 201811485143A CN 109710820 A CN109710820 A CN 109710820A
- Authority
- CN
- China
- Prior art keywords
- data
- analysis
- various dimensions
- clustering
- group
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000004458 analytical method Methods 0.000 claims abstract description 72
- 230000000007 visual effect Effects 0.000 claims abstract description 24
- 238000012800 visualization Methods 0.000 claims abstract description 9
- 230000000712 assembly Effects 0.000 claims description 4
- 238000000429 assembly Methods 0.000 claims description 4
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000003032 molecular docking Methods 0.000 claims description 2
- 230000003542 behavioural effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 7
- 230000008859 change Effects 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000012790 confirmation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 238000004141 dimensional analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000010223 real-time analysis Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 229910052709 silver Inorganic materials 0.000 description 1
- 239000004332 silver Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于大数据任意客群多维度实时聚类分析的方法,包括步骤:针对数据源进行预处理,对数据进行标签并进行可视化配置;针对标签后的数据进行分析维度配置;确定分析维度的分析指标和需实时分析的目标客群;根据分析指标和目标客群进行聚类分析计算,并将分析结果进行可视化显示。本发明能够对目标客群实现实时分析,适应业务的快速变化需要对客群精准细分需求。
Description
技术领域
本发明涉及一种基于大数据任意客群多维度实时聚类分析的方法。
背景技术
大数据时代,数据正在迅速膨胀变大,它决定着企业的未来发展,随着时间的推移,人们将越来越多的意识到数据对企业的重要性。利用好大数据为企业提升生产力,一套专业的分析工具平台是非常有必要的,利用统计分析方法提取有用信息和形成结论而对数据加以详细研究和概括总结。
互联网+时代的到来,新零售的到来,打破原来很多企业原有的业务模式,企业以互联网为依托,通过运用大数据、人工智能等先进技术手段,对商品的生产、流通与销售过程进行升级改造,进而重塑业态结构与生态圈,并对线上服务、线下体验以及现代物流进行深度融合的零售新模式。
企业为了跟上时代的快速发展,业务不断的更新迭代,导致业务指标也跟着快速变化,负责业务的产品经理及业务人员为了能全面、快速掌握相关的信息,需要许多分析人员人工支撑和IT部门支撑,获取数据的流程复杂且时间较长。由于业务的快速变化,基于聚类分析计算获得的分析报表没有多长时间又不能满足业务需求,需要重新开发。
发明内容
本发明的发明目的在于提供一种基于大数据任意客群多维度实时聚类分析的方法,能够对目标客群实现实时分析,适应业务的快速变化需要对客群精准细分需求。
实现本发明目的的技术方案:
一种基于大数据任意客群多维度实时聚类分析的方法,其特征在于,包括如下步骤:
步骤1:针对数据源进行预处理,对数据进行标签并进行可视化配置;
步骤2:针对标签后的数据进行分析维度配置;
步骤3:确定分析维度的分析指标和需实时分析的目标客群;根据分析指标和目标客群进行聚类分析计算,并将分析结果进行可视化显示。
进一步地,步骤1中,所说数据源采用SparkSQL分布式集群存储,根据业务需求目标对数据源进行获取。
进一步地,所说数据源包括对接企业用户基础信息、消费行为数据、流失行为数据、营销数据。
进一步地,步骤1中,对数据源进行预处理包括数据清洗和数据标签。
进一步地,步骤2中,分析维度配置包括标签分层可视化配置、定向分析维度可视化配置、子定向分析维度可视化配置。
进一步地,步骤2中,标签分层可视化配置为,对连续性数字型数据进行分层枚举配置。
进一步地,步骤2中,定向分析维度包括地域分析、流失预测、消费特征、营销转化,子定向分析维度包括对定向分析维度每个指标的支持次数值、用户数、累计值、均值。
进一步地,步骤3中,聚类分析计算通过后台计算层实现,计算层采用分布式SparkSQL计算层。
进一步地,步骤3中,需实时分析的目标客群数据可通过本地系统导入。
本发明具有的有益效果:
本发明针对数据源进行预处理,对数据进行标签并进行可视化配置;针对标签后的数据进行分析维度配置;确定分析维度的分析指标和需实时分析的目标客群;根据分析指标和目标客群,进通过后台计算层进行聚类分析计算,并将分析结果进行可视化显示。本发明能够对目标客群实现实时分析,适应业务的快速变化需要对客群精准细分需求,满足可视化灵活配置分析维度和分析指标,任意指定分析客群,指定数据时间,实现实时计算聚类分析,获取分析结果并通过可视化分析功能模块进行专业图表展示。本发明解决不会SQL操作的业务人员,通过系统一键分析操作,便可以对任意客群进行多维度分析。本发明涉及的多维度多指标是可以灵活配置,解决由于业务变动,分析维度和分析指标经常会变动,只需要进行简单参数配置修改就能快速改变分析维度和分析指标。本发明可广泛适用于征信、银行、运营商等企业单位提供数据分析服务。
本发明所说数据源采用SparkSQL分布式集群存储,根据业务需求目标对数据源进行获取,并进行相应的预处理,保证数据源获取的全面性,保证对目标客群的分析效果。
本发明分析维度配置包括标签分层可视化配置、定向分析维度可视化配置、子定向分析维度可视化配置;标签分层可视化配置为,对连续性数字型数据进行分层枚举配置;定向分析维度包括地域分析、流失预测、消费特征、营销转化,子定向分析维度包括对定向分析维度每个指标的支持次数值、用户数、累计值、均值,本发明通过对分析维度的可视化配置,更加方便用户对分析目标的细分,保证对目标客群的分析效果。
附图说明
图1是本发明基于大数据任意客群多维度实时聚类分析的方法工作流程图;
图2是本发明数据标签可视化配置示意图;
图3是本发明数值分层配置示意图;
图4是本发明定向维度配置示意图;
图5是本发明子分析维度配置示意图;
图6是本发明目标客户群选择示意图;
图7是本发明聚类分析结果样例示意图。
具体实施方式
如图1所示,本发明一种基于大数据任意客群多维度实时聚类分析的方法,其特征在于,包括如下步骤:
步骤1:针对数据源进行预处理,对数据进行标签并进行可视化配置。
所说数据源采用SparkSQL分布式集群存储,根据业务需求如某指标提升,ARPU提升、套餐迁移等,确认数据分析多维度,确认获取接入的数据源。
对数据源进行预处理包括数据清洗和数据标签,所说数据清洗为ETL处理,即数据抽取(extract)、交互转换(transform)、加载(load),形成高价值的准实时数据标签。
步骤2:针对标签后的数据进行分析维度配置。
分析维度配置包括标签分层可视化配置、定向分析维度可视化配置、子定向分析维度可视化配置。
如图3所示,标签分层可视化配置为,对连续性数字型数据进行分层枚举配置。如图4所示,定向分析维度包括地域分析、流失预测、消费特征、营销转化。
如图5所示,子定向分析维度包括对定向分析维度每个指标的支持次数值(count)、用户数(distinct去重)、累计值(求和∑)、均值(avg)。如确认一个大的定向维度地域,那么在地域基础上面进一步设置子分析维度,地域的用户数分布其中用户数就是分析子分析维度,地域的ARPU分层分布,ARPU分层分布也是子分析维度。当业务发生变化时,业务分析指标会跟着变更,提供可视化灵活配置功能。如原来某业务指标5MB以上为低流量,随着业务发展30MB以上为低流量,只需要简单可视化参数配置就能满足业务需求。
步骤3:确定分析维度的分析指标和需实时分析的目标客群;根据分析指标和目标客群进行聚类分析计算,并将分析结果进行可视化显示。
聚类分析计算通过后台计算层实现,计算层采用分布式SparkSQL计算层。可采用一键聚类分析,即只需要一键操作,自动把要分析的用户群传送至后台计算层(大数据计算层)。计算层接收到目标客群,基于步骤2的分析维度配置,自动多表关联查找目标数据,通过USERID用户的唯一键进行多表关联聚类分析。如图7所示,秒级在页面可视化图标展示分析内容,把SparkSQL计算层的准实时结果数据在页面图标可视化展示,可快速查询多维度分析结果。需实时分析的目标客群数据可通过本地系统导入。支持从取数模型中选择目标客群,取数模型可以实现多维度的标签条件组合形成最终的用户群。
Claims (9)
1.一种基于大数据任意客群多维度实时聚类分析的方法,其特征在于,包括如下步骤:
步骤1:针对数据源进行预处理,对数据进行标签并进行可视化配置;
步骤2:针对标签后的数据进行分析维度配置;
步骤3:确定分析维度的分析指标和需实时分析的目标客群;根据分析指标和目标客群进行聚类分析计算,并将分析结果进行可视化显示。
2.根据权利要求1所述的基于大数据任意客群多维度实时聚类分析的方法,其特征在于:步骤1中,所说数据源采用SparkSQL分布式集群存储,根据业务需求目标对数据源进行获取。
3.根据权利要求1所述的基于大数据任意客群多维度实时聚类分析的方法,其特征在于:所说数据源包括对接企业用户基础信息、消费行为数据、流失行为数据、营销数据。
4.根据权利要求1所述的基于大数据任意客群多维度实时聚类分析的方法,其特征在于:步骤1中,对数据源进行预处理包括数据清洗和数据标签。
5.根据权利要求1所述的基于大数据任意客群多维度实时聚类分析的方法,其特征在于:步骤2中,分析维度配置包括标签分层可视化配置、定向分析维度可视化配置、子定向分析维度可视化配置。
6.根据权利要求5所述的基于大数据任意客群多维度实时聚类分析的方法,其特征在于:步骤2中,标签分层可视化配置为,对连续性数字型数据进行分层枚举配置。
7.根据权利要求6所述的基于大数据任意客群多维度实时聚类分析的方法,其特征在于:步骤2中,定向分析维度包括地域分析、流失预测、消费特征、营销转化,子定向分析维度包括对定向分析维度每个指标的支持次数值、用户数、累计值、均值。
8.根据权利要求1所述的基于大数据任意客群多维度实时聚类分析的方法,其特征在于:步骤3中,聚类分析计算通过后台计算层实现,计算层采用分布式SparkSQL计算层。
9.根据权利要求1所述的基于大数据任意客群多维度实时聚类分析的方法,其特征在于:步骤3中,需实时分析的目标客群数据可通过本地系统导入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811485143.0A CN109710820A (zh) | 2018-12-06 | 2018-12-06 | 一种基于大数据任意客群多维度实时聚类分析的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811485143.0A CN109710820A (zh) | 2018-12-06 | 2018-12-06 | 一种基于大数据任意客群多维度实时聚类分析的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109710820A true CN109710820A (zh) | 2019-05-03 |
Family
ID=66254034
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811485143.0A Pending CN109710820A (zh) | 2018-12-06 | 2018-12-06 | 一种基于大数据任意客群多维度实时聚类分析的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109710820A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400599A (zh) * | 2020-03-17 | 2020-07-10 | 苏宁金融科技(南京)有限公司 | 一种用户群画像生成方法、装置及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160371317A1 (en) * | 2015-06-22 | 2016-12-22 | Sap Se | Intent based real-time analytical visualizations |
CN106548381A (zh) * | 2016-12-19 | 2017-03-29 | 武汉理工数字传播工程有限公司 | 智能用户标签系统及实现方法 |
CN108898413A (zh) * | 2018-05-14 | 2018-11-27 | 链家网(北京)科技有限公司 | 一种客源管理方法及装置 |
-
2018
- 2018-12-06 CN CN201811485143.0A patent/CN109710820A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160371317A1 (en) * | 2015-06-22 | 2016-12-22 | Sap Se | Intent based real-time analytical visualizations |
CN106548381A (zh) * | 2016-12-19 | 2017-03-29 | 武汉理工数字传播工程有限公司 | 智能用户标签系统及实现方法 |
CN108898413A (zh) * | 2018-05-14 | 2018-11-27 | 链家网(北京)科技有限公司 | 一种客源管理方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111400599A (zh) * | 2020-03-17 | 2020-07-10 | 苏宁金融科技(南京)有限公司 | 一种用户群画像生成方法、装置及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Arunachalam et al. | Understanding big data analytics capabilities in supply chain management: Unravelling the issues, challenges and implications for practice | |
KR20140139466A (ko) | 데이터 크롤링 및 관리자 입력에 기반한 판매 예측 자동화 장치 | |
CN105260835A (zh) | 多来源业务大数据的建模、分析、自我优化的方法 | |
EP4097577A1 (en) | Systems and methods for resource analysis, optimization, or visualization | |
CN108009847B (zh) | 外卖场景下店铺embedding特征提取的方法 | |
CN109710820A (zh) | 一种基于大数据任意客群多维度实时聚类分析的方法 | |
CN111950623B (zh) | 数据稳定性监控方法、装置、计算机设备及介质 | |
CN117575275A (zh) | 一种基于mpr的物料需求云计算分析系统、方法及介质 | |
CN110597796B (zh) | 基于全生命周期的大数据实时建模方法及系统 | |
CN117235606A (zh) | 特种不锈钢的生产质量管理方法及系统 | |
CN108874818A (zh) | 一种数据智能可视化系统及方法 | |
CN115062676B (zh) | 数据处理方法、装置及计算机可读存储介质 | |
EP3855316A1 (en) | Optimizing breakeven points for enhancing system performance | |
CN116956994A (zh) | 业务平台扩容预测方法及装置 | |
Asthana et al. | Joint time-series learning framework for maximizing purchase order renewals | |
CN112308340A (zh) | 电力数据处理方法及装置 | |
KR20220105792A (ko) | 동적 텍스트 소스를 활용한 ai 기반 의사결정지원 시스템 | |
CN112308419A (zh) | 数据处理方法、装置、设备及计算机存储介质 | |
CN111400375A (zh) | 一种基于财务业务数据商机挖掘方法及装置 | |
CN108920726A (zh) | 一种审计分析系统及方法 | |
CN117807377B (zh) | 多维度物流数据挖掘与预测方法及系统 | |
US20210201227A1 (en) | System and process for creating a process flow chart having imprinted analytics | |
CN113360717B (zh) | 一种智能线索处理方法及系统 | |
CN117150389B (zh) | 模型训练方法、运营商号卡激活预测方法及其设备 | |
Barima | ‘BIG Data’and construction value delivery |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190503 |
|
RJ01 | Rejection of invention patent application after publication |