CN112685421A - 一种基于大数据和预计算的热线分析方法及模型 - Google Patents
一种基于大数据和预计算的热线分析方法及模型 Download PDFInfo
- Publication number
- CN112685421A CN112685421A CN202011635194.4A CN202011635194A CN112685421A CN 112685421 A CN112685421 A CN 112685421A CN 202011635194 A CN202011635194 A CN 202011635194A CN 112685421 A CN112685421 A CN 112685421A
- Authority
- CN
- China
- Prior art keywords
- data
- analysis
- hot line
- measurement
- hotline
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种基于大数据和预计算的热线分析方法及模型,涉及大数据可视化技术领域,其实现包括:获取历史热线工单数据,并预处理;在kylin中加载数据,构建维度和度量的组合,利用MapReduce程序将所构建纬度和度量的组合进行预计算,得出所有维度和度量组合的统计结果并存储于Hbase;在前端开发维度和度量组件、统计组件,维度和度量组件可以根据获取的维度、度量字段生成json数据并发送到后端;在后端开发一个解析查询组件,该组件将收到的json数据解析成Kylin可以识别的查询语句,并调用Jdbc接口,从Hbase中获取与接收数据相对应的预计算结果,并返回前端的统计组件生成热线分析指标。本发明可以辅助热线工作人员和领导快速了解民众热线反应的问题。
Description
技术领域
本发明涉及大数据可视化技术领域,具体的说是一种基于大数据和预计算的热线分析方法及模型。
背景技术
利用拖拉拽的形式进行热线数据的可视化展示,是近几年大数据可视化技术中非常常用的一种手段,拖拉拽选择热线指标,可以更灵活快捷的分析热线数据指标,以一种自由度更高的形式分析和展示热线数据。
基于大数据技术的多维分析引擎kylin也受到很多大数据研发人员的青睐,在传统大数据计算技术中离线分析、spark实时计算等都无法满足大数据量下的多维分析情况下,kylin以一种空间换时间的概念,利用预计算技术将海量数据的多维分析响应控制在秒级响应,弥补了大数据生态中缺乏多维分析的问题。
发明内容
本发明针对目前技术发展的需求和不足之处,为了更好的利用热线系统产生的热线工单数据,提高相关部门的工作效率,提供一种基于大数据和预计算的热线分析方法及模型。
首先,本发明公开一种基于大数据和预计算的热线分析方法,解决上述技术问题采用的技术方案如下:
一种基于大数据和预计算的热线分析方法,该方法的实现包括:
获取历史热线工单数据,对获取数据进行预处理;
在分析型数据仓库kylin中加载预处理后的数据,构建维度和度量的组合,利用MapReduce程序将所构建纬度和度量的组合进行预计算,得出所有维度和度量组合的统计结果,将统计结果存储在分布式列式数据库Hbase中;
在前端开发一个自由选择拖拉拽的维度和度量组件、以及统计组件,该维度和度量组件可以根据获取的维度、度量字段生成相应的查询Json数据的程序,并将json数据发送到后端;
在后端开发一个解析查询组件,该解析查询组件以设定的规则将收到的json数据解析成分析型数据仓库Kylin可以识别的查询语句,并随后调用分析型数据仓库kylin的Jdbc接口,从分布式列式数据库Hbase中获取与接收数据相对应的预计算结果,并返回前端的统计组件生成热线分析指标。
具体的,历史热线工单数据存储在分布式存储系统HDFS中,分布式存储系统HDFS的历史热线工单数据是从热线系统中迁移过来的。
具体的,对获取数据进行的预处理包括ETL操作和结构化映射。
更具体的,对获取数据进行ETL操作后,将数据的日期格式、关联查询字典、热线数据、回访数据、抽样数据一一对应起来。
更具体的,对获取数据进行结构化映射的具体操作为:
利用大数据生态中的数据仓库工具HIVE对ETL操作后的数据进行结构化映射,生成结构化json数据。
具体的,统计组件根据预计算结果生成的热线分析指标不限于包括所选时间段内的热线案件的数量、类别分布、处理时长分布、满意率、解决率、先行联系率,统计组件统计生成的所有热线分析指标,并以多样化的图表进行展示。
其次,本发明公开一种基于大数据和预计算的热线分析模型,解决上述技术问题采用的技术方案如下:
一种基于大数据和预计算的热线分析模型,该模型的构建过程包括:
(1)数据准备阶段:获取历史热线工单数据,对获取数据进行预处理,在分析型数据仓库kylin中加载预处理后的数据,构建维度和度量的组合,利用MapReduce程序将所构建纬度和度量的组合进行预计算,得出所有维度和度量组合的统计结果,将统计结果存储在分布式列式数据库Hbase中;
(2)模型构建阶段,又包括:
部署在前端的可以自由选择拖拉拽的维度和度量组件,该维度和度量组件可以根据获取的维度、度量字段生成相应的查询Json数据的程序,并将json数据发送到后端,
部署在后端的解析查询组件,该解析查询组件以设定的规则将收到的json数据解析成分析型数据仓库Kylin可以识别的查询语句,并随后调用分析型数据仓库kylin的Jdbc接口,从分布式列式数据库Hbase中获取与接收数据相对应的预计算结果,并返回前端,
部署在前端的统计组件,该统计组件根据预计算结果生成热线分析指标。
具体的,历史热线工单数据存储在分布式存储系统HDFS中,分布式存储系统HDFS的历史热线工单数据是从热线系统中迁移过来的。
具体的,对获取数据进行的预处理包括ETL操作,ETL操作后,将数据的日期格式、关联查询字典、热线数据、回访数据、抽样数据一一对应起来;
对获取数据进行的预处理还包括结构化映射,即利用大数据生态中的数据仓库工具HIVE对ETL操作后的数据进行结构化映射,生成结构化json数据。
具体的,统计组件根据预计算结果生成的热线分析指标不限于包括所选时间段内的热线案件的数量、类别分布、处理时长分布、满意率、解决率、先行联系率,统计组件统计生成的所有热线分析指标,并以多样化的图表进行展示。
本发明的一种基于大数据和预计算的热线分析方法及模型,与现有技术相比具有的有益效果是:
本发明基于大数据和预计算处理历史热线工单数据,基于前端的维度和度量组件、以及统计组件,再加上后端的解析查询组件,生成热线分析指标,以有效的辅助热线工作人员和领导快速了解民众热线反应的问题,进而监督各主责部门的处置效率,便于政府根据热线反应的问题有效的了解民生、解决民众的问题。
附图说明
附图1是本发明的实现过程示意图。
具体实施方式
为使本发明的技术方案、解决的技术问题和技术效果更加清楚明白,以下结合具体实施例,对本发明的技术方案进行清楚、完整的描述。
实施例一:
结合附图1,本实施例提出一种基于大数据和预计算的热线分析方法,该方法的实现包括:
(1)获取历史热线工单数据,对获取数据进行预处理。
历史热线工单数据存储在分布式存储系统HDFS中,分布式存储系统HDFS的历史热线工单数据是从热线系统中迁移过来的。
对获取数据进行的预处理包括ETL操作和结构化映射。
对获取数据进行ETL操作后,将数据的日期格式、关联查询字典、热线数据、回访数据、抽样数据一一对应起来。
对获取数据进行结构化映射的具体操作为:
利用大数据生态中的数据仓库工具HIVE对ETL操作后的数据进行结构化映射,生成结构化json数据。
(二)在分析型数据仓库kylin中加载预处理后的数据,构建维度和度量的组合,利用MapReduce程序将所构建纬度和度量的组合进行预计算,得出所有维度和度量组合的统计结果,将统计结果存储在分布式列式数据库Hbase中。
(三)在前端开发一个自由选择拖拉拽的维度和度量组件、以及统计组件,该维度和度量组件可以根据获取的维度、度量字段生成相应的查询Json数据的程序,并将json数据发送到后端。
(四)在后端开发一个解析查询组件,该解析查询组件以设定的规则将收到的json数据解析成分析型数据仓库Kylin可以识别的查询语句,并随后调用分析型数据仓库kylin的Jdbc接口,从分布式列式数据库Hbase中获取与接收数据相对应的预计算结果,并返回前端的统计组件生成热线分析指标。
(五)统计组件生成的热线分析指标不限于包括所选时间段内的热线案件的数量、类别分布、处理时长分布、满意率、解决率、先行联系率,统计组件统计生成的所有热线分析指标,并以多样化的图表进行展示。
实施例二:
结合附图1,本实施例提出一种基于大数据和预计算的热线分析模型,该模型的构建过程包括:
(1)数据准备阶段:获取历史热线工单数据,对获取数据进行预处理,在分析型数据仓库kylin中加载预处理后的数据,构建维度和度量的组合,利用MapReduce程序将所构建纬度和度量的组合进行预计算,得出所有维度和度量组合的统计结果,将统计结果存储在分布式列式数据库Hbase中。
在本阶段,
历史热线工单数据存储在分布式存储系统HDFS中,分布式存储系统HDFS的历史热线工单数据是从热线系统中迁移过来的。
对获取数据进行的预处理包括ETL操作,ETL操作后,将数据的日期格式、关联查询字典、热线数据、回访数据、抽样数据一一对应起来;
对获取数据进行的预处理还包括结构化映射,即利用大数据生态中的数据仓库工具HIVE对ETL操作后的数据进行结构化映射,生成结构化json数据。
(2)模型构建阶段,又包括:
部署在前端的可以自由选择拖拉拽的维度和度量组件,该维度和度量组件可以根据获取的维度、度量字段生成相应的查询Json数据的程序,并将json数据发送到后端,
部署在后端的解析查询组件,该解析查询组件以设定的规则将收到的json数据解析成分析型数据仓库Kylin可以识别的查询语句,并随后调用分析型数据仓库kylin的Jdbc接口,从分布式列式数据库Hbase中获取与接收数据相对应的预计算结果,并返回前端,
部署在前端的统计组件,该统计组件根据预计算结果生成热线分析指标,生成的热线分析指标不限于包括所选时间段内的热线案件的数量、类别分布、处理时长分布、满意率、解决率、先行联系率,统计组件统计生成的所有热线分析指标,并以多样化的图表进行展示。
综上可知,采用本发明的一种基于大数据和预计算的热线分析方法及模型,可以有效的辅助热线工作人员和领导快速了解民众热线反应的问题。
以上应用具体个例对本发明的原理及实施方式进行了详细阐述,这些实施例只是用于帮助理解本发明的核心技术内容。基于本发明的上述具体实施例,本技术领域的技术人员在不脱离本发明原理的前提下,对本发明所作出的任何改进和修饰,皆应落入本发明的专利保护范围。
Claims (10)
1.一种基于大数据和预计算的热线分析方法,其特征在于,该方法的实现包括:
获取历史热线工单数据,对获取数据进行预处理;
在分析型数据仓库kylin中加载预处理后的数据,构建维度和度量的组合,利用MapReduce程序将所构建纬度和度量的组合进行预计算,得出所有维度和度量组合的统计结果,将统计结果存储在分布式列式数据库Hbase中;
在前端开发一个自由选择拖拉拽的维度和度量组件、以及统计组件,该维度和度量组件可以根据获取的维度、度量字段生成相应的查询Json数据的程序,并将json数据发送到后端;
在后端开发一个解析查询组件,该解析查询组件以设定的规则将收到的json数据解析成分析型数据仓库Kylin可以识别的查询语句,并随后调用分析型数据仓库kylin的Jdbc接口,从分布式列式数据库Hbase中获取与接收数据相对应的预计算结果,并返回前端的统计组件生成热线分析指标。
2.根据权利要求1所述的一种基于大数据和预计算的热线分析方法,其特征在于,历史热线工单数据存储在分布式存储系统HDFS中,分布式存储系统HDFS的历史热线工单数据是从热线系统中迁移过来的。
3.根据权利要求1所述的一种基于大数据和预计算的热线分析方法,其特征在于,对获取数据进行的预处理包括ETL操作和结构化映射。
4.根据权利要求3所述的一种基于大数据和预计算的热线分析方法,其特征在于,对获取数据进行ETL操作后,将数据的日期格式、关联查询字典、热线数据、回访数据、抽样数据一一对应起来。
5.根据权利要求4所述的一种基于大数据和预计算的热线分析方法,其特征在于,对获取数据进行结构化映射的具体操作为:
利用大数据生态中的数据仓库工具HIVE对ETL操作后的数据进行结构化映射,生成结构化json数据。
6.根据权利要求1所述的一种基于大数据和预计算的热线分析方法,其特征在于,统计组件根据预计算结果生成的热线分析指标不限于包括所选时间段内的热线案件的数量、类别分布、处理时长分布、满意率、解决率、先行联系率,统计组件统计生成的所有热线分析指标,并以多样化的图表进行展示。
7.一种基于大数据和预计算的热线分析模型,其特征在于,该模型的构建过程包括:
(1)数据准备阶段:获取历史热线工单数据,对获取数据进行预处理,在分析型数据仓库kylin中加载预处理后的数据,构建维度和度量的组合,利用MapReduce程序将所构建纬度和度量的组合进行预计算,得出所有维度和度量组合的统计结果,将统计结果存储在分布式列式数据库Hbase中;
(2)模型构建阶段,又包括:
部署在前端的可以自由选择拖拉拽的维度和度量组件,该维度和度量组件可以根据获取的维度、度量字段生成相应的查询Json数据的程序,并将json数据发送到后端,
部署在后端的解析查询组件,该解析查询组件以设定的规则将收到的json数据解析成分析型数据仓库Kylin可以识别的查询语句,并随后调用分析型数据仓库kylin的Jdbc接口,从分布式列式数据库Hbase中获取与接收数据相对应的预计算结果,并返回前端,
部署在前端的统计组件,该统计组件根据预计算结果生成热线分析指标。
8.根据权利要求7所述的一种基于大数据和预计算的热线分析模型,其特征在于,历史热线工单数据存储在分布式存储系统HDFS中,分布式存储系统HDFS的历史热线工单数据是从热线系统中迁移过来的。
9.根据权利要求7所述的一种基于大数据和预计算的热线分析模型,其特征在于,对获取数据进行的预处理包括ETL操作,ETL操作后,将数据的日期格式、关联查询字典、热线数据、回访数据、抽样数据一一对应起来;
对获取数据进行的预处理还包括结构化映射,即利用大数据生态中的数据仓库工具HIVE对ETL操作后的数据进行结构化映射,生成结构化json数据。
10.根据权利要求7所述的一种基于大数据和预计算的热线分析模型,其特征在于,统计组件根据预计算结果生成的热线分析指标不限于包括所选时间段内的热线案件的数量、类别分布、处理时长分布、满意率、解决率、先行联系率,统计组件统计生成的所有热线分析指标,并以多样化的图表进行展示。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011635194.4A CN112685421A (zh) | 2020-12-31 | 2020-12-31 | 一种基于大数据和预计算的热线分析方法及模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011635194.4A CN112685421A (zh) | 2020-12-31 | 2020-12-31 | 一种基于大数据和预计算的热线分析方法及模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112685421A true CN112685421A (zh) | 2021-04-20 |
Family
ID=75456333
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011635194.4A Pending CN112685421A (zh) | 2020-12-31 | 2020-12-31 | 一种基于大数据和预计算的热线分析方法及模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112685421A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743791A (zh) * | 2021-09-07 | 2021-12-03 | 软通智慧信息技术有限公司 | 一种业务工单的业务考评方法、装置、电子设备和介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301206A (zh) * | 2017-06-01 | 2017-10-27 | 华南理工大学 | 一种基于预运算的分布式olap分析方法及系统 |
CN109002440A (zh) * | 2017-06-06 | 2018-12-14 | 北京京东尚科信息技术有限公司 | 用于大数据多维分析的方法、装置及系统 |
CN110032591A (zh) * | 2018-12-28 | 2019-07-19 | 国网浙江省电力有限公司信息通信分公司 | 一种资产大数据智能分析方法 |
CN110111084A (zh) * | 2019-05-16 | 2019-08-09 | 上饶市中科院云计算中心大数据研究院 | 一种政务服务热线分析方法及系统 |
CN112148719A (zh) * | 2020-09-11 | 2020-12-29 | 苏宁云计算有限公司 | 基于olap预计算模型的数据加工查询方法及装置 |
-
2020
- 2020-12-31 CN CN202011635194.4A patent/CN112685421A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107301206A (zh) * | 2017-06-01 | 2017-10-27 | 华南理工大学 | 一种基于预运算的分布式olap分析方法及系统 |
CN109002440A (zh) * | 2017-06-06 | 2018-12-14 | 北京京东尚科信息技术有限公司 | 用于大数据多维分析的方法、装置及系统 |
CN110032591A (zh) * | 2018-12-28 | 2019-07-19 | 国网浙江省电力有限公司信息通信分公司 | 一种资产大数据智能分析方法 |
CN110111084A (zh) * | 2019-05-16 | 2019-08-09 | 上饶市中科院云计算中心大数据研究院 | 一种政务服务热线分析方法及系统 |
CN112148719A (zh) * | 2020-09-11 | 2020-12-29 | 苏宁云计算有限公司 | 基于olap预计算模型的数据加工查询方法及装置 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743791A (zh) * | 2021-09-07 | 2021-12-03 | 软通智慧信息技术有限公司 | 一种业务工单的业务考评方法、装置、电子设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10459932B2 (en) | Visualizing large data volumes utilizing initial sampling and multi-stage calculations | |
CN111240662A (zh) | 一种基于任务可视化拖拽的spark机器学习系统及学习方法 | |
CN108491991B (zh) | 基于工业大数据产品工期的约束条件分析系统与方法 | |
CN106293891B (zh) | 多维投资指标监督方法 | |
CN103699696B (zh) | 一种云计算环境下的数据在线聚集方法 | |
CN112231181A (zh) | 数据异常更新检测方法、装置、计算机设备及存储介质 | |
CN110489441B (zh) | 一种基于大数据的即席查询方法及设备 | |
CN112685421A (zh) | 一种基于大数据和预计算的热线分析方法及模型 | |
WO2021012861A1 (zh) | 数据查询耗时评估方法、装置、计算机设备和存储介质 | |
CN112286957A (zh) | 基于结构化查询语言的bi系统的api应用方法及系统 | |
Khuri | Designs for variance components estimation: past and present | |
CN114416783A (zh) | 一种OLAP查询引擎动态cost评估方法及装置 | |
CN113947468A (zh) | 一种数据管理方法及平台 | |
CN113553341A (zh) | 多维数据分析方法、装置、设备及计算机可读存储介质 | |
CN109800221A (zh) | 一种海量数据关联关系分析方法、装置及系统 | |
CN109189840A (zh) | 一种流式在线日志解析方法 | |
CN112634004A (zh) | 征信数据的血缘图谱分析方法与系统 | |
Li et al. | Data mining algorithm for correlation analysis of industrial alarms | |
CN111209314A (zh) | 一种电力信息系统海量日志数据实时处理系统 | |
CN108255819A (zh) | 一种基于分析工具spark的增值税数据整合方法及系统 | |
CN107908728B (zh) | 一种在线监测数据历史值的储存及访问方法 | |
CN112148719B (zh) | 基于olap预计算模型的数据加工查询方法及装置 | |
CN112783740B (zh) | 一种基于时间序列特征的服务器性能预测方法及系统 | |
CN115470279A (zh) | 基于企业数据的数源转换方法、装置、设备及介质 | |
CN113722288A (zh) | 一种时空数据统计的建模方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210420 |
|
RJ01 | Rejection of invention patent application after publication |