CN109271432A - 报表数据的处理方法、装置、计算机设备和存储介质 - Google Patents

报表数据的处理方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN109271432A
CN109271432A CN201810956647.XA CN201810956647A CN109271432A CN 109271432 A CN109271432 A CN 109271432A CN 201810956647 A CN201810956647 A CN 201810956647A CN 109271432 A CN109271432 A CN 109271432A
Authority
CN
China
Prior art keywords
data
druid
report
pretreated
pending
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810956647.XA
Other languages
English (en)
Inventor
席旭亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Life Insurance Company of China Ltd
Original Assignee
Ping An Life Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Life Insurance Company of China Ltd filed Critical Ping An Life Insurance Company of China Ltd
Priority to CN201810956647.XA priority Critical patent/CN109271432A/zh
Publication of CN109271432A publication Critical patent/CN109271432A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及大数据平台的领域,提供了一种报表数据的处理方法、装置、计算机设备和存储介质,包括:从大数据平台获取待处理数据;对所述待处理数据进行预处理操作,且预处理后的数据存储于Druid内;将所述Druid内的预处理后的数据创建成数据集;根据报表要求到所述数据集中抽取对应的数据创建报表;本申请中提供的报表数据的处理方法、装置、计算机设备和存储介质,支持大数据的查看。

Description

报表数据的处理方法、装置、计算机设备和存储介质
技术领域
本申请涉及大数据平台的技术领域,特别涉及一种报表数据的处理方法、装置、计算机设备和存储介质。
背景技术
目前,现有的报表数据是在大数据平台加工完成,再同步至关系型数据库中,需要经过一系列繁琐配置才能让业务看到报表数据,需要投入大量数据对接以及报表开发人力,浪费存储,且报表系统因为与关系型数据库关联,难以查看大数据量报表,需要减少维度才能分析数据的情况。
发明内容
本申请的主要目的为提供一种报表数据的处理方法、装置、计算机设备和存储介质,支持大数据的查看。
为实现上述目的,本申请提供了一种报表数据的处理方法,包括以下步骤:
从大数据平台获取待处理数据;
对所述待处理数据进行预处理操作,且预处理后的数据存储于Druid内;
将所述Druid内的预处理后的数据创建成数据集;
根据报表要求到所述数据集中抽取对应的数据创建报表。
进一步地,所述待处理数据包括实时数据和离线数据,所述从所述大数据平台获取待处理数据的步骤,包括:
若从所述大数据平台获取所述实时数据,则通过kafka接收所述实时数据;
若从所述大数据平台获取所述离线数据,则通过Hive接收所述离线数据。
进一步地,所述对所述待处理数据进行预处理操作,且预处理后的数据存储于Druid内的步骤,包括:
若所述待处理数据为所述实时数据,则通过所述kafka接收并发送至所述Druid存储,对所述Druid内的实时数据进行预处理;
若所述待处理数据为所述离线数据,则通过所述Hive接收并对所述Hive中的数据进行预处理后发送至所述Druid存储。
进一步地,所述对所述待处理数据进行预处理操作的步骤,包括:
选择审核、筛选、排序、聚合以及汇总中的至少一中处理方法对所述待处理数据进行处理;
根据报表要求,对预处理后的数据进行分类或者分组。
进一步地,所述将所述Druid内的预处理后的数据创建成数据集的步骤,包括:
根据报表要求,通过json串对所述Druid内预处理后的数据进行查询;
将查询得到的数据创建为所述数据集。
进一步地,所述根据报表要求到所述数据集中抽取对应的数据创建报表的步骤,包括:
将抽取对应的所述数据按照指定的维度设置,形成展示报表。
进一步地,所述若所述待处理数据为所述离线数据,则通过所述Hive接收并对所述Hive中的数据进行预处理后发送至所述Druid存储的步骤,包括:
对所述Hive接收的所述离线数据进行预处理;
将预处理后的离线数据通过Data自动导入Druid系统。
本申请还提供了一种报表数据的处理装置,包括:
获取模块,用于从大数据平台获取待处理数据;
预处理模块,用于对所述待处理数据进行预处理操作,且预处理后的数据存储于Druid内;
第一处理模块,用于将所述Druid内的预处理后的数据创建成数据集;
第二处理模块,用于根据报表要求到所述数据集中抽取对应的数据创建报表。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。
本申请还提供一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的方法的步骤。
本申请中提供的报表数据的处理方法、装置、计算机设备和存储介质,具有以下有益效果:
本申请中提供的报表数据的处理方法、装置、计算机设备和存储介质,通过直接对接大数据平台,大数据平台获取待处理数据并进行预处理操作,创建数据集,并通过报表要求使用数据集的数据新建报表并展示,对业务可进行多维度的分析,时效性强,系统间的数据交互方便,数据共享便捷,可以提供同一的数据支持。
附图说明
图1是本申请一实施例中报表数据的处理方法步骤示意图;
图2是本申请一实施例中报表数据的处理装置结构框图;
图3是本申请一实施例中获取模块的结构框图;
图4是本申请一实施例中预处理模块的结构框图;
图5是本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
参照图1,为本申请一实施例中提供了一种报表数据的处理方法,包括以下步骤:
步骤S1,从大数据平台获取待处理数据。
通过从大数据平台获取到所有原始数据形成数据源,在一实施例中,若需要获取到实时数据,直接通过kafka接入实时数据发送到Druid,对储存于Druid的数据进行加工处理,从而实现获取在线报表分析的数据。
在另一实施例中,若需要获取到离线数据,将原始数据发送至Hive中,从Hive中提取原始数据经过初步加工处理,然后同步导入到Druid中保存,报表的分析平台利用Druid的多维分析,快速聚合,灵活过滤,毫秒级查询等特性对Druid进行查询,从而实现海量数据的即席查询及在线报表分析。
Druid是能够对于大量的基于时序的数据进行聚合查询,是一个高效的数据查询系统,数据可以实时摄入,进入到Druid后立即可查,同时数据几乎是不可变。
Kafka是一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据。通过处理日志和日志聚合来解决,对于像Hadoop的一样的日志数据和离线分析系统,要求实时处理的限制,Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。具有高容错性的特点,为海量的数据提供了存储,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(largedata set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streamingaccess)文件系统中的数据。
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。可以通过类SQL语句快速实现简单的MapReduce统计,十分适合数据仓库的统计分析。
如在一具体实施例中,寿险业务人员需要通过报表要求对寿险的数据进行分析,则可以根据存储于Druid内的数据信息建立多维度的报表,如根据时间维度获取包括寿险的保费、保险人信息、被保人信息等原始数据信息,还可以通过地域、人群等建立多维度的报表。
步骤S2,对待处理数据进行预处理操作,且预处理后的数据存储于Druid内。
对收集的所有数据(原始数据)进行加工处理,目的是为了提高数据分析的准确性,提高数据挖掘模型的质量,降低实际挖掘所需要的时间。
由于获取到的原始数据是不完整或者不一致的,无法对原始数据进行分析或者分析的结果差强人意,不能满足业务使用者的需求,故需要对原始数据进行预处理,对获取的所有原始数据进行进一步处理包括如采用数据清理、数据集成,数据变换,数据归约的方法。
首先对获取到的原始数据进行审核、筛选、排序、聚合、汇总等一项或者多项的处理,再对处理后的原始数据进行分类或者分组,形成完整、清楚的数据,之后再对该数据进行数据分析。
其中,分类或者分组是根据时间分段,分片保存于druid内,也称为segment,每一条数据称为一个record,所有的record是以一个一个的小单元汇总保存,每一个segment的数据包括多个record,且每一个segment以时间纬度进行区分,比如,第一个segment为一月的数据,第二个segment为二月的数据等等,在查询数据的时候,如果想查2月的数据,就直接选择对应的segment,就把2月的数据一次全查出来了。
步骤S3,将预Druid内的预处理后的数据创建成数据集。
通过json串对Druid进行数据查询和数据存储,Druid默认的数据交互方式为传递json格式的字符串对数据进行查询,也可以通过比如Imply公司开发的PlyQL软件支持输入SQL语句对Druid进行查询操作。
JSON(JavaScript Object Notation,JS对象简谱)是一种轻量级的数据交换格式。基于ECMAScript(欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据,简洁和清晰的层次结构使得JSON成为理想的数据交换语言,易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。
步骤S4,根据报表要求到数据集中抽取对应的数据创建报表。
采用预处理后的数据创建数据集,报表开发人员基于数据集进行报表的开发,如在一具体实施例中,根据指定维度,时间范围,过滤条件,排序,函数聚合建立多维度报表,其中维度还可以包括行维和列维,对建立好的报表进行数据展示和数据分析。
在本实施例中,待处理数据包括实时数据和离线数据,从大数据平台获取待处理数据S1的步骤,包括:
若从大数据平台获取实时数据,则通过kafka接收实时数据;
若从大数据平台获取离线数据,则通过Hive接收离线数据。
在本步骤中,如若使用者需要对实时数据进行统计分析,可通过kafka接入实时数据流,将接收到的数据保存至Druid内,可对保存的数据进行预处理操作。如设置一个以月为单位的粒度,当月的所有待处理数据均为实时数据;前一个月及以前的数据为离线数据;又比如,以日为单位的数据统计粒度,则当天的所有待处理数据为实时数据,当天之前的所有数据为离线数据。若需要获取的为离线数据,则通过Hive接收大数据平台上的离线数据。
在本实施例中,对待处理数据进行预处理操作,且预处理后的数据存储于Druid内S2的步骤,还包括:
若待处理数据为实时数据,则通过kafka接收并发送至Druid存储,对Druid内的实时数据进行预处理;
若待处理数据为离线数据,则通过Hive接收并对Hive中的数据进行预处理后发送至Druid存储。
在一具体实施例中,若需要获取到实时数据,则通过kafka接收实时数据并发送到Druid,对储存于Druid的数据进行预加工处理,以便获取到为报表需求的数据;在另一具体实施例中,若需要获取到离线数据,则通过Hive接收并对接收到的数据进行预处理,预处理后的数据通过编写的程序脚本(代码)同步导入到Druid中保存,可以通过Data将数据导入到Druid里面,由于离线数据的时效性要求不高,可以根据业务或者其他需求,按天或者按小时的频率同步数据。实时数据和离线数据的存储以及流程互不干扰。
在本实施例中,对待处理数据进行预处理操作S2的步骤,包括:
选择审核、筛选、排序、聚合以及汇总中的至少一种处理方法对待处理数据进行处理;
根据报表要求,对预处理后的待处理数据进行分类或者分组。
以上步骤中,预先对原始数据进行数据清理,数据集成,数据变换,数据归约手段处理,其中包括对原始数据进行审核、筛选、排序、聚合、汇总等一项或者多项的处理,对原始数据进行加工清洗,获取到完整、一致的清楚数据。其中,还可以通过包括对数据进行剔除、合并等方法的处理,对原始数据做进一步的加工处理,以便得到获取到完整、一致的数据。
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
在一具体实施例中,根据业务线、业务部门或者业务主题为划分对数据进行分析归类,获取到指定的业务类的数据分析结果,如在一个财务管理会计,对财务的业务线进行一个划分,形成一个行维或者列维,对财务的部门进行一个划分,形成另一个行维或者列维等等,获取到分类后形成的数据报表,并可以对该数据报表进行数据分析。
在本实施例中,将Druid内的预处理后的数据创建成数据集的S3步骤,包括:
根据报表要求,通过json串对Druid内预处理后的数据进行查询;
将查询得到的数据创建为数据集。
在本实施例中,根据报表要求,通过json串对Druid内预处理后的数据进行数据查询和数据存储,Druid默认的数据交互方式为传递json格式的字符串对数据进行查询,获取到所需的预处理后的数据,创建数据集,以便根据数据集的数据创建报表。
在本实施例中,根据报表要求到数据集中抽取对应的的数据创建报表S4的步骤,包括:
将抽取对应的数据按照指定的维度设置,形成展示报表。
在本步骤中,业务员根据业务需要选择对应的数据集建立数据报表,如在一具体实时例中,寿险业务员根据业务需要对寿险数据进行数据分析时,在数据集中选取不同的地区作为行维,选取当月的保单件数、当月的首年保费、当月的客户数量等作为列维,可以得到一个清楚的数据分析报表。
在本实施例中,若待处理数据为离线数据,则通过Hive接收并对Hive中的数据进行预处理后发送至Druid存储的步骤,包括:
对Hive接收的离线数据进行预处理;
将预处理后的离线数据通过Data自动导入Druid。
Hive接收并保存原始数据,对该离线数据进行预处理,如包括对原始数据进行审核、筛选、排序、聚合、汇总等一项或者多项的处理,对原始数据进行加工清洗,获取到完整、一致的清楚数据,再通过Data(程序脚本)自动导入到Druid内,报表可以根据业务需求从Druid内选取加工处理后的数据进行分析形成报表显示。
在一具体实施例中,预处理后的数据存储于Druid后,报表平台可以查询Druid的数据并根据业务需求做数据分析,报表平台通过Druid查询,不受访问量的限制,在数据量大于2G的时候,依然可以保持高访问速度。其中,报表的平台采用MIS-III系统,MIS-III系统主要应用于业务的快速增长与海量数据的处理需求上,对业务可进行多维度的分析,时效性强,系统间的数据交互方便,数据共享便捷,可以提供同一的数据支持。
综上所述,为本申请实施例中提供的报表数据的处理方法,通过对接大数据平台,获取待处理数据并进行预处理操作后创建数据集,并通过报表要求使用数据集的数据新建报表并展示,当数据量大的时候不受访问量的限制,保持高访问速度,实时数据或者离线数据均可及时处理。
参照图2,本申请一实施例中还提供了一种报表数据的处理装置,包括:
获取模块10,用于从大数据平台获取待处理数据;
获取模块10通过从大数据平台获取到所有原始数据形成数据源,在一实施例中,若获取模块10需要获取到实时数据,直接通过kafka接入实时数据发送到Druid,对储存于Druid的数据进行加工处理,从而实现获取在线报表分析的数据。
在另一具体实施例中,若需要获取到离线数据,将原始数据发送至Hive中,从Hive中提取原始数据经过初步加工处理,然后同步导入到Druid中保存,报表分析平台利用Druid的多维分析,快速聚合,灵活过滤,毫秒级查询等特性对Druid进行查询,从而实现海量数据的即席查询及在线报表分析。
Druid是能够对于大量的基于时序的数据进行聚合查询,是一个高效的数据查询系统,数据可以实时摄入,进入到Druid后立即可查,同时数据几乎是不可变。
Kafka是一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据。通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统,要求实时处理的限制,Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群来提供实时的消息。
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。具有高容错性的特点,为海量的数据提供了存储,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(largedata set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streamingaccess)文件系统中的数据。
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。可以通过类SQL语句快速实现简单的MapReduce统计,十分适合数据仓库的统计分析。
如在一具体实施例中,寿险业务人员需要通过报表要求对寿险的数据进行分析,则可以根据存储于Druid内的数据信息建立多维度的报表,如根据时间维度获取包括寿险的保费、保险人信息、被保人信息等原始数据信息,还可以通过地域、人群等建立多维度的报表。
预处理模块20,用于对待处理数据进行预处理操作,且预处理后的数据存储于Druid内。
预处理模块20对收集的所有数据(原始数据)进行加工处理,目的是为了提高数据分析的准确性,提高数据挖掘模型的质量,降低实际挖掘所需要的时间。
由于获取到的原始数据是不完整或者不一致的,无法对原始数据进行分析或者分析的结果差强人意,不能满足业务使用者的需求,故需要对原始数据进行预处理,对获取的所有数据进行进一步处理包括如采用数据清理、数据集成,数据变换,数据归约的方法对原始数据处理。
首先对获取到的原始数据进行审核、筛选、排序、聚合、汇总等一项或者多项的处理,再对处理后的原始数据进行分类或者分组,形成完整、清楚的数据,之后再对该数据进行数据分析。
其中,分类或者分组是根据时间分段,分片保存于druid内,也称为segment,每一条数据称为一个record,所有的record是以一个一个的小单元汇总保存,每一个segment的数据包括多个record,且每一个segment以时间纬度进行区分,比如,第一个segment为一月的数据,第二个segment为二月的数据等等,在查询数据的时候,如果想查2月的数据,就直接选择对应的segment,就把2月的数据一次全查出来了。
第一处理模块30,用于将Druid内的预处理后的数据创建成数据集。
通过json串对Druid进行数据查询和数据存储,Druid默认的数据交互方式为传递json格式的字符串对数据进行查询,也可以通过比如Imply公司开发的PlyQL软件支持输入SQL语句对Druid进行查询操作。
JSON(JavaScript Object Notation,JS对象简谱)是一种轻量级的数据交换格式。基于ECMAScript(欧洲计算机协会制定的js规范)的一个子集,采用完全独立于编程语言的文本格式来存储和表示数据,简洁和清晰的层次结构使得JSON成为理想的数据交换语言,易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。
第二处理模块40,用于根据报表要求到数据集中抽取对应的数据创建报表。
在本步骤中,采用预处理后的数据创建数据集,报表开发人员基于数据集进行报表的开发,如在一具体实施例中,根据指定维度,时间范围,过滤条件,排序,函数聚合建立多维度报表,其中维度还可以包括行维和列维,对建立好的报表进行数据展示和数据分析。
参照图3,在本实施例中,待处理数据包括实时数据和离线数据,获取模块10包括:
第一接收单元11,用于若从大数据平台获取实时数据,则通过kafka接收实时数据;
第二接收单元12,用于若从大数据平台获取离线数据,则通过Hive接收离线数据。
本步骤中,如若使用者需要对实时数据进行统计分析,可通过kafka接入实时数据流,将接收到的数据保存至Druid内,可对保存的数据进行预处理操作。如设置一个以月为单位的粒度,当月的所有待处理数据均为实时数据;前一个月及以前的数据为离线数据;又比如,以日为单位的数据统计粒度,则当天的所有待处理数据为实时数据,当天之前的所有数据为离线数据。若需要获取的为离线数据,则通过Hive接收大数据平台上的离线数据。
参照图4,在本实施例中,预处理模块20包括:
第一预处理单元21,用于若待处理数据为实时数据,则通过kafka接收并发送至Druid存储,对Druid内的实时数据进行预处理;
第二预处理单元22,用于若待处理数据为离线数据,则通过Hive接收并对Hive中的数据进行预处理后发送至Druid存储。
在一具体实施例中,若需要获取到实时数据,则通过kafka接收实时数据并发送到Druid,对储存于Druid的数据进行预加工处理,以便获取到为报表需求的数据;在另一具体实施例中,若需要获取到离线数据,则通过Hive接收并对接收到的数据进行预处理,预处理后的数据通过编写的程序脚本(代码)同步导入到Druid中保存,可以通过Data将数据导入到Druid里面,由于离线数据的时效性要求不高,可以根据业务或者其他需求,按天或者按小时的频率同步数据。实时数据和离线数据的存储以及流程互不干扰。
在本实施例中,预处理模块20还包括:
第三预处理单元,用于选择审核、筛选、排序、聚合以及汇总中的至少一种处理方法对待处理数据进行处理;
划分单元,用于根据报表要求,对预处理后的待处理数据进行分类或者分组;
以上步骤中,预先对原始数据进行数据清理,数据集成,数据变换,数据归约手段处理,其中包括对原始数据进行审核、筛选、排序、聚合、汇总等一项或者多项的处理,对原始数据进行加工清洗,获取到完整、一致的清楚数据。其中,还可以通过包括对数据进行剔除、合并等方法的处理,对原始数据做进一步的加工处理,以便得到获取到完整、一致的数据。
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。
在一具体实施例中,根据业务线、业务部门或者业务主题为划分对数据进行分析归类,获取到指定的业务类的数据分析结果,如在一个财务管理会计,对财务的业务线进行一个划分,形成一个行维或者列维,对财务的部门进行一个划分,形成另一个行维或者列维等等,获取到分类后形成的数据报表,并可以对该数据报表进行数据分析。
在本实施例中,第一处理模块30包括:
第一处理单元,用于根据报表要求,通过json串对Druid内预处理后的数据进行查询;
第一创建单元,用于将查询得到的数据创建为数据集。
在本实施例中,根据报表平台需求,通过json串对Druid内预处理后的数据进行数据查询和数据存储,Druid默认的数据交互方式为传递json格式的字符串对数据进行查询,获取到所需的预处理后的数据,创建数据集,以便根据数据集的数据创建报表。
在本实施例中,第二处理模块40包括:
第二处理单元,用于将抽取对应的数据按照指定的维度设置,形成展示报表。
在本步骤中,业务员根据业务需要选择对应的数据集建立数据报表,如在一具体实时例中,寿险业务员根据业务需要对寿险数据进行数据分析时,在数据集中选取不同的地区作为行维,选取当月的保单件数、当月的首年保费、当月的客户数量等作为列维,可以得到一个清楚的数据分析报表。
在本实施例中,第二预处理单元22包括:
第二预处理子单元,用于对Hive接收的离线数据进行预处理;
导入子单元,用于将预处理后的离线数据通过Data自动导入Druid。
Hive接收并保存原始数据,对该离线数据进行预处理,如包括对原始数据进行审核、筛选、排序、聚合、汇总等一项或者多项的处理,对原始数据进行加工清洗,获取到完整、一致的清楚数据,再通过Data(程序脚本)自动导入到Druid内,报表可以根据业务需求从Druid内选取加工处理后的数据进行分析形成报表显示。
在一具体实施例中,预处理后的数据存储于Druid后,报表平台可以查询Druid的数据并根据业务需求做数据分析,报表需求通过Druid查询,不受访问量的限制,在数据量大于2G的时候,依然可以保持高访问速度。其中,报表的平台采用MIS-III系统,MIS-III系统主要应用于业务的快速增长与海量数据的处理需求上,对业务可进行多维度的分析,时效性强,系统间的数据交互方便,数据共享便捷,可以提供同一的数据支持。
综上所述,为本申请实施例中提供的报表数据的处理装置,通过对接大数据平台,获取待处理数据并进行预处理操作后创建数据集,并通过报表要求使用数据集的数据新建报表并展示,当数据量大的时候不受访问量的限制,保持高访问速度,实时数据或者离线数据均可及时处理。
参照图5,本申请实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储待处理数据等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种报表数据的处理方法。
上述处理器执行上述报表数据的处理方法的步骤:
从大数据平台获取待处理数据;
对所述待处理数据进行预处理操作,且预处理后的数据存储于Druid内;
将所述Druid内的预处理后的数据创建成数据集;
根据报表要求到所述数据集中抽取对应的数据创建报表。
在一实施例中,所述待处理数据包括实时数据和离线数据,所述从所述大数据平台获取待处理数据的步骤,包括:
若从所述大数据平台获取所述实时数据,则通过kafka接收所述实时数据;
若从所述大数据平台获取所述离线数据,则通过Hive接收所述离线数据。
在一实施例中,所述对所述待处理数据进行预处理操作,且预处理后的数据存储于Druid内的步骤,包括:
若所述待处理数据为所述实时数据,则通过所述kafka接收并发送至所述Druid存储,对所述Druid内的实时数据进行预处理;
若所述待处理数据为所述离线数据,则通过所述Hive接收并对所述Hive中的数据进行预处理后发送至所述Druid存储。
在一实施例中,所述对所述待处理数据进行预处理操作的步骤,包括:
选择审核、筛选、排序、聚合以及汇总中的至少一种处理方法对所述待处理数据进行处理;
根据所述报表要求,对预处理后的所述待处理数据进行分类或者分组。
在一实施例中,所述将所述Druid内的预处理后的数据创建成数据集的步骤,包括:
根据所述报表要求,通过json串对所述Druid内预处理后的数据进行查询;
将查询得到的数据创建为所述数据集。
在一实施例中,所述根据报表要求到所述数据集中抽取对应的数据创建报表的步骤,包括:
将抽取对应的所述数据按照指定的维度设置,形成展示报表。
在一实施例中,所述若所述待处理数据为所述离线数据,则通过所述Hive接收并对所述Hive中的数据进行预处理后发送至所述Druid存储的步骤,包括:
对所述Hive接收的所述离线数据进行预处理;
将预处理后的离线数据通过Data自动导入Druid。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请一实施例还提供一种计算机存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现一种报表数据的处理方法,具体为:
从大数据平台获取待处理数据;
对所述待处理数据进行预处理操作,且预处理后的数据存储于Druid内;
将所述Druid内的预处理后的数据创建成数据集;
根据报表要求到所述数据集中抽取对应的数据创建报表。
在一实施例中,所述待处理数据包括实时数据和离线数据,所述从所述大数据平台获取待处理数据的步骤,包括:
若从所述大数据平台获取所述实时数据,则通过kafka接收所述实时数据;
若从所述大数据平台获取所述离线数据,则通过Hive接收所述离线数据。
在一实施例中,所述对所述待处理数据进行预处理操作,且预处理后的数据存储于Druid内的步骤,包括:
若所述待处理数据为所述实时数据,则通过所述kafka接收并发送至所述Druid存储,对所述Druid内的实时数据进行预处理;
若所述待处理数据为所述离线数据,则通过所述Hive接收并对所述Hive中的数据进行预处理后发送至所述Druid存储。
在一实施例中,所述对所述待处理数据进行预处理操作的步骤,包括:
选择审核、筛选、排序、聚合以及汇总中的至少一种处理方法对所述待处理数据进行处理;
根据所述报表要求,对预处理后的所述待处理数据进行分类或者分组。
在一实施例中,所述将所述Druid内的预处理后的数据创建成数据集的步骤,包括:
根据所述报表要求,通过json串对所述Druid内预处理后的数据进行查询;
将查询得到的数据创建为所述数据集。
在一实施例中,所述根据报表要求到所述数据集中抽取对应的数据创建报表的步骤,包括:
将抽取对应的所述数据按照指定的维度设置,形成展示报表。
在一实施例中,所述若所述待处理数据为所述离线数据,则通过所述Hive接收并对所述Hive中的数据进行预处理后发送至所述Druid存储的步骤,包括:
对所述Hive接收的所述离线数据进行预处理;
将预处理后的离线数据通过Data自动导入Druid。
综上所述,为本申请实施例中提供的报表数据的处理方法、装置、计算机设备和存储介质,通过对接大数据平台,获取待处理数据并进行预处理操作后创建数据集,并通过报表要求使用数据集的数据新建报表并展示,当数据量大的时候不受访问量的限制,保持高访问速度,实时数据或者离线数据均可及时处理。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (10)

1.一种报表数据的处理方法,其特征在于,包括以下步骤:
从大数据平台获取待处理数据;
对所述待处理数据进行预处理操作,且预处理后的数据存储于Druid内;
将所述Druid内的预处理后的数据创建成数据集;
根据报表要求到所述数据集中抽取对应的数据创建报表。
2.根据权利要求1所述的一种报表数据的处理方法,其特征在于,所述待处理数据包括实时数据和离线数据,所述从所述大数据平台获取待处理数据的步骤,包括:
若从所述大数据平台获取所述实时数据,则通过kafka接收所述实时数据;
若从所述大数据平台获取所述离线数据,则通过Hive接收所述离线数据。
3.根据权利要求2所述的一种报表数据的处理方法,其特征在于,所述对所述待处理数据进行预处理操作,且预处理后的数据存储于Druid内的步骤,包括:
若所述待处理数据为所述实时数据,则通过所述kafka接收并发送至所述Druid存储,对所述Druid内的实时数据进行预处理;
若所述待处理数据为所述离线数据,则通过所述Hive接收并对所述Hive中的数据进行预处理后发送至所述Druid存储。
4.根据权利要求1所述的一种报表数据的处理方法,其特征在于,所述对所述待处理数据进行预处理操作的步骤,包括:
选择审核、筛选、排序、聚合以及汇总中的至少一种处理方法对所述待处理数据进行处理;
根据所述报表要求,对预处理后的数据进行分类或者分组。
5.根据权利要求3所述的一种报表数据的处理方法,其特征在于,所述将所述Druid内的预处理后的数据创建成数据集的步骤,包括:
根据所述报表要求,通过json串对所述Druid内预处理后的数据进行查询;
将查询得到的数据创建为所述数据集。
6.根据权利要求1所述的一种报表数据的处理方法,其特征在于,所述根据报表要求到所述数据集中抽取对应的数据创建报表的步骤,包括:
将抽取对应的所述数据按照指定的维度设置,形成展示报表。
7.根据权利要求3所述的一种报表数据的处理方法,其特征在于,所述若所述待处理数据为所述离线数据,则通过所述Hive接收并对所述Hive中的数据进行预处理后发送至所述Druid存储的步骤,包括:
对所述Hive接收的所述离线数据进行预处理;
将预处理后的离线数据通过Data自动导入Druid。
8.一种报表数据的处理装置,其特征在于,包括:
获取模块,用于从大数据平台获取待处理数据;
预处理模块,用于对所述待处理数据进行预处理操作,且预处理后的数据存储于Druid内;
第一处理模块,用于将所述Druid内的预处理后的数据创建成数据集;
第二处理模块,用于根据报表要求到所述数据集中抽取对应的数据创建报表。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201810956647.XA 2018-08-21 2018-08-21 报表数据的处理方法、装置、计算机设备和存储介质 Pending CN109271432A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810956647.XA CN109271432A (zh) 2018-08-21 2018-08-21 报表数据的处理方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810956647.XA CN109271432A (zh) 2018-08-21 2018-08-21 报表数据的处理方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN109271432A true CN109271432A (zh) 2019-01-25

Family

ID=65154190

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810956647.XA Pending CN109271432A (zh) 2018-08-21 2018-08-21 报表数据的处理方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN109271432A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947818A (zh) * 2019-03-12 2019-06-28 银清科技(北京)有限公司 基于支付系统的数据报表展示方法和装置
CN110287272A (zh) * 2019-06-27 2019-09-27 南京冰鉴信息科技有限公司 一种可配置实时特征提取方法、装置及系统
CN111159135A (zh) * 2019-12-23 2020-05-15 五八有限公司 数据处理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111996A (zh) * 2014-07-07 2014-10-22 山大地纬软件股份有限公司 基于hadoop平台的医保门诊大数据抽取系统及方法
CN105608188A (zh) * 2015-12-23 2016-05-25 北京奇虎科技有限公司 数据处理方法和数据处理装置
CN105843936A (zh) * 2016-03-31 2016-08-10 乐视控股(北京)有限公司 一种业务数据报表方法与系统
CN108268645A (zh) * 2018-01-23 2018-07-10 广州南方人才资讯科技有限公司 大数据处理方法与系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104111996A (zh) * 2014-07-07 2014-10-22 山大地纬软件股份有限公司 基于hadoop平台的医保门诊大数据抽取系统及方法
CN105608188A (zh) * 2015-12-23 2016-05-25 北京奇虎科技有限公司 数据处理方法和数据处理装置
CN105843936A (zh) * 2016-03-31 2016-08-10 乐视控股(北京)有限公司 一种业务数据报表方法与系统
CN108268645A (zh) * 2018-01-23 2018-07-10 广州南方人才资讯科技有限公司 大数据处理方法与系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐诺金: "《智慧金融手册》", 《北京:中国金融出版社》, pages: 130 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947818A (zh) * 2019-03-12 2019-06-28 银清科技(北京)有限公司 基于支付系统的数据报表展示方法和装置
CN110287272A (zh) * 2019-06-27 2019-09-27 南京冰鉴信息科技有限公司 一种可配置实时特征提取方法、装置及系统
CN111159135A (zh) * 2019-12-23 2020-05-15 五八有限公司 数据处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
Song et al. Environmental performance evaluation with big data: Theories and methods
Prakash et al. Geo-identification of web users through logs using ELK stack
CN101131747B (zh) 捕获和/或分析客户端的Web页面事件的方法、装置及系统
CN109271432A (zh) 报表数据的处理方法、装置、计算机设备和存储介质
CN107103064B (zh) 数据统计方法及装置
CN106407078B (zh) 基于信息交互的客户端性能监控装置及方法
Irudeen et al. Big data solution for Sri Lankan development: A case study from travel and tourism
CN107301205A (zh) 一种大数据分布式实时查询方法及系统
CN113360554B (zh) 一种数据抽取、转换和加载etl的方法和设备
US11921720B1 (en) Systems and methods for decoupling search processing language and machine learning analytics from storage of accessed data
CN112163017B (zh) 一种知识挖掘系统及方法
CN107945092A (zh) 用于审计领域的大数据综合管理方法及系统
CN108268468A (zh) 一种大数据的分析方法及系统
CN115373976A (zh) 保险测试方法、装置、计算机设备及存储介质
CN116800596A (zh) 一种日志无损压缩分析方法和系统
Kumar et al. Stocks Analysis and Prediction of Indian Oil Trading Using Big Data Analytics
CN109213909A (zh) 一种融合搜索与计算的大数据分析系统及其分析方法
Corradini et al. TLV-diss _ γ γ: A Dissimilarity Measure for Public Administration Process Logs
CN108897877A (zh) 基于excel的大数据分析工具和方法
CN113901034A (zh) 一种自动识别行政非诉执行案源的方法
CN114371884A (zh) Flink计算任务的处理方法、装置、设备和存储介质
CN113157825A (zh) 用户行为数据整合方法及装置
Gade et al. The. GOV internet archive: a big data resource for political science
Andrešić et al. Efficient big data analysis on a single machine using apache spark and self-organizing map libraries
Aljojo Examining Heterogeneity Structured on a Large Data Volume with Minimal Incompleteness

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination