CN104915378A - 一种适用于大数据的统计任务快速生成系统及方法 - Google Patents

一种适用于大数据的统计任务快速生成系统及方法 Download PDF

Info

Publication number
CN104915378A
CN104915378A CN201510234208.4A CN201510234208A CN104915378A CN 104915378 A CN104915378 A CN 104915378A CN 201510234208 A CN201510234208 A CN 201510234208A CN 104915378 A CN104915378 A CN 104915378A
Authority
CN
China
Prior art keywords
code
statistics task
data source
statistics
statistical indicator
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510234208.4A
Other languages
English (en)
Other versions
CN104915378B (zh
Inventor
别志铭
张健明
张勇鹏
王旭
吴楠
王耘
喻大发
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DINGLI COMMUNICATIONS CORP Ltd
Original Assignee
DINGLI COMMUNICATIONS CORP Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DINGLI COMMUNICATIONS CORP Ltd filed Critical DINGLI COMMUNICATIONS CORP Ltd
Priority to CN201510234208.4A priority Critical patent/CN104915378B/zh
Publication of CN104915378A publication Critical patent/CN104915378A/zh
Application granted granted Critical
Publication of CN104915378B publication Critical patent/CN104915378B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2462Approximate or statistical queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Fuzzy Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种适用于大数据的统计任务快速生成系统及方法,该方法包括分别生成数据源适配器、原子计数器、统计指标生成器、维度选择器、报表生成器、调度器和代码生成器后,自动生成统计任务的代码,并在符合调度器的预设调度条件时,自动执行该代码。本发明通过将统计任务分解并定义成数据源适配器、原子计数器、统计指标生成器、维度选择器、报表生成器和调度器等几个部分后,用户在创建自己任务的时候,可任意拖拽自己需要统计的指标,然后根据用户配置的标准模型,自动生成统计代码。本发明可以把复杂的云计算过程简单化,模块组件化,快速地生成统计任务代码,大大地提高了开发效率,可广泛应用于大数据统计行业中。

Description

一种适用于大数据的统计任务快速生成系统及方法
技术领域
本发明涉及数据统计领域,特别是涉及一种适用于大数据的统计任务快速生成系统及方法。
背景技术
为了便于下文的描述,首先给出以下名字解释:
hadoop:一种分布式系统基础架构,用户可以在不了解分布式底层细节的情况下,开发分布式程序;
parquet:用于hadoop的列存储文件格式;
MapReduce:一种编程模型,用于大规模数据集的并行运算;
impala:impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据,最大的优点是快速。
spark:Spark是一个由加州大学伯克利分校开发的一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集(Resilient distributed datasets),提供了比Hadoop更加丰富的MapReduce模型,可以快速在内存中对数据集进行多次迭代,来支持复杂的数据挖掘算法和图计算算法。
oozie:Oozie是一种Java Web应用程序,它运行在Java servlet容器中,并使用数据库来存储以下内容:
l      工作流定义
l      当前运行的工作流实例,包括实例的状态和变量
Oozie工作流是放置在控制依赖DAG(有向无环图 Direct Acyclic Graph)中的一组动作(例如,Hadoop的Map/Reduce作业、Pig作业等),其中指定了动作执行的顺序。Oozie为以下类型的动作提供支持: Hadoop map-reduce、Hadoop文件系统、Pig、Java和Oozie的子工作流。
sql:structured query language,结构化查询语言。
随着社会的发展,科技的进步,数据发展进行大数据时代、云计算时代,通过对各种数据进行合理、科学的统计,从而获得各种统计指标,用于分析各种数据的本质,可以对数据进行有效管理。目前技术中,基于大数据计算各种统计指标,大都是通过采用Java开发mapreduce等方式来实现的,但是这种方式开发和调试过程非常复杂,开发难度大,而且重用度和开发效率非常低下,已经无法适应大数据发展进程。
发明内容
为了解决上述的技术问题,本发明的目的是提供一种适用于大数据的统计任务快速生成系统,本发明的另一目的是提供一种适用于大数据的统计任务快速生成方法。
本发明解决其技术问题所采用的技术方案是:
一种适用于大数据的统计任务快速生成系统,包括:
数据源适配器,用于将统计任务的数据源转换成统一的存储文件格式;
原子计数器,用于对统计任务进行统计计数;
统计指标生成器,用于根据统计任务的统计指标生成对应的计算公式;
维度选择器,用于提供对统计任务的数据源的统计维度;
报表生成器,用于根据用户选择的报表类型生成对应的报表格式;
调度器,用于设定统计任务的预设调度条件和调度范围;
代码生成器,用于根据数据源适配器、原子计数器、统计指标生成器、维度选择器、报表生成器和调度器自动生成统计任务的代码,并在符合调度器的预设调度条件时,自动执行该代码。
进一步,所述根据数据源适配器、原子计数器、统计指标生成器、维度选择器和报表生成器自动生成统计任务的代码,并在符合调度器的调度指令时,自动执行该代码,其具体为:
A1、根据维度选择器获得统计任务的统计维度后生成相应的代码;
A2、根据原子计数器获得统计任务的统计计数情况并生成相应的代码;
A3、根据统计指标生成器获得统计指标的计算公式后生成对应的执行代码;
A4、根据数据源适配器生成数据源的名称代码,进而结合维度选择器生成统计任务的具体统计分组的代码;
A5、获取调度器所设定的调度范围后,生成对应的限定调度范围的代码;
A6、判断是否符合调度器的预设调度条件,若是,则自动执行步骤A1~A5所生成的代码并将代码运行结果按照报表生成器所设定的报表格式生成对应的报表。
进一步,所述代码生成器自动生成的统计任务的代码包括MapReduce代码、impala执行代码或sql语句。
本发明解决其技术问题所采用的另一技术方案是:
一种适用于大数据的统计任务快速生成方法,包括:
S1、获取统计任务的数据源并对数据源属性进行定义,生成对应的数据源适配器;
S2、根据统计任务的统计计数需求,定义对应的原子计数器;
S3、根据统计任务的统计指标,结合原子计数器定义统计指标的计算公式,生成对应的统计指标生成器;
S4、根据数据源属性定义数据源的统计维度,生成对应的维度选择器;
S5、根据用户设定的统计任务的报表类型定义报表格式,生成对应的报表生成器;
S6、定义统计任务的预设调度条件和调度范围,生成调度器;
S7、获取前述步骤所生成的数据源适配器、原子计数器、统计指标生成器、维度选择器、报表生成器和调度器后,自动生成统计任务的代码,并且在符合调度器的预设调度条件时,自动执行该代码。
进一步,所述步骤S1,其具体为:
获取统计任务的数据源并对数据源属性进行定义,判断该数据源属性是否存在对应的数据源适配器,若是,则直接调用该数据源适配器,否则,根据定义的数据源属性建立新的数据源适配器。
进一步,所述步骤S4,其具体为:
判断统计任务的统计指标是否存在对应的统计指标生成器,若是,则直接调用该统计指标生成器,否则,结合原子计数器定义统计指标的计算公式后,根据定义的计算公式生成对应的统计指标生成器。
进一步,所述步骤S7包括:
S71、根据维度选择器获得统计任务的统计维度后生成相应的代码;
S72、根据原子计数器获得统计任务的统计计数情况并生成相应的代码;
S73、根据统计指标生成器获得统计指标的计算公式后生成对应的执行代码;
S74、根据数据源适配器生成数据源的名称代码,进而结合维度选择器生成统计任务的具体统计分组的代码;
S75、获取调度器所设定的调度范围后,生成对应的限定调度范围的代码;
S76、判断是否符合调度器的预设调度条件,若是,则自动执行步骤S71~S75所生成的代码并将代码运行结果按照报表生成器所设定的报表格式生成对应的报表。
进一步,所述步骤S7中自动生成的统计任务的代码包括MapReduce代码、impala执行代码或sql语句。
本发明的有益效果是:一种适用于大数据的统计任务快速生成系统,包括:数据源适配器、原子计数器、统计指标生成器、维度选择器、报表生成器、调度器和代码生成器,本系统通过将统计任务分解并定义成数据源适配器、原子计数器、统计指标生成器、维度选择器、报表生成器和调度器等几个部分后,用户在创建自己任务的时候,就像堆积木一样,可以任意拖拽自己需要统计的指标,本系统会根据用户配置的标准模型,自动生成统计代码。本系统可以把复杂的云计算过程简单化,模块组件化,快速地生成统计任务代码,大大地提高了开发效率。
本发明的另一有益效果是:一种适用于大数据的统计任务快速生成方法,包括:分别生成数据源适配器、原子计数器、统计指标生成器、维度选择器、报表生成器、调度器和代码生成器后,自动生成统计任务的代码,并且在符合调度器的预设调度条件时,自动执行该代码。本方法通过将统计任务分解并定义成数据源适配器、原子计数器、统计指标生成器、维度选择器、报表生成器和调度器等几个部分后,用户在创建自己任务的时候,就像堆积木一样,可以任意拖拽自己需要统计的指标,然后根据用户配置的标准模型,自动生成统计代码。本方法可以把复杂的云计算过程简单化,模块组件化,快速地生成统计任务代码,大大地提高了开发效率。
附图说明
下面结合附图和实施例对本发明作进一步说明。
图1是本发明的一种适用于大数据的统计任务快速生成方法的一具体实施例的流程示意图。
具体实施方式
本发明提供了一种适用于大数据的统计任务快速生成系统,包括:
数据源适配器,用于将统计任务的数据源转换成统一的存储文件格式;大数据的来源是多种多样的,有文本的,有2进制的,有结构化的,也有非结构化,数据源适配器用来适配不同格式的数据源,将数据源转换成统一的存储文件格式,例如把不同的数据格式转换成统一的hadoop能支持的parquet格式,并且定义数据源属性,例如数据的字段名称,字段类型,长度等基本数据信息;
原子计数器,用于对统计任务进行统计计数;原子计数器是统计里面最基本的计算单元,当满足一个条件时,原子计数器只是简单加1和减1,或者加上一个值和减去一个值,不做其它复杂运算,如统计通信中短信发送次数,就是定义一个原子计数器,当判断到短信发送成功的标志,原子计数器加1;
统计指标生成器,用于根据统计任务的统计指标生成对应的计算公式;统计指标就是用户需要的统计对象,它是由多个原子计数器或其它统计指标通过各种运算组成的复杂对象,如统计通信中的短信发送成功率,就需要定义2个原子计数器:成功次数,失败次数,那么短信发送成功率的指标对象就是(成功次数/(成功次数+失败次数))×100%;
维度选择器,用于提供对统计任务的数据源的统计维度;定义了统计指标后,一般还会定义统计任务的数据源的统计维度,比如按城市名称来统计短信发送次数,其中的城市名称可作为统计维度,在维度选择器里面定义;
报表生成器,用于根据用户选择的报表类型生成对应的报表格式;定义了各种统计指标后,统计任务的最终目的一般需要把统计的指标保存到excel等报表里面,通过报表生成器预先定义了十几种常用的报表格式,用户只需要选择所需的格式即可,如果报表生成器里面的格式无法满足用户的需求,再根据用户输入信息自定义对应的报表格式;
调度器,用于设定统计任务的预设调度条件和调度范围;对于大数据的统计任务,由于数据量都非常大,一个任务可能会运行30分钟到几个小时的时间,因此需要设定调度的预设调度条件和调度范围,通过调度器,预设统计任务的预设调度条件例如调度时间等,根据任务的预设调度条件调用该任务,本系统可通过设置可视化的界面,定义统计任务的任务运行时间,运行周期类型(如1个小时,一天统计一次),数据源的范围等;通过设置调度器,统计任务可以在符合调度器的预设调度条件时自动运行任务,并在运行后把统计指标保存到excel等报表里;
代码生成器,用于根据数据源适配器、原子计数器、统计指标生成器、维度选择器、报表生成器和调度器自动生成统计任务的代码,并在符合调度器的预设调度条件时,自动执行该代码。代码生成器是该系统的核心装置,数据源适配器、原子计数器、统计指标生成器、维度选择器、报表生成器和调度器相当于6个积木式组件,代码生成器会根据6个积木组件拼装成一个完整的任务,并且根据每块积木描述的特性,自动生成hadoop能运行的代码,当符合预设调度条件例如定义的任务运行时间到来时,这个统计任务就自动开始执行。
进一步作为优选的实施方式,所述根据数据源适配器、原子计数器、统计指标生成器、维度选择器和报表生成器自动生成统计任务的代码,并在符合调度器的调度指令时,自动执行该代码,其具体为:
A1、根据维度选择器获得统计任务的统计维度后生成相应的代码;
A2、根据原子计数器获得统计任务的统计计数情况并生成相应的代码;
A3、根据统计指标生成器获得统计指标的计算公式后生成对应的执行代码;
A4、根据数据源适配器生成数据源的名称代码,进而结合维度选择器生成统计任务的具体统计分组的代码;
A5、获取调度器所设定的调度范围后,生成对应的限定调度范围的代码;
A6、判断是否符合调度器的预设调度条件,若是,则自动执行步骤A1~A5所生成的代码并将代码运行结果按照报表生成器所设定的报表格式生成对应的报表。
进一步作为优选的实施方式,所述代码生成器自动生成的统计任务的代码包括MapReduce代码、impala执行代码或sql语句。
本系统通过将统计任务分解并定义成数据源适配器、原子计数器、统计指标生成器、维度选择器、报表生成器和调度器等几个部分后,用户在创建自己任务的时候,就像堆积木一样,可以任意拖拽自己需要统计的指标,本系统会根据用户配置的标准模型,自动生成统计代码。本系统可以把复杂的云计算过程简单化,模块组件化,通过调用数据源适配器、原子计数器、统计指标生成器等等,可以快速地生成统计任务代码,开发效率能提高20%到50%左右。
本发明还提供了一种适用于大数据的统计任务快速生成方法,包括:
S1、获取统计任务的数据源并对数据源属性进行定义,生成对应的数据源适配器;
S2、根据统计任务的统计计数需求,定义对应的原子计数器;
S3、根据统计任务的统计指标,结合原子计数器定义统计指标的计算公式,生成对应的统计指标生成器;
S4、根据数据源属性定义数据源的统计维度,生成对应的维度选择器;
S5、根据用户设定的统计任务的报表类型定义报表格式,生成对应的报表生成器;
S6、定义统计任务的预设调度条件和调度范围,生成调度器;
S7、获取前述步骤所生成的数据源适配器、原子计数器、统计指标生成器、维度选择器、报表生成器和调度器后,自动生成统计任务的代码,并且在符合调度器的预设调度条件时,自动执行该代码。
进一步作为优选的实施方式,所述步骤S1,其具体为:
获取统计任务的数据源并对数据源属性进行定义,判断该数据源属性是否存在对应的数据源适配器,若是,则直接调用该数据源适配器,否则,根据定义的数据源属性建立新的数据源适配器。
进一步作为优选的实施方式,所述步骤S4,其具体为:
判断统计任务的统计指标是否存在对应的统计指标生成器,若是,则直接调用该统计指标生成器,否则,结合原子计数器定义统计指标的计算公式后,根据定义的计算公式生成对应的统计指标生成器。
进一步作为优选的实施方式,所述步骤S7包括:
S71、根据维度选择器获得统计任务的统计维度后生成相应的代码;
S72、根据原子计数器获得统计任务的统计计数情况并生成相应的代码;
S73、根据统计指标生成器获得统计指标的计算公式后生成对应的执行代码;
S74、根据数据源适配器生成数据源的名称代码,进而结合维度选择器生成统计任务的具体统计分组的代码;
S75、获取调度器所设定的调度范围后,生成对应的限定调度范围的代码;
S76、判断是否符合调度器的预设调度条件,若是,则自动执行步骤S71~S75所生成的代码并将代码运行结果按照报表生成器所设定的报表格式生成对应的报表。
进一步作为优选的实施方式,所述步骤S7中自动生成的统计任务的代码包括MapReduce代码、impala执行代码或sql语句。
本方法通过将统计任务分解并定义成数据源适配器、原子计数器、统计指标生成器、维度选择器、报表生成器和调度器等几个部分后,用户在创建自己任务的时候,就像堆积木一样,可以任意拖拽自己需要统计的指标,本方法会根据用户配置的标准模型,自动生成统计代码。本方法可以把复杂的云计算过程简单化,模块组件化,通过调用数据源适配器、原子计数器、统计指标生成器等等,可以快速地生成统计任务代码,开发效率能提高20%到50%左右。
以下结合图1描述本发明的一种适用于大数据的统计任务快速生成方法的一具体实施例:
参照图1,统计任务:计算每天全广东省每个城市的短信发送成功次数,短信发送失败次数,短信发送总次数,短信发送成功率,短信发送失败率。通过以下步骤实现:
(1)定义数据源适配器,先定义输入的短信数据源属性,如表名称bssap,字段cdr_type,类型是int,其中cdr_type=10表示发送短信,cdr_result=1表示短信发送成功,其它表示失败;定义字段名称city_name,类型是string,表示城市的名称等。
如果在数据源适配器仓库里面存在与短信数据源属性对应的数据源适配器,就直接从库里面调用,如果没有,就新建数据源适配器,保存到数据源适配器仓库里面。
(2)定义原子计数器,本统计任务需要定义2个原子计数器:
(a)短信发送成功次数,条件是cdr_type=1,计数器加1;
(b)是短信发送失败次数,条件是cdr_type <> 1,计数器加1;
同样,如果在原子计数器仓库里面存在这样的计数器,就直接从库里面调用,如果没有,就新建原子计数器,保存到原子计数器仓库里面。
(3)定义统计指标生成器,本统计任务需要定义3个统计指标生成器:
(a)短信发送总次数,由2个原子计数器构成,表达式为:短信发送成功次数原子计数器+短信发送失败次数原子计数器。
(b)短信发送成功率,由1个原子计数器和一个统计指标构成,表达式为:(短信发送成功次数原子计数器/短信发送总次数统计指标)×100%。
(c)短信发送失败率,由1个原子计数器和一个统计指标构成,表达式为:(短信发送失败次数原子计数器/短信发送总次数统计指标)×100%。
如果在统计指标生成器仓库里面存在对应的统计指标器,就直接从库里面调用,如果没有,就新建统计指标生成器,保存到统计指标生成器仓库里面。
(4)定义维度选择器。根据数据源适配器定义的数据源属性,把城市的字段调用作为统计维度。
(5)定义报表生成器。本实施例中定义导出为excel报表。
(6)定义调度器。定义该任务运行的预设调度条件是每天凌晨零点开始运行,调度范围是前一天的短信数据。例如时间是“20150415”。如果在调度器仓库里面存在这个调度器,就直接从库里面调用,如果没有,就新建调度器,保存到调度器仓里面。
(7)代码生成器。代码生成器根据上面的模块定义的属性,自动生成mapreduce代码或impala执行的代码或sql语句,以及调度信息等,再通过oozie来调度执行这个任务。如果hadoop采用impala或shark作为hadoop的统计引擎的话,可以直接生成sql。生成sql语句的过程如下:
(a)根据用户配置的维度选择器得到city的维度,生成统计的维度代码:
sql=select city ,
(b)根据用户配置的原子计数器得到分别代表短信发送成功和失败的原子计数器,生成原子对象的代码:
sum(case when cdr_type=1 then 1 else 0) as suc,
sum(case when cdr_type<>1 then 1 else 0) as fail,
(c)根据用户配置的统计指标生成器得到短信发送总次数,短信发送成功率和短信发送失败率,生成对应统计指标代码:
(fail+suc) as smssum,
suc / smssum as ra_suc,
fail / smssum as ra_fail,
(d)根据用户配置的数据源适配器得到bssap的数据源,系统生成表名称代码,然后再根据维度选择器,得到统计分组的代码:
from bssap
group by city
(e)根据用户配置的调度器得到预设调度条件,本实施例指开始调度的时间,进而生成调度范围代码:
where time=’20150415’
(f)把上述步骤生成的sql语句提交给hadoop的impala或spark引擎里面执行,最后把运行的结果,导出到excel文件中。生成的完整sql语句如下:
sql=select city ,
sum(case when cdr_type=1 then 1 else 0) as suc,
sum(case when cdr_type<>1 then 1 else 0) as fail,
(fail+suc) as smssum,
suc / smssum as ra_suc,
fail / smssum as ra_fail
from bssap
group by city
where time=’20150415’
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变型或替换均包含在本申请权利要求所限定的范围内。

Claims (8)

1. 一种适用于大数据的统计任务快速生成系统,其特征在于,包括:
数据源适配器,用于将统计任务的数据源转换成统一的存储文件格式;
原子计数器,用于对统计任务进行统计计数;
统计指标生成器,用于根据统计任务的统计指标生成对应的计算公式;
维度选择器,用于提供对统计任务的数据源的统计维度;
报表生成器,用于根据用户选择的报表类型生成对应的报表格式;
调度器,用于设定统计任务的预设调度条件和调度范围;
代码生成器,用于根据数据源适配器、原子计数器、统计指标生成器、维度选择器、报表生成器和调度器自动生成统计任务的代码,并在符合调度器的预设调度条件时,自动执行该代码。
2.根据权利要求1所述的一种适用于大数据的统计任务快速生成系统,其特征在于,所述根据数据源适配器、原子计数器、统计指标生成器、维度选择器和报表生成器自动生成统计任务的代码,并在符合调度器的调度指令时,自动执行该代码,其具体为:
A1、根据维度选择器获得统计任务的统计维度后生成相应的代码;
A2、根据原子计数器获得统计任务的统计计数情况并生成相应的代码;
A3、根据统计指标生成器获得统计指标的计算公式后生成对应的执行代码;
A4、根据数据源适配器生成数据源的名称代码,进而结合维度选择器生成统计任务的具体统计分组的代码;
A5、获取调度器所设定的调度范围后,生成对应的限定调度范围的代码;
A6、判断是否符合调度器的预设调度条件,若是,则自动执行步骤A1~A5所生成的代码并将代码运行结果按照报表生成器所设定的报表格式生成对应的报表。
3.根据权利要求1所述的一种适用于大数据的统计任务快速生成系统,其特征在于,所述代码生成器自动生成的统计任务的代码包括MapReduce代码、impala执行代码或sql语句。
4.一种适用于大数据的统计任务快速生成方法,其特征在于,包括:
S1、获取统计任务的数据源并对数据源属性进行定义,生成对应的数据源适配器;
S2、根据统计任务的统计计数需求,定义对应的原子计数器;
S3、根据统计任务的统计指标,结合原子计数器定义统计指标的计算公式,生成对应的统计指标生成器;
S4、根据数据源属性定义数据源的统计维度,生成对应的维度选择器;
S5、根据用户设定的统计任务的报表类型定义报表格式,生成对应的报表生成器;
S6、定义统计任务的预设调度条件和调度范围,生成调度器;
S7、获取前述步骤所生成的数据源适配器、原子计数器、统计指标生成器、维度选择器、报表生成器和调度器后,自动生成统计任务的代码,并且在符合调度器的预设调度条件时,自动执行该代码。
5.根据权利要求4所述的一种适用于大数据的统计任务快速生成方法,其特征在于,所述步骤S1,其具体为:
获取统计任务的数据源并对数据源属性进行定义,判断该数据源属性是否存在对应的数据源适配器,若是,则直接调用该数据源适配器,否则,根据定义的数据源属性建立新的数据源适配器。
6.根据权利要求4所述的一种适用于大数据的统计任务快速生成方法,其特征在于,所述步骤S4,其具体为:
判断统计任务的统计指标是否存在对应的统计指标生成器,若是,则直接调用该统计指标生成器,否则,结合原子计数器定义统计指标的计算公式后,根据定义的计算公式生成对应的统计指标生成器。
7.根据权利要求4所述的一种适用于大数据的统计任务快速生成方法,其特征在于,所述步骤S7包括:
S71、根据维度选择器获得统计任务的统计维度后生成相应的代码;
S72、根据原子计数器获得统计任务的统计计数情况并生成相应的代码;
S73、根据统计指标生成器获得统计指标的计算公式后生成对应的执行代码;
S74、根据数据源适配器生成数据源的名称代码,进而结合维度选择器生成统计任务的具体统计分组的代码;
S75、获取调度器所设定的调度范围后,生成对应的限定调度范围的代码;
S76、判断是否符合调度器的预设调度条件,若是,则自动执行步骤S71~S75所生成的代码并将代码运行结果按照报表生成器所设定的报表格式生成对应的报表。
8.根据权利要求4所述的一种适用于大数据的统计任务快速生成方法,其特征在于,所述步骤S7中自动生成的统计任务的代码包括MapReduce代码、impala执行代码或sql语句。
CN201510234208.4A 2015-05-08 2015-05-08 一种适用于大数据的统计任务快速生成系统及方法 Expired - Fee Related CN104915378B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510234208.4A CN104915378B (zh) 2015-05-08 2015-05-08 一种适用于大数据的统计任务快速生成系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510234208.4A CN104915378B (zh) 2015-05-08 2015-05-08 一种适用于大数据的统计任务快速生成系统及方法

Publications (2)

Publication Number Publication Date
CN104915378A true CN104915378A (zh) 2015-09-16
CN104915378B CN104915378B (zh) 2018-11-13

Family

ID=54084441

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510234208.4A Expired - Fee Related CN104915378B (zh) 2015-05-08 2015-05-08 一种适用于大数据的统计任务快速生成系统及方法

Country Status (1)

Country Link
CN (1) CN104915378B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279143A (zh) * 2015-10-17 2016-01-27 浙江宇视科技有限公司 一种周期性报表系统
CN105335508A (zh) * 2015-10-29 2016-02-17 苏州国云数据科技有限公司 基于浏览器的可视化拖拽显示数据源信息的方法
CN106709030A (zh) * 2016-12-28 2017-05-24 深圳市华傲数据技术有限公司 数据源管理功能的开发方法及系统
CN106775689A (zh) * 2016-12-05 2017-05-31 广发证券股份有限公司 一种大数据应用开发的系统及方法
CN107402952A (zh) * 2016-05-20 2017-11-28 伟萨科技有限公司 大数据处理加速器及大数据处理系统
CN107562797A (zh) * 2017-08-02 2018-01-09 贵州工程应用技术学院 一种基于数据指标统计的通用智能化设计方法
CN107705199A (zh) * 2017-08-07 2018-02-16 阿里巴巴集团控股有限公司 特征计算代码的生成方法和装置
CN108399251A (zh) * 2018-03-05 2018-08-14 贵州工程应用技术学院 一种多层数据展现的智能生成器和数据展现方法
CN110222315A (zh) * 2019-06-11 2019-09-10 深圳市网心科技有限公司 一种数据统计方法、系统及电子设备和存储介质
CN110728126A (zh) * 2019-10-24 2020-01-24 北京新氧万维科技咨询有限公司 一种报表生成方法、装置及设备
CN112732795A (zh) * 2021-01-19 2021-04-30 华东师范大学 大数据可视化方法及系统
CN113610412A (zh) * 2021-08-13 2021-11-05 重庆允成互联网科技有限公司 一种基于大数据模型的设备维修业务指标统计方法和系统
CN113626050A (zh) * 2021-07-22 2021-11-09 北京金山云网络技术有限公司 医疗应用的更新方法、装置、电子设备和存储介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101183371A (zh) * 2007-12-12 2008-05-21 中兴通讯股份有限公司 一种快速完成大数据处理的方法和报表系统
US20080270340A1 (en) * 2007-04-24 2008-10-30 Kryptiq Corporation Data export/import from multiple data source to a destination data repository using corresponding data exporters and an importer
CN101710320A (zh) * 2009-10-28 2010-05-19 金蝶软件(中国)有限公司 统计指标数据处理方法及装置
CN101957849A (zh) * 2010-09-21 2011-01-26 用友软件股份有限公司 静态报表生成方法和装置
CN102096688A (zh) * 2009-12-11 2011-06-15 中国移动通信集团山西有限公司 数据报表的生成方法及装置
CN103064689A (zh) * 2013-01-04 2013-04-24 大唐软件技术股份有限公司 一种动态生成报表页面的实现方法及系统
CN103455584A (zh) * 2013-08-27 2013-12-18 浙江清华长三角研究院 一种路测系统自动生成报表的方法
CN104063361A (zh) * 2014-07-04 2014-09-24 用友软件股份有限公司 报表设计方法和报表设计系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080270340A1 (en) * 2007-04-24 2008-10-30 Kryptiq Corporation Data export/import from multiple data source to a destination data repository using corresponding data exporters and an importer
CN101183371A (zh) * 2007-12-12 2008-05-21 中兴通讯股份有限公司 一种快速完成大数据处理的方法和报表系统
CN101710320A (zh) * 2009-10-28 2010-05-19 金蝶软件(中国)有限公司 统计指标数据处理方法及装置
CN102096688A (zh) * 2009-12-11 2011-06-15 中国移动通信集团山西有限公司 数据报表的生成方法及装置
CN101957849A (zh) * 2010-09-21 2011-01-26 用友软件股份有限公司 静态报表生成方法和装置
CN103064689A (zh) * 2013-01-04 2013-04-24 大唐软件技术股份有限公司 一种动态生成报表页面的实现方法及系统
CN103455584A (zh) * 2013-08-27 2013-12-18 浙江清华长三角研究院 一种路测系统自动生成报表的方法
CN104063361A (zh) * 2014-07-04 2014-09-24 用友软件股份有限公司 报表设计方法和报表设计系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279143A (zh) * 2015-10-17 2016-01-27 浙江宇视科技有限公司 一种周期性报表系统
CN105335508A (zh) * 2015-10-29 2016-02-17 苏州国云数据科技有限公司 基于浏览器的可视化拖拽显示数据源信息的方法
CN107402952A (zh) * 2016-05-20 2017-11-28 伟萨科技有限公司 大数据处理加速器及大数据处理系统
CN106775689A (zh) * 2016-12-05 2017-05-31 广发证券股份有限公司 一种大数据应用开发的系统及方法
CN106709030A (zh) * 2016-12-28 2017-05-24 深圳市华傲数据技术有限公司 数据源管理功能的开发方法及系统
CN107562797A (zh) * 2017-08-02 2018-01-09 贵州工程应用技术学院 一种基于数据指标统计的通用智能化设计方法
CN107705199B (zh) * 2017-08-07 2021-04-13 创新先进技术有限公司 特征计算代码的生成方法和装置
CN107705199A (zh) * 2017-08-07 2018-02-16 阿里巴巴集团控股有限公司 特征计算代码的生成方法和装置
CN108399251A (zh) * 2018-03-05 2018-08-14 贵州工程应用技术学院 一种多层数据展现的智能生成器和数据展现方法
CN110222315A (zh) * 2019-06-11 2019-09-10 深圳市网心科技有限公司 一种数据统计方法、系统及电子设备和存储介质
CN110728126A (zh) * 2019-10-24 2020-01-24 北京新氧万维科技咨询有限公司 一种报表生成方法、装置及设备
CN112732795A (zh) * 2021-01-19 2021-04-30 华东师范大学 大数据可视化方法及系统
CN113626050A (zh) * 2021-07-22 2021-11-09 北京金山云网络技术有限公司 医疗应用的更新方法、装置、电子设备和存储介质
CN113626050B (zh) * 2021-07-22 2024-06-04 北京金山云网络技术有限公司 医疗应用的更新方法、装置、电子设备和存储介质
CN113610412A (zh) * 2021-08-13 2021-11-05 重庆允成互联网科技有限公司 一种基于大数据模型的设备维修业务指标统计方法和系统
CN113610412B (zh) * 2021-08-13 2024-01-26 重庆允丰科技有限公司 一种基于大数据模型的设备维修业务指标统计方法和系统

Also Published As

Publication number Publication date
CN104915378B (zh) 2018-11-13

Similar Documents

Publication Publication Date Title
CN104915378A (zh) 一种适用于大数据的统计任务快速生成系统及方法
CN107450972B (zh) 一种调度方法、装置以及电子设备
CN106951694B (zh) 一种电力系统二次设备在线监测系统自适应建模方法
CN105719126B (zh) 一种基于生命周期模型的互联网大数据任务调度的系统及方法
CN111708531B (zh) 数据处理方法和装置
CN104298496B (zh) 数据分析型软件开发框架系统
CN104268428A (zh) 一种用于指标计算的可视化配置方法
CN109388667A (zh) 组件化大数据处理方法、系统及计算机可读存储介质
CN102467532A (zh) 一种任务处理方法以及任务处理装置
CN103309904A (zh) 一种生成数据仓库etl 代码的方法及装置
CN103136406A (zh) 可视化应用程序自动生成仿真用函数代码的方法
US20090076781A1 (en) Model independent simulation
CN102999608A (zh) 大数据的树表展现系统和树表展现方法
CN110471754A (zh) 作业调度中的数据展示方法、装置、设备及存储介质
CN103577165A (zh) 一种表单生成方法和表单生成器
CN103207783A (zh) 一种基于b/s的软件开发引擎系统及其构建方法
CN112540975A (zh) 一种基于petri网的多源异构数据质量检测方法
CN103699746B (zh) 基于数据库的cadds5管系三维设计方法及系统
CN102486731B (zh) 增强软件的软件调用栈的可视化的方法、设备和系统
CN105608160A (zh) 一种分布式大数据分析方法
Kostromin et al. Service-oriented tools for automating digital twin development
CN104731900A (zh) 一种Hive调度方法及装置
CN112597121A (zh) 逻辑脚本的处理方法、装置、电子设备及存储介质
CN106610922A (zh) 反序列化方法及装置
CN102566536A (zh) 系统流程控制设备和方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 519085, No. five, No. 8, Harbour Road, Zhuhai, Guangdong

Applicant after: DINGLI Corp.,Ltd.

Address before: 519085, No. five, No. 8, Harbour Road, Zhuhai, Guangdong

Applicant before: DINGLI COMMUNICATIONS Co.,Ltd.

COR Change of bibliographic data
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20181113