CN111061756B - 数据平台、数据处理方法及电子设备 - Google Patents

数据平台、数据处理方法及电子设备 Download PDF

Info

Publication number
CN111061756B
CN111061756B CN201910986024.1A CN201910986024A CN111061756B CN 111061756 B CN111061756 B CN 111061756B CN 201910986024 A CN201910986024 A CN 201910986024A CN 111061756 B CN111061756 B CN 111061756B
Authority
CN
China
Prior art keywords
data
model
module
data analysis
platform
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910986024.1A
Other languages
English (en)
Other versions
CN111061756A (zh
Inventor
桂朝
闫嘉
张岩
何亚川
冯丽君
张晓洁
李士光
雷天宇
张鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Smartsteps Data Technology Co ltd
Original Assignee
Smartsteps Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Smartsteps Data Technology Co ltd filed Critical Smartsteps Data Technology Co ltd
Priority to CN201910986024.1A priority Critical patent/CN111061756B/zh
Publication of CN111061756A publication Critical patent/CN111061756A/zh
Application granted granted Critical
Publication of CN111061756B publication Critical patent/CN111061756B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据平台、数据处理方法及电子设备,涉及数据处理技术领域,该数据平台包括模型展示模块,用于显示数据分析模型的展示页面;该数据分析模型通过SQL脚本实现;模型选择模块,用于当接收到任一数据分析模型的选中指令时,调用被选中数据分析模型对应的SQL脚本;参数获取模块,用于获取被选中数据分析模型的参数信息;模型实例化模块,用于根据参数信息实例化上述被选中数据分析模型对应的SQL脚本,得到可执行SQL脚本;运算模块,用于运算该可执行SQL脚本,得到结果数据表;输出模块,用于输出该结果数据表。该数据平台可以简化用户利用数据平台处理人口位置大数据的操作过程,操作更加简易,使用更加便捷。

Description

数据平台、数据处理方法及电子设备
技术领域
本发明涉及数据处理技术领域,尤其是涉及一种数据平台、数据处理方法及电子设备。
背景技术
大数据平台是为了计算现今社会所产生的越来越大的数据量,以存储、运算、展现作为目的的平台。
目前,常规的数据平台只能分析少量的结果型数据,而无法针对大数据实现数据的中间处理。平台用户若要实现大数据的分析过程,往往需要先借用其他的技术方案,如使用各类脚本语言或者统计软件进行,再将处理完的结果导入其他平台中来进行展示。这样的操作过程虽然也能实现最终的分析需求,但因为涉及的技术环节和步骤较多,不仅需要较高的技术水平要求,也增加了分析的各项成本。而且,由于不同数据分析人员的技术水平和偏好不同,即便对于相同的数据分析需求,也会产生多种不同的实现方案,如果涉及到多人合作或者项目后期交接维护,也不便于建立统一的技术方案,导致维护成本的增加。
总体来说,用户在使用现有的数据平台进行大数据处理分析时,操作过程较复杂,技术要求较高,用户使用的便捷性较差。
发明内容
有鉴于此,本发明的目的在于提供一种数据平台、数据处理方法及电子设备,可以简化用户利用数据平台处理人口位置大数据的操作过程,操作更加简易,使用更加便捷。
第一方面,本发明实施例提供了一种数据平台,包括:模型展示模块,用于显示数据分析模型的展示页面;该数据分析模型通过SQL脚本实现;模型选择模块,用于当接收到任一数据分析模型的选中指令时,调用被选中数据分析模型对应的SQL脚本;参数获取模块,用于获取被选中数据分析模型的参数信息;模型实例化模块,用于根据参数信息实例化上述被选中数据分析模型对应的SQL脚本,得到可执行SQL脚本;运算模块,用于运算该可执行SQL脚本,得到结果数据表;输出模块,用于输出该结果数据表。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,该模型展示模块包括:模型超市展示单元,用于在上述展示页面中显示多种业务类型的数据分析模型;执行页面展示单元,用于显示数据分析模型被执行时的参数信息。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中,该模型实例化模块还用于:根据上述参数信息,通过Java程序实例化该被选中数据分析模型对应的SQL脚本,得到可执行SQL脚本。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中,该运算模块还用于:通过Spark JDBC将该可执行SQL脚本提交到Hadoop大数据集群的yarn队列上进行运算,以得到结果数据表。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,该数据平台还包括:校验模块;该校验模块用于对上述可执行SQL脚本的语法规则和合法性进行校验;该校验模块还用于对该结果数据表的内容进行合法性校验。
结合第一方面,本发明实施例提供了第一方面的第五种可能的实施方式,其中,该数据平台还包括:表盘绘制模块;该表盘绘制模块用于读取预设的表盘配置参数,并根据该表盘配置参数生成实例化表盘的数据及渲染配置参数;根据该实例化表盘的数据及该渲染配置参数绘制表盘。
结合第一方面,本发明实施例提供了第一方面的第六种可能的实施方式,其中,该数据平台还包括:模型管理模块;该模型管理模块用于对该数据分析模型进行编辑操作,该编辑操作包括添加模型、删除模型或更新模型。
第二方面,本发明实施例还提供了一种数据处理方法,该方法基于上述第一方面及其可能的实施方式之一提供的数据平台实现,该方法包括:显示数据分析模型的展示页面;该数据分析模型通过SQL脚本实现;当接收到任一数据分析模型的选中指令时,调用被选中数据分析模型对应的SQL脚本;获取被选中数据分析模型的参数信息;根据该参数信息实例化被选中数据分析模型对应的SQL脚本,得到可执行SQL脚本;运算该可执行SQL脚本,得到结果数据表;输出该结果数据表。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,在上述输出该结果数据表的步骤之后,还包括:读取预设的表盘配置参数;根据该表盘配置参数生成实例化表盘的数据及渲染配置参数;根据该实例化表盘的数据及该渲染配置参数绘制表盘。
第三方面,本发明实施例还提供了一种电子设备,包括存储器、处理器,该存储器中存储有可在该处理器上运行的计算机程序,该处理器执行该计算机程序时实现上述第二方面及其可能的实施方式之一提供的数据处理方法的步骤。
本发明实施例带来了以下有益效果:
本发明实施例提供的一种数据平台、数据处理方法及电子设备,该数据平台包括模型展示模块,用于显示数据分析模型的展示页面;该数据分析模型通过SQL脚本实现;模型选择模块,用于当接收到任一数据分析模型的选中指令时,调用被选中数据分析模型对应的SQL脚本;参数获取模块,用于获取被选中数据分析模型的参数信息;模型实例化模块,用于根据参数信息实例化上述被选中数据分析模型对应的SQL脚本,得到可执行SQL脚本;运算模块,用于运算该可执行SQL脚本,得到结果数据表;输出模块,用于输出该结果数据表。该数据平台提供了以SQL脚本形式实现的数据分析模型,使用户可以通过简单的参数配置即可以完成对人口位置大大数据的处理分析,得到所需的结果数据表,其操作简单方便,极大提高了用户使用的便利性。
并且,该数据平台还可以实现根据生成的结果数据表自动化生成表盘和报表,更加符合用户的实际需求;另外,通过内置的数据分析模型,该数据平台将数据分析、计算、存储、展示等全数据分析全流程程序化,极大地促进了大数据平台的数据分析效率。
本公开的其他特征和优点将在随后的说明书中阐述,或者,部分特征和优点可以从说明书推知或毫无疑义地确定,或者通过实施本公开的上述技术即可得知。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种数据平台的结构示意图;
图2为本发明实施例提供的另一种数据平台的结构示意图;
图3为本发明实施例提供的一种数据分析模型的参数输入界面示意图;
图4为本发明实施例提供的一种根据数据平台自动生成的图表示意图;
图5为本发明实施例提供的一种数据处理方法的流程示意图;
图6为本发明实施例提供的另一种数据处理方法的流程示意图;
图7为本发明实施例提供的另一种数据处理方法的流程示意图。
图标:11-模型展示模块;12-模型选择模块;13-参数获取模块;14-模型实例化模块;15-运算模块;16-输出模块;17-校验模块;18-表盘绘制模块;19-模型管理模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
现有的大数据分析平台主要分为两类,一类为提供数据分析工具的BI类平台,此类平台允许用户将自有数据导入到平台中,并提供各类可视化分析报表工具,用户通过点选拖拽等简易操作完成分析报表的制作;另一类为大数据建模平台,此类平台提供的是大数据集群建模环境,用户登陆到集群客户端服务器,通过一系列建模语言对集群上的开放人口基础位置数据进行探索分析,编写人口统计数据模型。
对于使用数据平台的数据分析人员来说,当前技术要么只提供原始数据,要么只提供结果数据的展示工具,而缺乏数据加工过程中对数据处理的分类建模算法支撑。在实际操作中,当用户需要实现人口位置大数据的分析时,往往需要结合其他的软件协助完成,步骤多,操作复杂,对用户的技术水平要求也较高,总体使用便捷性较差,降低了用户的使用体验。
基于此,本发明实施例提供的一种数据平台、数据处理方法及电子设备,可以简化用户利用数据平台处理人口位置大数据的操作过程,操作更加简易,使用更加便捷。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种数据平台进行详细介绍。
实施例一:
如图1所示,为本发明实施例提供的一种数据平台的结构示意图,由图1可见,该数据平台包括依次相连的模型展示模块11、模型选择模块12、参数获取模块13、模型实例化模块14、运算模块15和输出模块16。
其中,模型展示模块11用于显示数据分析模型的展示页面了,并且,该数据分析模型通过SQL脚本实现。
这里,数据分析模型是用于对大数据进行分析处理的模型,这类数据分析模型通过SQL(Structured Query Language,结构化查询语言)脚本实现。结构化查询语言是高级的非过程化编程语言,允许用户在高层数据结构上工作。它不要求用户指定对数据的存放方法,也不需要用户了解具体的数据存放方式,所以具有完全不同底层结构的不同数据库系统,可以使用相同的结构化查询语言作为数据输入与管理的接口。结构化查询语言语句可以嵌套,这使它具有极大的灵活性和强大的功能。
在本实施例中,数据分析模型通过SQL脚本对集群存储的人口位置数据进行计算实现,该数据分析模型可以是一个或多个,并且,都显示在上述展示页面上,这样,用户可以直观且方便地从展示页面获取数据分析模型的信息。其中,展示的信息可以是数据分析模型的图像、动画、文字等信息。
在其中一种可能的实施方式中,该模型展示模块11包括模型超市展示单元和执行页面展示单元,其中,该模型超市展示单元用于在上述展示页面中显示多种业务类型的数据分析模型。这里,“模型超市”表示在该单元中的模型是像超市的商品一样多种多样的,包含多种业务类型。其中,多种业务类型可以是根据对数据进行分析处理后输出结果适用的行业划分,也可以是根据数据分析功能特点划分。例如,按数据行业划分时,可以包括规划、政府、交通、旅游、零售、地产等类;如果以数据分析功能划分,可以包括人口流量、人群迁徙、人口画像、人群分布等类。
并且,上述执行页面展示单元用于显示数据分析模型被执行时的参数信息。这里,当执行任一数据分析模型时,可以通过该执行页面展示单元观看到相关的参数信息。这里,参数信息可以包括:执行任务名称、执行开始时间、执行进度、执行结束时间等等。
另外,上述模型选择模块12用于当接收到任一数据分析模型的选中指令时,调用被选中数据分析模型对应的SQL脚本。
显示数据分析模型的展示页面之后,用户可以根据数据处理的需要选择相应的模型。当任意一个数据分析模型被选中时,也即,平台相应接收到该数据分析模型的选中指令,此时,平台调用该被选中的数据分析模型对应的SQL脚本。对于每一个数据分析模型,其对应有唯一的一个SQL脚本,这里,所有数据分析模型的SQL脚本可以统一保存到数据库中,以便从数据库中查找和调用所需的SQL脚本。
再者,上述参数获取模块13用于获取被选中数据分析模型的参数信息。其中,该参数信息用于实例化该数据分析模型。参数信息可以通过用户输入的方式获得,也可以预先设置参数样例,从而可以自动获取对应模型的参数信息。这里,该参数信息可以包括参数名和对应的参数值。
另外,上述模型实例化模块14用于根据参数信息实例化上述被选中数据分析模型对应的SQL脚本,得到可执行SQL脚本。这里,在其中一种可能的实施方式中,在用户根据需求填写完参数信息后,平台通过网络接口的形式将模型的参数信息传送给后端的Java程序,该Java程序根据参数名和参数值的对应关系为SQL脚本中的参数符号进行赋值替换,以生成可执行SQL脚本。
当生成可执行SQL脚本之后,运算模块15运算该可执行SQL脚本,并得到结果数据表。在其中一种可能的实施方式中,该运算模块15通过Spark JDBC将该可执行SQL脚本提交到Hadoop大数据集群的yarn队列上对人口位置大数据进行运算,以得到结果数据表。在该实施方式中,该结果数据表是关于人口汇总的结果数据表。这里,Hadoop是一个由Apache基金会所开发的分布式系统基础架构,它是一个能够对大量数据进行分布式处理的软件框架,以一种可靠、高效、可伸缩的方式进行数据处理。
最后,输出模块16用于输出该结果数据表。在其中一种方式中,可以将得到的结果数据表返回给前端的展示页面,从而方便用户观看数据处理的结果。
这样,本发明实施例提供的数据平台,由于提供了以SQL脚本形式实现的数据分析模型,借助这些现成的数据分析模型,用户只需要进行简单的参数配置,即可以完成对人口位置大数据的处理分析,并得到所需的结果数据表,整个操作过程非常简单方便,极大提高了用户在大数据处理中的便利性。另外,由于设置了模型超市,提供了各行业的各种业务的数据分析模型,使得各类需求的用户可以在该数据平台上找到所需要的数据分析模型,以完成数据处理,得到所需要的结果数据表,非常方便实用。
本发明实施例提供的一种数据平台,该数据平台包括模型展示模块,用于显示数据分析模型的展示页面;该数据分析模型通过SQL脚本实现;模型选择模块,用于当接收到任一数据分析模型的选中指令时,调用被选中数据分析模型对应的SQL脚本;参数获取模块,用于获取被选中数据分析模型的参数信息;模型实例化模块,用于根据参数信息实例化上述被选中数据分析模型对应的SQL脚本,得到可执行SQL脚本;运算模块,用于运算该可执行SQL脚本,得到结果数据表;输出模块,用于输出该结果数据表。该数据平台操作简单方便,提高了用户使用的便利性和数据处理的效率。
实施例二:
在图1所示数据平台的基础上,本发明实施例提供了另一种数据平台,如图2所示,其为该平台的结构示意图,由图2可见,该数据平台包括依次相连的模型展示模块11、模型选择模块12、参数获取模块13、模型实例化模块14、校验模块17、运算模块15、表盘绘制模块18和输出模块16,还包括与上述模型选择模块12相连的模型管理模块19。
其中,模型展示模块11用于显示数据分析模型的展示页面,其中,该数据分析模型通过SQL脚本实现。模型选择模块12用于当接收到任一数据分析模型的选中指令时,调用被选中数据分析模型对应的SQL脚本。参数获取模块13用于获取被选中数据分析模型的参数信息。模型实例化模块14用于根据参数信息实例化上述被选中数据分析模型对应的SQL脚本,得到可执行SQL脚本。
在本实施例中,当得到可执行SQL脚本之后,该校验模块17对该可执行SQL脚本的语法规则和合法性进行校验。然后,在校验合格之后,将该SQL脚本发送给运算模块15进行运算。该运算模块15运算该可执行SQL脚本,得到结果数据表。并且,在输出该结果数据表之前,由校验模块17对该结果数据表的内容进行合法性校验,当校验合格时,将结果数据表发送给输出模块16,由输出模块16输出该结果数据表。
在图2示出的实施方式中,该数据平台还包括模型管理模块19,其中,该模型管理模块19用于对数据分析模型进行编辑操作,这里,该编辑操作包括添加模型、删除模型或更新模型。这样,对于数据平台中的各个数据分析模型,均可以对其进行编辑操作,根据实际需求可以对现有的模型进行编辑,更新保存为新的模型,也可以添加新的模型,或删除不适用的模型。通过对模型的编辑管理,可以不断丰富数据平台中的数据分析模型,以更好满足用户的实际需求。
另外,本实施例中的数据平台,通过设置表盘绘制模块18,在生成结果数据表之后,该表盘绘制模块18还读取预设的表盘配置参数,并根据该表盘配置参数生成实例化表盘的数据及渲染配置参数,然后根据该实例化表盘的数据及该渲染配置参数绘制表盘。这里,表盘包括各类的图表和地图。结合图表模板,该数据平台还可以输出专题地图等图表进行展示。这样,在运用数据平台处理数据之后,生成所需的结果数据表的同时,还自动生成了表盘,为用户提供了更丰富的图表展示选项。
为更好理解上述数据平台,这里给出了一个运用数据分析模型进行数据处理的实例。其中,该数据分析模型的名称为“目标人群位置洞察”,该模型的功能为“发现指定属性的人群在全城市的位置分布”,这里,用户的需求是:需要找出月话费在100元以上,使用苹果或华为手机,有网上购物行为,且使用了网易严选APP的年轻人在北京市的分布。
这里,首先用户通过展示页面找到“目标人群位置洞察”这一数据分析模型,并点击该模型,当平台接受到该“目标人群位置洞察”模型的选中指令时,调用该模型对应的SQL脚本。此时,需要获取该模型的参数信息,在本实施例中,通过用户输入参数信息。如图3所示,为该模型的参数输入界面示意图,其中,需要输入的参数包括:查询的城市、月份、性别、年龄、话费区间、终端品牌、上网标签和使用APP。当用户输入完毕,并且运行该模型之后,平台根据上述参数信息实例化该“目标人群位置洞察”模型的SQL脚本,得到可执行的SQL脚本,并运算该脚本,得到结果数据表。同时,生成相应的图表,如图4所示,为根据该数据平台自动生成的图表示意图,由该图可以观察到月话费在100元以上,使用苹果或华为手机,有网上购物行为,且使用了网易严选APP的年轻人在北京市的分布情况。
实施例三:
在图1所示数据平台的基础上,本发明实施例提供了另一种数据平台。
其中,该平台分为前中后三层架构,前台为采用流行的Web技术搭建的SaaS式数据智能应用平台,包括数据分析建模,模型超市,表盘配置,报表展示和数据管理共五个功能模块,能够实现从数据的加工处理到数据结果的保存管理以及利用数据结果进行可视化制图报表输出等一系列操作。中台为Java Spring技术框架搭建的网关程序,实现分析建模的任务管理、数据安全的合法性检查与执行数据结果的校验传输。后台为Hadoop大数据集群,通过Spark SQL计算引擎来响应前台提交的执行任务。
前台响应用户发起的操作,包括数据上传,建模查询、结果导出;中台接收到前台发送的操作请求,进行安全审核后转发给后台;后台进行实际操作的运算处理,并将结果再发给中台,由中台审核通过后返回给前台进行展现。
该数据平台支持自定义编写SQL语句建模和内置参数化SQL模型建模两种形式。其中,自定义建模页面提供编写、管理、执行SQL语句的功能,支持特定需求的数据统计与建模分析。页面以文件夹目录树的形式来管理不同的项目脚本,切换到字段查询可以查看分配的数据库、表及字段结构。页面上提供SQL脚本编辑器,支持从本地加载脚本,编辑时提供自动补全、关键词高亮、格式美化等功能。提交执行的SQL任务会在后台大数据计算集群上运算,并在页面显示名称、内容、状态、时间和进度信息。执行中的任务可以取消,执行完成可以查看预览并保存到数据管理模块。
并且,内置的参数化SQL模型是在数据应用平台中加入了行业算法模型的运算模块15,而行业模型算法模块是以软件平台前台中子页面的形式体现。该模块的主界面是分类行业算法模型的图片列表展示。在图片列表上方是分类筛选框,分类标准为按数据行业和数据分析功能,其中行业分为规划、政府、交通、旅游、零售、地产等,功能包括人口流量、人群迁徙、人口画像、人群分布等。图片列表中包含体现模型功能的图片示意图和模型的名称和模型功能的简要说明。页面左侧为模型管理目录树,可以通过点击收藏按钮将模型放置到不同的自定义目录下管理。
当点击模型示意图时,会进入相应的模型执行界面。在执行页的左侧为模型的参数配置窗口,显示模型的各项参数名和允许填写不同类型参数值的输入框,其中支持的类型包括文本输入框、下拉列表、日期选择控件以及可以绘制空间点位的地图页面工具。执行页右侧显示模型的相关说明,初进入页面时显示模型的整体功能描述,当点击某一项参数时,显示某一参数的说明。在填写各项模型参数后,点击运行按钮,后台即自动将参数配置到模型的算法脚本中,并提交到后台的Hadoop大数据集群,采用Spark SQL计算引擎进行模型的运行。模型还可以设定执行时间定时执行,并通过定时执行模块编辑管理定时任务。
模型的计算采用结构化查询语言(SQL)在Spark计算引擎上实现,有两个好处:一是SQL语言的标准化程度较高,便于对算法的理解,因此也便于在实现不同分析目标时按功能模块进行复用;二是模型采用Spark计算,充分利用集群的内存计算资源,有效提高计算的性能。
模型的运算与后台按照空间、时间、属性维度抽象出的用户级数据表进行了高度融合。通过运行内置的各种行业的算法模型,平台用户可以将精力从数据理解、业务抽象、逻辑编写、功能实现等复杂的数据处理过程中解放出来,以简单易行的方式实现数据分析模型结果的运算输出,用户还可以专注于对模型参数的搭配调整,以充分对比不同参数的执行结果。
此外,模型运行的结果,除了包含不同主题维度的数据表,还与平台中的BI工具做了绑定,可以利用平台的图表模板实现自动化图表和报表的制作。每个模型的输出结果表的维度是固定的,因此根据该数据表制作的图表模板可以应用于不同模型参数运算的结果。平台程序在计算模型运行完成后,会自动将集群的输出结果保存到平台的用户存储空间,并利用图表模板进行数据的可视化制图,最终生成不同主题维度、不同图表类型的可视化报表。通过平台内置的算法模块将数据分析、计算、存储、展示等全数据分析全流程程序化,极大地促进了大数据平台的数据分析效率。
平台中的BI工具与常规BI平台相比,提供了更丰富的展示位置数据的专题地图能力,以及结合数据特征应用图表模板出图的能力。平台在表盘配置页面提供了使用统计数据表快速绘制两类表盘的BI工具。一类为普通图表,包括柱状图、饼状图、折线图、雷达图等,只需指定维度和度量字段,图表类型,配置图表的显示效果即可保存导出。另一类为专题地图,包括网格热力、行政区域图、标准热力、OD(Organizational Development,组织发展)动线图等,绘制时根据地图类型配置位置和数值字段,调整颜色分级和底图风格等样式,其中位置字段支持经纬度,关联平台的位置码表或者用户上传的自定义码表。表盘还可以另存为模板,支持替换数据表实现快速制图输出。
平台还支持将输出的图表结果通过报表的形式展示,即提供将不同形式的图表、文本框、本地图片添加到同一个页面,生成一定主题的数据报表的功能。新建报表可以添加已经保存到表盘配置页面的表盘,也可以通过添加新表盘进入到创建表盘的编辑页面。此外,还可以添加图片和文本,图片支持替换,文本支持选中后进行字体、格式、颜色等编辑。所有新添加的报表元素会追加到页面尾部,并可调整位置和大小。对于表盘的修改会被实时自动保存,完成编辑后可以导出成PDF文件下载。
实施例四:
本发明实施例还提供了一种数据处理方法,该方法基于上述实施例一、实施例二、实施例三及其可能的实施方式之一提供的数据平台实现,如图5所示,其为该方法的流程示意图,其中,该方法包括一下步骤:
步骤S502:显示数据分析模型的展示页面;该数据分析模型通过SQL脚本实现;
步骤S504:当接收到任一数据分析模型的选中指令时,调用被选中数据分析模型对应的SQL脚本;
步骤S506:获取被选中数据分析模型的参数信息;
步骤S508:根据该参数信息实例化被选中数据分析模型对应的SQL脚本,得到可执行SQL脚本;
步骤S510:运算该可执行SQL脚本,得到结果数据表;
步骤S512:输出该结果数据表。
本发明实施例提供的数据处理方法,可以通过简单的参数配置即可以完成对人口位置大数据的处理分析,得到所需的结果数据表,其操作简单方便,极大提高了用户使用的便利性。
在图5所示数据处理方法的基础上,本发明实施例还提供了另一种数据处理方法,参见图6,为该方法的流程示意图,该方法包括以下步骤:
步骤S602:显示数据分析模型的展示页面;该数据分析模型通过SQL脚本实现;
步骤S604:当接收到任一数据分析模型的选中指令时,调用被选中数据分析模型对应的SQL脚本;
步骤S606:获取被选中数据分析模型的参数信息;
步骤S608:根据该参数信息实例化被选中数据分析模型对应的SQL脚本,得到可执行SQL脚本;
步骤S610:运算该可执行SQL脚本,得到结果数据表;
步骤S612:输出该结果数据表;
步骤S614:读取预设的表盘配置参数;
步骤S616:根据该表盘配置参数生成实例化表盘的数据及渲染配置参数;
步骤S618:根据该实例化表盘的数据及该渲染配置参数绘制表盘。
本实施例提供的数据处理方法,其还可以实现根据生成的结果数据表自动化生成表盘和报表,更加符合用户的实际需求;另外,通过内置的数据分析模型,该数据平台将数据分析、计算、存储、展示等全数据分析全流程程序化,极大地促进了大数据平台的数据分析效率。
实施例五:
参见图7,为对应上述实施例三所提供的数据平台的一种数据处理方法,其实现步骤为:首先,采用SQL脚本参数化模板进行模型编辑,并通过Java程序进行模板实例化;然后,通过网关程序提交到Spark SQL计算引擎进行运算;接着,网关程序对SQL进行语法规则及合法性校验,并对Spark输出的结果进行数据安全检查;最后,确认输出内容合法后返回结果到BI平台。
其详细实现步骤如下:
(1)分析师线下根据不同行业的业务需求编写数据分析模型的SQL脚本;
(2)将SQL脚本中的可变参数以变量名的形式进行转义,比如时间参数用如下字符串代替:@param_date,空间参数用@param_wkt;
(3)将SQL模型脚本保存到业务数据库的模型管理表,并加上模型用途说明,参数配置信息,模型名称、类别、输出结果类型等辅助信息;
(4)前端通过接口形式获取模型的相关信息并在页面上进行展示,分为“模型超市”页面展示所有模型的缩略图、名称和简介,以及模型执行页面,显示模型的参数和参数说明;
(5)用户根据需求填写参数信息,会通过网络接口的形式将模型参数传给后端Java程序,程序根据参数名和参数值的对应关系为模型SQL中的参数符号进行赋值替换,生成可执行的SQL脚本;
(6)中台的网关程序获取到SQL模型执行任务放入任务库,对模型进行数据操作安全合法性校验;
(7)中台的网关程序将SQL模型脚本通过Spark JDBC提交到后台的Hadoop大数据集群的yarn队列上对人口位置大数据进行运算;
(8)运算结果通过JDBC返回到中台网关程序,网格程序对结果进行安全校验,确认没有输出非法数据后,将结果返回给前台的BI程序。
这样,通过在数据平台中引入与底层数据高度融合的算法模块,用户只需要进行简单参数配置即可完成复杂业务结果数据集输出。
在另一种可能的实施方式中,在上述将结果返回给前台的BI程序的步骤之后,还包括:
(9)使用BI平台的“表盘配置“工具进行制图,保存为表盘模板;
(10)将表盘模板的ID与数据结果表名对应在一起以JSON格式配置成参数说明,加入到模型管理表中;
(11)再次运行该模型,运行完成后,BI平台的后端Java程序会读取模型管理表中添加的表盘配置参数,生成实例化表盘的数据及渲染配置参数;
(12)进入到表盘配置页面,打开模型运行记录文件夹,前端会通过接口调用表盘的参数配置信息,并在前端解析绘制表盘。
这样,该数据平台生产的统计数据结果可以在“表盘配置”中通过点选拖拽的形式快速配置出简单图表和专题地图,在“报表展示”页面可以把不同内容的表盘进行组合,并加上图片和文字数据快速编写主题报告。已保存的表盘可以另存为表盘模板,在应用到相同字段的新数表时,可以直接替换数据表快速生成新的表盘。
实施例六:
本发明实施例还提供了一种电子设备,包括存储器、处理器,该存储器中存储有可在该处理器上运行的计算机程序,该处理器执行该计算机程序时实现上述实施例四及其可能的实施方式之一提供的数据处理方法的步骤。
其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器中,或者由处理器实现。
处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本发明实施例提供的电子设备,与上述实施例提供的数据处理方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (10)

1.一种数据平台,其特征在于,包括:前台、中台和后台;其中,所述前台为基于Web技术搭建的SaaS式数据智能应用平台,所述中台为基于Java Spring技术框架搭建的网关程序,所述后台为Hadoop大数据集群;所述数据平台支持自定义编写SQL语句建模和内置参数化SQL模型建模;
所述前台包括模型展示模块、模型选择模块、参数获取模块、模型实例化模块;所述后台包括运算模块和输出模块;
所述模型展示模块,用于显示数据分析模型的展示页面;所述数据分析模型通过SQL脚本实现;
所述模型选择模块,用于当接收到任一所述数据分析模型的选中指令时,调用被选中数据分析模型对应的SQL脚本;
所述参数获取模块,用于获取所述被选中数据分析模型的参数信息;
所述模型实例化模块,用于根据所述参数信息实例化所述被选中数据分析模型对应的SQL脚本,得到可执行SQL脚本;
所述运算模块,用于运算所述可执行SQL脚本,得到结果数据表;
所述输出模块,用于输出所述结果数据表。
2.根据权利要求1所述的数据平台,其特征在于,所述模型展示模块包括:
模型超市展示单元,用于在所述展示页面中显示多种业务类型的数据分析模型;
执行页面展示单元,用于显示所述数据分析模型被执行时的参数信息。
3.根据权利要求1所述的数据平台,其特征在于,所述模型实例化模块还用于:
根据所述参数信息,通过Java程序实例化所述被选中数据分析模型对应的SQL脚本,得到可执行SQL脚本。
4.根据权利要求1所述的数据平台,其特征在于,所述运算模块还用于:
通过Spark JDBC将所述可执行SQL脚本提交到Hadoop大数据集群的yarn队列上进行运算,以得到结果数据表。
5.根据权利要求1所述的数据平台,其特征在于,所述数据平台还包括:校验模块;
所述校验模块用于对所述可执行SQL脚本的语法规则和合法性进行校验;
所述校验模块还用于对所述结果数据表的内容进行合法性校验。
6.根据权利要求1所述的数据平台,其特征在于,所述数据平台还包括:表盘绘制模块;
所述表盘绘制模块用于读取预设的表盘配置参数,并根据所述表盘配置参数生成实例化表盘的数据及渲染配置参数;
根据所述实例化表盘的数据及所述渲染配置参数绘制表盘。
7.根据权利要求1所述的数据平台,其特征在于,所述数据平台还包括:模型管理模块;
所述模型管理模块用于对所述数据分析模型进行编辑操作,所述编辑操作包括添加模型、删除模型或更新模型。
8.一种数据处理方法,其特征在于,所述方法基于权利要求1~7中任一项所述数据平台实现,所述方法包括:
显示数据分析模型的展示页面;所述数据分析模型通过SQL脚本实现;
当接收到任一所述数据分析模型的选中指令时,调用被选中数据分析模型对应的SQL脚本;
获取所述被选中数据分析模型的参数信息;
根据所述参数信息实例化所述被选中数据分析模型对应的SQL脚本,得到可执行SQL脚本;
运算所述可执行SQL脚本,得到结果数据表;
输出所述结果数据表。
9.根据权利要求8所述的数据处理方法,其特征在于,在所述输出所述结果数据表的步骤之后,还包括:
读取预设的表盘配置参数;
根据所述表盘配置参数生成实例化表盘的数据及渲染配置参数;
根据所述实例化表盘的数据及所述渲染配置参数绘制表盘。
10.一种电子设备,包括存储器、处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求8至9任一项所述的数据处理方法的步骤。
CN201910986024.1A 2019-10-16 2019-10-16 数据平台、数据处理方法及电子设备 Active CN111061756B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910986024.1A CN111061756B (zh) 2019-10-16 2019-10-16 数据平台、数据处理方法及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910986024.1A CN111061756B (zh) 2019-10-16 2019-10-16 数据平台、数据处理方法及电子设备

Publications (2)

Publication Number Publication Date
CN111061756A CN111061756A (zh) 2020-04-24
CN111061756B true CN111061756B (zh) 2021-01-19

Family

ID=70297724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910986024.1A Active CN111061756B (zh) 2019-10-16 2019-10-16 数据平台、数据处理方法及电子设备

Country Status (1)

Country Link
CN (1) CN111061756B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112000734A (zh) * 2020-08-04 2020-11-27 中国建设银行股份有限公司 一种大数据处理方法和装置
CN113032647B (zh) * 2021-03-30 2024-04-12 北京云从科技有限公司 数据分析系统
CN113742360B (zh) * 2021-08-09 2023-12-29 广州市易工品科技有限公司 基于元数据快速生成异构数据库sql脚本方法和装置
CN114036212A (zh) * 2021-11-25 2022-02-11 京东方科技集团股份有限公司 数据可视分析方法及系统、计算机设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005008534A2 (en) * 2003-07-11 2005-01-27 Computer Associates Think, Inc. System and method for generating sql using templates
CN106020944A (zh) * 2016-05-04 2016-10-12 北京思特奇信息技术股份有限公司 一种基于后台数据库配置进行数据下载的方法和系统
CN106293661A (zh) * 2015-05-22 2017-01-04 阿里巴巴集团控股有限公司 图形报表的生成、生成处理方法及装置
CN106547877A (zh) * 2016-10-26 2017-03-29 红有软件股份有限公司 基于6w业务逻辑模型的数据元智能标识解析方法
CN107784076A (zh) * 2017-09-25 2018-03-09 北京京东尚科信息技术有限公司 可视化构建用户行为数据的方法和装置
CN108228683A (zh) * 2016-12-21 2018-06-29 广东工业大学 一种基于云计算的分布式智能电网数据分析平台

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9548910B2 (en) * 2014-05-21 2017-01-17 Sap Se Distributed system architecture using event stream processing
US10324908B2 (en) * 2016-09-01 2019-06-18 Sap Se Exposing database artifacts
CN107239539A (zh) * 2017-06-02 2017-10-10 山东浪潮商用系统有限公司 一种基于关系型数据库的自定义建模方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005008534A2 (en) * 2003-07-11 2005-01-27 Computer Associates Think, Inc. System and method for generating sql using templates
CN106293661A (zh) * 2015-05-22 2017-01-04 阿里巴巴集团控股有限公司 图形报表的生成、生成处理方法及装置
CN106020944A (zh) * 2016-05-04 2016-10-12 北京思特奇信息技术股份有限公司 一种基于后台数据库配置进行数据下载的方法和系统
CN106547877A (zh) * 2016-10-26 2017-03-29 红有软件股份有限公司 基于6w业务逻辑模型的数据元智能标识解析方法
CN108228683A (zh) * 2016-12-21 2018-06-29 广东工业大学 一种基于云计算的分布式智能电网数据分析平台
CN107784076A (zh) * 2017-09-25 2018-03-09 北京京东尚科信息技术有限公司 可视化构建用户行为数据的方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于大数据的可视化模型描述与管理研究;陈洋;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180215;第I138-1238页 *

Also Published As

Publication number Publication date
CN111061756A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
CN111061756B (zh) 数据平台、数据处理方法及电子设备
CN109344223B (zh) 一种基于云计算技术的建筑信息模型管理系统及方法
US20180196857A1 (en) Automated presentation of information using infographics
CN109784708A (zh) 水行业多模型耦合计算的云服务系统
CN107679141A (zh) 数据入库方法、装置、设备及计算机可读存储介质
KR20170073693A (ko) 유사 그룹 요소 추출
US9959268B2 (en) Semantic modeling of geographic information in business intelligence
CN109271160A (zh) 活动规则组建方法、装置和计算机系统、介质
CN115794092A (zh) 一种基于数据可视化的大屏产出方法、设备及介质
CN112860247B (zh) 一种模型组件的自定义生成方法、装置、设备及介质
CN111459820B (zh) 一种模型应用方法、装置及数据分析处理系统
CN110569599A (zh) 地图服务发布方法、系统和介质
CN112181409A (zh) 一种应用构建方法、应用渲染方法及装置
CN115981643A (zh) 业务关联组件的配置方法、系统、设备及存储介质
CN115033634A (zh) 数据采集方法、装置、电子设备和介质
CN114880362A (zh) 数据分析系统
CN113506099A (zh) 申报业务的配置系统、方法、计算机设备和存储介质
US11244019B2 (en) Enrichment of user specific information
CN114118042A (zh) 支持复杂多任务定义的开放式地理信息采集模板语言设计及应用方法
CN110083685B (zh) 用于意图识别的数据配置方法及装置
Iosifescu Enescu et al. Towards better WMS maps through the use of the styled layer descriptor and cartographic conflict resolution for linear features
CN110532186A (zh) 利用验证码进行测试的方法、装置、电子设备和存储介质
Pflanzner et al. A crawling approach to facilitate open iot data archiving and reuse
CN116738960B (zh) 单据数据处理方法、系统、计算机设备和存储介质
CN117035664A (zh) 基于模板的授信审批标准化处理方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant