CN114817389A - 数据处理方法、装置、存储介质及电子设备 - Google Patents

数据处理方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN114817389A
CN114817389A CN202210422776.7A CN202210422776A CN114817389A CN 114817389 A CN114817389 A CN 114817389A CN 202210422776 A CN202210422776 A CN 202210422776A CN 114817389 A CN114817389 A CN 114817389A
Authority
CN
China
Prior art keywords
data
index
processing logic
data processing
atomic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210422776.7A
Other languages
English (en)
Inventor
蒋兴钢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202210422776.7A priority Critical patent/CN114817389A/zh
Publication of CN114817389A publication Critical patent/CN114817389A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据处理方法、装置、存储介质及电子设备。其中,上述方法包括:采用了配置原子数据指标;其中,上述原子数据指标中包括多种业务类型的字段和上述字段的值,上述原子数据指标位于实时或离线计算层;在服务接口层配置数据处理逻辑规则库,上述数据处理逻辑规则库中包括多个计算规则表达式;其中,上述实时或离线计算层和服务接口层为数据服务系统中两个不同的层级;对上述数据处理逻辑规则库中的每个数据处理逻辑进行解析,得到多个任务脚本集合;根据每个上述任务脚本集合从上述原子数据指标中获取对应的字段的值。本发明解决了相关技术中数据服务可配置性较差,不便于系统更新和维护的技术问题。

Description

数据处理方法、装置、存储介质及电子设备
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种数据处理方法、装置、存储介质及电子设备。
背景技术
数据中台作为业务前台与存储及计算平台等后台之间的桥梁,在保证后台稳定可靠的同时能够快速灵活响应前端业务诉求。数据中台作为各个业务系统或者外部数据共享服务的数据源,提供数据和计算服务,数据中台的本质是“数据仓库+数据服务中间件”,数据服务主要以应用程序编程接口(Application Programming Interface,API)服务形式提供。
而数据服务的大数据分析包含实时和离线分析场景,对于实时指标数据和离线指标数据,传统的做法是在实时计算流处理框架flink层和离线计算hive数据库引擎配置好元数据,且可以将配置好的的元数据实现不同类别业务需求的聚合运算来生成衍生指标,并将原子指标(元数据)和衍生指标一起导入Elasticsearch搜索服务器,数据服务接口层通过查询Elasticsearch对外输出结果。上述方案中,如果指标计算口径有变化,或者需要基于不同维度来计算新的指标数据,就需要数据开发人员进行版本迭代,需要将实时计算层或者离线计算层重新开发、测试和部署上线,时间周期长,相关技术中的数据服务可复用性差,不便于系统更新和维护。
发明内容
本发明实施例提供了一种数据处理方法、装置、存储介质及电子设备,以至少解决相关技术中数据服务可配置性较差,不便于系统更新和维护的技术问题。
根据本发明实施例的一个方面,提供了一种数据处理方法,包括:配置原子数据指标;其中,上述原子数据指标中包括多种业务类型的字段和上述字段的值,上述原子数据指标位于实时或离线计算层;在服务接口层配置数据处理逻辑规则库,上述数据处理逻辑规则库中包括多个计算规则表达式;其中,上述实时或离线计算层和服务接口层为数据服务系统中两个不同的层级;对上述数据处理逻辑规则库中的每个数据处理逻辑进行解析,得到多个任务脚本集合;根据上述不同的任务脚本集合从上述原子数据指标中获取对应的字段的值。
根据本发明实施例的另一方面,还提供了一种数据处理装置,包括:第一配置单元,用于配置原子数据指标;其中,上述原子数据指标中包括多种业务类型的字段和上述字段的值,上述原子数据指标位于实时或离线计算层;第二配置单元,用于在服务接口层配置数据处理逻辑规则库,上述数据处理逻辑规则库中包括多个计算规则表达式;其中,上述实时或离线计算层和服务接口层为数据服务系统中两个不同的层级;解析单元,用于对上述数据处理逻辑规则库中的每个数据处理逻辑进行解析,得到多个任务脚本集合;第一获取单元,用于根据每个上述任务脚本集合从上述原子数据指标中获取对应的字段的值。
根据本发明实施例的又一方面,还提供了一种电子设备,包括存储器和处理器,上述存储器中存储有计算机程序,上述处理器被设置为通过上述计算机程序执行上述的数据处理方法。
根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述数据处理方法。
在本发明实施例中,采用了配置原子数据指标;其中,上述原子数据指标中包括多种业务类型的字段和上述字段的值,上述原子数据指标位于实时或离线计算层;在服务接口层配置数据处理逻辑规则库,上述数据处理逻辑规则库中包括多个计算规则表达式;其中,上述实时或离线计算层和服务接口层为数据服务系统中两个不同的层级;对上述数据处理逻辑规则库中的每个数据处理逻辑进行解析,得到多个任务脚本集合;根据每个上述任务脚本集合从上述原子数据指标中获取对应的字段的值的方法,在上述方法中,由于将指标计算从实时或离线计算层调整到数据服务接口层,以及配置包括多个计算规则表达式的数据处理逻辑规则库,不仅实现了衍生指标计算规则的高度可配置化,而且便于数据分析系统的维护和更新,进而解决了相关技术中数据服务可配置性较差,不便于系统更新和维护的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的一种可选的数据处理方法的应用环境的示意图;
图2是根据本发明实施例的一种可选的数据处理的流程示意图;
图3是根据本发明实施例的一种可选的数据处理方法的流程示意图;
图4是根据本发明实施例的一种可选的数据处理方法的架构示意图;
图5是根据本发明实施例的一种可选的数据处理装置的结构示意图;
图6是根据本发明实施例的一种可选的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
这里,对本发明实施例中涉及到的技术术语作如下解释:
SQL语言,是结构化查询语言(Structured Query Language)的简称。SQL语言是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统;同时也是数据库脚本文件的扩展名。
Flink是由Apache开发的开源流处理框架,其核心是用Java和Scala编写的分布式流数据流引擎。
hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。
ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于Restful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索。
antlr4是一款开源的语法分析器生成工具,能够根据语法规则文件生成对应的语法分析器。现在很多流行的应用和开源项目里都有使用,比如Hadoop、Hive以及Pig等都在使用antlr4来做语法分析。
根据本发明实施例的一个方面,提供了一种数据处理方法,可选地,作为一种可选地实施方式,上述数据处理方法可以但不限于应用于如图1所示的应用环境中。该应用环境中包括:与用户进行人机交互的终端设备102、网络104、服务器106。用户108与终端设备102之间可以进行人机交互,终端设备102中运行有数据处理应用程序。上述终端设备102中包括人机交互屏幕1022,处理器1024及存储器1026。人机交互屏幕1022用于显示不同业务类型的字段和上述字段的值;处理器1024用于用户输入的指标信息和维度信息。存储器1026用于存储上述用户输入的指标信息和维度信息。
此外,服务器106中包括数据库1062及处理引擎1064,数据库1062中用于存储原子数据指标。处理引擎1064用于配置原子数据指标;其中,上述原子数据指标中包括多种业务类型的字段和上述字段的值,上述原子数据指标位于实时或离线计算层;在服务接口层配置数据处理逻辑规则库,上述数据处理逻辑规则库中包括多个计算规则表达式;其中,上述实时或离线计算层和服务接口层为数据服务系统中两个不同的层级;对上述数据处理逻辑规则库中的每个数据处理逻辑进行解析,得到多个任务脚本集合;根据每个上述任务脚本集合从上述原子数据指标中获取对应的字段的值。
在一个或多个实施例中,本申请上述数据处理方法可以应用于图2所示的应用环境中。如图2所示,用户202与用户设备204之间可以进行人机交互。用户设备204中包含有存储器206和处理器208。本实施例中用户设备204可以但不限于参考执行上述终端设备102所执行的操作,从上述原子数据指标中获取对应的字段的值。
可选地,上述终端设备102和用户设备204包括但不限于为手机、机顶盒、电视、平板电脑、笔记本电脑、PC机,车载电子设备,可穿戴设备等终端,上述网络104可以包括但不限于无线网络或有线网络。其中,该无线网络包括:WIFI及其他实现无线通信的网络。上述有线网络可以包括但不限于:广域网、城域网、局域网。上述服务器106可以包括但不限于任何可以进行计算的硬件设备。上述服务器可以是单一服务器,也可以是由多个服务器组成的服务器集群,或者是云服务器。上述仅是一种示例,本实施例中对此不作任何限定。
作为一种可选地实施方式,如图3所示,本发明实施例提供了一种数据处理方法,包括如下步骤:
S302,配置原子数据指标;其中,上述原子数据指标中包括多种业务类型的字段和上述字段的值,上述原子数据指标位于实时或离线计算层;
具体地,上述原子数据指标包括数据库中的不同业务类型表中的各个字段,和字段的值;例如,在数据服务系统中查询某个班级的学习成绩情况,该业务类型表包括但不限于班级类别表和学习成绩表,学习成绩表中包括多个学科的字段和每个字段对应的成绩值。
S304,在服务接口层配置数据处理逻辑规则库,上述数据处理逻辑规则库中包括多个计算规则表达式;其中,上述实时或离线计算层和服务接口层为数据服务系统中两个不同的层级。
具体地,上述多个计算规则表达式中包含对相同的查询输入值得到的查询结果按照不同的计算口径得到的不同结果值;还包括基于查询系统前端页面的多个查询按键对应的计算规则表达式。
S306,对上述数据处理逻辑规则库中的每个数据处理逻辑进行解析,得到多个任务脚本集合。
具体地,上述数据处理逻辑规则库包括根据不同的查询规则的计算规则表达式;例如在数据服务系统中可根据区域,或根据年级等各种维度来查询某个班级的学习成绩情况,这就需要配置上述不同维度的计算规则表达式,将上述不同维度的计算规则表达式进行解析后,得到多个任务脚本集合,这里的任务脚本包括但不限于SQL查询语句。
S308,根据每个上述任务脚本集合从上述原子数据指标中获取对应的字段的值。
具体地,例如,通过上述任务脚本中对应的一个或多个SQL查询语句获取查询结果。
在本发明实施例中,采用了配置原子数据指标;其中,上述原子数据指标中包括多种业务类型的字段和上述字段的值,上述原子数据指标位于实时或离线计算层;在服务接口层配置数据处理逻辑规则库,上述数据处理逻辑规则库中包括多个计算规则表达式;其中,上述实时或离线计算层和服务接口层为数据服务系统中两个不同的层级;对上述数据处理逻辑规则库中的每个数据处理逻辑进行解析,得到多个任务脚本集合;根据每个上述任务脚本集合从上述原子数据指标中获取对应的字段的值的方法,在上述方法中,由于将指标计算从实时或离线计算层调整到数据服务接口层,以及配置包括多个计算规则表达式的数据处理逻辑规则库,不仅实现了衍生指标计算规则的高度可配置化,而且便于数据分析系统的维护和更新,进而解决了相关技术中数据服务可配置性较差,不便于系统更新和维护的技术问题。
在一个或多个实施例中,上述根据每个所述任务脚本集合从所述原子数据指标中获取对应的字段的值之后还包括:根据用户输入的指标信息和维度信息,从上述数据处理逻辑规则库中匹配出对应的处理逻辑;其中,上述数据处理逻辑规则库中存储有多个处理逻辑,每个上述处理逻辑包括数据源、指标字段、维度字段、指标字段和/或维度字段的过滤条件和数据源之间的关联关系。
具体地,上述指标信息包括但不限于用户输入的关键字等信息,如学校排名,学习成绩情况等,维度信息包括区域信息,班级信息等。
对上述处理逻辑进行组合,以生成目标任务脚本集合;
根据上述目标任务脚本集合基于原子数据指标获取目标结果。
在一个或多个实施例中,上述根据上述目标任务脚本集合基于原子数据指标获取目标结果,包括:
根据上述目标任务脚本集合中每个目标任务脚本所包括的字段获取对应字段值;
根据获取到的字段值计算每个目标任务脚本对应的指标结果;
根据每个目标任务脚本对应的指标结果获取上述目标结果。
在一个或多个实施例中,上述对上述处理逻辑进行组合,以生成目标任务脚本集合,包括:
根据上述服务接口层的antlr4插件对不同场景进行对应的数据聚合操作;根据上述数据聚合操作的结果生成目标任务脚本集合。
具体地,服务接口层基于antlr4内置实现数学运算的g4语法文件,对于Metric指标聚合这类简单聚合场景的衍生指标(复合指标),支持加减乘除和求最大值、最小值等常见运算操作,将对应所有原子指标的数值带入数学运算表达式,计算出衍生指标的结果值。
在一个或多个实施例中,上述数据聚合操作包括指标聚合、分桶聚合和管道聚合中的至少之一。
聚合操作中,指标聚合为对文档进行权值计算,输出结果既是权值。基于特定字段(field)或脚本值(generated using scripts)计算。
分桶聚合对文档进行分组操作,把满足相关特性的文档分到一个桶里,即桶分。输出结果是包含多个文档的桶。基于一个关键字(field、script),以及一些桶分(分组)的判断条件进行聚合,符合条件的会分到对应的组。
管道聚合对其它聚合操作的输出以及关联指标进行聚合。此类聚合的作用对象大多是桶,而不是文档,是一种后期对每一个分桶的一些计算操作。
在一个或多个实施例中,所述根据所述服务接口层的antlr4插件对不同场景进行对应的数据聚合操作包括以下至少之一:
当获取目标数据集中的统计指标数据时,根据所述服务接口层的antlr4插件的指标聚合函数进行指标聚合操作;
当根据目标字段获取目标数据集中的统计数据时,根据所述antlr4插件的分桶聚合函数进行分桶聚合操作;
当对经过指标聚合操作或分桶聚合操作的数据再次做聚合时,根据所述antlr4插件的指标聚合函数进行管道聚合操作。
在一个或多个实施例中,上述根据每个上述任务脚本集合从上述原子数据指标中获取对应的字段的值,包括:
基于SQL解析工具从上述原子数据指标中获取对应的字段的值;其中,上述SQL解析工具包括Apache Calcite组件。
基于上述实施例,如图4所示,在一应用实施例中,上述的数据处理方法包括如下内容:
1,数据实时或离线计算层开发原子指标
实时计算层运行flink任务,离线计算层跑hive脚本,在flink任务和hive脚本里面执行原子指标的计算逻辑,原子指标开发完成并验证无误后,将保持稳定,不会因前端各种衍生指标计算需求而改变计算逻辑。
2,数据服务接口层提供衍生指标计算规则配置平台
为做到快速响应前端业务系统,数据服务接口层提供衍生指标计算规则在线配置平台,数据开发人员可在测试环境上配置指标查询的数据源、比率型衍生指标和非比率型衍生指标的计算规则表达式等,配置内容实时生效,验证无误后可将配置内容导入生产环境,确认无误后发布线上环境。
3,基于antlr4解析原子指标集合
数据服务接口层基于antlr4语法解析器,内置解析衍生指标计算规则表达式的g4语法文件,提取构成衍生指标的所有原子指标,而衍生指标在数据源上面是不存在的,无法直接查询。
4,基于Apache Calcite实现Elasticsearch SQL访问
为统一开发流程,且便于数据开发人员、数据服务接口和前端系统开发人员理解和交流实现逻辑,将查询请求转化为SQL语句,通过Apache Calcite处理SQL,从Elasticsearch查询出每个原子指标的数值。
5,数据服务接口层处理简单聚合场景
数据服务接口层基于antlr4内置实现数学运算的g4语法文件,对于Metric指标聚合这类简单聚合场景的衍生指标,支持加减乘除和求最大值、最小值等常见运算操作,将对应所有原子指标的数值带入数学运算表达式,计算出衍生指标的结果值。
6,数据服务接口层处理复杂聚合场景
数据服务接口层基于antlr4内置解析Elasticsearch分桶聚合和管道聚合的聚合expr表达式和计算结果值script脚本语法文件,先实现复杂的分桶聚合或者管道聚合,再在聚合的基础之上实现数学计算,算出衍生指标的结果值。
7,输出衍生指标计算结果
前端业务系统通过Restful web接口等形式调用数据服务接口获取衍生指标结果值,数据服务接口层计算后直接返回。
本发明实施例中,衍生指标计算从数据实时或离线计算层转移到数据服务接口层,且数据服务接口层实现了衍生指标计算规则的高度可配置化,从简单的指标聚合场景到复杂的分桶聚合和管道聚合场景,都可在线配置对应计算规则,覆盖了前端的各种类型的业务需求。计算规则配置内容线上实时生效,避免了需要经过完整版本迭代周期才能实现衍生指标计算规则变更或新的衍生指标增加等情形,既节省了人力物力,也保证了数据中台快速响应前端业务的需求。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。
根据本发明实施例的另一个方面,还提供了一种用于实施上述数据处理方法的数据处理装置。如图5所示,该装置包括:
第一配置单元502,用于配置原子数据指标;其中,上述原子数据指标中包括多种业务类型的字段和上述字段的值,上述原子数据指标位于实时或离线计算层;
第二配置单元504,用于在服务接口层配置数据处理逻辑规则库,上述数据处理逻辑规则库中包括多个计算规则表达式;其中,上述实时或离线计算层和服务接口层为数据服务系统中两个不同的层级;
解析单元506,用于对上述数据处理逻辑规则库中的每个数据处理逻辑进行解析,得到多个任务脚本集合;
第一获取单元508,用于根据每个上述任务脚本集合从上述原子数据指标中获取对应的字段的值。
在本发明实施例中,采用了配置原子数据指标;其中,上述原子数据指标中包括多种业务类型的字段和上述字段的值,上述原子数据指标位于实时或离线计算层;在服务接口层配置数据处理逻辑规则库,上述数据处理逻辑规则库中包括多个计算规则表达式;其中,上述实时或离线计算层和服务接口层为数据服务系统中两个不同的层级;对上述数据处理逻辑规则库中的每个数据处理逻辑进行解析,得到多个任务脚本集合;根据每个上述任务脚本集合从上述原子数据指标中获取对应的字段的值的方法,在上述方法中,由于将指标计算从实时或离线计算层调整到数据服务接口层,以及配置包括多个计算规则表达式的数据处理逻辑规则库,不仅实现了衍生指标计算规则的高度可配置化,而且便于数据分析系统的维护和更新,进而解决了相关技术中数据服务可配置性较差,不便于系统更新和维护的技术问题。
在一个或多个实施例中,上述数据处理装置,还包括:
匹配单元,用于根据用户输入的指标信息和维度信息,从上述数据处理逻辑规则库中匹配出对应的处理逻辑;其中,上述数据处理逻辑规则库中存储有多个处理逻辑,每个上述处理逻辑包括数据源、指标字段、维度字段、指标字段和/或维度字段的过滤条件和数据源之间的关联关系;
组合单元,用于对上述处理逻辑进行组合,以生成目标任务脚本集合;
第二获取单元,用于根据上述目标任务脚本集合基于原子数据指标获取目标结果。
在一个或多个实施例中,第二获取单元,包括:
第一获取模块,用于根据上述目标任务脚本集合中每个目标任务脚本所包括的字段获取对应字段值;
计算模块,用于根据获取到的字段值计算每个目标任务脚本对应的指标结果;
第二获取模块,用于根据每个目标任务脚本对应的指标结果获取上述目标结果。
在一个或多个实施例中,上述组合单元,包括:
聚合操作模块,用于根据上述服务接口层的antlr4插件对不同场景进行对应的数据聚合操作;
根据上述数据聚合操作的结果生成目标任务脚本集合。
在一个或多个实施例中,上述数据聚合操作包括指标聚合、分桶聚合和管道聚合中的至少之一。
在一个或多个实施例中,所述聚合操作模块,包括以下至少之一:
第一聚合子单元,用于当获取目标数据集中的统计指标数据时,根据所述服务接口层的antlr4插件的指标聚合函数进行指标聚合操作;
第二聚合子单元,用于当根据目标字段获取目标数据集中的统计数据时,根据所述antlr4插件的分桶聚合函数进行分桶聚合操作;
第三聚合子单元,用于当对经过指标聚合操作或分桶聚合操作的数据再次做聚合时,根据所述antlr4插件的指标聚合函数进行管道聚合操作。
在一个或多个实施例中,上述第一获取单元508,包括:
第三获取模块,用于基于SQL解析工具从上述原子数据指标中获取对应的字段的值;其中,上述SQL解析工具包括Apache Calcite组件。
根据本发明实施例的又一个方面,还提供了一种用于实施上述数据处理方法的电子设备,该电子设备可以是图6所示的终端设备或服务器。本实施例以该电子设备为终端为例来说明。如图6所示,该电子设备包括处理器602和存储器604,该处理器602中存储有计算机程序,该处理器602被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
根据本申请实施例的又一个方面,还提供了一种用于实施上述数据处理方法的电子设备,该电子设备可以是图1所示的终端设备或服务器。本实施例以该电子设备为服务器为例来说明。如图6所示,该电子设备包括存储器602和处理器604,该存储器602中存储有计算机程序,该处理器604被设置为通过计算机程序执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述电子设备可以位于计算机网络的多个网络设备中的至少一个网络设备。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
S1,配置原子数据指标;其中,上述原子数据指标中包括多种业务类型的字段和上述字段的值,上述原子数据指标位于实时或离线计算层;
S2,在服务接口层配置数据处理逻辑规则库,上述数据处理逻辑规则库中包括多个计算规则表达式;其中,上述实时或离线计算层和服务接口层为数据服务系统中两个不同的层级;
S3,对上述数据处理逻辑规则库中的每个数据处理逻辑进行解析,得到多个任务脚本集合;
S4,根据每个上述任务脚本集合从上述原子数据指标中获取对应的字段的值。
可选地,本领域普通技术人员可以理解,图6所示的结构仅为示意,电子装置电子设备也可以是智能手机(如Android手机、iOS手机等)、平板电脑、掌上电脑以及移动互联网设备(Mobile Internet Devices,MID)、PAD等终端设备。图6其并不对上述电子装置电子设备的结构造成限定。例如,电子装置电子设备还可包括比图6中所示更多或者更少的组件(如网络接口等),或者具有与图6所示不同的配置。
其中,存储器602可用于存储软件程序以及模块,如本申请实施例中的数据处理方法和装置对应的程序指令/模块,处理器604通过运行存储在存储器602内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的数据处理方法。存储器602可包括高速随机存储器,还可以包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器602可进一步包括相对于处理器604远程设置的存储器,这些远程存储器可以通过网络连接至终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。其中,存储器602具体可以但不限于用于存储数据处理逻辑规则库。作为一种示例,如图6所示,上述存储器602中可以但不限于包括上述数据处理装置中第一配置单元502、第二配置单元504、解析单元506、及第一获取单元508。此外,还可以包括但不限于上述数据处理装置中的其他模块单元,本示例中不再赘述。
可选地,上述的传输装置606用于经由一个网络接收或者发送数据。上述的网络具体实例可包括有线网络及无线网络。在一个实例中,传输装置606包括一个网络适配器(Network Interface Controller,NIC),其可通过网线与其他网络设备与路由器相连从而可与互联网或局域网进行通讯。在一个实例中,传输装置606为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行通讯。
此外,上述电子设备还包括:显示器608,用于显示数据查询结果;和连接总线610,用于连接上述电子设备中的各个模块部件。
在其他实施例中,上述终端设备或者服务器可以是一个分布式系统中的一个节点,其中,该分布式系统可以为区块链系统,该区块链系统可以是由该多个节点通过网络通信的形式连接形成的分布式系统。其中,节点之间可以组成点对点(P2P,Peer To Peer)网络,任意形式的计算设备,比如服务器、终端等电子设备都可以通过加入该点对点网络而成为该区块链系统中的一个节点。
在一个或多个实施例中,本申请还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述数据处理方法。其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述计算机可读的存储介质可以被设置为存储用于执行以下步骤的计算机程序:
S1,配置原子数据指标;其中,上述原子数据指标中包括多种业务类型的字段和上述字段的值,上述原子数据指标位于实时或离线计算层;
S2,在服务接口层配置数据处理逻辑规则库,上述数据处理逻辑规则库中包括多个计算规则表达式;其中,上述实时或离线计算层和服务接口层为数据服务系统中两个不同的层级;
S3,对上述数据处理逻辑规则库中的每个数据处理逻辑进行解析,得到多个任务脚本集合;
S4,根据每个上述任务脚本集合从上述原子数据指标中获取对应的字段的值。
可选地,在本实施例中,本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:闪存盘、只读存储器(Read-Only Memory,ROM)、随机存取器(Random Access Memory,RAM)、磁盘或光盘等。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上述实施例中的集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在上述计算机可读取的存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的客户端,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
以上仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种数据处理方法,其特征在于,包括:
配置原子数据指标;其中,所述原子数据指标包括多种业务类型的字段和所述字段的值,所述原子数据指标位于实时或离线计算层;
在服务接口层配置数据处理逻辑规则库,所述数据处理逻辑规则库中包括多个计算规则表达式;其中,所述实时或离线计算层和服务接口层为数据服务系统中两个不同的层级;
对所述数据处理逻辑规则库中的每个数据处理逻辑进行解析,得到多个任务脚本集合;
根据每个所述任务脚本集合从所述原子数据指标中获取对应的字段的值。
2.根据权利要求1所述的方法,其特征在于,所述根据每个所述任务脚本集合从所述原子数据指标中获取对应的字段的值之后,还包括:
根据用户输入的指标信息和维度信息,从所述数据处理逻辑规则库中匹配出对应的处理逻辑;其中,所述数据处理逻辑规则库中存储有多个处理逻辑,每个所述处理逻辑包括数据源、指标字段、维度字段、指标字段和/或维度字段的过滤条件和数据源之间的关联关系;
对所述处理逻辑进行组合,以生成目标任务脚本集合;
根据所述目标任务脚本集合基于原子数据指标获取目标结果。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标任务脚本集合基于原子数据指标获取目标结果,包括:
根据所述目标任务脚本集合中每个目标任务脚本所包括的字段获取对应字段值;
根据获取到的字段值计算每个目标任务脚本对应的指标结果;
根据每个目标任务脚本对应的指标结果获取所述目标结果。
4.根据权利要求2所述的方法,其特征在于,所述对所述处理逻辑进行组合,以生成目标任务脚本集合,包括:
根据所述服务接口层的antlr4插件对不同场景进行对应的数据聚合操作;
根据所述数据聚合操作的结果生成目标任务脚本集合。
5.根据权利要求4所述的方法,其特征在于,所述根据所述服务接口层的antlr4插件对不同场景进行对应的数据聚合操作包括以下至少之一:
当获取目标数据集中的统计指标数据时,根据所述服务接口层的antlr4插件的指标聚合函数进行指标聚合操作;
当根据目标字段获取目标数据集中的统计数据时,根据所述antlr4插件的分桶聚合函数进行分桶聚合操作;
当对经过指标聚合操作或分桶聚合操作的数据再次做聚合时,根据所述antlr4插件的指标聚合函数进行管道聚合操作。
6.根据权利要求1所述的方法,其特征在于,所述根据每个所述任务脚本集合从所述原子数据指标中获取对应的字段的值,包括:
基于结构化查询语言解析工具从所述原子数据指标中获取对应的字段的值;其中,所述结构化查询语言解析工具包括Apache Calcite组件。
7.一种数据处理装置,其特征在于,包括:
第一配置单元,用于配置原子数据指标;其中,所述原子数据指标包括多种业务类型的字段和所述字段的值,所述原子数据指标位于实时或离线计算层;
第二配置单元,用于在服务接口层配置数据处理逻辑规则库,所述数据处理逻辑规则库中包括多个计算规则表达式;其中,所述实时或离线计算层和服务接口层为数据服务系统中两个不同的层级;
解析单元,用于对所述数据处理逻辑规则库中的每个数据处理逻辑进行解析,得到多个任务脚本集合;
第一获取单元,用于根据每个所述任务脚本集合从所述原子数据指标中获取对应的字段的值。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:
匹配单元,用于根据用户输入的指标信息和维度信息,从所述数据处理逻辑规则库中匹配出对应的处理逻辑;其中,所述数据处理逻辑规则库中存储有多个处理逻辑,每个所述处理逻辑包括数据源、指标字段、维度字段、指标字段和/或维度字段的过滤条件和数据源之间的关联关系;
组合单元,用于对所述处理逻辑进行组合,以生成目标任务脚本集合;
第二获取单元,用于根据所述目标任务脚本集合基于原子数据指标获取目标结果。
9.一种计算机可读的存储介质,其特征在于,所述计算机可读的存储介质包括存储的程序,其中,所述程序运行时执行所述权利要求1至6任一项中所述的方法。
10.一种电子设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行所述权利要求1至6任一项中所述的方法。
CN202210422776.7A 2022-04-21 2022-04-21 数据处理方法、装置、存储介质及电子设备 Pending CN114817389A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210422776.7A CN114817389A (zh) 2022-04-21 2022-04-21 数据处理方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210422776.7A CN114817389A (zh) 2022-04-21 2022-04-21 数据处理方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN114817389A true CN114817389A (zh) 2022-07-29

Family

ID=82506199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210422776.7A Pending CN114817389A (zh) 2022-04-21 2022-04-21 数据处理方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN114817389A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952239A (zh) * 2023-03-08 2023-04-11 北京纷扬科技有限责任公司 基于表达式的分布式分级计算系统、电子设备及存储介质
CN117874307A (zh) * 2024-03-12 2024-04-12 北京全路通信信号研究设计院集团有限公司 一种工程数据字段识别方法、装置、电子设备和存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115952239A (zh) * 2023-03-08 2023-04-11 北京纷扬科技有限责任公司 基于表达式的分布式分级计算系统、电子设备及存储介质
CN117874307A (zh) * 2024-03-12 2024-04-12 北京全路通信信号研究设计院集团有限公司 一种工程数据字段识别方法、装置、电子设备和存储介质
CN117874307B (zh) * 2024-03-12 2024-06-04 北京全路通信信号研究设计院集团有限公司 一种工程数据字段识别方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
CN108628947B (zh) 一种业务规则匹配处理方法、装置及处理设备
CN106649630A (zh) 数据查询方法及装置
CN114817389A (zh) 数据处理方法、装置、存储介质及电子设备
CN109582289B (zh) 规则引擎中规则流的处理方法、系统、存储介质和处理器
CN112559301B (zh) 业务处理方法、存储介质、处理器及电子装置
CN113590576A (zh) 数据库参数调整方法、装置、存储介质以及电子设备
CN103257852B (zh) 一种分布式应用系统的开发环境搭建的方法和装置
CN113642300A (zh) 一种报表生成方法、装置、电子设备及计算机可读介质
US11232105B2 (en) Unified metrics computation platform
CN115016784B (zh) 低代码应用复用方法、应用解析系统、设备及存储介质
CN111737449B (zh) 相似问题的确定方法和装置、存储介质及电子装置
CN114090388A (zh) 信息获取方法、服务器集群、服务器及设备
CN110399564B (zh) 帐号分类方法和装置、存储介质及电子装置
CN116827774A (zh) 一种业务分析方法、装置、设备及存储介质
CN113810234B (zh) 微服务链路拓扑处理方法、装置及可读存储介质
CN114253798A (zh) 指标数据采集方法和装置、电子设备、存储介质
CN113656369A (zh) 一种大数据场景下的日志分布式流式采集及计算方法
CN110297748A (zh) 一种定位调用出错的方法、装置和计算机可读存储介质
CN113568923A (zh) 数据库中数据的查询方法和装置、存储介质及电子设备
CN111488386A (zh) 数据查询方法和装置
CN111191103A (zh) 从互联网中识别分析企业主体信息方法、装置及存储介质
CN116382640A (zh) 微服务的治理方法、装置、设备及存储介质
CN106599244B (zh) 通用的原始日志清洗装置及方法
CN114296696A (zh) 业务功能操作方法和装置、存储介质及电子设备
CN115525440A (zh) 微服务调用数据处理方法、装置、介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination