CN113722337B - 业务数据确定方法、装置、设备及存储介质 - Google Patents
业务数据确定方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN113722337B CN113722337B CN202111291244.6A CN202111291244A CN113722337B CN 113722337 B CN113722337 B CN 113722337B CN 202111291244 A CN202111291244 A CN 202111291244A CN 113722337 B CN113722337 B CN 113722337B
- Authority
- CN
- China
- Prior art keywords
- data
- target
- generating
- expression
- spark sql
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
- G06F16/221—Column-oriented storage; Management thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/23—Updating
- G06F16/2393—Updating materialised views
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种业务数据确定方法、装置、设备及存储介质,该方法包括步骤:获取目标业务数据对应的数据类型和数据加工方式;基于所述数据类型和所述数据加工方式,生成Spark SQL表达式;基于所述Spark SQL表达式,从多个数据源的原始业务数据中确定目标业务数据。本申请实现了通过Spark SQL表达式统一加工多个数据源的原始业务数据,而无需采用多个方法或函数来加工该原始业务数据,从而降低了加工处理多个数据源的数据时的成本。
Description
技术领域
本申请涉及数据处理领域,尤其涉及一种业务数据确定方法、装置、设备及存储介质。
背景技术
随着信息技术的高速发展,计算机网络技术的广泛应用,越来越多的数据被沉淀、存储了下来。通常,这些海量且繁杂的数据往往是一个企业乃至行业最为宝贵的财富,因此,从不断加速产生的大量数据中攫取有价值的信息,发现和创造新的商业机会成为了各行各业领导者所追求的目标,然而,陈旧的历史数据与新的业务数据或者与当前业务需求之间往往存在一定的差异,如何将现有的数据抽取并加工成适应当前业务需求的数据,是分析历史数据的重要前提。
目前,从数据源获取数据的手段为:采用对应数据源提供的原生的处理方法或函数对数据进行加工处理。然而,在面对数据源为多个的情况时,由于不同的数据源面对同种加工处理的需求,所需要采用的方法或函数基本不相同,导致加工处理多个数据源的数据时的成本极大。
发明内容
本申请的主要目的在于提供一种业务数据确定方法、装置、设备及存储介质,旨在解决现有的如何降低加工处理多个数据源的数据时的成本的技术问题。
为实现上述目的,本申请提供一种业务数据确定方法,所述业务数据确定方法包括步骤:
获取目标业务数据对应的数据类型和数据加工方式;
基于所述数据类型和所述数据加工方式,生成Spark SQL表达式;
基于所述Spark SQL表达式,从多个数据源的原始业务数据中确定目标业务数据。
可选地,所述基于所述数据类型和所述数据加工方式,生成Spark SQL表达式,包括:
基于所述数据类型和所述数据加工方式,生成数据列加工表达式;
基于所述数据列加工表达式,生成Spark SQL表达式。
可选地,所述基于所述数据列加工表达式,生成Spark SQL表达式,包括:
获取所述原始业务数据的数据结构信息;
基于所述数据加工方式,更新所述数据结构信息,得到更新后数据结构信息;
基于所述更新后数据结构信息和所述数据列加工表达式,生成Spark SQL表达式。
可选地,所述基于所述Spark SQL表达式,从多个数据源的原始业务数据中确定目标业务数据之前,包括:
获取数据连接信息;
基于所述数据连接信息,连接多个数据源,并基于预设查找方式从所述多个数据源中确定多个目标数据块;
从所述多个目标数据块中抽取原始业务数据。
可选地,所述获取数据连接信息,包括:
接收配置指令,并基于所述配置指令,生成数据连接信息;
其中,所述配置指令是用户基于多个数据源的数据源类型给出的。
可选地,所述从所述多个目标数据块中抽取原始业务数据,包括:
获取与所述多个目标数据块对应的关联字段;
基于所述关联字段,建立与所述多个目标数据块之间的关联关系;
基于所述关联关系,从所述多个目标数据块中抽取原始业务数据。
可选地,所述基于所述Spark SQL表达式,从多个数据源的原始业务数据中确定目标业务数据,包括:
获取多个数据源的原始业务数据对应的临时视图;
基于所述Spark SQL表达式,从所述临时视图中确定目标业务数据。
此外,为实现上述目的,本申请还提供一种业务数据确定装置,所述业务数据确定装置包括:
第一获取模块,用于获取目标业务数据对应的数据类型和数据加工方式;
生成模块,用于基于所述数据类型和所述数据加工方式,生成Spark SQL表达式;
第一确定模块,用于基于所述Spark SQL表达式,从多个数据源的原始业务数据中确定目标业务数据。
可选地,所述生成模块还用于:
基于所述数据类型和所述数据加工方式,生成数据列加工表达式;
基于所述数据列加工表达式,生成Spark SQL表达式。
可选地,所述生成模块还用于:
获取所述原始业务数据的数据结构信息;
基于所述数据加工方式,更新所述数据结构信息,得到更新后数据结构信息;
基于所述更新后数据结构信息和所述数据列加工表达式,生成Spark SQL表达式。
可选地,所述业务数据确定装置还包括:
第二获取模块,用于获取数据连接信息;
连接模块,用于基于所述数据连接信息,连接多个数据源,并基于预设查找方式从所述多个数据源中确定多个目标数据块;
抽取模块,用于从所述多个目标数据块中抽取原始业务数据。
可选地,所述第二获取模块还用于:
接收配置指令,并基于所述配置指令,生成数据连接信息;
其中,所述配置指令是用户基于多个数据源的数据源类型给出的。
可选地,所述抽取模块还用于:
获取与所述多个目标数据块对应的关联字段;
基于所述关联字段,建立与所述多个目标数据块之间的关联关系;
基于所述关联关系,从所述多个目标数据块中抽取原始业务数据。
可选地,所述业务数据确定装置还包括:
第三获取模块,用于获取多个数据源的原始业务数据对应的临时视图;
第二确定模块,用于基于所述Spark SQL表达式,从所述临时视图中确定目标业务数据。
此外,为实现上述目的,本申请还提供一种业务数据确定设备,所述业务数据确定设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的业务数据确定程序,所述业务数据确定程序被所述处理器执行时实现如上所述的业务数据确定方法的步骤。
此外,为实现上述目的,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有业务数据确定程序,所述业务数据确定程序被处理器执行时实现如上所述的业务数据确定方法的步骤。
与现有技术中,在面对数据源为多个的情况时,由于不同的数据源面对同种加工处理的需求,所需要采用的方法或函数基本不相同,导致加工处理多个数据源的数据时的成本极大相比,本申请通过获取目标业务数据对应的数据类型和数据加工方式;基于所述数据类型和所述数据加工方式,生成Spark SQL表达式;基于所述Spark SQL表达式,从多个数据源的原始业务数据中确定目标业务数据。本申请实现了通过Spark SQL表达式统一加工多个数据源的原始业务数据,而无需采用多个方法或函数来加工该原始业务数据,从而降低了加工处理多个数据源的数据时的成本。
附图说明
图1是本申请业务数据确定方法第一实施例的流程示意图;
图2是本申请业务数据确定装置较佳实施例的功能模块示意图;
图3是本申请实施例方案涉及的硬件运行环境的结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供一种业务数据确定方法,参照图1,图1为本申请业务数据确定方法第一实施例的流程示意图。
本申请实施例提供了业务数据确定方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。业务数据确定方法可应用于服务器中。为了便于描述,以下省略执行主体描述业务数据确定方法的各个步骤。业务数据确定方法包括:
步骤S10,获取目标业务数据对应的数据类型和数据加工方式。
在本实施例中,本申请基于Spark SQL技术实现,其中,Spark SQL是Spark(一种通用的计算引擎)用来处理结构化数据的一个模块,它提供一个抽象的数据集DataFrame,并且是作为分布式SQL查询引擎的应用。
其中,目标业务数据由多个目标数据列组成,对于各目标数据列,其数据类型不同,例如MySQL(一个完全托管的数据库服务)中的数据类型包括三种主要的类型:Text(文本)类型、Number(数字)类型和Date/Time(日期/时间)类型。
其中,数据加工方式包括删除元数据列、新建表达式、缺失值填充、拆分列、去空格、值映射、转换为日期列或转换为数字列等操作。其中,对于删除元数据列,加工后的数据将在原始业务数据的基础上不再有该元数据列;对于对一个或多个数据列新建表达式,加工后的数据将在原始业务数据的基础上新增一个数据列,该数据列的信息内容根据一个或多个数据列及表达式内容决定;对于对一个数据列进行缺失值填充,该数据列中值为Null或空字符串的值被映射为其它指定的值;对于对一个数据列进行拆分列,该数据列的内容按照配置的规则拆分为多个数据列;对于对一个数据列进行值映射,该数据列中的指定的值被映射为其它指定的值;对于对一个数据列进行转换日期列,该数据列中的时间戳或者时间字符串被转换为日期类型的数据;对于对一个数据列进行转换为数字列,该数据列的布尔值或者数字字符串被转换为数值类型的数据。
具体地,获取目标业务数据对应的数据类型和数据加工方式,可以理解,数据加工方式通过用户需求确定,具体可以由用户来指定,例如在用户需求为删除数据列A和新建表达式B时,数据加工方式包括删除元数据列、新建表达式,从而通过该数据加工方式对数据进行数据加工,以满足用户需求。
步骤S20,基于所述数据类型和所述数据加工方式,生成Spark SQL表达式。
进一步地,基于所述数据类型和所述数据加工方式,生成Spark SQL表达式,包括:
步骤a,基于所述数据类型和所述数据加工方式,生成数据列加工表达式。
在本实施例中,基于数据类型和数据加工方式,生成数据列加工表达式,其中,数据列加工表达式为可以作用于数据,以对该数据进行加工的表达式。
步骤b,基于所述数据列加工表达式,生成Spark SQL表达式。
进一步地,所述基于所述数据列加工表达式,生成Spark SQL表达式,包括:
步骤b1,获取所述原始业务数据的数据结构信息;
步骤b2,基于所述数据加工方式,更新所述数据结构信息,得到更新后数据结构信息;
步骤b3,基于所述更新后数据结构信息和所述数据列加工表达式,生成Spark SQL表达式。
在本实施例中,基于数据列加工表达式,生成Spark SQL表达式。具体地,获取原始业务数据的数据结构信息;基于数据加工方式,更新数据结构信息得到更新后数据结构信息;基于更新后数据结构信息和数据列加工表达式,生成Spark SQL表达式。
其中,Spark SQL(Spark SQL在Spark核心上带出一种名为SchemaRDD的资料抽象化概念,提供结构化和半结构化资料相关的支持)表达式的生成需要已知数据列加工表达式和更新后数据结构信息,即需要目标业务数据的数据结构信息和加工原始业务数据从而得到目标业务数据对应的数据列加工表达式,Spark SQL表达式实现的是提供一种统一、快捷以及便于操作的数据加工的过程。
需要说明的是,数据加工方式不同,数据结构不同,例如数据加工方式为删除元数据列,则原有的数据结构被破坏,形成更新的数据结构,即得到更新后数据结构信息。
具体地,组成完整的Spark SQL表达式的过程为:在抽取原始业务数据时,确定该原始业务数据的数据结构信息,并在原始业务数据的某一数据列或多数据列中选择一种或多种数据加工方式,同时,结合该数据列的数据类型生成对应的数据列加工表达式,并更新数据结构信息;最后,通过加工/处理后的数据列加工表达式及更新后数据结构信息,组成完整的Spark SQL表达式。
步骤S30,基于所述Spark SQL表达式,从多个数据源的原始业务数据中确定目标业务数据。
在本实施例中,基于Spark SQL表达式,从多个数据源的原始业务数据中确定目标业务数据。其中,数据源包括MySQL、Oracle(一款一体式云数据库解决方案)、Derby(一个完全用java编写的数据库)、PostgreSQL(开源的对象-关系数据库数据库管理系统)、SQLServer(由美国微软公司所推出的关系数据库解决方案)等关系型数据库,或者是MongoDB(一种面向文档的数据库管理系统)、Elasticsearch(一个基于Lucene库的搜索引擎)等非关系型数据,又或者Microsoft Office Access(由微软发布的关系数据库管理系统)本地存储、Excel等。
可以理解,在从多个数据源中确定目标业务数据的过程中,是通过Spark SQL表达式统一确定的,有效降低了数据加工逻辑的复杂度和学习成本;此外,对于部分数据加工方式,有些数据源还无法提供相应的方法或函数,Spark SQL表达式能够有效解决该问题。
进一步地,所述基于所述Spark SQL表达式,从多个数据源的原始业务数据中确定目标业务数据之前,包括:
步骤c,获取数据连接信息;
进一步地,所述获取数据连接信息,包括:
步骤c1,接收配置指令,并基于所述配置指令,生成数据连接信息;
其中,所述配置指令是用户基于多个数据源的数据源类型给出的。
在本实施例中,接收配置指令,并基于配置指令,生成数据连接信息;其中,配置指令是用户基于多个数据源的数据源类型给出的。
具体地,数据连接信息通过接收用户给出的配置指令生成,其中,配置指令与数据源的数据源类型对应,即不同数据源类型的数据源其配置指令不同,用户在给出配置指令时,需要结合数据源类型差异化给出配置指令。例如MySQL和Oracle的连接方式不同,在需要连接MySQL和Oracle时,需要分别通过MySQL对应的配置指令和Oracle对应的配置指令,来分别生成MySQL对应的数据连接信息和Oracle对应的数据连接信息。
此外,用户在为所有需要连接的数据源配置数据连接信息时,可以具体选择数据源中的数据块,即指定获取一数据源中一数据块中的数据。
需要说明的是,上述接收配置指令并生成数据连接信息的过程,通过数据源连接配置模块来实现,数据源连接配置模块主要为各种所支持的可连接的数据源提供一个配置数据连接信息的入口。通过在这个数据源连接配置模块配置的数据连接信息,可以测试可连接的数据源的连通性,以确保该数据源是可连通的,以及作为后续连接数据源对应的存储介质来获取原始业务数据的基础。
步骤d,基于所述数据连接信息,连接多个数据源,并基于预设查找方式从所述多个数据源中确定多个目标数据块。
在本实施例中,基于数据连接信息,连接多个数据源,并基于预设查找方式从多个数据源中确定多个目标数据块。具体地,通过数据连接信息,与多个数据源建立连接,其中,多个数据源之间是存在业务关联的。
其中,目标数据块通过预设查找方式确定,该预设查找方式包括层级选择的方式和数据源查询语句的方式。
步骤e,从所述多个目标数据块中抽取原始业务数据。
在本实施例中,从多个目标数据块中抽取原始业务数据,具体地,以类似于关系型数据库join的方式,将多个目标数据块中的数据抽取并存储为一个整体的、有关联的原始业务数据,从而解决了不同数据源间的数据无法关联、互通和整合分析的问题,有效弱化了不同数据源之间的差异。
需要说明的是,在抽取原始业务数据时,可以通过Spark Job的方式离线异步抽取或者以Spark SQL的方式实时在线抽取。
需要说明的是,上述数据结构信息是在抽取原始业务数据后,通过分析该原始业务数据并保存得到的。
进一步地,所述从所述多个目标数据块中抽取原始业务数据,包括:
步骤e1,获取与所述多个目标数据块对应的关联字段;
步骤e2,基于所述关联字段,建立与所述多个目标数据块之间的关联关系。
在本实施例中,获取与多个目标数据块对应的关联字段;基于关联字段,建立与多个目标数据块之间的关联关系。其中,关联字段用于关联多个目标数据块,从而建立多个目标数据块之间的关联关系,该关联字段可以为多个目标数据块中共同存在的字段。例如目标数据块A中记录有零件名称和零件尺寸的字段,目标数据块B中记录有零件名称和零件厂商的字段,则目标数据块A和目标数据块B中共同存在的字段为零件名称,因此,零件名称可以作为关联字段。
步骤e3,基于所述关联关系,从所述多个目标数据块中抽取原始业务数据。
在本实施例中,基于关联关系,从多个目标数据块中抽取原始业务数据。具体地,通过该关联关系,可以将从不同数据源的不同目标数据块中抽取到的数据,整合为一个整体,得到原始业务数据。可以理解,多个数据源之间互为异构数据源,通过Spark SQL表达式来整合异构数据源中的数据,避免了整合异构数据源的数据时需要额外做的数据转换与数据关系映射,从而简化了数据整合的过程。
进一步地,所述基于所述Spark SQL表达式,从多个数据源的原始业务数据中确定目标业务数据,包括:
步骤f,获取多个数据源的原始业务数据对应的临时视图;
步骤g,基于所述Spark SQL表达式,从所述临时视图中确定目标业务数据。
在本实施例中,获取多个数据源的原始业务数据对应的临时视图;基于Spark SQL表达式,从临时视图中确定目标业务数据,其中,原始业务数据以临时视图的形式供数据加工过程的使用。需要说明的是,临时视图由所有的多个数据源的原始业务数据构成,对于数据加工,其加工的是临时视图,而非原始业务数据本身,避免了在原始业务数据无法满足当前业务需求时,需要投入大量的人力对原始业务数据进行修改,同时更改产生原始业务数据的软件系统逻辑,因此,通过加工临时视图,可以做到在不改变原始业务数据的情况下,确定目标业务数据。
与现有技术中,在面对数据源为多个的情况时,由于不同的数据源面对同种加工处理的需求,所需要采用的方法或函数基本不相同,导致加工处理多个数据源的数据时的成本极大相比,本申请通过获取目标业务数据对应的数据类型和数据加工方式;基于所述数据类型和所述数据加工方式,生成Spark SQL表达式;基于所述Spark SQL表达式,从多个数据源的原始业务数据中确定目标业务数据。本申请实现了通过Spark SQL表达式统一加工多个数据源的原始业务数据,而无需采用多个方法或函数来加工该原始业务数据,从而降低了加工处理多个数据源的数据时的成本。
此外,本申请还提供一种业务数据确定装置,参照图2,所述业务数据确定装置包括:
第一获取模块10,用于获取目标业务数据对应的数据类型和数据加工方式;
生成模块20,用于基于所述数据类型和所述数据加工方式,生成Spark SQL表达式;
第一确定模块30,用于基于所述Spark SQL表达式,从多个数据源的原始业务数据中确定目标业务数据。
可选地,所述生成模块20还用于:
基于所述数据类型和所述数据加工方式,生成数据列加工表达式;
基于所述数据列加工表达式,生成Spark SQL表达式。
可选地,所述生成模块20还用于:
获取所述原始业务数据的数据结构信息;
基于所述数据加工方式,更新所述数据结构信息,得到更新后数据结构信息;
基于所述更新后数据结构信息和所述数据列加工表达式,生成Spark SQL表达式。
可选地,所述业务数据确定装置还包括:
第二获取模块,用于获取数据连接信息;
连接模块,用于基于所述数据连接信息,连接多个数据源,并基于预设查找方式从所述多个数据源中确定多个目标数据块;
抽取模块,用于从所述多个目标数据块中抽取原始业务数据。
可选地,所述第二获取模块还用于:
接收配置指令,并基于所述配置指令,生成数据连接信息;
其中,所述配置指令是用户基于多个数据源的数据源类型给出的。
可选地,所述抽取模块还用于:
获取与所述多个目标数据块对应的关联字段;
基于所述关联字段,建立与所述多个目标数据块之间的关联关系;
基于所述关联关系,从所述多个目标数据块中抽取原始业务数据。
可选地,所述业务数据确定装置还包括:
第三获取模块,用于获取多个数据源的原始业务数据对应的临时视图;
第二确定模块,用于基于所述Spark SQL表达式,从所述临时视图中确定目标业务数据。
本申请业务数据确定装置具体实施方式与上述业务数据确定方法各实施例基本相同,在此不再赘述。
此外,本申请还提供一种业务数据确定设备。如图3所示,图3是本申请实施例方案涉及的硬件运行环境的结构示意图。
需要说明的是,图3即可为业务数据确定设备的硬件运行环境的结构示意图。
如图3所示,该业务数据确定设备可以包括:处理器1001,例如CPU,存储器1005,用户接口1003,网络接口1004,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
可选地,业务数据确定设备还可以包括RF(Radio Frequency,射频)电路,传感器、音频电路、WiFi模块等等。
本领域技术人员可以理解,图3中示出的业务数据确定设备结构并不构成对业务数据确定设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图3所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及业务数据确定程序。其中,操作系统是管理和控制业务数据确定设备硬件和软件资源的程序,支持业务数据确定程序以及其它软件或程序的运行。
在图3所示的业务数据确定设备中,用户接口1003主要用于连接终端,与终端进行数据通信,如接收终端发送的信令数据;网络接口1004主要用于后台服务器,与后台服务器进行数据通信;处理器1001可以用于调用存储器1005中存储的业务数据确定程序,并执行如上所述的业务数据确定方法的步骤。
本申请业务数据确定设备具体实施方式与上述业务数据确定方法各实施例基本相同,在此不再赘述。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有业务数据确定程序,所述业务数据确定程序被处理器执行时实现如上所述的业务数据确定方法的步骤。
本申请计算机可读存储介质具体实施方式与上述业务数据确定方法各实施例基本相同,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,设备,或者网络设备等)执行本申请各个实施例所述的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (7)
1.一种业务数据确定方法,其特征在于,所述方法包括:
获取目标业务数据对应的数据类型和数据加工方式;其中,所述数据加工方式通过用户需求确定;
基于所述数据类型和所述数据加工方式,生成Spark SQL表达式;
基于所述Spark SQL表达式,从多个数据源的原始业务数据中确定目标业务数据;
所述基于所述数据类型和所述数据加工方式,生成Spark SQL表达式,包括:
基于所述数据类型和所述数据加工方式,生成数据列加工表达式;
基于所述数据列加工表达式,生成Spark SQL表达式;
所述基于所述数据列加工表达式,生成Spark SQL表达式,包括:
获取所述原始业务数据的数据结构信息;
基于所述数据加工方式,更新所述数据结构信息,得到更新后数据结构信息;
基于所述更新后数据结构信息和所述数据列加工表达式,生成Spark SQL表达式;
所述基于所述Spark SQL表达式,从多个数据源的原始业务数据中确定目标业务数据之前,包括:
获取数据连接信息;
基于所述数据连接信息,连接多个数据源,并基于预设查找方式从所述多个数据源中确定多个目标数据块;
从所述多个目标数据块中抽取原始业务数据。
2.如权利要求1所述的方法,其特征在于,所述获取数据连接信息,包括:
接收配置指令,并基于所述配置指令,生成数据连接信息;
其中,所述配置指令是用户基于多个数据源的数据源类型给出的。
3.如权利要求1所述的方法,其特征在于,所述从所述多个目标数据块中抽取原始业务数据,包括:
获取与所述多个目标数据块对应的关联字段;
基于所述关联字段,建立与所述多个目标数据块之间的关联关系;
基于所述关联关系,从所述多个目标数据块中抽取原始业务数据。
4.如权利要求1至3中任一项所述的方法,其特征在于,所述基于所述Spark SQL表达式,从多个数据源的原始业务数据中确定目标业务数据,包括:
获取多个数据源的原始业务数据对应的临时视图;
基于所述Spark SQL表达式,从所述临时视图中确定目标业务数据。
5.一种业务数据确定装置,其特征在于,所述业务数据确定装置包括:
第一获取模块,用于获取目标业务数据对应的数据类型和数据加工方式;其中,所述数据加工方式通过用户需求确定;
生成模块,用于基于所述数据类型和所述数据加工方式,生成Spark SQL表达式;
第一确定模块,用于基于所述Spark SQL表达式,从多个数据源的原始业务数据中确定目标业务数据;
所述生成模块还用于:
基于所述数据类型和所述数据加工方式,生成数据列加工表达式;
基于所述数据列加工表达式,生成Spark SQL表达式;
所述生成模块还用于:
获取所述原始业务数据的数据结构信息;
基于所述数据加工方式,更新所述数据结构信息,得到更新后数据结构信息;
基于所述更新后数据结构信息和所述数据列加工表达式,生成Spark SQL表达式;
所述业务数据确定装置还包括:
第二获取模块,用于获取数据连接信息;
连接模块,用于基于所述数据连接信息,连接多个数据源,并基于预设查找方式从所述多个数据源中确定多个目标数据块;
抽取模块,用于从所述多个目标数据块中抽取原始业务数据。
6.一种业务数据确定设备,其特征在于,所述业务数据确定设备包括存储器、处理器和存储在所述存储器上并可在所述处理器上运行的业务数据确定程序,所述业务数据确定程序被所述处理器执行时实现如权利要求1至4中任一项所述的业务数据确定方法的步骤。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有业务数据确定程序,所述业务数据确定程序被处理器执行时实现如权利要求1至4中任一项所述的业务数据确定方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111291244.6A CN113722337B (zh) | 2021-11-03 | 2021-11-03 | 业务数据确定方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111291244.6A CN113722337B (zh) | 2021-11-03 | 2021-11-03 | 业务数据确定方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113722337A CN113722337A (zh) | 2021-11-30 |
CN113722337B true CN113722337B (zh) | 2022-06-10 |
Family
ID=78686545
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111291244.6A Active CN113722337B (zh) | 2021-11-03 | 2021-11-03 | 业务数据确定方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113722337B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117609315B (zh) * | 2024-01-22 | 2024-04-16 | 中债金融估值中心有限公司 | 一种数据处理方法、装置、设备及可读存储介质 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175157A (zh) * | 2019-04-24 | 2019-08-27 | 平安科技(深圳)有限公司 | 一种列存储文件的查询方法及查询装置 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10380137B2 (en) * | 2016-10-11 | 2019-08-13 | International Business Machines Corporation | Technology for extensible in-memory computing |
KR20190092901A (ko) * | 2018-01-31 | 2019-08-08 | 주식회사 데이터스트림즈 | SparkSQL 기반의 데이터 페더레이션장치 |
US11042549B2 (en) * | 2019-04-11 | 2021-06-22 | Sas Institute Inc. | Database server embedded process and code accelerator |
CN110442602B (zh) * | 2019-07-02 | 2021-01-01 | 新华三大数据技术有限公司 | 数据查询方法、装置、服务器及存储介质 |
CN110377621B (zh) * | 2019-07-17 | 2023-12-01 | 深圳前海微众银行股份有限公司 | 一种基于计算引擎的界面处理方法及装置 |
CN111241123A (zh) * | 2020-01-07 | 2020-06-05 | 深圳市华宇讯科技有限公司 | 视图数据查询方法、装置、服务器及存储介质 |
CN111368097A (zh) * | 2020-03-30 | 2020-07-03 | 中国建设银行股份有限公司 | 一种知识图谱抽取方法及装置 |
CN112559603B (zh) * | 2021-02-23 | 2021-05-18 | 腾讯科技(深圳)有限公司 | 特征提取方法、装置、设备及计算机可读存储介质 |
-
2021
- 2021-11-03 CN CN202111291244.6A patent/CN113722337B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110175157A (zh) * | 2019-04-24 | 2019-08-27 | 平安科技(深圳)有限公司 | 一种列存储文件的查询方法及查询装置 |
Also Published As
Publication number | Publication date |
---|---|
CN113722337A (zh) | 2021-11-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108519967B (zh) | 图表可视化方法、装置、终端和存储介质 | |
CN109344223B (zh) | 一种基于云计算技术的建筑信息模型管理系统及方法 | |
US9519701B2 (en) | Generating information models in an in-memory database system | |
CN107038222B (zh) | 数据库缓存实现方法及其系统 | |
US8543535B2 (en) | Generation of star schemas from snowflake schemas containing a large number of dimensions | |
CN111339171B (zh) | 数据查询的方法、装置及设备 | |
CN109710220B (zh) | 关系型数据库查询方法、装置、设备及存储介质 | |
CN109376153B (zh) | 一种基于NiFi的数据写入图数据库的系统及方法 | |
CN111475564A (zh) | 一种流式数据处理方法、系统、计算机设备及存储介质 | |
KR101877828B1 (ko) | 인공지능 기반의 사용자 인터페이스 통합 플랫폼 시스템 | |
CN110941629B (zh) | 元数据处理方法、装置、设备及计算机可读存储介质 | |
CN113886485A (zh) | 数据处理方法、装置、电子设备、系统和存储介质 | |
CN113722337B (zh) | 业务数据确定方法、装置、设备及存储介质 | |
CN113778961B (zh) | 一种cim模型数据的生产管理方法、装置及系统 | |
CN114969441A (zh) | 基于图数据库的知识挖掘引擎系统 | |
CN114443015A (zh) | 一种基于数据库元数据的增删改查服务接口生成方法 | |
CN112199443B (zh) | 数据同步方法、装置、计算机设备和存储介质 | |
CN117453980A (zh) | 元数据管理、配置页面生成方法、服务器及存储介质 | |
CN111125216A (zh) | 数据导入Phoenix的方法及装置 | |
CN115857918A (zh) | 数据处理方法、装置、电子设备及存储介质 | |
CN115562993A (zh) | 测试脚本录制方法和装置、电子设备及存储介质 | |
CN115292285A (zh) | 一种基于分布式架构的数据专题管理方法及系统 | |
CN113407598A (zh) | 需求文档的生成方法、装置、存储介质及电子设备 | |
CN113221528A (zh) | 基于openEHR模型的临床数据质量评估规则的自动生成与执行方法 | |
CN112000669A (zh) | 一种环境监测数据的处理方法、装置、存储介质及终端 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |