CN112434115A - 一种数据处理方法、装置、电子设备及可读存储介质 - Google Patents

一种数据处理方法、装置、电子设备及可读存储介质 Download PDF

Info

Publication number
CN112434115A
CN112434115A CN202011324460.1A CN202011324460A CN112434115A CN 112434115 A CN112434115 A CN 112434115A CN 202011324460 A CN202011324460 A CN 202011324460A CN 112434115 A CN112434115 A CN 112434115A
Authority
CN
China
Prior art keywords
data
field
processing logic
name
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011324460.1A
Other languages
English (en)
Other versions
CN112434115B (zh
Inventor
李双义
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JD Digital Technology Holdings Co Ltd
Original Assignee
JD Digital Technology Holdings Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JD Digital Technology Holdings Co Ltd filed Critical JD Digital Technology Holdings Co Ltd
Priority to CN202011324460.1A priority Critical patent/CN112434115B/zh
Publication of CN112434115A publication Critical patent/CN112434115A/zh
Application granted granted Critical
Publication of CN112434115B publication Critical patent/CN112434115B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/283Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/211Schema design and management
    • G06F16/212Schema design and management with details for data modelling support
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种数据处理方法、装置、电子设备及可读存储介质,属于大数据技术领域。本申请通过获取与数据仓库中任一第一数据分层对应的结构化查询语言SQL语句;解析所述SQL语句中使用的元数据表的表名称、表字段及表字段加工逻辑;利用所述表名称、表字段及表字段加工逻辑生成所述数据仓库中第二数据分层对应的目标数据表,其中所述第一数据分层为所述第二数据分层的数据来源层。本申请通过解析第一数据分层中SQL语句使用的元数据表的表名称、表字段及表字段加工逻辑,可以智能生成第二数据分层对应的目标数据表,提升了数据仓库建立数据模型的效率。

Description

一种数据处理方法、装置、电子设备及可读存储介质
技术领域
本申请涉及大数据技术领域,尤其涉及一种数据处理方法、装置、电子设备及可读存储介质。
背景技术
数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。数据仓库的核心之一就是数据模型,建立有效的数据模型,可以帮助企业快速获取所需的数据,并进行数据应用。
现有的建立数据模型的方案一般由企业的业务侧先发起数据需求,数据开发者通过整理数据需求以及业务调研,通过人工进行数据模型设计和建立,也就是设计和建立加工数据的目标数据表。
然而,企业的业务发展飞快,随着各种业务数据不断涌入,仅依靠数据开发者建立目标数据表,建立速度慢,无法匹配业务发展的速度。
发明内容
本申请实施例的目的在于提供一种数据处理方法,以解决人工建立数据模型速度慢的问题。具体技术方案如下:
第一方面,提供了一种数据处理方法,所述方法包括:
获取与数据仓库中任一第一数据分层对应的结构化查询语言SQL语句;
解析所述SQL语句中使用的元数据表的表名称、表字段及表字段加工逻辑;
利用所述表名称、表字段及表字段加工逻辑生成所述数据仓库中第二数据分层对应的目标数据表,其中所述第一数据分层为所述第二数据分层的数据来源层。
可选的,所述利用所述表名称、表字段及表字段加工逻辑生成所述数据仓库中第二数据分层对应的目标数据表,包括:
统计所述表名称、表字段及表字段加工逻辑的使用频率;
利用所述使用频率超过预设阈值的表名称、表字段及表字段加工逻辑生成所述数据仓库中第二数据分层对应的目标数据表。
可选的,所述利用所述表名称、表字段及表字段加工逻辑生成所述数据仓库中第二数据分层对应的目标数据表,包括:
基于所述表名称生成所述目标数据表的表名称,其中所述表名称包括表前缀、表业务标记及表后缀;
基于所述表字段及表字段加工逻辑生成所述目标数据表的表字段及表字段加工逻辑。
可选的,所述基于所述表名称生成所述目标数据表的表名称,包括:
在所述表名称中提取所述表前缀、表业务标记及表后缀;
在数据来源层和数据结果层的对应关系中,查找所述表前缀表示的数据来源层对应的数据结果层的分层名称;
将所述分层名称作为所述目标数据表的表前缀与所述表业务标记及表后缀组合生成所述目标数据表的表名称。
可选的,所述基于所述表字段及表字段加工逻辑生成所述目标数据表的表字段及表字段加工逻辑,包括:
利用所述表字段在维度清单中查找对应的标准维度字段;
将所述标准维度字段作为所述目标数据表的维度字段。
可选的,所述基于所述表字段及表字段加工逻辑生成所述目标数据表的表字段及表字段加工逻辑,包括:
利用所述表字段加工逻辑在指标清单中查找对应的标准指标字段;
判断是否查找到对应的标准指标字段;
若查找到对应的标准指标字段,将所述标准指标字段作为所述目标数据表的指标字段。
可选的,所述方法还包括:
若未查找到对应的标准指标字段,在所述表字段中获取用户自定义的指标字段;
将所述自定义的指标字段作为所述目标数据表的指标字段。
第二方面,提供了一种数据处理装置,所述装置包括:
获取模块,用于获取与数据仓库中任一第一数据分层对应的结构化查询语言SQL语句;
解析模块,用于解析所述SQL语句中使用的元数据表的表名称、表字段及表字段加工逻辑;
生成模块,用于利用所述表名称、表字段及表字段加工逻辑生成所述数据仓库中第二数据分层对应的目标数据表,其中所述第一数据分层为所述第二数据分层的数据来源层。
可选的,所述生成模块,包括:
统计子模块,用于统计所述表名称、表字段及表字段加工逻辑的使用频率;
生成子模块,用于利用所述使用频率超过预设阈值的表名称、表字段及表字段加工逻辑生成所述数据仓库中第二数据分层对应的目标数据表。
可选的,所述生成单元,包括:
第一生成单元,用于基于所述表名称生成所述目标数据表的表名称,其中所述表名称包括表前缀、表业务标记及表后缀;
第二生成单元,用于基于所述表字段及表字段加工逻辑生成所述目标数据表的表字段及表字段加工逻辑。
可选的,所述第一生成单元,包括:
提取子单元,用于在所述表名称中提取所述表前缀、表业务标记及表后缀;
第一查找子单元,用于在数据来源层和数据结果层的对应关系中,查找所述表前缀表示的数据来源层对应的数据结果层的分层名称;
组合子单元,用于将所述分层名称作为所述目标数据表的表前缀与所述表业务标记及表后缀组合生成所述目标数据表的表名称。
可选的,所述第二生成单元,包括:
第二查找子单元,用于利用所述表字段在维度清单中查找对应的标准维度字段;
第一确定子单元,用于将所述标准维度字段作为所述目标数据表的维度字段。
可选的,所述第二生成单元,包括:
第三查找子单元,用于利用所述表字段加工逻辑在指标清单中查找对应的标准指标字段;
判断子单元,用于判断是否查找到对应的标准指标字段;
第二确定子单元,用于若查找到对应的标准指标字段,将所述标准指标字段作为所述目标数据表的指标字段。
可选的,所述第二生成单元还包括:
获取子单元,用于若未查找到对应的标准指标字段,在所述表字段中获取用户自定义的指标字段;
第三确定子单元,用于将所述自定义的指标字段作为所述目标数据表的指标字段。
第三方面,提供了一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现第一方面任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面任一所述的方法步骤。
第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的数据处理方法。
本申请实施例有益效果:
本申请实施例提供了一种数据处理方法、装置、电子设备及可读存储介质,本申请通过获取与数据仓库中任一第一数据分层对应的结构化查询语言SQL语句;解析所述SQL语句中使用的元数据表的表名称、表字段及表字段加工逻辑;利用所述表名称、表字段及表字段加工逻辑生成所述数据仓库中第二数据分层对应的目标数据表,其中所述第一数据分层为所述第二数据分层的数据来源层。本申请通过解析第一数据分层中SQL语句使用的元数据表的表名称、表字段及表字段加工逻辑,可以智能生成第二数据分层对应的目标数据表,提升了数据仓库建立数据模型的效率。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据处理方法的流程图;
图2为本申请实施例提供的一种数据处理装置的结构示意图;
图3为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
由于通过数据开发者人工设计和建立加工数据的目标数据表,建立速度慢,无法匹配业务发展的速度。为此,本申请实施例提供了一种数据处理方法,可以应用于服务器中。
下面将结合具体实施方式,对本申请实施例提供的一种数据处理方法进行详细的说明,如图1所示,具体步骤如下:
S101,获取与数据仓库中任一第一数据分层对应的结构化查询语言SQL语句。
在本申请实施例中,数据仓库有多个数据分层,如表1所示,其中缓冲层stg是贴源层ods的数据来源层,贴源层ods是明细层dwd的数据来源层,明细层dwd是汇总层dws的数据来源层,明细层dwd和汇总层dws是应用层app的数据来源层。其中,分层名称可以根据用户自定义命名。
结构化查询语言(Structured Query Language)SQL语句,是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据,同时也是数据库脚本文件的扩展名。本步骤中,服务器可以获取与数据仓库中任一第一数据分层对应的结构化查询语言SQL语句。
表1:
序号 分层名称 分层说明 备注
1 stg 缓冲层 数据与数据源保持一致
2 ods 贴源层 数据来源于STG层
3 dwd 明细层 数据来源ODS层
4 dws 汇总层 数据来源DWD层
5 app 应用层 数据来源DWD或DWS层
S102,解析SQL语句中使用的元数据表的表名称、表字段及表字段加工逻辑。
在本申请实施例中,服务器可以通过SQL语法解释器jsqlparser解析SQL语句中使用的元数据表的表名称、表字段及表字段加工逻辑。得到“SQL-表-表字段-表加工逻辑”关系表。
S103,利用表名称、表字段及表字段加工逻辑生成数据仓库中第二数据分层对应的目标数据表,其中第一数据分层为第二数据分层的数据来源层。
在本申请实施例中,第一数据分层为第二数据分层的数据来源层。对第一数据分层的数据进行处理产生的结果数据在第二数据分层,服务器可以利用表名称、表字段及表字段加工逻辑生成数据仓库中第二数据分层对应的目标数据表。
本申请实施例中,通过获取与数据仓库中任一第一数据分层对应的结构化查询语言SQL语句;解析所述SQL语句中使用的元数据表的表名称、表字段及表字段加工逻辑;利用所述表名称、表字段及表字段加工逻辑生成所述数据仓库中第二数据分层对应的目标数据表,其中所述第一数据分层为所述第二数据分层的数据来源层。本申请通过解析第一数据分层中SQL语句使用的元数据表的表名称、表字段及表字段加工逻辑,可以智能生成第二数据分层对应的目标数据表,提升了数据仓库建立数据模型的效率。
在本申请的又一实施例中,所述数据处理方法还可以包括以下步骤:
统计表名称、表字段及表字段加工逻辑的使用频率;利用使用频率超过预设阈值的表名称、表字段及表字段加工逻辑生成所述数据仓库中第二数据分层对应的目标数据表。
在本申请实施例中,服务器可以统计表名称、表字段及表字段加工逻辑的使用频率,根据统计结果可以显示用户对数据的处理需求,使用频率越高说明用户的处理需求越高。利用使用频率超过预设阈值的表名称、表字段及表字段加工逻辑生成所述数据仓库中第二数据分层对应的目标数据表。
本申请实施例中,利用使用频率超过预设阈值的表名称、表字段及表字段加工逻辑生成所述数据仓库中第二数据分层对应的目标数据表。本申请根据用户的处理需求生成目标数据表,可以使目标数据表更符合用户的处理需求。
在本申请的又一实施例中,所述数据处理方法还可以包括以下步骤:
基于表名称生成目标数据表的表名称,其中表名称包括表前缀、表业务标记及表后缀;基于表字段及表字段加工逻辑生成目标数据表的表字段及表字段加工逻辑。
在本申请实施例中,数据表包括表名称、表字段及表加工逻辑,表名称包括表前缀、表业务标记及表后缀,服务器可以基于元数据表的表名称生成目标数据表的表名称,基于表字段及表字段加工逻辑生成目标数据表的表字段及表字段加工逻辑。最后得到的目标数据表如表2所示。
表2:
Figure BDA0002793889380000091
在本申请的又一实施例中,所述数据处理方法还可以包括以下步骤:
在表名称中提取表前缀、表业务标记及表后缀;在数据来源层和数据结果层的对应关系中,查找表前缀表示的数据来源层对应的数据结果层的分层名称;将分层名称作为目标数据表的表前缀与表业务标记及表后缀组合生成目标数据表的表名称。
在本申请实施例中,表前缀表示表所在数据分层,表后缀表示SQL语句执行的频率及增量方式,频率例如:日、周、月、季等,对应的英文标记依次为d、w、m、q,增量方式例如:增量、全量,对应的英文标记依次为i、a。
在表名称中提取表前缀、表业务标记及表后缀,在数据来源层和数据结果层的对应关系中,如表3所示,查找表前缀表示的数据来源层对应的数据结果层的分层名称,将分层名称作为目标数据表的表前缀,与表业务标记及表后缀组合生成目标数据表的表名称。示例性的,若元数据表的表前缀为ods,则目标数据表的表前缀为dwd。
表3:
Figure BDA0002793889380000101
本申请实施例中,在元数据表的表名称中提取表前缀、表业务标记及表后缀;在数据来源层和数据结果层的对应关系中,查找表前缀表示的数据来源层对应的数据结果层的分层名称;将分层名称作为目标数据表的表前缀与表业务标记及表后缀组合生成目标数据表的表名称。可以使目标数据表与所在的数据分层相匹配。
在本申请的又一实施例中,所述数据处理方法还可以包括以下步骤:
利用表字段在维度清单中查找对应的维度标准字段;将标准字段作为所述数据模型的维度字段。
在本申请实施例中,数据仓库中预设了维度清单,示例性的,维度清单可以如表4所示,维度清单中存有标准维度字段。元数据表包括维度表,元数据表中的表字段可能存在不是使用标准字段的情况,服务器可以利用元数据表的表字段在维度清单中查找对应的标准维度字段,将标准维度字段作为目标数据表的维度字段。
表4:
序号 维度中文名称 维度英文名称 对应维度表
1 省份 province dim_province
2 城市 city dim_city
3
在本申请的又一实施例中,所述数据处理方法还可以包括以下步骤:
利用表字段加工逻辑在指标清单中查找对应的标准指标字段;判断是否查找到对应的标准指标字段;若查找到对应的标准指标字段,将标准指标字段作为目标数据表的指标字段。
在本申请实施例中,数据仓库中预设了指标清单,示例性的,指标清单可以如表5所示。指标清单中存有标准指标字段,标准指标字段一般对应唯一的表字段加工逻辑,利用表字段加工逻辑在指标清单中查找对应的标准指标字段,判断是否查找到对应的标准指标字段,若查找到对应的标准指标字段,则将标准指标字段作为目标数据表的指标字段。
表5:
Figure BDA0002793889380000121
在本申请的又一实施例中,所述数据处理方法还可以包括以下步骤:
若未查找到对应的标准指标字段,在表字段中获取用户自定义的指标字段;将自定义的指标字段作为目标数据表的指标字段。
在本申请实施例中,若未查找到对应的标准指标字段,说明数据仓库中预设的指标清单中没有对应的标准指标字段,在表字段中获取用户自定义的指标字段,将自定义的指标字段作为目标数据表的指标字段。
基于相同的技术构思,本申请实施例还提供了一种数据处理装置,如图2所示,该装置包括:
获取模块201,用于获取与数据仓库中任一第一数据分层对应的结构化查询语言SQL语句;
解析模块202,用于解析所述SQL语句中使用的元数据表的表名称、表字段及表字段加工逻辑;
生成模块203,用于利用所述表名称、表字段及表字段加工逻辑生成所述数据仓库中第二数据分层对应的目标数据表,其中所述第一数据分层为所述第二数据分层的数据来源层。
可选的,所述生成模块,包括:
统计子模块,用于统计所述表名称、表字段及表字段加工逻辑的使用频率;
生成子模块,用于利用所述使用频率超过预设阈值的表名称、表字段及表字段加工逻辑生成所述数据仓库中第二数据分层对应的目标数据表。
可选的,所述生成单元,包括:
第一生成单元,用于基于所述表名称生成所述目标数据表的表名称,其中所述表名称包括表前缀、表业务标记及表后缀;
第二生成单元,用于基于所述表字段及表字段加工逻辑生成所述目标数据表的表字段及表字段加工逻辑。
可选的,所述第一生成单元,包括:
提取子单元,用于在所述表名称中提取所述表前缀、表业务标记及表后缀;
第一查找子单元,用于在数据来源层和数据结果层的对应关系中,查找所述表前缀表示的数据来源层对应的数据结果层的分层名称;
组合子单元,用于将所述分层名称作为所述目标数据表的表前缀与所述表业务标记及表后缀组合生成所述目标数据表的表名称。
可选的,所述第二生成单元,包括:
第二查找子单元,用于利用所述表字段在维度清单中查找对应的标准维度字段;
第一确定子单元,用于将所述标准维度字段作为所述目标数据表的维度字段。
可选的,所述第二生成单元,包括:
第三查找子单元,用于利用所述表字段加工逻辑在指标清单中查找对应的标准指标字段;
判断子单元,用于判断是否查找到对应的标准指标字段;
第二确定子单元,用于若查找到对应的标准指标字段,将所述标准指标字段作为所述目标数据表的指标字段。
可选的,所述第二生成单元还包括:
获取子单元,用于若未查找到对应的标准指标字段,在所述表字段中获取用户自定义的指标字段;
第三确定子单元,用于将所述自定义的指标字段作为所述目标数据表的指标字段。
本申请实施例中,通过获取与数据仓库中任一第一数据分层对应的结构化查询语言SQL语句;解析所述SQL语句中使用的元数据表的表名称、表字段及表字段加工逻辑;利用所述表名称、表字段及表字段加工逻辑生成所述数据仓库中第二数据分层对应的目标数据表,其中所述第一数据分层为所述第二数据分层的数据来源层。本申请通过解析第一数据分层中SQL语句使用的元数据表的表名称、表字段及表字段加工逻辑,可以智能生成第二数据分层对应的目标数据表,提升了数据仓库建立数据模型的效率。
基于相同的技术构思,本发明实施例还提供了一种电子设备,如图3所示,包括处理器301、通信接口302、存储器303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信,
存储器303,用于存放计算机程序;
处理器301,用于执行存储器303上所存放的程序时,实现如下步骤:
获取与数据仓库中任一第一数据分层对应的结构化查询语言SQL语句;
解析所述SQL语句中使用的元数据表的表名称、表字段及表字段加工逻辑;
利用所述表名称、表字段及表字段加工逻辑生成所述数据仓库中第二数据分层对应的目标数据表,其中所述第一数据分层为所述第二数据分层的数据来源层。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一数据处理方法的步骤。
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一数据处理方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种数据处理方法,其特征在于,所述方法包括:
获取与数据仓库中任一第一数据分层对应的结构化查询语言SQL语句;
解析所述SQL语句中使用的元数据表的表名称、表字段及表字段加工逻辑;
利用所述表名称、表字段及表字段加工逻辑生成所述数据仓库中第二数据分层对应的目标数据表,其中所述第一数据分层为所述第二数据分层的数据来源层。
2.根据权利要求1所述的方法,其特征在于,所述利用所述表名称、表字段及表字段加工逻辑生成所述数据仓库中第二数据分层对应的目标数据表,包括:
统计所述表名称、表字段及表字段加工逻辑的使用频率;
利用所述使用频率超过预设阈值的表名称、表字段及表字段加工逻辑生成所述数据仓库中第二数据分层对应的目标数据表。
3.根据权利要求1所述的方法,其特征在于,所述利用所述表名称、表字段及表字段加工逻辑生成所述数据仓库中第二数据分层对应的目标数据表,包括:
基于所述表名称生成所述目标数据表的表名称,其中所述表名称包括表前缀、表业务标记及表后缀;
基于所述表字段及表字段加工逻辑生成所述目标数据表的表字段及表字段加工逻辑。
4.根据权利要求3所述的方法,其特征在于,所述基于所述表名称生成所述目标数据表的表名称,包括:
在所述表名称中提取所述表前缀、表业务标记及表后缀;
在数据来源层和数据结果层的对应关系中,查找所述表前缀表示的数据来源层对应的数据结果层的分层名称;
将所述分层名称作为所述目标数据表的表前缀与所述表业务标记及表后缀组合生成所述目标数据表的表名称。
5.根据权利要求3所述的方法,其特征在于,所述基于所述表字段及表字段加工逻辑生成所述目标数据表的表字段及表字段加工逻辑,包括:
利用所述表字段在维度清单中查找对应的标准维度字段;
将所述标准维度字段作为所述目标数据表的维度字段。
6.根据权利要求3所述的方法,其特征在于,所述基于所述表字段及表字段加工逻辑生成所述目标数据表的表字段及表字段加工逻辑,包括:
利用所述表字段加工逻辑在指标清单中查找对应的标准指标字段;
判断是否查找到对应的标准指标字段;
若查找到对应的标准指标字段,将所述标准指标字段作为所述目标数据表的指标字段。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
若未查找到对应的标准指标字段,在所述表字段中获取用户自定义的指标字段;
将所述自定义的指标字段作为所述目标数据表的指标字段。
8.一种数据处理装置,其特征在于,所述装置包括:
获取模块,用于获取与数据仓库中任一第一数据分层对应的结构化查询语言SQL语句;
解析模块,用于解析所述SQL语句中使用的元数据表的表名称、表字段及表字段加工逻辑;
生成模块,用于利用所述表名称、表字段及表字段加工逻辑生成所述数据仓库中第二数据分层对应的目标数据表,其中所述第一数据分层为所述第二数据分层的数据来源层。
9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
CN202011324460.1A 2020-11-23 2020-11-23 一种数据处理方法、装置、电子设备及可读存储介质 Active CN112434115B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011324460.1A CN112434115B (zh) 2020-11-23 2020-11-23 一种数据处理方法、装置、电子设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011324460.1A CN112434115B (zh) 2020-11-23 2020-11-23 一种数据处理方法、装置、电子设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN112434115A true CN112434115A (zh) 2021-03-02
CN112434115B CN112434115B (zh) 2024-02-06

Family

ID=74693759

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011324460.1A Active CN112434115B (zh) 2020-11-23 2020-11-23 一种数据处理方法、装置、电子设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN112434115B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868252A (zh) * 2021-09-27 2021-12-31 中国人民银行清算总中心 数据库模式匹配方法及装置、sql查询语句生成方法
CN116401325A (zh) * 2023-05-15 2023-07-07 广州飞狮数字科技有限公司 一种基于数据仓库模型的数据处理方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120209869A1 (en) * 2011-02-14 2012-08-16 International Business Machines Corporation Abstract data model extension through managed physical statement structures
US20140279914A1 (en) * 2013-03-15 2014-09-18 International Business Machines Corporation Data Migration in a Database Management System
CN104991960A (zh) * 2015-07-22 2015-10-21 北京京东尚科信息技术有限公司 构建数据仓库模型的方法与装置
US20160335303A1 (en) * 2014-07-10 2016-11-17 Oracle International Corporation Hierarchical dimension analysis in multi-dimensional pivot grids
CN107704590A (zh) * 2017-09-30 2018-02-16 深圳市华傲数据技术有限公司 一种基于数据仓库的数据处理方法及系统
CN109492006A (zh) * 2018-11-08 2019-03-19 中国银行股份有限公司 一种基于Oracle的海量数据处理方法和装置
CN111597243A (zh) * 2020-05-15 2020-08-28 中国工商银行股份有限公司 基于数据仓库抽象数据加载的方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120209869A1 (en) * 2011-02-14 2012-08-16 International Business Machines Corporation Abstract data model extension through managed physical statement structures
US20140279914A1 (en) * 2013-03-15 2014-09-18 International Business Machines Corporation Data Migration in a Database Management System
US20160335303A1 (en) * 2014-07-10 2016-11-17 Oracle International Corporation Hierarchical dimension analysis in multi-dimensional pivot grids
CN104991960A (zh) * 2015-07-22 2015-10-21 北京京东尚科信息技术有限公司 构建数据仓库模型的方法与装置
CN107704590A (zh) * 2017-09-30 2018-02-16 深圳市华傲数据技术有限公司 一种基于数据仓库的数据处理方法及系统
CN109492006A (zh) * 2018-11-08 2019-03-19 中国银行股份有限公司 一种基于Oracle的海量数据处理方法和装置
CN111597243A (zh) * 2020-05-15 2020-08-28 中国工商银行股份有限公司 基于数据仓库抽象数据加载的方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113868252A (zh) * 2021-09-27 2021-12-31 中国人民银行清算总中心 数据库模式匹配方法及装置、sql查询语句生成方法
CN116401325A (zh) * 2023-05-15 2023-07-07 广州飞狮数字科技有限公司 一种基于数据仓库模型的数据处理方法及装置
CN116401325B (zh) * 2023-05-15 2024-03-05 广州飞狮数字科技有限公司 一种基于数据仓库模型的数据处理方法及装置

Also Published As

Publication number Publication date
CN112434115B (zh) 2024-02-06

Similar Documents

Publication Publication Date Title
CN110291517B (zh) 图数据库中的查询语言互操作性
CN105183912B (zh) 异常日志确定方法和装置
US8630989B2 (en) Systems and methods for information extraction using contextual pattern discovery
US20120246154A1 (en) Aggregating search results based on associating data instances with knowledge base entities
US10942926B2 (en) Identification, and query, of semantically-related database tables
CN109284323B (zh) 检测数据的管理方法及装置
CN106959976B (zh) 一种搜索处理方法以及装置
US10445370B2 (en) Compound indexes for graph databases
US11636078B2 (en) Personally identifiable information storage detection by searching a metadata source
CN112434115B (zh) 一种数据处理方法、装置、电子设备及可读存储介质
CN114091426A (zh) 一种处理数据仓库中字段数据的方法和装置
CN111078776A (zh) 数据表的标准化方法、装置、设备及存储介质
CN106503274A (zh) 一种数据整合与搜索方法及服务器
CN111708805A (zh) 数据查询方法、装置、电子设备及存储介质
CN114416733A (zh) 数据检索的处理方法、装置、电子设备及存储介质
CN115357286B (zh) 一种程序文件对比方法、装置、电子设备及存储介质
CN108520012A (zh) 基于机器学习的移动互联网用户评论挖掘方法
CN112463814A (zh) 一种数据查询方法及装置
CN110851346A (zh) 查询语句边界问题的检测方法、装置、设备及存储介质
CN111127077A (zh) 一种基于流计算的推荐方法和装置
CN112559674A (zh) 裁判文书中法条内容的查询方法及相关装置
CN109325043B (zh) 一种标记sql语句的方法、装置和电子设备
CN111079391B (zh) 一种报表的生成方法及装置
CN114996364B (zh) 一种PaaS云数据库审计日志的分类分级方法、装置及存储介质
CN109101302B (zh) 一种文案导入方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant after: Jingdong Technology Holding Co.,Ltd.

Address before: Room 221, 2 / F, block C, 18 Kechuang 11th Street, Daxing District, Beijing, 100176

Applicant before: Jingdong Digital Technology Holding Co.,Ltd.

GR01 Patent grant
GR01 Patent grant