CN113760891B - 一种数据表的生成方法、装置、设备和存储介质 - Google Patents

一种数据表的生成方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113760891B
CN113760891B CN202011405719.5A CN202011405719A CN113760891B CN 113760891 B CN113760891 B CN 113760891B CN 202011405719 A CN202011405719 A CN 202011405719A CN 113760891 B CN113760891 B CN 113760891B
Authority
CN
China
Prior art keywords
data table
target
association
data
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011405719.5A
Other languages
English (en)
Other versions
CN113760891A (zh
Inventor
蒲海洋
陈伯梁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202011405719.5A priority Critical patent/CN113760891B/zh
Publication of CN113760891A publication Critical patent/CN113760891A/zh
Application granted granted Critical
Publication of CN113760891B publication Critical patent/CN113760891B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/2433Query languages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例公开了一种数据表的生成方法、装置、服务器和存储介质。获取输入的目标指标字段、目标维度字段以及目标维度字段所属的目标数据表;根据预先创建的数据表关联关系图,确定目标指标字段对应的来源数据表与目标数据表之间的目标关联路径;根据目标关联路径生成结构化查询语言SQL脚本;通过运行SQL脚本,执行基于目标关联路径上的数据表获得目标维度字段和目标指标字段对应的数据记录,并将数据记录保存至预设数据表中的操作。上述过程可以根据目标关联路径直接生成SQL脚本,运行SQL脚本生成数据表,全程无需用户调研无需用户编写SQL脚本,实现提高数据表的生成效率和准确度的效果。

Description

一种数据表的生成方法、装置、设备和存储介质
技术领域
本发明实施例涉及计算机技术,尤其涉及一种数据表的生成方法、装置、设备和存储介质。
背景技术
目前在生成数据仓库中的数据表时,需要由开发人员花费大量时间调研,根据调研结果编写结构化查询语言(Structured Query Language,SQL)脚本,然后通过运行SQL脚本生成数据表。其中,通过运行SQL脚本,可以到数据仓库中的已有数据表中查找所需字段的数据,并将查找到的数据进行汇总计算后写入数据表中,从而完成数据表的生成操作。
比如,需要生成包括店铺标识和订单量这两个字段的数据表,通过运行SQL脚本,到已有的店铺表中查找各店铺标识分别对应的商品标识,到已有的订单表中查找各商品标识分别对应的订单标识,将从两个表中查询到的数据进行汇总计算后得到各店铺标识分别对应的订单量,并将得到的数据记录写入包含店铺标识字段和订单量字段的数据表中。
在实现本发明的过程中,发明人发现现有技术中至少存在如下问题:
上述通过运行人工编写的SQL脚本生成数据表的方案,效率低下,准确度较低。
发明内容
本发明实施例提供了一种数据表的生成方法、装置、设备和存储介质,以提高数据表的生成效率和准确度。
第一方面,本发明实施例提供了一种数据表的生成方法,包括:
获取输入的目标指标字段、目标维度字段以及所述目标维度字段所属的目标数据表;
根据预先创建的数据表关联关系图,确定所述目标指标字段对应的来源数据表与所述目标数据表之间的目标关联路径;
根据所述目标关联路径生成结构化查询语言SQL脚本;
通过运行所述SQL脚本,执行基于所述目标关联路径上的数据表获得所述目标维度字段和所述目标指标字段对应的数据记录,并将所述数据记录保存至预设数据表中的操作。
第二方面,本发明实施例还提供了一种数据表的生成装置,包括:
信息获取模块,用于获取输入的目标指标字段、目标维度字段以及所述目标维度字段所属的目标数据表;
目标关联路径确定模块,用于根据预先创建的数据表关联关系图,确定所述目标指标字段对应的来源数据表与所述目标数据表之间的目标关联路径;
脚本生成模块,用于根据所述目标关联路径生成结构化查询语言SQL脚本;
数据生成模块,用于通过运行所述SQL脚本,执行基于所述目标关联路径上的数据表获得所述目标维度字段和所述目标指标字段对应的数据记录,并将所述数据记录保存至预设数据表中的操作。
第三方面,本发明实施例还提供了一种电子设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面中任一所述的数据表的生成方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面中任一所述的数据表的生成方法。
本实施例提供的技术方案,获取输入的目标指标字段、目标维度字段以及目标维度字段所属的目标数据表;根据预先创建的数据表关联关系图,确定目标指标字段对应的来源数据表与目标数据表之间的目标关联路径;根据目标关联路径生成结构化查询语言SQL脚本;通过运行SQL脚本,执行基于目标关联路径上的数据表获得目标维度字段和目标指标字段对应的数据记录,并将数据记录保存至预设数据表中的操作。上述过程可以根据目标关联路径直接生成SQL脚本,运行SQL脚本生成数据表,全程无需用户调研无需用户编写SQL脚本。解决了现有技术中因需要人工编写SQL脚本生成数据表,导致效率低下,准确度较低的问题,实现了提高数据表的生成效率和准确度的效果。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的一种数据表的生成方法的流程图;
图2为本发明实施例二提供的一种数据表的生成方法的流程图;
图3为本发明实施例二提供的确定分类模型的示意图;
图4为本发明实施例三提供的一种数据表的生成方法的流程图;
图5为本发明实施例三提供的用于生成数据记录的架构图;
图6为本发明实施例三提供的一种数据表的生成方法的逻辑示意图;
图7为本发明实施例三提供的数据表关联关系信息表;
图8为本发明实施例四提供的一种数据表的生成装置的结构示意图;
图9为本发明实施例五提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种数据表的生成方法的流程图,本实施例可适用于根据数据仓库中已有的数据表,生成包含所需字段(即目标维度字段和目标指标字段)的数据记录的数据表的情况,尤其是通过运行自动生成的结构化查询语言(SQL)脚本生成所需字段的数据记录的场景。该方法可以由数据生成装置来执行,该装置可以由软件和/或硬件的方式来实现,集成于具有数据生成功能的终端或服务器中。该方法具体包括以下步骤:
S110、获取输入的目标指标字段、目标维度字段以及目标维度字段所属的目标数据表。
其中,维度字段是指对应的数据的大小无实际意义的字段,比如店铺标识、商品标识等,指标字段即度量字段,是指对应的数据的大小有实际意义的字段,比如订单量字段、点击量字段等。所述目标指标字段和所述目标维度字段均指的是待生成的预设数据表中所包含的字段;所述目标数据表指的是目标维度字段所在的数据表,可以包括目标维度字段和其他相关字段。所述目标指标字段、所述目标维度字段和所述目标数据表用于生成SQL脚本,以进一步运行SQL脚本生成数据记录。
例如,当用户需要查看各店铺下的订单量时,则可以输入订单量作为目标指标字段、店铺标识作为目标维度字段以及店铺数据表作为目标维度字段所属的目标数据表。
S120、根据预先创建的数据表关联关系图,确定目标指标字段对应的来源数据表与目标数据表之间的目标关联路径。
可选地,所述根据预先创建的数据表关联关系图,确定所述目标指标字段对应的来源数据表与所述目标数据表之间的目标关联路径,包括:根据预先创建的数据表关联关系图,确定所述目标指标字段对应的来源数据表与所述目标数据表之间的至少一个关联路径;将所述至少一个关联路径进行显示;根据检测到的对显示的关联路径的选择操作,确定所述至少一个关联路径中的目标关联路径。
其中,所述数据表关联关系图可以根据各数据表之间的关联信息构建,可以至少包括两个数据表之间的关联信息。例如,店铺数据表包括店铺编号和商品编号,订单数据表包括订单编号和商品编号,店铺数据表和订单数据表可以根据商品编号进行关联,即根据商品编号构建店铺数据表和订单数据表之间的关联信息。
其中,所述来源数据表指的是目标指标字段的上游数据表(即来源表),可以包括目标指标字段和与目标指标字段关联的其他字段,基于来源数据表中的数据可以获得目标指标字段的数据。所述目标关联路径上可以包含至少一个除来源数据表和目标数据表之外的其他数据表,即来源数据表和目标数据表通过其他数据表进行间接关联;所述目标关联路径上还可以不包含其他数据表,即来源数据表和目标数据表直接关联。来源数据表与目标数据表之间可以包括至少一个关联路径,根据检测到的选择操作,从至少一个关联路径中确定目标关联路径。例如,目标数据表为店铺数据表,来源数据表为订单数据表,目标数据表包括店铺编号和商品编号,来源数据表包括商品编号和订单编号,将店铺数据表对应的节点设为A,将订单数据表对应的节点设为B,则店铺数据表与订单数据表之间的关联路径为A->B,显示该关联路径,如果检测到针对该关联路径的选择操作,将该关联路径作为目标关联路径。
可以理解的是,预先创建的数据表关联关系图包括各数据表之间的关联路径,通过获取目标指标字段、目标维度字段以及目标维度字段所属的目标数据表,并结合预先创建的数据表关联关系图,可以直接确定来源数据表与目标数据表之间的目标关联路径,无需通过人工编写脚本到不同的数据表中查找字段,可以提高从不同数据表中查找字段的效率,有利于提高数据表生成效率。
S130、根据目标关联路径生成结构化查询语言(SQL)脚本。
其中,SQL(Structured Query Language,结构化查询语言)脚本指的是根据一种数据库查询和程序设计语言编写的可执行文件。所述SQL脚本可以根据应用于Hive(基于分布式系统基础架构的一个数据仓库工具)的类SQL的结构化查询语言编写,SQL脚本可以是HQL(Hibernate Query Language,对象关系映射框架查询语言)脚本。可选地,所述SQL脚本的生成方法,包括:根据所述目标关联路径生成AJSQL代码;通过运行所述AJSQL代码生成SQL脚本。
其中,所述根据所述目标关联路径生成AJSQL代码的过程可以理解为,将目标关联路径涉及的目标指标字段、目标维度字段、目标指标字段和目标维度字段之间的关联方式,转化为包括指标字段和维度字段的计算逻辑以及关联方式的AJSQL代码;所述通过运行所述AJSQL代码生成SQL脚本的过程可以理解为:基于包括指标字段和维度字段的计算逻辑以及关联方式的AJSQL代码进行算子操作,以生成SQL脚本,即生成可执行文件。
可选地,根据所述目标关联路径生成AJSQL代码,包括:获取指标库中存储的所述目标指标字段对应的计算逻辑信息;基于所述目标指标字段、所述目标指标字段对应的来源数据表和计算逻辑信息、所述目标维度字段、以及所述目标数据表,调用预设AJSQL方法实例化生成AJSQL所需要的原子对象及派生对象;基于所述原子对象及派生对象、所述目标指标字段与所述目标维度字段对应的关联方式、以及所述目标指标字段对应的计算逻辑信息,调用AJSQL库内置方法生成AJSQL代码。其中目标指标字段与所述目标维度字段通过目标关联路径上各条边上包含的关联字段进行关联。
可选地,通过运行所述AJSQL代码生成SQL脚本,包括:将所述目标指标字段对应的来源数据表实例化为AJSQL内置原子对象及派生对象;基于所述AJSQL内置原子对象及派生对象、所述目标指标字段对应的计算逻辑信息及所述目标指标字段与所述目标维度字段对应的关联方式,调用AJSQL内置算子生成SQL脚本。本实施例中,可以基于包括指标字段和维度字段的计算逻辑以及关联方式的AJSQL代码,调用不同算子进行拼接优化操作,以生成SQL脚本,以实现生成指标统一、标准化、模块化的生成SQL语句。
其中,所述指标库用于存储各指标字段的计算逻辑信息;所述计算逻辑信息包括各指标字段的计算逻辑;所述AJSQL方法指的是一种基于Python开发数据模型的工具包,可以将数据表转化为对象进行各种算子操作,用于自动生成SQL语句(如HQL语句);所述原子对象指的是指标的原始形态,例如,原子对象为订单量;所述派生对象包括原子对象、统计周期以及业务限定的组合,例如,派生对象为30天有效订单量,其中,“订单量”为原子对象,“30天”为统计周期,“有效”为业务限定;所述AJSQL库内置方法用于将指标字段、维度字段、指标字段和维度字段之间的关联方式、计算逻辑信息、原子对象和派生对象转换成AJSQL代码,所述AJSQL代码包括指标字段和维度字段的计算逻辑以及关联方式。
S140、通过运行SQL脚本,执行基于目标关联路径上的数据表获得目标维度字段和目标指标字段对应的数据记录,并将数据记录保存至预设数据表中的操作。
通过前述步骤生成了SQL脚本,运行所述SQL脚本时,计算引擎可以根据SQL脚本中维度字段和目标字段之间的计算逻辑进行数据计算,并将结果写入至预设数据表中,结束整个数据生成的过程。
通过根据目标关联路径生成SQL脚本,并运行SQL脚本生成数据记录的好处是,根据目标关联路径可以直接生成SQL脚本,即确定目标指标字段和目标维度字段之间的计算逻辑和关联关系,无需人工编写SQL脚本就可以生成数据表,提高了数据表生成效率和准确度。
本实施例提供的技术方案,获取输入的目标指标字段、目标维度字段以及目标维度字段所属的目标数据表;根据预先创建的数据表关联关系图,确定目标指标字段对应的来源数据表与目标数据表之间的目标关联路径;根据目标关联路径生成结构化查询语言SQL脚本;通过运行SQL脚本,执行基于目标关联路径上的数据表获得目标维度字段和目标指标字段对应的数据记录,并将数据记录保存至预设数据表中的操作。上述过程可以根据预先创建的数据表关联关系图确定目标关联路径,并根据目标关联路径直接生成SQL脚本,运行SQL脚本生成数据表,全程0代码,且无需用户调研。解决了现有技术中因需要人工编写SQL脚本生成数据表,导致效率低下,准确度较低的问题,实现提高数据表的生成效率和准确度的效果。并且,在生成HQL语句时,可以调用不同算子进行拼接优化操作,以生成指标统一、标准化、模块化的HQL语句。
实施例二
图2为本发明实施例二提供的一种数据表的生成方法的流程图。本实施例的技术方案在上述实施例的基础上增加了新的步骤。可选地,在获取输入的目标指标字段、目标维度字段以及所述目标维度字段所属的目标数据表之前,所述方法还包括:生成至少一条数据表关联关系信息,其中,各所述数据表关联关系信息包括具有关联关系的两个数据表的标识、以及所述两个数据表对应的关联字段;根据各所述数据表关联关系信息创建数据表关联关系图;其中,所述数据表关联关系图中包含多个数据表的节点,具有关联关系的两个数据表的节点之间具有边的连接关系,并且各所述边上包含对应的两个数据表的关联字段。在该方法实施例中未详尽描述的部分请参考上述实施例。具体参见图2所示,该方法可以包括如下步骤:
S210、生成至少一条数据表关联关系信息。
其中,各所述数据表关联关系信息包括具有关联关系的两个数据表的标识、以及所述两个数据表对应的关联字段。例如,两个数据表分别为店铺数据表和订单数据表,分别确定店铺数据表和订单数据表的标识,确定店铺数据表中店铺编号和商品编号以及订单数据表中商品编号和订单编号,将商品编号作为店铺数据表和订单数据表之间的关联字段。
本实施例中,可以通过两种方式生成至少一条数据表关联关系信息。
可选地,数据表关联关系信息的第一种生成方法包括如下步骤:
步骤(a)、获取数据仓库中各数据表对应的运行日志,抽取所述运行日志中的SQL语句;
步骤(b)、将所述SQL语句解析为抽象语法树,根据所述抽象语法树确定具有关联关系的数据表、以及具有关联关系的数据表对应的关联字段;
步骤(c)、根据确定结果生成至少一条数据表关联关系信息。
其中,所述抽象语法树(AST)指的是具有关联关系的抽象语法树,是源代码的抽象语法结构的树状表示,树上的每个节点都表示源代码中的一种结构。具体地,基于HQL-ETL(Extract-Transform-Load)从数据仓库调取各数据表对应的运行日志,并从运行日志中抽取SQL语句(如HQL语句),并将抽取的SQL语句中的注释和其他干扰字符进行清除。其中,ETL用来描述将数据从来源端经过抽取(Extract)、转换(Transform)和加载(Load)至目的端的过程,目的是将企业中分散、零乱、标准不统一的数据整合到一起,根据整合后的数据为企业决策提供分析依据;进一步地,将SQL语句解析为抽象语法树,抽象语法树包括各节点之间的关联关系,根据抽象语法树上各节点之间的关联关系,确定具有关联关系的数据表、以及具有关联关系的数据表对应的关联字段,并通过构造explain命令确定关联字段的数据量;进一步地,根据确定的关联关系的数据表、以及具有关联关系的数据表对应的关联字段和关联字段的数据量,生成至少一条数据表关联关系信息。
可选地,数据表关联关系信息的第二种生成方法包括如下步骤:
步骤(Ⅰ)、获取数据仓库中各数据表中的维度字段,将各所述维度字段进行聚类;
步骤(Ⅱ)、计算同一聚类类别中的维度字段之间的相似度;
步骤(Ⅲ)、根据所述相似度确定具有关联关系的数据表、以及具有关联关系的数据表对应的关联字段;
步骤(Ⅳ)、根据确定结果生成至少一条数据表关联关系信息。
其中,步骤(Ⅰ)中的维度字段可以基于分类模型确定。可选地,所述获取数据仓库中各数据表中的维度字段,包括:获取数据仓库中各数据表中的各字段;针对各所述字段,将所述字段的特征数据输入预先训练出的分类模型,根据所述分类模型的输出结果确定所述字段是否是维度字段;获取各所述字段中的维度字段。
其中,所述字段的特征数据包括:字段类型、字段数据量、是否包含金额、字段名称是否包含值以及字段描述的词向量等。所述字段描述的词向量可以根据Albert模型提取。如图3所示为确定分类模型的示意图。如图3所示,分别获取提升树模型(lightgbm)、随机森林模型(xgboost)和梯度提模型(catboost),对提升树模型、随机森林和梯度提模型进行调参,并基于堆叠(stacking)模型对调参之后的提升树模型、随机森林和梯度提模型进行融合,得到训练完成的分类模型。进一步地,得到训练完成的分类模型之后,将字段的特征数据输入至训练完成的分类模型,根据分类模型的输出结果确定字段是否是维度字段,如果是维度字段,获取该维度字段,以对维度字段进行聚类。本实施例中可以根据基于密度的融合模型(简称DBSCAN融合模型)对维度字段进行聚类,以将距离较近的维度字段对应的节点分到同一聚类类别中,将距离较远的维度字段对应的节点分到不同类别中,有利于减少后续计算相似度的计算量。
其中,步骤(Ⅱ)中的同一聚类类别中的维度字段之间的相似度可以基于维度聚类模型确定,属于同一聚类类别中的维度字段可以位于通过的数据表中。可选地,所述计算同一聚类类别中的维度字段之间的相似度,包括:对于同一聚类类别中的各维度字段,将所述维度字段下的数据进行哈希映射,获得所述维度字段对应的二进制数据;计算每两个二进制数据之间的距离数据,根据所述距离数据确定对应的维度字段之间的相似度。可选地,通过计算每两个二进制数据之间的汉明距离确定所述距离数据。所述距离数据用于确定两个二进制字段之间的相似度,所述距离数据越大,两个二进制数据之间相似度的越小,所述距离数据越小,两个二进制数据之间相似度的越大。
其中,步骤(Ⅲ)中关联字段的确定方法包括:将相似度超过设定阈值的维度字段所属的数据表,确定为具有关联关系的数据表,并将所述相似度超过设定阈值的维度字段确定为所述具有关联关系的数据表对应的关联字段。可选地,通过解析SQL-AST(抽象语法树),获取每个维度字段的来源数据表。如果两个维度字段之间的相似度超过设定阈值,将这两个维度字段所属的数据表确定为具有关联关系的数据表,并将该这两个维度字段确定为具有关联关系的数据表对应的关联字段。进一步地,确定维度字段之间的相似度之后,可以根据接收的过滤操作对不可关联的维度字段进行过滤,得到过滤后的关联字段。
本实施例中,将数据表关联关系信息的第一种生成方法称为旧模型生成法、将数据表关联关系信息的第二种生成方法称为新模型生成法。上述步骤基于旧模型生成法、新模型生成法或者将新旧模型结合,可以准确确定数据表关联关系信息,有利于对数据表关联关系信息进行后续处理时,生成准确的数据记录。
S220、根据各数据表关联关系信息创建数据表关联关系图。
其中,所述数据表关联关系图中包含多个数据表的节点,具有关联关系的两个数据表的节点之间具有边的连接关系,并且各所述边上包含对应的两个数据表的关联字段。
可选地,所述数据表关联关系图的创建方法,包括:1)根据各所述数据表关联关系信息构建邻接表;其中,所述邻接表中包含各数据表的节点分别对应的邻居节点,具有关联关系的两个数据表的节点可以互为邻居节点;2)选择一个数据表的节点作为起点,基于所述邻接表确定所述起点的i度可关联路径;其中,i的初始取值为1;3)从当前各条i度可关联路径中筛选出预设数量的最优路径,将筛选出的最优路径存入散列表中;4)将i的取值加1,并根据所述邻接表和所述散列表确定所述起点的i度可关联路径,返回执行步骤3),即从当前各条i度可关联路径中筛选出预设数量的最优路径,将筛选出的最优路径存入散列表的操作,直至i的取值达到设定数值。
其中,所述从当前各条i度可关联路径中筛选出预设数量的最优路径,包括:将当前各条i度可关联路径分别输入预先训练出的回归模型,根据所述回归模型的输出结果确定当前各条i度可关联路径分别对应的SQL语句的执行时间;根据所述执行时间从当前各条i度可关联路径中筛选出执行时间最短的预设数量的路径作为最优路径;其中,所述回归模型是预先根据多条训练样本数据训练出来的,所述训练样本数据包括:样本路径、所述样本路径上的数据表的节点的数量、各数据表中的数据量、以及标注的所述样本路径对应的SQL语句的执行时间。训练样本数据还可以包括各数据表中的数据量的平均值或方差等。
其中,可关联路径的度数是由该可关联路径上的边的数量确定的,即可关联路径的度数等于该可关联路径上的边的数量。例如,邻接表包括A、B、C、D、E五个节点,各节点之间的关联关系为:A关联B,B关联C,C关联D,D关联E,如果将节点A作为起点,则基于起点A的1度可关联路径为:A->B,基于起点A的2度可关联路径为:A->B->C,基于起点A的3度可关联路径为:A->B->C->D,基于起点A的4度可关联路径为:A->B->C->D->E。
通过上述方式,确定所述起点的i度可关联路径,将这些可关联路径输入至预先训练的回归模型,根据回归模型的输出结果确定当前各条i度可关联路径分别对应的SQL语句的执行时间,将SQL语句的执行时间最短的路径作为最优路径;进一步地,将筛选出的最优路径存入散列表,将i值加1后,结合邻接表和散列表确定起点的i度可关联路径,并从当前各条i度可关联路径中筛选出预设数量的最优路径,并将最优路径继续存储至散列表,直至i的取值达到设定数值,根据散列表中的最优路径创建数据表关联关系图。其中,所述设定数值可以根据邻接表中包含的各数据表的节点及其对应的邻居节点的个数,以及各节点和邻居节点之间的关联关系确定。这里,当i的取值为大于1的数值时,需要结合邻接表和散列表中的最优路径确定所述起点的当前i度可关联路径,也即当前i度可关联路径是当前散列表中的最优路径的延伸路径,比如i的取值为2时,当前散列表中的最优路径包括A->B和A->C,那么当前2度可关联路径可能包括:A->B->D和A->C->E,不可能包括A->H->D。
S230、获取输入的目标指标字段、目标维度字段以及目标维度字段所属的目标数据表。
S240、根据数据表关联关系图,确定目标指标字段对应的来源数据表与目标数据表之间的目标关联路径。
可选地,在生成目标关联路径之前,还包括:获取预先设置的配置信息,根据所述配置信息确定所述目标指标字段所对应的来源数据表。其中,所述配置信息包括:原子对象配置信息和派生对象配置信息。所述原子对象配置信息包括来源数据表、指标字段的计算逻辑信息以及各来源数据表之间的关联方式等信息;所述派生指标配置信息包括依赖原子对象的派生对象、统计周期和业务限定等信息。通过设置配置信息,可以解决现有技术中指标口径杂乱、不统一,容易造成数据二义性的问题。达到实现统一数据仓库指标口径的目的,有利于进行数据维护。
S250、根据目标关联路径生成SQL脚本。
S260、通过运行SQL脚本,执行基于目标关联路径上的数据表获得目标维度字段和目标指标字段对应的数据记录,并将数据记录保存至预设数据表中的操作。
本实施例提供的技术方案,基于旧模型生成法、新模型生成法或者将新旧模型结合,确定数据表关联关系信息;进一步基于数据表关联关系信息并采用递归方式确定至少一个可关联路径,以及基于回归模型筛选最优关联路径,基于最优关联路径创建数据表关联关系图,进一步根据数据表关联关系图确定目标指标字段对应的来源数据表与目标数据表之间的目标关联路径,以及生成结构化查询语言SQL脚本,通过运行SQL脚本,获得数据记录。上述过程全程零代码,且不需要划分大量时间调研。相比于现有技术中通过人工编写脚本到不同的数据表中查找字段,将查找到的字段的汇总计算结果作为数据记录,可以提高数据记录的生成效率和准确度。并且,通过预先设置配置信息,可以解决现有技术中指标口径杂乱、不统一,容易造成数据二义性的问题。达到实现统一数据仓库指标口径的目的,有利于进行数据维护。
实施例三
图4为本发明实施例三提供的一种数据表的生成方法的流程图。本实施例的技术方案在上述实施例的基础上进行了细化,通过细化方案对整个方案进行举例解释。在该方法实施例中未详尽描述的部分请参考上述实施例。具体参见图4所示,该方法可以包括如下步骤:
S310、获取数据仓库中各数据表对应的运行日志,抽取运行日志中的SQL语句,将SQL语句解析为抽象语法树,根据抽象语法树确定具有关联关系的数据表、以及具有关联关系的数据表对应的关联字段,根据确定结果生成至少一条数据表关联关系信息。
其中,各所述数据表关联关系信息包括具有关联关系的两个数据表的标识、以及所述两个数据表对应的关联字段。
如图5所示为用于生成数据表的架构图,如图6所示为一种数据表的生成方法的逻辑示意图。结合图5和图6,交互层获取输入的目标指标字段、目标维度字段以及目标维度字段所属的目标数据表之后,通过接口层的维度接口和指标接口将所获取的目标指标字段和目标维度字段发送至基础数据层;如果基础数据层基于旧模型对目标指标字段、目标维度字段以及目标数据表进行处理,则采用HQL-ETL方法获取应用层的数据仓库(Hive)中各数据表对应的运行日志,抽取运行日志中的SQL语句,并基于HQL-AST方法将SQL语句解析为抽象语法树,抽象语法树包括各节点之间的关联关系,根据抽象语法树上各节点之间的关联关系确定具有关联关系的数据表、以及具有关联关系的数据表对应的关联字段,根据确定结果生成至少一条数据表关联关系信息。
S320、获取数据仓库中各数据表中的维度字段,将各维度字段进行聚类,计算同一聚类类别中的维度字段之间的相似度,根据相似度确定具有关联关系的数据表、以及具有关联关系的数据表对应的关联字段,根据确定结果生成至少一条数据表关联关系信息。
其中,各所述数据表关联关系信息包括具有关联关系的两个数据表的标识、以及所述两个数据表对应的关联字段。
结合图5和图6,如果基础数据层基于新模型对目标指标字段、目标维度字段以及目标数据表进行处理,则基于分类模型对各维度字段进行分类,进一步通过维度聚类模型对分类后的维度字段进行聚类,并基于维度相似度模型计算聚类后的维度的相似度,以根据相似度确定具有关联关系的数据表、以及具有关联关系的数据表对应的关联字段,根据确定结果生成至少一条数据表关联关系信息。如图7所示为数据表关联关系信息表,该数据表关联关系信息表包括左表(left_table)、右表(right_table)、左表字段(left_column)、右表字段(right_column)、左表字段数据量(left_column_size)和右表字段数据量(right_column_size)之间的对应关系。其中,左表和右表是两个具有关联关系的数据表,左表字段和右表字段是对应的左表和右表的关联字段。
可选地,获取数据仓库中各数据表中的维度字段,包括:获取数据仓库中各数据表中的各字段;针对各所述字段,将所述字段的特征数据输入预先训练出的分类模型,根据所述分类模型的输出结果确定所述字段是否是维度字段;获取各所述字段中的维度字段。
可选地,所述计算同一聚类类别中的维度字段之间的相似度,包括:对于同一聚类类别中的各维度字段,将所述维度字段下的数据进行哈希映射,获得所述维度字段对应的二进制数据;计算每两个二进制数据之间的距离数据,根据所述距离数据确定对应的维度字段之间的相似度。
可选地,所述根据所述相似度确定具有关联关系的数据表、以及具有关联关系的数据表对应的关联字段,包括:将相似度超过设定阈值的维度字段所属的数据表,确定为具有关联关系的数据表,并将所述相似度超过设定阈值的维度字段确定为所述具有关联关系的数据表对应的关联字段。
S330、根据各数据表关联关系信息创建数据表关联关系图。
其中,所述数据表关联关系图中包含多个数据表的节点,具有关联关系的两个数据表的节点之间具有边的连接关系,并且各所述边上包含对应的两个数据表的关联字段。
可选地,所述根据各所述数据表关联关系信息创建数据表关联关系图,包括:根据各所述数据表关联关系信息构建邻接表;其中,所述邻接表中包含各数据表的节点分别对应的邻居节点;选择一个数据表的节点作为起点,基于所述邻接表确定所述起点的i度可关联路径;其中,i的初始取值为1;从当前各条i度可关联路径中筛选出预设数量的最优路径,将筛选出的最优路径存入散列表中;将i的取值加1,并根据所述邻接表和所述散列表确定所述起点的i度可关联路径,直至i的取值达到设定数值。
可选地,从当前各条i度可关联路径中筛选出预设数量的最优路径,包括:将当前各条i度可关联路径分别输入预先训练出的回归模型,根据所述回归模型的输出结果确定当前各条i度可关联路径分别对应的SQL语句的执行时间;根据所述执行时间从当前各条i度可关联路径中筛选出执行时间最短的预设数量的路径作为最优路径;其中,所述回归模型是预先根据多条训练样本数据训练出来的,所述训练样本数据包括:样本路径、所述样本路径上的数据表的节点的数量、各数据表中的数据量、以及标注的所述样本路径对应的SQL语句的执行时间。
S340、获取输入的目标指标字段、目标维度字段以及目标维度字段所属的目标数据表。
结合图5解释,将图5中存储层存储的指标信息(即指标字段)、维度信息(即维度字段)发送至交互层,以使客户端显示指标信息和维度信息,通过交互层获取输入的目标指标字段、目标维度字段,以及确定目标维度字段所属的目标数据表。
S350、获取预先设置的配置信息,根据配置信息确定目标指标字段所对应的来源数据表。
S360、根据数据表关联关系图,确定目标指标字段对应的来源数据表与目标数据表之间的至少一个关联路径。
S370、将至少一个关联路径进行显示,根据检测到的对显示的关联路径的选择操作,确定至少一个关联路径中的目标关联路径。
S380、根据目标关联路径生成AJSQL代码,通过运行AJSQL代码生成SQL脚本。
可选地,所述根据所述目标关联路径生成AJSQL代码,包括:获取指标库中存储的所述目标指标字段对应的计算逻辑信息;基于所述目标指标字段、所述目标指标字段对应的来源数据表和计算逻辑信息、所述目标维度字段、以及所述目标数据表,调用预设AJSQL方法实例化生成AJSQL所需要的原子对象及派生对象;基于所述原子对象及派生对象、所述目标指标字段与所述目标维度字段对应的关联方式、以及所述目标指标字段对应的计算逻辑信息,调用AJSQL库内置方法生成AJSQL代码。
可选地,通过运行所述AJSQL代码生成SQL脚本,包括:将所述目标指标字段对应的来源数据表实例化为AJSQL内置原子对象及派生对象;基于所述AJSQL内置原子对象及派生对象、所述目标指标字段对应的计算逻辑信息及所述目标指标字段与所述目标维度字段对应的关联方式,调用AJSQL内置算子生成SQL脚本。
结合如图5和图6解释S330-S380,基础数据层确定数据表关联关系信息后,根据各数据表关联关系信息进行关键字段数据量提取,并结合预先训练的回归模型确定N度关联路径,即创建数据表关联关系图。进一步地,基础数据层获取配置信息,配置信息包括指标统计周期、指标业务限定等,并从指标库获取计算逻辑信息,根据配置信息确定目标指标字段所对应的来源数据表,根据数据表关联关系图,确定目标指标字段对应的来源数据表与目标数据表之间的至少一个关联路径,将至少一个关联路径存储至存储层,通过接口层将至少一个关联路径发送至交互层,以通过交互界面将至少一个关联路径进行显示,并通过交互界面检测对显示的关联路径的选择操作,基础数据接收交互层发送的选择操作,确定至少一个关联路径中的目标关联路径,并将目标关联路径发送至HQL生成层,HQL生成层对目标关联路径中的目标维度字段进行解析、基于基础数据层发送的指标字段和维度字段的计算逻辑以及关联方式的AJSQL代码,调用不同算子进行拼接优化操作,生成AJSQL代码,通过运行AJSQL代码生成SQL脚本,实现SQL结构优化和SQL拼接。
S390、通过运行SQL脚本,执行基于目标关联路径上的数据表获得目标维度字段和目标指标字段对应的数据记录,并将数据记录保存至预设数据表中的操作。
通过前述步骤生成了SQL脚本,将SQL脚本通过接口层的脚本接口发送至交互层以显示SQL脚本,并运行所述SQL脚本,通过图5中应用层的计算引擎(Spark)根据SQL脚本中维度字段和目标字段之间的计算逻辑进行数据计算,通过应用层的交互式查询引擎(Presto)进行数据查询,并将结果写入至预设数据表中,结束整个数据生成的过程。
本实施例提供的技术方案,获取输入的目标指标字段、目标维度字段以及目标维度字段所属的目标数据表,根据旧模型生成法、新模型生成法或者将新旧模型结合,确定数据表关联关系信息;进一步基于数据表关联关系信息并采用递归方式确定至少一个可关联路径,以及基于回归模型筛选最优关联路径,将最优关联路径作为数据表关联关系图,进一步根据数据表关联关系图确定目标指标字段对应的来源数据表与目标数据表之间的目标关联路径,以及生成结构化查询语言SQL脚本,通过运行SQL脚本,获得数据记录。上述过程全程零代码,且不需要划分大量时间调研。相比于现有技术中通过人工编写脚本到不同的数据表中查找字段,将查找到的字段的分析汇总结果作为数据记录,可以提高数据记录的生成效率和准确度。并且,在生成HQL语句时,可以调用不同算子进行拼接优化操作,以生成指标统一、标准化、模块化的HQL语句。另外,通过预先设置配置信息,可以解决现有技术中指标口径杂乱、不统一,容易造成数据二义性的问题。达到实现统一数据仓库指标口径的目的,有利于进行数据维护。
实施例四
图8为本发明实施例四提供的一种数据生成装置的结构示意图。参见图8所示,该装置包括:信息获取模块410、目标关联路径确定模块420、脚本生成模块430以及数据生成模块440。
其中,信息获取模块410,用于获取输入的目标指标字段、目标维度字段以及所述目标维度字段所属的目标数据表;
目标关联路径确定模块420,用于根据预先创建的数据表关联关系图,确定所述目标指标字段对应的来源数据表与所述目标数据表之间的目标关联路径;
脚本生成模块430,用于根据所述目标关联路径生成结构化查询语言SQL脚本;
数据生成模块440,用于通过运行所述SQL脚本,执行基于所述目标关联路径上的数据表获得所述目标维度字段和所述目标指标字段对应的数据记录,并将所述数据记录保存至预设数据表中的操作。
在上述各技术方案的基础上,该装置还包括:数据表关联关系图创建模块;其中,数据表关联关系图创建模块,用于生成至少一条数据表关联关系信息,其中,各所述数据表关联关系信息包括具有关联关系的两个数据表的标识、以及所述两个数据表对应的关联字段;
根据各所述数据表关联关系信息创建数据表关联关系图;其中,所述数据表关联关系图中包含多个数据表的节点,具有关联关系的两个数据表的节点之间具有边的连接关系,并且各所述边上包含对应的两个数据表的关联字段。
在上述各技术方案的基础上,数据表关联关系图创建模块还用于,获取数据仓库中各数据表对应的运行日志,抽取所述运行日志中的SQL语句;
将所述SQL语句解析为抽象语法树,根据所述抽象语法树确定具有关联关系的数据表、以及具有关联关系的数据表对应的关联字段;
根据确定结果生成至少一条数据表关联关系信息。
在上述各技术方案的基础上,数据表关联关系图创建模块还用于,获取数据仓库中各数据表中的维度字段,将各所述维度字段进行聚类;
计算同一聚类类别中的维度字段之间的相似度;
根据所述相似度确定具有关联关系的数据表、以及具有关联关系的数据表对应的关联字段;
根据确定结果生成至少一条数据表关联关系信息。
在上述各技术方案的基础上,数据表关联关系图创建模块还用于,获取数据仓库中各数据表中的各字段;
针对各所述字段,将所述字段的特征数据输入预先训练出的分类模型,根据所述分类模型的输出结果确定所述字段是否是维度字段;
获取各所述字段中的维度字段。
在上述各技术方案的基础上,数据表关联关系图创建模块还用于,对于同一聚类类别中的各维度字段,将所述维度字段下的数据进行哈希映射,获得所述维度字段对应的二进制数据;
计算每两个二进制数据之间的距离数据,根据所述距离数据确定对应的维度字段之间的相似度。
在上述各技术方案的基础上,数据表关联关系图创建模块还用于,将相似度超过设定阈值的维度字段所属的数据表,确定为具有关联关系的数据表,并将所述相似度超过设定阈值的维度字段确定为所述具有关联关系的数据表对应的关联字段。
在上述各技术方案的基础上,数据表关联关系图创建模块还用于,根据各所述数据表关联关系信息构建邻接表;其中,所述邻接表中包含各数据表的节点分别对应的邻居节点;
选择一个数据表的节点作为起点,基于所述邻接表确定所述起点的i度可关联路径;其中,i的初始取值为1;
从当前各条i度可关联路径中筛选出预设数量的最优路径,将筛选出的最优路径存入散列表中;
将i的取值加1,并根据所述邻接表和所述散列表确定所述起点的i度可关联路径,直至i的取值达到设定数值。
在上述各技术方案的基础上,数据表关联关系图创建模块还用于,将当前各条i度可关联路径分别输入预先训练出的回归模型,根据所述回归模型的输出结果确定当前各条i度可关联路径分别对应的SQL语句的执行时间;
根据所述执行时间从当前各条i度可关联路径中筛选出执行时间最短的预设数量的路径作为最优路径;
其中,所述回归模型是预先根据多条训练样本数据训练出来的,所述训练样本数据包括:样本路径、所述样本路径上的数据表的节点的数量、各数据表中的数据量、以及标注的所述样本路径对应的SQL语句的执行时间。
在上述各技术方案的基础上,目标关联路径确定模块420还用于,根据预先创建的数据表关联关系图,确定所述目标指标字段对应的来源数据表与所述目标数据表之间的至少一个关联路径;
将所述至少一个关联路径进行显示;
根据检测到的对显示的关联路径的选择操作,确定所述至少一个关联路径中的目标关联路径。
在上述各技术方案的基础上,配置信息设置模块;其中,配置信息设置模块,用于获取预先设置的配置信息,根据所述配置信息确定所述目标指标字段所对应的来源数据表。
在上述各技术方案的基础上,脚本生成模块430还用于,根据所述目标关联路径生成AJSQL代码;
通过运行所述AJSQL代码生成SQL脚本。
在上述各技术方案的基础上,脚本生成模块430还用于,获取指标库中存储的所述目标指标字段对应的计算逻辑信息;
基于所述目标指标字段、所述目标指标字段对应的来源数据表和计算逻辑信息、所述目标维度字段、以及所述目标数据表,调用预设AJSQL方法实例化生成AJSQL所需要的原子对象及派生对象;
基于所述原子对象及派生对象、所述目标指标字段与所述目标维度字段对应的关联方式、以及所述目标指标字段对应的计算逻辑信息,调用AJSQL库内置方法生成AJSQL代码。
在上述各技术方案的基础上,脚本生成模块430还用于,将所述目标指标字段对应的来源数据表实例化为AJSQL内置原子对象及派生对象;
基于所述AJSQL内置原子对象及派生对象、所述目标指标字段对应的计算逻辑信息及所述目标指标字段与所述目标维度字段对应的关联方式,调用AJSQL内置算子生成SQL脚本。
本实施例提供的技术方案,获取输入的目标指标字段、目标维度字段以及目标维度字段所属的目标数据表;根据预先创建的数据表关联关系图,确定目标指标字段对应的来源数据表与目标数据表之间的目标关联路径;根据目标关联路径生成结构化查询语言SQL脚本;通过运行SQL脚本,执行基于目标关联路径上的数据表获得目标维度字段和目标指标字段对应的数据记录,并将数据记录保存至预设数据表中的操作。上述过程可以根据目标关联路径直接生成SQL脚本,运行SQL脚本生成数据表,全程0代码,且无需用户调研。解决了现有技术中因需要人工编写SQL脚本生成数据表,导致效率低下,准确度较低的问题,实现提高数据表的生成效率和准确度的效果。并且,在生成HQL语句时,可以调用不同算子进行拼接优化操作,以生成指标统一、标准化、模块化的HQL语句。
实施例五
图9为本发明实施例五提供的一种服务器的结构示意图。图9示出了适于用来实现本发明实施方式的示例性服务器12的框图。图9显示的服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图9所示,服务器12以通用计算设备的形式表现。服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存。服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如数据生成装置的信息获取模块410、目标关联路径确定模块420、脚本生成模块430以及数据生成模块440)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(例如数据生成装置的信息获取模块410、目标关联路径确定模块420、脚本生成模块430以及数据生成模块440)程序模块46的程序/实用工具44,可以存储在例如存储器28中,这样的程序模块46包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块46通常执行本发明所描述的实施例中的功能和/或方法。
服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该服务器12交互的设备通信,和/或与使得该服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种数据生成方法,该方法包括:
获取输入的目标指标字段、目标维度字段以及所述目标维度字段所属的目标数据表;
根据预先创建的数据表关联关系图,确定所述目标指标字段对应的来源数据表与所述目标数据表之间的目标关联路径;
根据所述目标关联路径生成结构化查询语言SQL脚本;
通过运行所述SQL脚本,执行基于所述目标关联路径上的数据表获得所述目标维度字段和所述目标指标字段对应的数据记录,并将所述数据记录保存至预设数据表中的操作。
处理单元16通过运行存储在系统存储器28中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的一种应用于数据仓库的聚类方法。
当然,本领域技术人员可以理解,处理器还可以实现本发明任意实施例所提供的一种应用于数据仓库的数据生成方法的技术方案。
实施例六
本发明实施例六还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本发明实施例所提供的一种数据生成方法,该方法包括:
获取输入的目标指标字段、目标维度字段以及所述目标维度字段所属的目标数据表;
根据预先创建的数据表关联关系图,确定所述目标指标字段对应的来源数据表与所述目标数据表之间的目标关联路径;
根据所述目标关联路径生成结构化查询语言SQL脚本;
通过运行所述SQL脚本,执行基于所述目标关联路径上的数据表获得所述目标维度字段和所述目标指标字段对应的数据记录,并将所述数据记录保存至预设数据表中的操作。
当然,本发明实施例所提供的一种计算机可读存储介质,其上存储的计算机程序不限于如上的方法操作,还可以执行本发明任意实施例所提供的一种数据生成方法中的相关操作。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在目标指标字段、目标维度字段等,其中承载了计算机可读的程序代码。这种传播的目标指标字段、目标维度字段等形式。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、系统或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
值得注意的是,上述数据生成装置的实施例中,所包括的各个模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (16)

1.一种数据表的生成方法,其特征在于,包括:
获取输入的目标指标字段、目标维度字段以及所述目标维度字段所属的目标数据表;
根据预先创建的数据表关联关系图,确定所述目标指标字段对应的来源数据表与所述目标数据表之间的目标关联路径;
根据所述目标关联路径生成结构化查询语言SQL脚本;
通过运行所述SQL脚本,执行基于所述目标关联路径上的数据表获得所述目标维度字段和所述目标指标字段对应的数据记录,并将所述数据记录保存至预设数据表中的操作;
根据预先创建的数据表关联关系图,确定所述目标指标字段对应的来源数据表与所述目标数据表之间的目标关联路径,包括:
根据预先创建的数据表关联关系图,确定所述目标指标字段对应的来源数据表与所述目标数据表之间的至少一个关联路径;
将所述至少一个关联路径进行显示;
根据检测到的对显示的关联路径的选择操作,确定所述至少一个关联路径中的目标关联路径。
2.根据权利要求1所述的方法,其特征在于,在获取输入的目标指标字段、目标维度字段以及所述目标维度字段所属的目标数据表之前,所述方法还包括:
生成至少一条数据表关联关系信息,其中,各所述数据表关联关系信息包括具有关联关系的两个数据表的标识、以及所述两个数据表对应的关联字段;
根据各所述数据表关联关系信息创建数据表关联关系图;其中,所述数据表关联关系图中包含多个数据表的节点,具有关联关系的两个数据表的节点之间具有边的连接关系,并且各所述边上包含对应的两个数据表的关联字段。
3.根据权利要求2所述的方法,其特征在于,生成至少一条数据表关联关系信息,包括:
获取数据仓库中各数据表对应的运行日志,抽取所述运行日志中的SQL语句;
将所述SQL语句解析为抽象语法树,根据所述抽象语法树确定具有关联关系的数据表、以及具有关联关系的数据表对应的关联字段;
根据确定结果生成至少一条数据表关联关系信息。
4.根据权利要求2所述的方法,其特征在于,生成至少一条数据表关联关系信息,包括:
获取数据仓库中各数据表中的维度字段,将各所述维度字段进行聚类;
计算同一聚类类别中的维度字段之间的相似度;
根据所述相似度确定具有关联关系的数据表、以及具有关联关系的数据表对应的关联字段;
根据确定结果生成至少一条数据表关联关系信息。
5.根据权利要求4所述的方法,其特征在于,获取数据仓库中各数据表中的维度字段,包括:
获取数据仓库中各数据表中的各字段;
针对各所述字段,将所述字段的特征数据输入预先训练出的分类模型,根据所述分类模型的输出结果确定所述字段是否是维度字段;
获取各所述字段中的维度字段。
6.根据权利要求4所述的方法,其特征在于,计算同一聚类类别中的维度字段之间的相似度,包括:
对于同一聚类类别中的各维度字段,将所述维度字段下的数据进行哈希映射,获得所述维度字段对应的二进制数据;
计算每两个二进制数据之间的距离数据,根据所述距离数据确定对应的维度字段之间的相似度。
7.根据权利要求4所述的方法,其特征在于,根据所述相似度确定具有关联关系的数据表、以及具有关联关系的数据表对应的关联字段,包括:
将相似度超过设定阈值的维度字段所属的数据表,确定为具有关联关系的数据表,并将所述相似度超过设定阈值的维度字段确定为所述具有关联关系的数据表对应的关联字段。
8.根据权利要求2所述的方法,其特征在于,根据各所述数据表关联关系信息创建数据表关联关系图,包括:
根据各所述数据表关联关系信息构建邻接表;其中,所述邻接表中包含各数据表的节点分别对应的邻居节点;
选择一个数据表的节点作为起点,基于所述邻接表确定所述起点的i度可关联路径;其中,i的初始取值为1;
从当前各条i度可关联路径中筛选出预设数量的最优路径,将筛选出的最优路径存入散列表中;
将i的取值加1,并根据所述邻接表和所述散列表确定所述起点的i度可关联路径,直至i的取值达到设定数值。
9.根据权利要求8所述的方法,其特征在于,从当前各条i度可关联路径中筛选出预设数量的最优路径,包括:
将当前各条i度可关联路径分别输入预先训练出的回归模型,根据所述回归模型的输出结果确定当前各条i度可关联路径分别对应的SQL语句的执行时间;
根据所述执行时间从当前各条i度可关联路径中筛选出执行时间最短的预设数量的路径作为最优路径;
其中,所述回归模型是预先根据多条训练样本数据训练出来的,所述训练样本数据包括:样本路径、所述样本路径上的数据表的节点的数量、各数据表中的数据量、以及标注的所述样本路径对应的SQL语句的执行时间。
10.根据权利要求1所述的方法,其特征在于,在根据预先创建的数据表关联关系图,确定所述目标指标字段对应的来源数据表与所述目标数据表之间的目标关联路径之前,所述方法还包括:
获取预先设置的配置信息,根据所述配置信息确定所述目标指标字段所对应的来源数据表。
11.根据权利要求1-10中任一项所述的方法,其特征在于,根据所述目标关联路径生成SQL脚本,包括:
根据所述目标关联路径生成AJSQL代码;其中,所述AJSQL代码包括指标字段和维度字段的计算逻辑以及关联方式;
通过运行所述AJSQL代码生成SQL脚本。
12.根据权利要求11所述的方法,其特征在于,根据所述目标关联路径生成AJSQL代码,包括:
获取指标库中存储的所述目标指标字段对应的计算逻辑信息;
基于所述目标指标字段、所述目标指标字段对应的来源数据表和计算逻辑信息、所述目标维度字段、以及所述目标数据表,调用预设AJSQL方法实例化生成AJSQL所需要的原子对象及派生对象;
基于所述原子对象及派生对象、所述目标指标字段与所述目标维度字段对应的关联方式、以及所述目标指标字段对应的计算逻辑信息,调用AJSQL库内置方法生成AJSQL代码。
13.根据权利要求11所述的方法,其特征在于,通过运行所述AJSQL代码生成SQL脚本,包括:
将所述目标指标字段对应的来源数据表实例化为AJSQL内置原子对象及派生对象;
基于所述AJSQL内置原子对象及派生对象、所述目标指标字段对应的计算逻辑信息及所述目标指标字段与所述目标维度字段对应的关联方式,调用AJSQL内置算子生成SQL脚本。
14.一种数据表的生成装置,其特征在于,包括:
信息获取模块,用于获取输入的目标指标字段、目标维度字段以及所述目标维度字段所属的目标数据表;
目标关联路径确定模块,用于根据预先创建的数据表关联关系图,确定所述目标指标字段对应的来源数据表与所述目标数据表之间的目标关联路径;
脚本生成模块,用于根据所述目标关联路径生成结构化查询语言SQL脚本;
数据生成模块,用于通过运行所述SQL脚本,执行基于所述目标关联路径上的数据表获得所述目标维度字段和所述目标指标字段对应的数据记录,并将所述数据记录保存至预设数据表中的操作;
目标关联路径确定模块还用于,根据预先创建的数据表关联关系图,确定所述目标指标字段对应的来源数据表与所述目标数据表之间的至少一个关联路径;
将所述至少一个关联路径进行显示;
根据检测到的对显示的关联路径的选择操作,确定所述至少一个关联路径中的目标关联路径。
15.一种电子设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-13中任一所述的数据表的生成方法。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-13中任一所述的数据表的生成方法。
CN202011405719.5A 2020-12-02 2020-12-02 一种数据表的生成方法、装置、设备和存储介质 Active CN113760891B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011405719.5A CN113760891B (zh) 2020-12-02 2020-12-02 一种数据表的生成方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011405719.5A CN113760891B (zh) 2020-12-02 2020-12-02 一种数据表的生成方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN113760891A CN113760891A (zh) 2021-12-07
CN113760891B true CN113760891B (zh) 2024-07-16

Family

ID=78786154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011405719.5A Active CN113760891B (zh) 2020-12-02 2020-12-02 一种数据表的生成方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113760891B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113986932B (zh) * 2021-12-28 2022-04-12 恒生电子股份有限公司 数据处理方法、装置、计算机设备及可读存储介质
CN114925064A (zh) * 2022-04-11 2022-08-19 医渡云(北京)技术有限公司 基于增量标识的数据生产方法、装置、设备及存储介质
CN115034744A (zh) * 2022-05-25 2022-09-09 岭澳核电有限公司 核电厂的系统健康季报的公用指标汇集方法、系统
CN116431736B (zh) * 2023-02-06 2023-10-20 北京三维天地科技股份有限公司 一种在线数据仓库模型的构建方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019486A (zh) * 2018-07-19 2019-07-16 平安科技(深圳)有限公司 数据采集方法、装置、设备及存储介质
CN111930819A (zh) * 2020-08-14 2020-11-13 工银科技有限公司 Etl脚本生成方法和装置

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7627854B2 (en) * 2006-01-12 2009-12-01 International Business Machines Corporation Graphical aid for generating object setup scripts
US9251226B2 (en) * 2013-03-15 2016-02-02 International Business Machines Corporation Data integration using automated data processing based on target metadata
EP3134827A1 (en) * 2014-04-23 2017-03-01 IT Systems Ltd. Mescal Database interface creation system and method
CN105912595B (zh) * 2016-04-01 2019-03-05 华南理工大学 一种关系数据库的数据起源收集方法
CN107798069A (zh) * 2017-09-26 2018-03-13 恒生电子股份有限公司 用于数据加载的方法、装置及计算机可读介质
CN108874644B (zh) * 2018-06-06 2021-12-24 平安科技(深圳)有限公司 数据监控方法、装置、计算机设备及存储介质
CN109582691B (zh) * 2018-11-15 2023-04-07 百度在线网络技术(北京)有限公司 用于控制数据查询的方法和装置
CN110008232A (zh) * 2019-04-11 2019-07-12 北京启迪区块链科技发展有限公司 结构化查询语句的生成方法、装置、服务器及介质
CN111177176B (zh) * 2019-11-18 2023-05-16 腾讯科技(深圳)有限公司 数据检测方法、装置及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110019486A (zh) * 2018-07-19 2019-07-16 平安科技(深圳)有限公司 数据采集方法、装置、设备及存储介质
CN111930819A (zh) * 2020-08-14 2020-11-13 工银科技有限公司 Etl脚本生成方法和装置

Also Published As

Publication number Publication date
CN113760891A (zh) 2021-12-07

Similar Documents

Publication Publication Date Title
CN111522816B (zh) 基于数据库引擎的数据处理方法、装置、终端及介质
CN109684352B (zh) 数据分析系统、方法、存储介质及电子设备
CN113760891B (zh) 一种数据表的生成方法、装置、设备和存储介质
CN110502227B (zh) 代码补全的方法及装置、存储介质、电子设备
CN108182215B (zh) 一种结构化查询语言sql性能统计的方法及装置
CN109522312B (zh) 一种数据处理方法、装置、服务器和存储介质
US11243924B2 (en) Computing the need for standardization of a set of values
CN112163424B (zh) 数据的标注方法、装置、设备和介质
CN107203468B (zh) 一种基于ast的软件版本演化对比分析方法
CN111709527A (zh) 运维知识图谱库的建立方法、装置、设备及存储介质
US10002142B2 (en) Method and apparatus for generating schema of non-relational database
CN112000773B (zh) 基于搜索引擎技术的数据关联关系挖掘方法及应用
CN112445775B (zh) 一种光刻机的故障分析方法、装置、设备和存储介质
US8954376B2 (en) Detecting transcoding tables in extract-transform-load processes
CN110555205A (zh) 否定语义识别方法及装置、电子设备、存储介质
CN111553556A (zh) 业务数据分析方法、装置、计算机设备及存储介质
US9558462B2 (en) Identifying and amalgamating conditional actions in business processes
CN115203435A (zh) 基于知识图谱的实体关系生成方法及数据查询方法
CN114253995B (zh) 数据溯源方法、装置、设备及计算机可读存储介质
CN116841779A (zh) 异常日志检测方法、装置、电子设备和可读存储介质
WO2016093839A1 (en) Structuring of semi-structured log messages
Wagenpfeil et al. Graph codes-2d projections of multimedia feature graphs for fast and effective retrieval
CN117093556A (zh) 日志分类方法、装置、计算机设备及计算机可读存储介质
CN116955856A (zh) 信息展示方法、装置、电子设备以及存储介质
CN107908724B (zh) 一种数据模型匹配方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant