CN115935926A - 生成数据表的方法及装置 - Google Patents
生成数据表的方法及装置 Download PDFInfo
- Publication number
- CN115935926A CN115935926A CN202211351865.3A CN202211351865A CN115935926A CN 115935926 A CN115935926 A CN 115935926A CN 202211351865 A CN202211351865 A CN 202211351865A CN 115935926 A CN115935926 A CN 115935926A
- Authority
- CN
- China
- Prior art keywords
- data
- logical
- query
- generating
- materialized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 230000004927 fusion Effects 0.000 abstract description 27
- 230000008520 organization Effects 0.000 description 14
- 238000004364 calculation method Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 10
- 238000013500 data storage Methods 0.000 description 9
- 230000007246 mechanism Effects 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000003032 molecular docking Methods 0.000 description 4
- 238000013523 data management Methods 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本说明书一个或多个实施例提供一种生成数据表的方法及装置,其中,该方法包括:确定数据来源表,其中,所述数据来源表是当前机构域的数据仓库表、跨机构域的数据联邦表以及跨机构域的原始数据表中的至少一个;基于所述数据来源表所包括的字段,生成用于执行数据虚拟化的逻辑表;其中,所述逻辑表用于为数据应用提供数据查询结果。在本公开中,可以生成用于执行数据虚拟化的逻辑表,通过逻辑表的数据虚拟化对象,达到本域数据仓库和跨机构域数据融合两种系统之上数据对象的兼容统一。
Description
技术领域
本说明书一个或多个实施例涉及终端技术领域,尤其涉及一种生成数据表的方法及装置。
背景技术
随着数字化程度越来越高,越来越多的机构建设或者使用了数据仓库系统,为上层数据应用提供支撑服务。随着数据驱动力越来越强,而且数据应用对效果的要求越来越高,数据应用不仅使用本机构的数据,还寻求使用其他机构的数据。随着数据合规要求越来越严格,若想使用其他机构的数据,直接连接或者直接采集的方式越来越少,更多的选择建设或者使用合规的跨机构域数据融合系统,比如基于隐私计算技术构建的系统。这样数据应用的数据来源既有来自本域数据仓库系统的数据,又有来自跨机构域数据融合系统的数据。
但是本机构域数据仓库系统和跨机构域数据融合系统相互独立,两种系统中的数据相互隔离,对于上层数据应用没有形成统一的数据视角,也没有形成统一的服务对接。
发明内容
有鉴于此,本说明书一个或多个实施例提供一种生成数据表的方法及装置,通过逻辑表的数据虚拟化对象,达到本机构域数据仓库和跨机构域数据融合两种系统之上,数据对象的兼容统一。
为实现上述目的,本说明书一个或多个实施例提供技术方案如下:
根据本说明书一个或多个实施例的第一方面,提出了一种生成数据表的方法,包括:
确定数据来源表,其中,所述数据来源表是当前机构域的数据仓库表、跨机构域的数据联邦表以及跨机构域的原始数据表中的至少一个;
基于所述数据来源表所包括的字段,生成用于执行数据虚拟化的逻辑表;其中,所述逻辑表用于为数据应用提供数据查询结果。
根据本说明书一个或多个实施例的第二方面,提出了一种生成数据表的装置,包括:
处理模块,用于确定数据来源表,其中,所述数据来源表是当前机构域的数据仓库表、跨机构域的数据联邦表以及跨机构域的原始数据表中的至少一个;
生成模块,用于基于所述数据来源表所包括的字段,生成用于执行数据虚拟化的逻辑表;其中,所述逻辑表用于为数据应用提供数据查询结果。
根据本说明书一个或多个实施例的第三方面,提出了一种数据虚拟化系统,包括:
用于执行数据虚拟化的逻辑表,所述逻辑表是基于数据来源表所包括的字段生成的,且所述逻辑表用于为数据应用提供数据查询结果,所述数据来源表是当前机构域的数据仓库表、跨机构域的数据联邦表以及跨机构域的原始数据表中的至少一个;
查询引擎,用于为数据应用提供查询所述逻辑表的所述数据查询结果。
根据本说明书一个或多个实施例的第四方面,提出了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如第一方面中任一项所述的生成数据表的方法。
根据本说明书一个或多个实施例的第五方面,提出了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面中任一项所述生成数据表的方法的步骤。
本说明书的实施例提供的技术方案可以包括以下有益效果:
在本公开中,可以生成用于执行数据虚拟化的逻辑表,该逻辑表可以用于为数据应用提供数据查询结果,通过逻辑表的数据虚拟化对象,达到本域数据仓库和跨机构域数据融合两种系统之上数据对象的兼容统一。此外,可以实现跨机构域数据融合和本域数据仓库两种系统之上的统一的查询。且实现了逻辑表的自动物化,可用性高。
附图说明
图1是一示例性实施例提供的两种数据系统相互粒度的场景示意图。
图2是一示例性实施例提供的一种生成数据表的方法的流程图。
图3是一示例性实施例提供的一种基于逻辑表生成新的逻辑表的场景示意图。
图4是一示例性实施例提供的另一种生成数据表的方法的流程图。
图5是一示例性实施例提供的一种查询引擎的结构示意图。
图6A至图6B是一示例性实施例提供的查询计划示意图。
图7是一示例性实施例提供的另一种生成数据表的方法的流程图。
图8是一示例性实施例提供的一种存储物化表的场景示意图。
图9是一示例性实施例提供的一种数据虚拟化系统的结构示意图。
图10是一示例性实施例提供的一种电子设备的结构示意图。
图11是一示例性实施例提供的一种生成数据表的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
在介绍本公开提供的方案之前,先介绍一下本公开涉及到的术语。
数据仓库:
数据仓库是信息的中央集中存储库,用于存储和处理数据,以便对数据进行分析。数据一般定期或者实时从在线事务系统、关系型数据库、消息系统和其他系统采集流入到数据仓库。本提案中提到的数据仓库特指大数据仓库,是基于大数据存储和计算系统构建的数据仓库。
本域数据仓库:
归属于本机构域的数据仓库,存储的数据归属于本机构法律主体或者合规授权给本机构法律主体。
跨机构域数据融合:
不同机构之间数据的流转、共享、分析、计算等,和合规要求下建设在不同的机构之间,为了打破机构之间数据孤岛,共同发挥数据的更大价值。
隐私计算:
从计算讲,它是一组技术统称,以解决数据计算过程中的数据安全和隐私保护的问题。以多方安全计算(Secure Muti-Party Computation,MPC)、联邦学习(FederatedLearning,FL)、可信执行环境(Trusted Execution Environment,TEE)等技术为代表。
联邦表:
一种跨机构域数据融合系统之上的数据虚拟化对象,对上层屏蔽多数据集的分散形态。
动态数据管理框架Apache Calcite:
Apache Calcite用于构建数据库或者数据管理系统的开源框架。包括一个结构化查询语言(Structured Query Language,SQL)解析器,一个用于在关系代数中构建表达式的应用程序接口(Application Program Interface,API)和一个查询计划引擎。
开源语法分析器ANTLR:
ANTLR的全名是ANother Tool for Language Recognition,是基于LL算法实现的语法解析器生成器,广泛用于构建语言、工具和框架。
元数据:
用于描述数据属性(property)的信息,某个数据表的元数据可以理解为该数据表的字段名,例如,某个数据表的元数据包括:用户标识id,性别gender,年龄age等。
物理数据:
用于描述数据的具体信息,某个数据表的物理数据可以理解为该数据表的字段值,例如,某个数据表的元数据包括:用户标识id,性别gender,年龄age等,物理数据包括:id#1,女,28岁等。
数据虚拟化:
用来描述数据管理方法,这些方法允许应用程序,例如数据应用检索并管理数据,且不需要数据相关的技术细节,例如数据格式化的方式或物理位置所在。其中,物理位置在本公开中可以理解为机构域所对应的地理位置。
随着数字化程度越来越高,越来越多的机构建设或者使用了数据仓库系统,为上层数据应用提供支撑服务。随着数据驱动力越来越强,而且数据应用对效果的要求越来越高,数据应用不仅使用本机构的数据,还寻求使用其他机构的数据。随着数据合规要求越来越严格,若想使用其他机构的数据,直接连接或者直接采集的方式越来越少,更多的选择建设或者使用合规的跨机构域数据融合系统,比如基于隐私计算技术构建的系统。
这样数据应用的数据来源既有来自本域数据仓库系统的数据,又有来自跨机构域数据融合系统的数据。但是本域数据仓库系统和跨机构域数据融合系统相互独立,两种系统中的数据相互隔离,对于上层数据应用没有形成统一的数据视角,也没有形成统一的服务对接,例如图1所示。
示例性地,某风控类的数据应用,既使用本域内的数据仓库系统的数据,又通过数据融合系统使用其他机构的数据做联合风控,使用的数据集既有数据仓库的数仓表,又有数据融合系统的联邦表或者原始数据表,而且该数据应用需要分别对接这两种系统。
但是本机构域数据仓库系统和跨机构域数据融合系统相互独立,两种系统中的数据相互隔离,对于上层数据应用没有形成统一的数据视角,也没有形成统一的服务对接。
为了解决这一技术问题,本公开提供了以下生成数据的方法及装置。
图2是一示例性实施例提供的一种生成数据表的方法流程图。请参考图2,该方法可以由服务器执行,该服务器可以是当前机构域内用于提供数据服务,例如数据查询、数据存储、数据更新等的服务器,包括:
在步骤201中,确定数据来源表。
在本公开实施例中,所述数据来源表可以是当前机构域的数据仓库表、跨机构域的数据联邦表以及跨机构域的原始数据表中的至少一个。
其中,跨机构域可以理解为跨域名,一般情况下,不同的域名对应不同的地理区域。
在一个示例中,假设当前机构域为机构域B,数据来源表可以包括机构域C的数据仓库表。
在另一个示例中,假设当前机构域为机构域B,数据来源表可以包括跨机构域A和机构域C的联邦表。
在另一个示例中,假设当前机构域为机构域B,数据来源表可以包括机构域B的数据仓库表和跨机构域A和机构域C的原始数据表。
以上仅为示例性说明,数据来源表至少是当前机构域的数据仓库表、跨机构域的数据联邦表以及跨机构域的原始数据表中的至少一个的任意一种情况,均应属于本公开的保护范围。
在步骤202中,基于所述数据来源表所包括的字段,生成用于执行数据虚拟化的逻辑表。
在本公开实施例中,逻辑表可以用于为数据应用提供数据查询结果。
逻辑表是从业务视角定义的一份数据视图,数据来源于本机构域内的数据仓库表和跨机构域数据融合的联邦表或者跨机构域的原始数据表,本公开对此不作限定。
在一个示例中,逻辑表可以只存储元数据,不存储物理数据。逻辑表的目的是为了统一规范的数据建模,基于逻辑表可以把数据仓库数据和数据融合数据放在一起建设统一的数据模型。基于逻辑表还可以创建其他的逻辑表,例如图3所示,在基于本机构域的数据仓库表(即数仓表)和跨机构域的联邦表生成一张逻辑表后,可以基于该逻辑表生成其他的逻辑表,图3中又生成了两张逻辑表。基于逻辑表生成新的逻辑表的方式与生成逻辑表的方式类似,生成逻辑表的方式如下:
在一个示例中,可以采用预定义规则,确定逻辑表名。
进一步地,可以在所述数据来源表所包括的字段中,确定生成所述逻辑表所需要的指定字段,其中,指定字段是数据来源表所包括的一个或多个字段。
进一步地,可以确定所述逻辑表的输出字段与所述指定字段之间的计算逻辑关系。
在本公开实施例中,逻辑表的输出字段可以与指定字段相同,或者逻辑表的输出字段需要基于指定字段之间的计算逻辑关系确定。
例如,指定字段包括买方标识buyer_id、卖方标识seller_id。逻辑表的输出字段可以包括买方标识buyer_id、卖方标识seller_id。
再例如,指定字段包括买方标识buyer_id、卖方标识seller_id、订单交易量quantity,逻辑表的输出字段包括日最大订单交易量quantity_max_1d。
其中,逻辑表的输出字段quantity_max_1d与所述指定字段之间的计算逻辑关系为:按照buyer_id、seller_id分组(即统计同一天内)对quantity求最大值。
再进一步地,可以基于所述逻辑表名、所述数据来源表、所述指定字段以及所述计算逻辑关系中的至少一项,生成所述逻辑表。
示例性地,可以基于预定义规则,确定逻辑表名为trade_indicator。
进一步地,数据来源表包括:当前机构域的数据仓库表MAXCOMPUTE.default.order,以及机构域A和机构C的联邦表FeDX.default.event,数据来源表包括多个时,多个数据来源表之间的关联条件是join,join的字段和条件是order.id=event.id。
选择的数据来源表的指定字段包括:买方标识event.buyer_id、卖方标识event.seller_id、订单交易量order.quantity、交易渠道order.channel、价格event.price;
逻辑表的输出字段包括:买方标识buyer_id、卖方标识seller_id、日最大订单交易量quantity_max_1d、云上的周订单交易收入总和amount_cloud_7d。
计算逻辑关系包括:
输出字段quantity_max_1d与指定字段buyer_id、seller_id、quantity之间的计算逻辑关系包括:按照buyer_id、seller_id分组对quantity求最大值;
输出字段amount_cloud_7d字段与指定字段buyer_id、seller_id、quantity、price之间的计算逻辑关系包括:统计7天数据量,按照buyer_id、seller_id分组(统计七日内)对quantity×price求和,限制条件是交易渠道channel='cloud'(云上);
以上仅为示例性说明,实际应用中,将当前机构域的数据仓库表、跨机构域的数据联邦表以及跨机构域的原始数据表中的至少一个作为数据来源表,从而生成用于执行数据虚拟化的逻辑表的方案均应属于本公开的保护范围。
上述实施例中,可以生成用于执行数据虚拟化的逻辑表,该逻辑表可以用于为数据应用提供数据查询结果,通过逻辑表的数据虚拟化对象,达到本域数据仓库和跨机构域数据融合两种系统之上数据对象的兼容统一,可用性高。
在一些可选实施例中,图4是基于图2所示实施例提供的另一种生成数据表的方法流程图。请参考图4,该方法可以由服务器执行,该服务器可以是当前机构域内用于提供数据服务,例如数据查询、数据存储、数据更新等的服务器,所述方法还包括:
在步骤203中,为数据应用提供查询所述逻辑表的查询引擎。
在本公开实施例中,可以为数据应用提供查询上述逻辑表的查询引擎,示例性地,该查询引擎的结构可以例如图5所示。
在一个示例中,查询引擎支持的查询语言为SQL语言,可以为标准SQL语言的子集,并有适量语法扩展,本公开对此不作限定。该查询引擎针对数据应用的对接接口同样支持SQL语句。
其中,图5中查询引擎的解析可以由SQL parser执行,SQL parser可以采用ApacheCalcit或ANTLR来实现,本公开对此不作限定。
在另一个示例中,查询引擎用于存储所述逻辑表的元数据。即查询引擎不直接存储各个机构域物理表的元数据。
在本公开实施例中,逻辑表的元数据校验和/或鉴权由查询引擎来实现,物理表的元数据校验和/或鉴权通过查询引擎调用物理表各自所在机构域的计算引擎来实现。
在另一个示例中,可以由所述查询引擎生成跨机构域的查询计划,其中,该查询计划可以基于数据应用提供的查询语句来生成。
进一步地,由所述查询引擎将所述查询计划拆分为至少一个查询子计划,其中,所述查询子计划与所述数据来源表的计算引擎一一对应。也就是说,由查询引擎将查询计划按照每个数据来表所对应的计算引擎分别进行拆分。
每个计算引擎执行查询子计划得到查询子结果后,可以由查询引擎合并所述查询子结果,并将得到的所述数据查询结果提供给所述数据应用。
示例性地,查询引擎接收到来自数据应用的查询语句如下:
SELECT COUNT(f1),SUM(f2)FROM
(
(SELECT id as f1,frequency as f2 FROM FeDX.default.consumer_featuresWHERE id<>‘1234’)T1
UNION ALL
(SELECT c1 as f1,c2 as f2 FROM MAXCOMPUTE.default.dim_user WHERE id<>‘1234’)T2
)
进一步地,查询引擎将其翻译成查询计划,例如图6A所示。
其中逻辑表对应的数据来源表包括当前机构域的数据仓库表和数据融合系统的联邦表,分别对应的计算引擎为数据仓库计算引擎、数据融合系统计算引擎。查询引擎将上述的查询计划拆分成三个部分,包括由查询引擎所执行的第一部分,由数据仓库计算引擎所执行的第二部分和由数据融合系统计算引擎所执行的第三部分,例如图6B所示。
第二部分和第三部分的查询子计划分别由数据仓库计算引擎和数据融合系统计算引擎执行,得到对应的查询子结果,查询引擎合并所述查询子结果,最终得到数据查询结果。
上述实施例中,通过查询引擎可以实现跨机构域数据融合和本机构域数据仓库两种系统之上的统一的查询。
在一些可选实施例中,图7是基于图4所示实施例提供的另一种生成数据表的方法流程图。请参考图7,该方法可以由服务器执行,该服务器可以是当前机构域内用于提供数据服务,例如数据查询、数据存储、数据更新等的服务器,所述方法还包括:
在步骤204中,当对所述逻辑表执行物化时,生成用于承载所述逻辑表的物理数据的物化表。
在一个示例中,可以由物化引擎生成所述物化表。
在一个示例中,逻辑表的物化与数据库中的物化视图主要区别点有以下几项:
首先,数据库中的物化视图是一定有数据存储的;而逻辑表不一定有数据存储,在打开物化的时候,才会有数据存储,如果没有打开物化,是没有数据存储的。
其次,物化视图的数据存储是由其本身存储;而逻辑表在物化的时候,逻辑表的物化数据存储由单独的物理表来承载,逻辑表和其对应的物理表共同组成了物化了的逻辑表。
再次,一个物化视图就是一个数据对象;而打开物化的一个逻辑表可以对应多个物理表。
再次,物化视图是直接面对使用者的;而打开物化的逻辑表,所产生的物理表是不直接面对使用者的,使用者还是直接使用逻辑表而不是所产生的物理表。
另外,对于物化到数据融合系统的数据,在一些合规要求下,有些数据是分散物化存储到各个机构域。
承载逻辑表物化数据存储的表称为物化表,物化表存储在底层的各个系统,逻辑表和物化表的对应关系如图8所示,其中,物化表1、物化表2、物化表3分别存储在A机构域内、当前机构域(即B机构域)的数据仓库、C机构域内。
首先,可以在所述数据来源表所包括的字段中,确定生成所述逻辑表所需要的所述指定字段。确定指定字段的方式已经在上述实施例进行了介绍,此处不再赘述。
其次,需要确定所述物化表的输出字段与所述指定字段之间的物化逻辑关系。
进一步地,基于所述指定字段和所述物化逻辑关系,确定与所述物化表的输出字段所对应的物理数据。
进一步地,可以基于物化表名、所述物化表的输出字段和所述物理数据中的至少一项,生成所述物化表。
生成物化表的过程与生成逻辑表的过程类似,只是在生成物化表时需要确定物化表输出字段所对应的物理数据。
示例性地,上文的逻辑表trade_indicator,当对所述逻辑表执行物化时,即打开物化时,会自动生成两张物化表:trade_1d、trade_7d:
其中,物化表trade_1d对应的输出字段包括:buyer_id、seller_id、quantity_max_1d、dt;对应的物化逻辑如下:
INSERT OVERWRITE TABLE trade_1d PARTITION(dt)
SELECT
trade.buyer_id as buyer_id,
trade.seller_id as seller_id,
max(trade.quantity)as quantity_max_1d,
'${bizdate}'as dt
FROM
(SELECT event.buyer_id as buyer_id,event.seller_id as seller_id,order.quantity as quantity,order.dt as dt
from MAXCOMPUTE.default.order join FeDX.default.event on order.id=event.id and order.dt=event.dt
)as trade
WHERE trade.dt='${bizdate}'
GROUP BY trade.buyer_id,trade.seller_id;
其中,物化表trade_7d对应输出的字段如下:buyer_id、seller_id、amount_cloud_7d、dt;对应的物化逻辑如下:
INSERT OVERWRITE TABLE trade_7d PARTITION(dt)
SELECT
trade.buyer_id as buyer_id,
trade.seller_id as seller_id,
sum(trade.quantity*trade.price)as amount_cloud_7d,
'${bizdate}'as dt
FROM
(SELECT
event.buyer_id as buyer_id,event.seller_id as seller_id,
order.quantity as quantity,order.channel,event.price as price
order.dt as dt
from MAXCOMPUTE.default.order join FeDX.default.event on order.id=event.id and order.dt=event.dt
)as trade
WHERE trade.dt<='${bizdate}'and trade.dt>='${bizdate-7d}'
AND trade.channel='cloud'
GROUP BY trade.buyer_id,trade.seller_id;
以上仅为示例性说明,本领域技术人员能够理解的是,基于逻辑表生成物化表的方案均应属于本公开的保护范围。
上述实施例中,可以实现逻辑表的自动物化,提高了数据查询效率,可用性高。
在一些可选实施例中,本公开提供了一种数据虚拟化系统,该系统可以部署在本机构域数据仓库系统和跨机构域数据融合系统之上,其结构示意图参考图9所示,包括:逻辑表,查询引擎,还可以包括物化引擎。
其中,逻辑表的生成方式与上述图2所示实施例类似,在此不再赘述。
其中,查询引擎的结构与上述图5类似,查询引擎所执行的操作与上述图4所示类似,在此同样不再赘述。
其中,物化引擎生成物化表的方式已经在上述实施例进行了介绍,此处不再赘述。
上述实施例中,可以通过逻辑表的数据虚拟化对象,达到本域数据仓库和跨机构域数据融合两种系统之上数据对象的兼容统一。此外,可以实现跨机构域数据融合和本域数据仓库两种系统之上的统一的查询,且实现了逻辑表的自动物化,提高了数据查询效率,可用性高。
图10是一示例性实施例提供的一种电子设备的示意结构图,该电子设备可以为数据服务器,本公开对此不作限定。请参考图10,在硬件层面,该设备包括处理器1002、内部总线1004、网络接口1006、内存1008以及非易失性存储器1010,当然还可能包括其他业务所需要的硬件。本说明书一个或多个实施例可以基于软件方式来实现,比如由处理器1002从非易失性存储器1010中读取对应的计算机程序到内存1008中然后运行。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图11,生成数据表的装置可以应用于如图10所示的设备中,以实现本说明书的技术方案。其中,该生成数据表的装置可以包括:
处理模块1101,用于确定数据来源表,其中,所述数据来源表是当前机构域的数据仓库表、跨机构域的数据联邦表以及跨机构域的原始数据表中的至少一个;
生成模块1102,用于基于所述数据来源表所包括的字段,生成用于执行数据虚拟化的逻辑表;其中,所述逻辑表用于为数据应用提供数据查询结果。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
在一个典型的配置中,计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。
Claims (14)
1.一种生成数据表的方法,其特征在于,包括:
确定数据来源表,其中,所述数据来源表是当前机构域的数据仓库表、跨机构域的数据联邦表以及跨机构域的原始数据表中的至少一个;
基于所述数据来源表所包括的字段,生成用于执行数据虚拟化的逻辑表;其中,所述逻辑表用于为数据应用提供数据查询结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述数据来源表所包括的字段,生成用于执行数据虚拟化的逻辑表,包括:
确定逻辑表名;
在所述数据来源表所包括的字段中,确定生成所述逻辑表所需要的指定字段;
确定所述逻辑表的输出字段与所述指定字段之间的计算逻辑关系;
基于所述逻辑表名、所述数据来源表、所述指定字段以及所述计算逻辑关系中的至少一项,生成所述逻辑表。
3.根据权利要求1所述的方法,其特征在于,还包括:
为数据应用提供查询所述逻辑表的查询引擎。
4.根据权利要求3所述的方法,其特征在于,所述查询引擎用于存储所述逻辑表的元数据。
5.根据权利要求4所述的方法,其特征在于,还包括:
由所述查询引擎对所述逻辑表的元数据进行校验和/或鉴权。
6.根据权利要求4所述的方法,其特征在于,还包括:
由所述查询引擎生成跨机构域的查询计划;
由所述查询引擎将所述查询计划拆分为至少一个查询子计划,其中,所述查询子计划与所述数据来源表的计算引擎一一对应;
由所述查询引擎获取每个所述计算引擎执行对应的所述查询子计划的查询子结果;
由所述查询引擎合并所述查询子结果,并将合并得到的所述数据查询结果提供给所述数据应用。
7.根据权利要求1-6任一项所述的方法,其特征在于,还包括:
当对所述逻辑表执行物化时,生成用于承载所述逻辑表的物理数据的物化表。
8.根据权利要求7所述的方法,其特征在于,所述生成用于承载所述逻辑表的物理数据的物化表,包括:
在所述数据来源表所包括的字段中,确定生成所述逻辑表所需要的指定字段;
确定所述物化表的输出字段与所述指定字段之间的物化逻辑关系;
基于所述指定字段和所述物化逻辑关系,确定与所述物化表的输出字段所对应的物理数据;
基于物化表名、所述物化表的输出字段和所述物理数据中的至少一项,生成所述物化表。
9.根据权利要求7所述的方法,其特征在于,所述生成用于承载所述逻辑表的物理数据的物化表,包括:
由物化引擎生成所述物化表。
10.一种生成数据表的装置,其特征在于,包括:
处理模块,用于确定数据来源表,其中,所述数据来源表是当前机构域的数据仓库表、跨机构域的数据联邦表以及跨机构域的原始数据表中的至少一个;
生成模块,用于基于所述数据来源表所包括的字段,生成用于执行数据虚拟化的逻辑表;其中,所述逻辑表用于为数据应用提供数据查询结果。
11.一种数据虚拟化系统,其特征在于,包括:
用于执行数据虚拟化的逻辑表,所述逻辑表是基于数据来源表所包括的字段生成的,且所述逻辑表用于为数据应用提供数据查询结果,所述数据来源表是当前机构域的数据仓库表、跨机构域的数据联邦表以及跨机构域的原始数据表中的至少一个;
查询引擎,用于为数据应用提供查询所述逻辑表的所述数据查询结果。
12.根据权利要求11所述的系统,其特征在于,还包括:
物化引擎,用于当对所述逻辑表执行物化时,生成承载所述逻辑表的物理数据的物化表。
13.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1-9中任一项所述的生成数据表的方法。
14.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-9中任一项所述生成数据表的方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211351865.3A CN115935926A (zh) | 2022-10-31 | 2022-10-31 | 生成数据表的方法及装置 |
PCT/CN2022/135215 WO2024092926A1 (zh) | 2022-10-31 | 2022-11-30 | 生成数据表的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211351865.3A CN115935926A (zh) | 2022-10-31 | 2022-10-31 | 生成数据表的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115935926A true CN115935926A (zh) | 2023-04-07 |
Family
ID=86647906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211351865.3A Pending CN115935926A (zh) | 2022-10-31 | 2022-10-31 | 生成数据表的方法及装置 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN115935926A (zh) |
WO (1) | WO2024092926A1 (zh) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8112459B2 (en) * | 2004-12-17 | 2012-02-07 | International Business Machines Corporation | Creating a logical table from multiple differently formatted physical tables having different access methods |
US20120124081A1 (en) * | 2010-11-17 | 2012-05-17 | Verizon Patent And Licensing Inc. | Method and system for providing data migration |
CN112966004B (zh) * | 2021-03-04 | 2023-07-28 | 北京百度网讯科技有限公司 | 数据查询方法、装置、电子设备以及计算机可读介质 |
CN112905595A (zh) * | 2021-03-05 | 2021-06-04 | 腾讯科技(深圳)有限公司 | 一种数据查询方法、装置及计算机可读存储介质 |
CN114647716B (zh) * | 2022-05-13 | 2022-08-30 | 天津南大通用数据技术股份有限公司 | 一种适用于泛化数据仓库的系统 |
-
2022
- 2022-10-31 CN CN202211351865.3A patent/CN115935926A/zh active Pending
- 2022-11-30 WO PCT/CN2022/135215 patent/WO2024092926A1/zh unknown
Also Published As
Publication number | Publication date |
---|---|
WO2024092926A1 (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10878358B2 (en) | Techniques for semantic business policy composition | |
US20220398338A1 (en) | Data privacy pipeline providing collaborative intelligence and constraint computing | |
US11809458B2 (en) | System and method for providing database abstraction and data linkage | |
US10120930B2 (en) | Identifying entity mappings across data assets | |
US11403299B2 (en) | Constraint manager for collaborative intelligence and constraint computing | |
US11409897B2 (en) | Constraint querying for collaborative intelligence and constraint computing | |
TW201600985A (zh) | 資料的查詢方法及查詢裝置 | |
Santos et al. | Data warehousing in big data: from multidimensional to tabular data models | |
US9152998B2 (en) | Investor relations systems and methods | |
US20190220875A1 (en) | Systems and methods for personalized discovery engines | |
CN109918404A (zh) | 企业黑名单数据分析方法、装置、计算机设备及存储介质 | |
CN112102006A (zh) | 基于大数据分析的目标客户获取方法、搜索方法及装置 | |
CN109669951B (zh) | 对象查询方法、装置、计算机设备和存储介质 | |
Glava et al. | Information Systems Reengineering Approach Based on the Model of Information Systems Domains | |
US20200201866A1 (en) | Attribute annotation for relevance to investigative query response | |
CN115935926A (zh) | 生成数据表的方法及装置 | |
US20230081166A1 (en) | Consent data pipeline architecture and operation | |
CN111858598A (zh) | 一种海量数据综合管理系统与方法 | |
CN115730574A (zh) | 生成数据表的方法及装置 | |
US12086285B1 (en) | Data subject request tiering | |
Agael | Navigating Towards Building a Big Data Analytics Platforms with Comprehensive Analytics Capabilities | |
CN116860753A (zh) | 数据管理方法、装置、电子设备及计算机可读存储介质 | |
Siddesh et al. | Driving big data with hadoop technologies | |
Elamin et al. | Heuristic Based Approach for Automating Multidimensional Schemas Construction | |
CN118379080A (zh) | 重点客群跟踪方法、装置、存储介质及处理器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |