CN115730574A - 生成数据表的方法及装置 - Google Patents

生成数据表的方法及装置 Download PDF

Info

Publication number
CN115730574A
CN115730574A CN202211351839.0A CN202211351839A CN115730574A CN 115730574 A CN115730574 A CN 115730574A CN 202211351839 A CN202211351839 A CN 202211351839A CN 115730574 A CN115730574 A CN 115730574A
Authority
CN
China
Prior art keywords
data
federal
data source
generating
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211351839.0A
Other languages
English (en)
Inventor
翟艳堂
杨仁慧
孙善禄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ant Blockchain Technology Shanghai Co Ltd
Original Assignee
Ant Blockchain Technology Shanghai Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ant Blockchain Technology Shanghai Co Ltd filed Critical Ant Blockchain Technology Shanghai Co Ltd
Priority to CN202211351839.0A priority Critical patent/CN115730574A/zh
Priority to PCT/CN2022/135241 priority patent/WO2024092927A1/zh
Publication of CN115730574A publication Critical patent/CN115730574A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/248Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书一个或多个实施例提供一种生成数据表的方法及装置,该方法包括:确定用于生成联邦表的数据来源表,其中,所述数据来源表至少包括其他机构域的域内数据表,所述联邦表用于在当前机构域内向数据应用提供跨机构域的数据查询结果;确定所述数据来源表生成所述联邦表时的联合逻辑关系;基于所述数据来源表和所述联合逻辑关系,生成所述联邦表。本公开可以向用户提供统一的数据对象形态,达到跨结构域数据集成和数据消费之间解耦的目的,同时可以提升跨机构域数据融合使用的可理解性和易用性。

Description

生成数据表的方法及装置
技术领域
本说明书一个或多个实施例涉及数据处理领域,尤其涉及一种生成数据表的方法及装置。
背景技术
随着数字化程度越来越高,越来越多的数据应用期望不仅使用本机构域的数据,还寻求使用其他机构域的数据。
在相关技术跨机构域的数据融合中,单一应用的数据源来自于多个不同机构域的数据集,这些数据集对于用户呈现分散的形态,与用户熟悉的传统大数据中单一应用的数据源来自于单个表的对象形态不同,分散的形态给用户增加了理解难度和使用难度。
发明内容
有鉴于此,本说明书一个或多个实施例提供一种生成数据表的方法及装置,提供统一的数据对象形态,达到跨结构域数据集成和数据消费之间解耦的目的,同时可以提升跨机构域数据融合使用的可理解性和易用性。
为实现上述目的,本说明书一个或多个实施例提供技术方案如下:
根据本说明书一个或多个实施例的第一方面,提出了一种生成数据表的方法,包括:
确定用于生成联邦表的数据来源表,其中,所述数据来源表至少包括其他机构域的域内数据表,所述联邦表用于在当前机构域内向数据应用提供跨机构域的数据查询结果;
确定所述数据来源表生成所述联邦表时的联合逻辑关系;
基于所述数据来源表和所述联合逻辑关系,生成所述联邦表。
根据本说明书一个或多个实施例的第二方面,提出了一种生成数据表的装置,包括:
第一处理模块,用于确定用于生成联邦表的数据来源表,其中,所述数据来源表至少包括其他机构域的域内数据表,所述联邦表用于在当前机构域内向数据应用提供跨机构域的数据查询结果;
第二处理模块,还用于确定所述数据来源表生成所述联邦表时的联合逻辑关系;
生成模块,用于基于所述数据来源表和所述联合逻辑关系,生成所述联邦表。
根据本说明书一个或多个实施例的第三方面,提出了一种电子设备,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如上述第一方面中任一项所述的生成数据表的方法。
根据本说明书一个或多个实施例的第四方面,提出了一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述第一方面中任一项所述的生成数据表的方法的步骤。
本说明书的实施例提供的技术方案可以包括以下有益效果:
在本公开中,可以生成联邦表,该联邦表可以在当前机构域内向数据应用提供跨机构域的数据查询结果,从而向用户提供统一的数据对象形态,达到跨结构域数据集成和数据消费之间解耦的目的,同时可以提升跨机构域数据融合使用的可理解性和易用性。
附图说明
图1是一示例性实施例提供的一种生成数据表的方法的流程图。
图2A至图2C是一示例性实施例提供的联合逻辑关系示意图。
图3是一示例性实施例提供的另一种生成数据表的方法的流程图。
图4是一示例性实施例提供的一种查询引擎的结构示意图。
图5是一示例性实施例提供的一种数据虚拟化系统的结构示意图。
图6是一示例性实施例提供的一种电子设备的结构示意图。
图7是一示例性实施例提供的一种生成数据表的装置的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
在介绍本公开提供的方案之前,先介绍一下本公开涉及到的术语。
跨机构域数据融合:
不同机构之间数据的流转、共享、分析、计算等,和合规要求下建设在不同的机构之间,为了打破机构之间数据孤岛,共同发挥数据的更大价值。
隐私计算:
从计算讲,它是一组技术统称,以解决数据计算过程中的数据安全和隐私保护的问题。以多方安全计算(Secure Muti-Party Computation,MPC)、联邦学习(FederatedLearning,FL)、可信执行环境(Trusted Execution Environment,TEE)等技术为代表。
动态数据管理框架Apache Calcite:
Apache Calcite用于构建数据库或者数据管理系统的开源框架。包括一个结构化查询语言(Structured Query Language,SQL)解析器,一个用于在关系代数中构建表达式的应用程序接口(Application Program Interface,API)和一个查询计划引擎。
开源语法分析器ANTLR:
ANTLR的全名是ANother Tool for Language Recognition,是基于LL算法实现的语法解析器生成器,广泛用于构建语言、工具和框架。
元数据:
用于描述数据属性(property)的信息,某个数据表的元数据可以理解为该数据表的字段名,例如,某个数据表的元数据包括:用户标识id,性别gender,年龄age等。
物理数据:
用于描述数据的具体信息,某个数据表的物理数据可以理解为该数据表的字段值,例如,某个数据表的元数据包括:用户标识id,性别gender,年龄age等,物理数据包括:id#1,女,28岁等。
数据虚拟化:
用来描述数据管理方法,这些方法允许应用程序,例如数据应用检索并管理数据,且不需要数据相关的技术细节,例如数据格式化的方式或物理位置所在。其中,物理位置在本公开中可以理解为机构域所对应的地理位置。
随着数字化程度越来越高,越来越多的应用使用大数据。数据应用对效果的要求越来越高,数据应用不仅使用本机构的数据,还寻求使用其他机构的数据。随着数据合规要求越来越严格,若想使用其他机构的数据,直接连接或者直接采集的方式越来越少,更多的选择建设或者使用合规的跨机构域数据融合系统,比如基于隐私计算技术构建的系统。
跨机构域的数据融合中单一应用的数据源来自于多个机构不同的数据集,这些数据集对于用户呈现分散的形态,与用户熟悉的传统大数据中单一应用的数据源来自于单个表的对象形态不同,分散的形态给用户增加了理解难度和使用难度。
例如:传统大数据中进行逻辑回归二分类训练,数据源是单个表;但是在跨机构域数据融合中如果想进行逻辑回归二分类纵向联合训练,数据源是分散的多个表:A机构的域内数据表、B机构的域内数据表、C机构的域内数据表等等,用户在构建应用时选择数据源要选择这些分散的表。
但是对于某个机构域内的用户而言,其只希望使用数据,并不关心这些数据来自于哪些机构或者采用什么方式联合,而分散的形态给用户增加了理解难度和使用难度。
为了解决上述技术问题,本公开提供了以下生成数据的方法及装置。
图1是一示例性实施例提供的一种生成数据表的方法流程图。请参考图1,该方法可以由服务器执行,该服务器可以是当前机构域内用于提供数据服务,例如数据查询、数据存储、数据更新等的服务器,包括:
在步骤101中,确定用于生成联邦表的数据来源表。
在本公开实施例中,所述数据来源表至少包括其他机构域的域内数据表,所述联邦表用于在当前机构域内向数据应用提供跨机构域的数据查询结果。
其中,跨机构域可以理解为跨域名,一般情况下,不同的域名对应不同的地理区域。
在一个示例中,假设当前机构域为机构域B,数据来源表可以包括机构域C的域内数据表。
在另一个示例中,假设当前机构域为机构域B,数据来源表可以包括机构域A和机构域C的域内数据表。
在另一个示例中,假设当前机构域为机构域B,数据来源表可以包括机构域B和机构域C的域内数据表。
以上仅为示例性说明,数据来源表至少包括当前机构域之外的其他机构域的域内数据表的情况,均应属于本公开的保护范围。
在步骤102中,确定所述数据来源表生成所述联邦表时的联合逻辑关系。
在本公开实施例中,联合逻辑关系可以包括但不限于以下任一项:用于合并多个所述数据来源表的第一逻辑关系;用于将所述数据来源表映射为所述联邦表的第二逻辑关系。
在一个示例中,当多个所述数据来源表所包括的元数据不完全相同,也就是说,多个数据来源表存在相同的元数据以及不同的元数据,第一逻辑关系可以表述为纵向联合关系,例如图2A所示,该纵向联合关系与数据库的JOIN操作类似,JOIN操作可以理解为各个数据表之间数据的循环匹配。
在一个示例中,当多个所述数据来源表所包括的元数据完全相同,第一逻辑关系可以表述为横向联合关系,例如图2B所示,该纵向联合关系与数据库的UNION(ALL)操作类似,UNION(ALL)操作可以理解为对各个数据表之间数据取并集,且不允许出现重复值。
在另一个示例中,第二逻辑关系可以表述为映射关系,例如图2C所示,该映射关系与数据库的单表数据查询语言(Data Query Language,DQL)操作类似,此时的数据来源表数目为一个,在当前机构域内创建与数据来源表对应的虚拟映射表,且数据来源表(即原始的物理表格)仍存储在对应的机构域内,后续关于数据的计算也会在数据来源表对应的机构域内执行。
在步骤103中,基于所述数据来源表和所述联合逻辑关系,生成所述联邦表。
在本公开实施例中,联邦表至少可以包括联邦表名、元数据和物理数据。其中,生成联邦表时,联邦表名可以按照预定义规则生成,本公开对此不作限定。联邦表所包括的元数据以及物理数据可以采用以下方式确定:
在一个示例中,当所述联合逻辑关系包括所述第一逻辑关系,且多个所述数据来源表所包括的元数据不完全相同,即第一逻辑关系为纵向联合关系时,可以对多个所述数据来源表所包括的元数据取并集,得到所述联邦表所包括的元数据。另外,还可以对多个所述数据来源表所包括的物理数据取并集,得到所述联邦表所包括的物理数据。
示例性地,生成联邦表时对应的语句如下:
CREATE FEDERATED VIEW consumer_features AS
SELECT t1.id,t1.gender,t1.age,t2.resident_area,t2.consumption_level,t2.frequency,t2.click_or_not
FROM C1.t1 INNER JOIN C2.t2
ON t1.id=t2.id;
例如,数据来源表1包括的元数据分别是:用户标识id、性别、年龄,数据来源表1包括的元数据分别是:用户标识id、常驻区域、消费水平、购物频次、是否点击。则创建联邦表时,联邦表的元数据分别是:用户标识id、性别、年龄、常驻区域、消费水平、购物频次、是否点击。
相应地,假设数据来源表1包括的物理数据有:{id#1,女,28},{id#2,男,18},{id#3,女,24},数据来源表2包括的物理数据有:{id#1,常驻区域1,消费水平低,每月购物小于10次,是},{id#2,常驻区域2,消费水平低,每周购物小于10次,是},{id#4,常驻区域1,消费水平高,每月购物大于20次,否}。
联邦表的物理数据是对上述数据来源表的物理数据取并集,且不允许出现重复,则联邦表的物理数据可以包括:{id#1,女,28,常驻区域1,消费水平低,每月购物小于10次,是},{id#2,男,18,常驻区域2,消费水平低,每周购物小于10次,是},{id#3,女,24,未知,未知,未知,未知},{id#4,未知,未知,常驻区域1,消费水平高,每月购物大于20次,否}。
在一个示例中,当所述联合逻辑关系包括所述第一逻辑关系,且多个所述数据来源表所包括的元数据相同,可以将任一个所述数据来源表所包括的元数据确定为所述联邦表所包括的元数据。对多个所述数据来源表所包括的物理数据取并集,得到所述联邦表所包括的物理数据。
其生成联邦表时对应的语句如下:
CREATE FEDERATED VIEW user_features AS
SELECT name,gender,age,weight,education FROM C1.table1
UNION ALL
SELECT name,gender,age,weight,education FROM C2.table2;
例如,数据来源表1包括的元数据分别是:用户标识id、性别、年龄、体重、学历,数据来源表21包括的元数据分别是:用户标识id、性别、年龄、体重、学历。则创建联邦表时,联邦表的元数据分别是:用户标识id、性别、年龄、体重、学历。
相应地,假设数据来源表1包括的物理数据有:{id#1,女,28岁,54kg,本科},{id#2,男,18,75kg,高中},{id#3,女,24,48kg,专科},数据来源表2包括的物理数据有:{id#4,女,29,64kg,本科},{id#5,男,25,85kg,专科}。
联邦表的物理数据是对上述数据来源表的物理数据取并集,且不允许出现重复,则联邦表的物理数据可以包括:{id#1,女,28岁,54kg,本科},{d#2,男,18,75kg,高中},{id#3,女,24,48kg,专科},{id#4,女,29,64kg,本科},{id#5,男,25,85kg,专科}。
在另一个示例中,当所述联合逻辑关系包括所述第二逻辑关系,生成映射所述数据来源表的虚拟映射表,可以将所述虚拟映射表确定为所述联邦表。
其生成联邦表时对应的语句如下:
CREATE FEDERATED VIEW province_weather AS
SELECT DATE,AIR_TEMPERATURE,CLOUD_COVER,SUNSHINE_DURATION,WIND_SPEED
FROM C2.FORECAST_HOURLY
WHERE province='zhejiang';
直接映射的方式是在当前机构域内创建一个虚拟映射表,直接映射联邦表的数据来源表存储在原始各个机构域内,计算也在原始各个机构域内进行。
上述实施例中,可以生成跨机构域的联邦表,从而向用户提供统一的数据对象形态,达到跨结构域数据集成和数据消费之间解耦的目的,同时可以提升跨机构域数据融合使用的可理解性和易用性。
在一些可选实施例中,图3是基于图1所示实施例提供的另一种生成数据表的方法流程图。请参考图3,该方法可以由服务器执行,该服务器可以是当前机构域内用于提供数据服务,例如数据查询、数据存储、数据更新等的服务器,所述方法还包括:
在步骤104中,为所述数据应用提供查询所述联邦表的查询引擎。
在本公开实施例中,可以为数据应用提供查询上述联邦表的查询引擎,示例性地,该查询引擎的结构可以例如图4所示。
在一个示例中,查询引擎支持的查询语言为SQL语言,可以为标准SQL语言的子集,并有适量语法扩展,本公开对此不作限定。该查询引擎针对数据应用的对接接口同样支持SQL语句。
其中,图4中查询引擎的解析可以由SQL parser执行,SQL parser可以采用ApacheCalcit或ANTLR来实现,本公开对此不作限定。
在另一个示例中,查询引擎用于存储所述联邦表的元数据。即查询引擎不直接存储各个机构域物理表的元数据。
相应地,图4中查询引擎对元数据的校验和/或鉴权是由所述查询引擎调用每个所述数据来源表所对应的机构域的计算引擎来实现的。
在另一个示例中,图4中查询引擎还包括对数据应用发送的查询语句进行翻译得到查询计划、和/或对逻辑表进行优化。
在另一个示例中,可以由所述查询引擎生成跨机构域的查询计划,进而由所述查询引擎将所述查询计划下发给数据融合引擎,数据融合引擎可以部署在数据融合系统服务器上,由所述数据融合引擎执行所述查询计划,得到所述数据查询结果。由所述查询引擎将所述数据融合引擎所得到的所述数据查询结果提供给所述数据应用。
在另一个示例中,查询引擎可以基于预定义的风险控制规则,校验所述数据应用提供的查询语句是否具备安全风险,例如图4所示。进一步地,由所述查询引擎对具备安全风险的查询语句进行风险管控,包括但不限于对具有安全风险的查询语句进行拦截、告警和/或提示。
上述实施例中,可以为所述数据应用提供查询所述联邦表的查询引擎,对数据应用提供统一接口,屏蔽跨机构域查询时数据应用调用接口的差异性。
在一些可选实施例中,本公开还提供了一种跨机构域的数据虚拟化系统,结构视图例如图5所示,其中,跨机构域的数据虚拟化对象称为联邦表。联邦表对于下层例如图5中的不同机构域或数据融合节点而言,屏蔽跨机构域数据集分散的形态,并且屏蔽和传统大数据的数据对象形态的差异性,给用户提供统一的数据对象形态。联邦表对于上层例如不同的数据应用而言,可以提供SQL语言,屏蔽数据应用调用接口的差异性。
其中,联邦表的生成方式与上述图1所示实施例类似,在此不再赘述。
其中,查询引擎的结构与上述图4类似,查询引擎所执行的操作与上述图3所示类似,在此同样不再赘述。
上述实施例中,通过联邦表的数据虚拟化对象,屏蔽跨机构域分散数据集的形态,并且和传统大数据的数据对象形态兼容,达到跨结构域数据集成和数据消费之间解耦的目的,同时可以提升跨机构域数据融合使用的可理解性和易用性。
图6是一示例性实施例提供的一种电子设备的示意结构图,该电子设备可以为数据服务器,本公开对此不作限定。请参考图6,在硬件层面,该设备包括处理器602、内部总线604、网络接口606、内存608以及非易失性存储器610,当然还可能包括其他业务所需要的硬件。本说明书一个或多个实施例可以基于软件方式来实现,比如由处理器602从非易失性存储器610中读取对应的计算机程序到内存608中然后运行。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。
请参考图7,生成数据表的装置可以应用于如图6所示的设备中,以实现本说明书的技术方案。其中,该生成数据表的装置可以包括:
第一处理模块701,用于确定用于生成联邦表的数据来源表,其中,所述数据来源表至少包括其他机构域的域内数据表,所述联邦表用于在当前机构域内向数据应用提供跨机构域的数据查询结果;
第二处理模块702,用于确定所述数据来源表生成所述联邦表时的联合逻辑关系;
生成模块703,用于基于所述数据来源表和所述联合逻辑关系,生成所述联邦表。
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机,计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。
在一个典型的配置中,计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
在本说明书一个或多个实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
以上所述仅为本说明书一个或多个实施例的较佳实施例而已,并不用以限制本说明书一个或多个实施例,凡在本说明书一个或多个实施例的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书一个或多个实施例保护的范围之内。

Claims (14)

1.一种生成数据表的方法,其特征在于,包括:
确定用于生成联邦表的数据来源表,其中,所述数据来源表至少包括其他机构域的域内数据表,所述联邦表用于在当前机构域内向数据应用提供跨机构域的数据查询结果;
确定所述数据来源表生成所述联邦表时的联合逻辑关系;
基于所述数据来源表和所述联合逻辑关系,生成所述联邦表。
2.根据权利要求1所述的方法,其特征在于,所述联合逻辑关系包括以下任一项:
用于合并多个所述数据来源表的第一逻辑关系;
用于将所述数据来源表映射为所述联邦表的第二逻辑关系。
3.根据权利要求2所述的方法,其特征在于,所述基于所述数据来源表和所述联合逻辑关系,生成所述联邦表,包括:
当所述联合逻辑关系包括所述第一逻辑关系,且多个所述数据来源表所包括的元数据不完全相同,对多个所述数据来源表所包括的元数据取并集,得到所述联邦表所包括的元数据;
对多个所述数据来源表所包括的物理数据取并集,得到所述联邦表所包括的物理数据。
4.根据权利要求2所述的方法,其特征在于,所述基于所述数据来源表和所述联合逻辑关系,生成所述联邦表,包括:
当所述联合逻辑关系包括所述第一逻辑关系,且多个所述数据来源表所包括的元数据完全相同,将任一个所述数据来源表所包括的元数据确定为所述联邦表所包括的元数据;
对多个所述数据来源表所包括的物理数据取并集,得到所述联邦表所包括的物理数据。
5.根据权利要求2所述的方法,其特征在于,所述基于所述数据来源表和所述联合逻辑关系,生成所述联邦表,包括:
当所述联合逻辑关系包括所述第二逻辑关系,生成映射所述数据来源表的虚拟映射表;
将所述虚拟映射表确定为所述联邦表。
6.根据权利要求1-5任一项所述的方法,其特征在于,还包括:
为所述数据应用提供查询所述联邦表的查询引擎。
7.根据权利要求6所述的方法,其特征在于,所述查询引擎用于存储所述联邦表的元数据。
8.根据权利要求7所述的方法,其特征在于,还包括:
由所述查询引擎调用每个所述数据来源表所对应的机构域的计算引擎,对所述联邦表所包括的元数据进行校验和/或鉴权。
9.根据权利要求7所述的方法,其特征在于,还包括:
由所述查询引擎生成跨机构域的查询计划;
由所述查询引擎将所述查询计划下发给数据融合引擎,以使得所述数据融合引擎执行所述查询计划,得到所述数据查询结果;
由所述查询引擎将所述数据查询结果提供给所述数据应用。
10.根据权利要求6所述的方法,其特征在于,还包括:
基于预定义的风险控制规则,由所述查询引擎校验所述数据应用提供的查询语句是否具备安全风险;
由所述查询引擎对具备安全风险的查询语句进行风险管控。
11.一种生成数据表的装置,其特征在于,包括:
第一处理模块,用于确定用于生成联邦表的数据来源表,其中,所述数据来源表至少包括其他机构域的域内数据表,所述联邦表用于在当前机构域内向数据应用提供跨机构域的数据查询结果;
第二处理模块,用于确定所述数据来源表生成所述联邦表时的联合逻辑关系;
生成模块,用于基于所述数据来源表和所述联合逻辑关系,生成所述联邦表。
12.根据权利要求11所述的装置,其特征在于,还包括:
提供模块,用于为所述数据应用提供查询所述联邦表的查询引擎。
13.一种电子设备,其特征在于,包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器通过运行所述可执行指令以实现如权利要求1-10中任一项所述的生成数据表的方法。
14.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-10中任一项所述的生成数据表的方法的步骤。
CN202211351839.0A 2022-10-31 2022-10-31 生成数据表的方法及装置 Pending CN115730574A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202211351839.0A CN115730574A (zh) 2022-10-31 2022-10-31 生成数据表的方法及装置
PCT/CN2022/135241 WO2024092927A1 (zh) 2022-10-31 2022-11-30 生成数据表的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211351839.0A CN115730574A (zh) 2022-10-31 2022-10-31 生成数据表的方法及装置

Publications (1)

Publication Number Publication Date
CN115730574A true CN115730574A (zh) 2023-03-03

Family

ID=85294402

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211351839.0A Pending CN115730574A (zh) 2022-10-31 2022-10-31 生成数据表的方法及装置

Country Status (2)

Country Link
CN (1) CN115730574A (zh)
WO (1) WO2024092927A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737364B (zh) * 2020-07-22 2020-12-11 同盾控股有限公司 安全多方数据融合与联邦共享方法、装置、设备及介质
CN112434313A (zh) * 2020-11-11 2021-03-02 北京邮电大学 数据共享方法、系统、电子设备及存储介质
CN114756577B (zh) * 2022-03-25 2024-07-19 北京友友天宇系统技术有限公司 多源异构数据的处理方法、计算机设备及存储介质
CN114925072B (zh) * 2022-06-13 2023-07-21 深圳致星科技有限公司 数据管理方法、装置、系统、设备、介质

Also Published As

Publication number Publication date
WO2024092927A1 (zh) 2024-05-10

Similar Documents

Publication Publication Date Title
Khan et al. Big data: survey, technologies, opportunities, and challenges
US9965641B2 (en) Policy-based data-centric access control in a sorted, distributed key-value data store
US11853329B2 (en) Metadata classification
US20230139783A1 (en) Schema-adaptable data enrichment and retrieval
TW201600985A (zh) 資料的查詢方法及查詢裝置
US20220050855A1 (en) Data exchange availability, listing visibility, and listing fulfillment
US20160004696A1 (en) Call and response processing engine and clearinghouse architecture, system and method
CN111046237A (zh) 用户行为数据处理方法、装置、电子设备及可读介质
Khan et al. Predictive performance comparison analysis of relational & NoSQL graph databases
Lehmann et al. Managing geospatial linked data in the GeoKnow project
CN115292353B (zh) 数据查询方法、装置、计算机设备和存储介质
US8782777B2 (en) Use of synthetic context-based objects to secure data stores
Ma et al. A novel data integration framework based on unified concept model
US11968258B2 (en) Sharing of data share metrics to customers
CN115730574A (zh) 生成数据表的方法及装置
Aydin Incremental data collection & analytics the design of next-generation crisis informatics software
WO2024092926A1 (zh) 生成数据表的方法及装置
Gupta et al. A Study on Various Database Models: Relational, Graph, and Hybrid Databases
US11500933B2 (en) Techniques to generate and store graph models from structured and unstructured data in a cloud-based graph database system
Khwaja A real-time DBMS system for the immigration processing of large Hajj crowd
Malik et al. Building Natural Language Interface for Product Search
Siddesh et al. Driving big data with hadoop technologies
Zala et al. A survey on data mining and analysis in Hadoop and MongoDB
Deepa et al. ANSWERING PATTERN QUERIES USING VIEWS.
Ioannidis Geospatial RDF Stores

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination