CN109766345A - 元数据处理方法及装置、设备、可读存储介质 - Google Patents

元数据处理方法及装置、设备、可读存储介质 Download PDF

Info

Publication number
CN109766345A
CN109766345A CN201910023646.4A CN201910023646A CN109766345A CN 109766345 A CN109766345 A CN 109766345A CN 201910023646 A CN201910023646 A CN 201910023646A CN 109766345 A CN109766345 A CN 109766345A
Authority
CN
China
Prior art keywords
data
tables
target matrix
field
related information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910023646.4A
Other languages
English (en)
Other versions
CN109766345B (zh
Inventor
兰冲
邱毅
汪亚男
陈文浩
周可
司东华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN201910023646.4A priority Critical patent/CN109766345B/zh
Publication of CN109766345A publication Critical patent/CN109766345A/zh
Application granted granted Critical
Publication of CN109766345B publication Critical patent/CN109766345B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种元数据处理方法,包括以下步骤:获取目标数据表与不同关联数据表相互间的关联字段;根据关联字段,获取目标数据表与不同关联数据表相互间的关联信息,并构建目标数据表的关联信息集合;获取目标数据表的加工任务信息;根据加工任务信息,确定目标数据表与不同数据表相互间的上下游关系,并基于上下游关系确定目标数据表的上游数据表与下游数据表;其中,目标数据表继承上游数据表的关联信息,下游数据表继承目标数据表的关联信息集合。本发明还提供了一种元数据处理装置、设备、可读存储介质。本发明解决了现有数据库方案中元数据业务含义有限,导致难以有效地参与到数据库的具体应用的技术问题。

Description

元数据处理方法及装置、设备、可读存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种元数据处理方法及装置、设备、可读存储介质。
背景技术
在数据库技术领域中,元数据是用于描述数据的相关数据。现有的数据库方案中,一般只抓取少量元数据,如仅获取数据库中系统表的表结构信息。这些信息只是开发人员在设计表结构时填入的,业务含义非常有限;现有方案也支持手工维护元数据的业务含义,但手工维护的元数据的业务含义往往是滞后的、不完整、不准确的。
此外,在进行检索时,现有数据库只是将检索结果呈现出来,并不会告知检索者,可以对这些结果采取何种进一步的应用;检索者必须借助其它系统,或者询问相关数据开发人员,来进一步达到使用数据的目的。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
发明内容
本发明的主要目的在于提供一种元数据处理方法及装置、设备、可读存储介质,旨在解决现有数据库方案中元数据业务含义有限,导致难以有效地参与到数据库的具体应用的技术问题。
为实现上述目的,本发明提供一种元数据处理方法,所述方法包括以下步骤:
获取目标数据表与不同关联数据表相互间的关联字段;
根据所述关联字段,获取目标数据表与不同关联数据表相互间的关联信息,并构建目标数据表的关联信息集合;
获取目标数据表的加工任务信息;
根据所述加工任务信息,确定目标数据表与不同数据表相互间的上下游关系,并基于所述上下游关系确定目标数据表的上游数据表与下游数据表;其中,目标数据表继承所述上游数据表的关联信息,所述下游数据表继承目标数据表的所述关联信息集合。
优选地,所述获取目标数据表与不同关联数据表相互间的关联字段的步骤之前,还包括:预先判断不同数据表之间是否存在关联关系的步骤;
所述预先判断不同数据表之间是否存在关联关系的步骤,具体包括:
a1,从第一数据表的第一字段列表、第二数据表的第二字段列表分别选取第一字段、第二字段;
a2,分别从第一数据表、第二数据表中获取第一字段的值集合、第二字段的值集合;其中,第一字段的值集合与第二字段的值集合包含的值数量均等于预设数量值;
a3,判断第一字段的值集合与第二字段的值集合的相似度是否大于预设相似度阈值;
若是,则确定第一字段与第二字段存在关联关系,并确定第一数据表与第二数据表存在关联关系;重新执行步骤a1~a3,直至遍历第一字段列表的所有字段;
若否,则重新执行步骤a1~a3,直至遍历第一字段列表的所有字段。
优选地,所述根据所述关联字段,获取目标数据表与不同关联数据表相互间的关联信息,并构建目标数据表的关联信息集合的步骤,具体包括:
基于目标数据表与任一关联数据表相互间的关联字段,将目标数据表中记录关联字段的值与对应关联数据表的业务信息进行匹配;
其中,所匹配的业务信息即为目标数据表与对应关联数据表的关联信息;
将各关联信息进行组合,形成目标数据表的关联信息集合。
优选地,所述基于所述上下游关系,确定目标数据表的下游数据表的步骤之后,还包括:
构建包含若干个行动的行动库;
其中,每个行动包含对应的前置条件与行动路径;所述前置条件,与对检索项执行的检查属性对应,所述检查属性存在于包含所述上下游关系、关联信息集合的元数据属性中;
在执行任一行动时,根据所述前置条件的判断结果,对所述行动路径进行调整。
此外,为实现上述目的,本发明还提供一种元数据处理装置,所述装置包括:
关联字段获取单元,用于获取目标数据表与不同关联数据表相互间的关联字段;
关联信息集合构建单元,用于根据所述关联字段,获取目标数据表与不同关联数据表相互间的关联信息,并构建目标数据表的关联信息集合;
加工任务信息获取单元,用于获取目标数据表的加工任务信息;
上下游关系确定单元,用于根据所述加工任务信息,确定目标数据表与不同数据表相互间的上下游关系,并基于所述上下游关系确定目标数据表的上游数据表与下游数据表;其中,目标数据表继承所述上游数据表的关联信息,所述下游数据表继承目标数据表的所述关联信息集合。
优选地,所述装置还包括:关联关系判断单元;所述关联关系判断单元,用于预先判断不同数据表之间是否存在关联关系的步骤;
所述关联关系判断单元,具体用于:
a1,从第一数据表的第一字段列表、第二数据表的第二字段列表分别选取第一字段、第二字段;
a2,分别从第一数据表、第二数据表中获取第一字段的值集合、第二字段的值集合;其中,第一字段的值集合与第二字段的值集合包含的值数量均等于预设数量值;
a3,判断第一字段的值集合与第二字段的值集合的相似度是否大于预设相似度阈值;
若是,则确定第一字段与第二字段存在关联关系,并确定第一数据表与第二数据表存在关联关系;重新执行步骤a1~a3,直至遍历第一字段列表的所有字段;
若否,则重新执行步骤a1~a3,直至遍历第一字段列表的所有字段。
优选地,所述关联信息集合构建单元,具体用于基于目标数据表与任一关联数据表相互间的(一个或者一组)关联字段,将目标数据表中记录关联字段的值与对应关联数据表的业务信息进行匹配;其中,所匹配的业务信息即为目标数据表与对应关联数据表的关联信息;将各关联信息进行组合,形成目标数据表的关联信息集合。
优选地,所述装置还包括:行动库单元;
所述行动库单元,用于构建包含若干个行动的行动库;其中,每个行动包含对应的前置条件与行动路径;所述前置条件,与对检索项执行的检查属性对应,所述检查属性存在于包含所述上下游关系、关联信息集合的元数据属性中;在执行任一行动时,根据所述前置条件的判断结果,对所述行动路径进行调整。
此外,为实现上述目的,本发明还提供一种元数据处理设备,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的元数据处理程序,所述元数据处理程序被所述处理器执行时实现如上所述的元数据处理方法的步骤。
此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有元数据处理程序,所述元数据处理程序被处理器执行时实现如上所述的元数据处理方法的步骤。
本发明实施例提出一种元数据处理方法及装置、设备、可读存储介质,通过自动扫描业务字段获取目标数据表与不同关联数据表相互间的关联信息,并构建目标数据表的关联信息集合;以及根据目标数据表的加工任务信息确定目标数据表与不同数据表相互间的上下游关系。数据表之间的关联关系丰富了元数据的业务含义;在现有表结构的基础上,更好地描述数据表的业务含义;同时,元数据的业务含义是动态维护的,比如能自动识别某个产品表中包含的新产品,不需要手工维护。本发明实施例利用元数据系统自身的特点,充分元数据描述数据的特点,有助于元数据有效地参与到数据库的具体应用(如索引),进而有助于缩短业务应用的检索时间,加速数据开发。
附图说明
图1为本发明元数据处理方法第一实施例的流程示意图;
图2为本发明元数据处理方法第一实施例步骤S20的细化步骤示意图;
图3为本发明元数据处理方法中的一种数据表加工过程的示意图;
图4为本发明元数据处理方法第二实施例的流程示意图;
图5为本发明元数据处理方法第三实施例的流程示意图;
图6为本发明元数据处理装置各功能单元的一个组成示意图;
图7为本发明元数据处理装置各功能单元的另一个组成示意图;
图8为本发明元数据处理装置各功能单元的再一个组成示意图;
图9为本发明元数据处理设备结构示意图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明涉及的部分术语及其解释列举如下:
元数据:用于描述数据的数据;
元数据的关联信息:元数据之间的关联关系;
上下游关系:也称为“血缘关系”,信息系统中很多数据都是由上游数据加工而来,上下游关系作为一种元数据,用于描述数据之间的上下游关系;
SQL:一种关系型数据库的查询语句;
Hive:一种基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。
HBase:一种分布式列式存储数据库。
本发明提供一种元数据处理方法。
请参见图1,图1为本发明元数据处理方法的第一实施例的流程示意图。在本实施例中,所述方法包括以下步骤:
步骤S10,获取目标数据表与不同关联数据表相互间的关联字段;
其中,目标数据表与其它关联数据表之间存在关联关系;该关联关系可以是根据关联字段确定的,确定该关联关系的具体实施方式请参阅下文其它实施例。目标数据表与其它关联数据表之间存在的关联关系可视为一种元数据信息。所述关联字段可以是相同的一个关联字段,或者具有关联关系的一组关联字段。
目标数据表与不同关联数据表可以存储在关系型数据库中,也可以存储在HBase等其他类型的数据库中,存储方式不影响关联关系的建立。
步骤S20,根据所述关联字段,获取目标数据表与不同关联数据表相互间的关联信息,并构建目标数据表的关联信息集合;
如图2所示,步骤S20的一种具体实施包括:
步骤S21,基于目标数据表与任一关联数据表相互间的关联字段,将目标数据表中记录关联字段的值与对应关联数据表的业务信息进行匹配;
其中,所匹配的业务信息即为目标数据表与对应关联数据表的关联信息;
步骤S22,将各关联信息进行组合,形成目标数据表的关联信息集合。
例如,假设有一份目标数据表,其具体可以是一份交易表T,包含如下字段:tx_id,tx_time,product_id等,具体表示如下:
T={tx_id,tx_time,product_id,…}
其中,product_id字段关联了另外一个含有业务含义信息的产品表P。该产品表表示如下:
P={product_id,product_name,product_desc,…}
交易表T与产品表P基于相同的product_id字段存在有关联关系,即产品表为交易表T的关联数据表,product_id字段为关联字段。在这种关联关系的基础上,可以进一步获取到交易表T包含的所有Product信息,具体步骤包括:
获取交易表T所有记录的product_id字段的值,对product_id字段的值去重,并将去重后的product_id字段的值组成一记录集合Pid(product_id)。
然后,循环更新(相当于定时更新)集合Pid(product_id)的记录,根据product_id字段将集合Pid(product_id)的记录与产品表P中的对应产品信息记录进行匹配,所匹配的所有产品信息记录组成集合P(product)。
特别的,如果交易表T与产品表P存放在关系型数据库中,P(product)集合可以用以下SQL语句查询得到:
SELECT
DISTINCT p.*
FROM Transaction t
JOIN Product p ON t.product_id=p.product_id
这样,通过上面得到的集合P(product),可以获取到交易表T包含的具体产品的数据。
需要说明的是,上述操作或指令,可以定时执行,以刷新集合P(product)的数据,从而更新交易表T与产品表P之间的关联关系。此外,还可以采取流式处理的手段,即每当有记录存入交易表T时,自动触发以下动作:获取记录的product_id字段的值,并根据product_id字段关联出产品表P中的对应产品信息记录,进而与已有的集合P(product)比较、去重,得到新的集合P(product)。
此外,还可以根据交易表T与产品表P的其它关联字段获取到其它关联信息。类似地,交易表T还可以与其它数据表进行关联,从而得到其它关联信息,如交易类型关联信息的集合P(tx_type)等。基于上述方式获得的交易表T的所有关联信息构建得到一个数据表A的归总关联信息集合,记作:
C(T)={P(product),P(tx_type),…}
此时,C(T)即为数据表T的关联信息集合。
步骤S30,获取目标数据表的加工任务信息;
在数据表的构建过程中,若某一数据表由其它数据表经任一任务加工得到,或者该数据表加工任一任务后得到其它的数据表,则会产生对应的加工任务信息;其中,具体的任务加工方式并不作限制。目标数据表的加工任务信息具体可以包括加工任务的配置信息、执行信息等。例如,在关系型数据库或者其它支持SQL语句的数据仓库中,执行类似的以下SQL语句进行加工任务信息的获取查询。
INSERTINTO table3
SELECT*FROM table1,table2ON…
步骤S40,根据所述加工任务信息,确定目标数据表与不同数据表相互间的上下游关系,并基于所述上下游关系确定目标数据表的上游数据表与下游数据表;其中,目标数据表继承所述上游数据表的关联信息,所述下游数据表继承目标数据表的所述关联信息集合。
例如,如图3所示,数据表3由数据表1和数据表2经任务1直接加工而来,则将数据表3称为数据表1、数据表2的直接下游表,将数据表1和数据表2称为数据表3的直接上游表。
数据表4由数据表3经任务2加工而来。数据表4是数据表3的直接下游表,同时是数据表1和数据表2的间接下游表。数据表1和数据表2的下游表集合包含:D(数据表1)=D(数据表2)={数据表3,数据表4}。
通过对下述语句进行语法分析,确定不同数据表相互间的上下游关系。
INSERTINTO数据表3
SELECT*FROM数据表1,数据表2ON…
上述语句涉及的不同数据表相互间的上下游关系为:SQL语句的输入表是数据表1和数据表2,输出表是数据表3,因此数据表3是数据表1和数据表2的下游表。
不同数据表之间的上下游关系也属于元数据。需要说明的是,上下游关系的建立,并不依赖于SQL语句。不同的加工设施,只要获取到加工的输入和输出表,即可以根据输入表与输出表的相互关系构建出对应数据表之间的上下游关系。
在确定目标数据表的上游数据表与下游数据表后,设定如下关联关系传播规则:上游数据表的关联信息集合,被该上游数据表的所有下游表继承。
通过表与表之间的上下游关系的传播,丰富了下游数据表的关联关系。
例如,上述交易表T继承其上游数据表的关联信息(或者关联信息集合),以及交易表T的关联信息集合C(T)被交易表T的所有下游表继承。
在本实施例中,通过自动扫描业务字段获取目标数据表与不同关联数据表相互间的关联信息,并构建目标数据表的关联信息集合;以及根据目标数据表的加工任务信息确定目标数据表与不同数据表相互间的上下游关系。数据表之间的关联关系丰富了元数据的业务含义;在现有表结构的基础上,更好地描述数据表的业务含义;同时,元数据的业务含义是动态维护的,比如能自动识别某个产品表中包含的新产品,不需要手工维护。本实施例利用元数据系统自身的特点,充分元数据描述数据的特点,有助于元数据有效地参与到数据库的具体应用(如索引),进而有助于缩短业务应用的检索时间,加速数据开发。
下面结合具体的扩展场景对本发明技术方案进行进一步说明。
进一步地,在本发明元数据处理方法第一实施例的基础上,提出第二实施例。在步骤S10之前,还包括:预先判断不同数据表之间是否存在关联关系的步骤。
在关系型数据库中,可以在两个数据表之间设置外键关系,进而通过外键关系的约束作用维护两个数据表之间的数据一致性。例如,假设存在两个数据表T1、T2,且col_1是数据表T1的主键,而数据表T2中也有字段col_1,则col_1为数据表T2的外键。此时,数据表T1、T2之间存在明确的关联关系。但在其它类型的数据仓库中,如Hive,并不支持这种关联关系。即使在关系型数据库,数据开发人员也可以选择不设置外键关系,以获取更好的写入性能。此时,需要一种自动的预先判断数据表之间是否存在关联关系的方法,如图4所示,其具体步骤如下:
a1,从第一数据表的第一字段列表、第二数据表的第二字段列表分别选取第一字段、第二字段;
a2,分别从第一数据表、第二数据表中获取第一字段的值集合、第二字段的值集合;其中,第一字段的值集合与第二字段的值集合包含的值数量均等于预设数量值;
a3,判断第一字段的值集合与第二字段的值集合的相似度是否大于预设相似度阈值;
若是,则确定第一字段与第二字段存在关联关系,并确定第一数据表与第二数据表存在关联关系;重新执行步骤a1~a3,直至遍历第一字段列表的所有字段;
若否,则重新执行步骤a1~a3,直至遍历第一字段列表的所有字段。
下面,进行举例说明。假设存在2个数据表A(a1,a2,a3…)、B(b1,b2,b3…)。其中,数据表A的字段列表(括号内)为:A(col_a1,col_a2,col_a3…),数据表B的字段列表(括号内)为:B(col_b1,col_b2,col_b3…)。
首先,分别从数据表A、B的字段列表中随机选取一个字段,如col_a1、col_b1。此时,需要判断字段col_a1与col_b1是否存在关联关系。
设置一个参数s。参数s的取值根据业务场景进行设定,一般而言,参数s的取值需要涵盖大部分的关联字段唯一值的个数,比如公司产品数量为20个,交易类型为10种,则参数s取二者的较大值:20。
然后,分别从数据表A、B获取字段col_a1和col_b1的去重、排序并取交集后的s个值,从而得到上述两个字段对应的值集合:d(col_a1)、d(col_b1)。更具体地,在支持SQL查询语句的数据仓库中,可以用以下方法得到值集合d(col_a1)、d(col_b1):
从两个数据表分别选取第一字段的值集合及第二字段的值集合,具体可以通过如下语句确定:
d(col_a1)=SELECT DISTINCT col_a1 FROM A ORDER BY col_a1 LIMIT s;
d(col_b1)=SELECT DISTINCT col_b1 FROM B ORDER BY col_b1 LIMIT s;
然后,判断值集合d(col_a1)与值集合d(col_b1)的相似度是否大于预设相似度阈值。具体可以通过如下语句确定:
Sim(d(col_a1),d(col_b1))=intersect(d(col_a1),d(col_b1))/maxsize(d(col_a1),d(col_b1))。
其中,intersect(d(col_a1),d(col_b1))是指同时存在于两个值集合的元素的个数。maxsize(d(col_a1),d(col_b1))用于取两个值集合中的较大集合的元素个数。
预设相似度阈值Sim’可以根据实际需要设定。通过比较相似度Sim(d(col_a1),d(col_b1))与预设相似度阈值Sim’;若Sim(d(col_a1),d(col_b1))大于Sim’,则判断字段col_a1与col_b1存在关联关系;否则,判断字段col_a1与col_b1不存在关联关系。两个数据表A、B的其余字段之间是否存在关联关系的判断方式也以此类推。
若判断两个数据表之间的任意一组字段存在关联关系,则将该组字段定义为一组关联字段。相应地,判断这两个数据表之间存在关联关系。
此外,在判断两个数据表之间的任意一组字段是否存在关联关系后,还需要继续判断两个数据表之间的其它任意一组字段是否关联关系,直至遍历完某一数据表中的所有字段。从而,查找出存在关联关系的所有关联字段。
在本实施例中,通过分别获取两个数据表的任意一组字段的值集合,并判断两个值集合的相似程度是否大于预设相似度阈值,以此判断该组字段是否存在关联关系,以及判断两个数据表是否关联关系。此类关联关系的确定方式简便可靠,计算量少且易于实现。
进一步地,在本发明元数据处理方法第一实施例的基础上,提出第三实施例。如图5所示,步骤S40之后,还包括:
步骤S50,构建包含若干个行动的行动库;
其中,每个行动包含对应的前置条件与行动路径;所述前置条件,与对检索项执行的检查属性对应,所述检查属性存在于包含所述上下游关系、关联信息集合的元数据属性中;
行动库中的任一具体行动的类型不作限制,具体可以用于检索及其相关动作时间,例如在分析集群中检索数据、申请数据授权、申请导出一定量的脱敏数据等。每个行动包含对应的前置条件和行动路径,即:action={predicates,actionPath}。其中,predicates为前置条件,actionPath为行动路径。前置条件是对检索项进行的检查,例如行动为“申请数据授权”,则前置条件为本部门是否申请过授权;或者行动为“申请导出一定量的脱敏数据”,则前置条件为数据库中是否包含敏感数据。前置条件的对应检查属性存在于元数据属性中,需要做标签化、归一化处理,才能达到较好的检查效果。而元数据属性包含有上文获取的上下游关系、关联信息集合等元数据信息。基于元数据属性,可以方便快捷地对检索项执行检查,进而根据检查判断结果,对行动路径进行对应的调整。
步骤S51,在执行任一行动时,根据所述前置条件的判断结果,对所述行动路径进行调整。
即在执行任一动作时,根据该动作的前置条件的不同判断结果,对应调整不同的行动路径。
例如,在执行“申请导出一定量的脱敏数据”动作时,根据前置条件对数据库进行检查,以判断数据库中是否包含敏感数据。此时,若数据库中的某一数据表中包含有敏感数据的相关字段,则基于本发明所述的元数据处理方法得到的该数据表的关联信息集合确定数据库是否含有敏感数据。若判断数据库不含有敏感数据,则该动作的行动路径为正常的数据申请导出动作。若判断数据库含有敏感数据,则该动作的行动路径为申请导出数据、确认导出的数据是否已脱敏。
而行动库的匹配,可以用Drools或其他规则引擎实现,也可以用编程语言if-else逻辑实现。
本实施例中构建的行动库中任一行动均包含有前置条件和行动路径。基于包含有已获取的上下游关系、关联信息集合等的元数据信息,实现前置条件的判断,并根据判断结果对应调整行动的行动路径,从而充分地利用元数据信息资源,使得上下游关系、关联信息集合等元数据信息资源有效地参与到数据库的具体应用中。
此外,本发明还提供一种元数据处理装置。
如图6所示,图6为所述装置的各功能单元的组成示意图。其中,所述装置包括:
关联字段获取单元10,用于获取目标数据表与不同关联数据表相互间的关联字段;
其中,目标数据表与其它关联数据表之间存在关联关系;该关联关系可以是根据关联字段确定的,确定该关联关系的具体实施方式请参阅下文其它实施例。目标数据表与其它关联数据表之间存在的关联关系可视为一种元数据信息。所述关联字段可以是相同的一个关联字段,或者具有关联关系的一组关联字段。
目标数据表与不同关联数据表可以存储在关系型数据库中,也可以存储在HBase等其他类型的数据库中,存储方式不影响关联关系的建立。
关联信息集合构建单元20,用于根据所述关联字段,获取目标数据表与不同关联数据表相互间的关联信息,并构建目标数据表的关联信息集合;
关联信息集合构建单元20,具体用于基于目标数据表与任一关联数据表相互间的关联字段,将目标数据表中记录关联字段的值与对应关联数据表的业务信息进行匹配;其中,所匹配的业务信息即为目标数据表与对应关联数据表的关联信息;将各关联信息进行组合,形成目标数据表的关联信息集合。
例如,假设有一份目标数据表,其具体可以是一份交易表T,包含如下字段:tx_id,tx_time,product_id等,具体表示如下:
T={tx_id,tx_time,product_id,…}
其中,product_id字段关联了另外一个含有业务含义信息的产品表P。该产品表表示如下:
P={product_id,product_name,product_desc,…}
交易表T与产品表P基于相同的product_id字段存在有关联关系,即产品表为交易表T的关联数据表,product_id字段为关联字段。在这种关联关系的基础上,可以进一步获取到交易表T包含的所有Product信息,具体步骤包括:
获取交易表T所有记录的product_id字段的值,对product_id字段的值去重,并将去重后的product_id字段的值组成一记录集合Pid(product_id)。
然后,循环更新(相当于定时更新)集合Pid(product_id)的记录,根据product_id字段将集合Pid(product_id)的记录与产品表P中的对应产品信息记录进行匹配,所匹配的所有产品信息记录组成集合P(product)。
特别的,如果交易表T与产品表P存放在关系型数据库中,P(product)集合可以用以下SQL语句查询得到:
SELECT
DISTINCT p.*
FROM Transaction t
JOIN Product p ON t.product_id=p.product_id
这样,通过上面得到的集合P(product),可以获取到交易表T包含的具体产品的数据。
需要说明的是,上述操作或指令,可以定时执行,以刷新集合P(product)的数据,从而更新交易表T与产品表P之间的关联关系。此外,还可以采取流式处理的手段,即每当有记录存入交易表T时,自动触发以下动作:获取记录的product_id字段的值,并根据product_id字段关联出产品表P中的对应产品信息记录,进而与已有的集合P(product)比较、去重,得到新的集合P(product)。
此外,还可以根据交易表T与产品表P的其它关联字段获取到其它关联信息。类似地,交易表T还可以与其它数据表进行关联,从而得到其它关联信息,如交易类型关联信息的集合P(tx_type)等。基于上述方式获得的交易表T的所有关联信息构建得到一个数据表A的归总关联信息集合,记作:
C(T)={P(product),P(tx_type),…}
此时,C(T)即为数据表T的关联信息集合。
加工任务信息获取单元30,用于获取目标数据表的加工任务信息;
在数据表的构建过程中,若某一数据表由其它数据表经任一任务加工得到,或者该数据表加工任一任务后得到其它的数据表,则会产生对应的加工任务信息;其中,具体的任务加工方式并不作限制。目标数据表的加工任务信息具体可以包括加工任务的配置信息、执行信息等。例如,在关系型数据库或者其它支持SQL语句的数据仓库中,执行类似的以下SQL语句进行加工任务信息的获取查询。
INSERTINTO table3
SELECT*FROM table1,table2ON…
上下游关系确定单元40,用于根据所述加工任务信息,确定目标数据表与不同数据表相互间的上下游关系,并基于所述上下游关系确定目标数据表的上游数据表与下游数据表;其中,目标数据表继承所述上游数据表的关联信息,所述下游数据表继承目标数据表的所述关联信息集合。
例如,如图3所示,数据表3由数据表1和数据表2经任务1直接加工而来,则将数据表3称为数据表1、数据表2的直接下游表,将数据表1和数据表2称为数据表3的直接上游表。
数据表4由数据表3经任务2加工而来。数据表4是数据表3的直接下游表,同时是数据表1和数据表2的间接下游表。数据表1和数据表2的下游表集合包含:D(数据表1)=D(数据表2)={数据表3,数据表4}。
通过对下述语句进行语法分析,确定不同数据表相互间的上下游关系。
INSERTINTO数据表3
SELECT*FROM数据表1,数据表2ON…
上述语句涉及的不同数据表相互间的上下游关系为:SQL语句的输入表是数据表1和数据表2,输出表是数据表3,因此数据表3是数据表1和数据表2的下游表。
不同数据表之间的上下游关系也属于元数据。需要说明的是,上下游关系的建立,并不依赖于SQL语句。不同的加工设施,只要获取到加工的输入和输出表,即可以根据输入表与输出表的相互关系构建出对应数据表之间的上下游关系。
在确定目标数据表的上游数据表与下游数据表后,设定如下关联关系传播规则:上游数据表的关联信息集合,被该上游数据表的所有下游表继承。
通过表与表之间的上下游关系的传播,丰富了下游数据表的关联关系。
例如,上述交易表T继承其上游数据表的关联信息(或者关联信息集合),以及交易表T的关联信息集合C(T)被交易表T的所有下游表继承。
在本发明元数据处理装置中,通过关联字段获取单元10获取关联字段、关联信息集合构建单元20获取目标数据表与不同关联数据表相互间的关联信息,并构建目标数据表的关联信息集合;以及上下游关系确定单元40根据目标数据表的加工任务信息确定目标数据表与不同数据表相互间的上下游关系。数据表之间的关联关系丰富了元数据的业务含义;在现有表结构的基础上,更好地描述数据表的业务含义;同时,元数据的业务含义是动态维护的,比如能自动识别某个产品表中包含的新产品,不需要手工维护。本装置利用元数据系统自身的特点,充分元数据描述数据的特点,有助于元数据有效地参与到数据库的具体应用(如索引),进而有助于缩短业务应用的检索时间,加速数据开发。
进一步地,如图7所示,所述装置还包括:关联关系判断单元50;所述关联关系判断单元50,用于预先判断不同数据表之间是否存在关联关系的步骤;
在关系型数据库中,可以在两个数据表之间设置外键关系,进而通过外键关系的约束作用维护两个数据表之间的数据一致性。例如,假设存在两个数据表T1、T2,且col_1是数据表T1的主键,而数据表T2中也有字段col_1,则col_1为数据表T2的外键。此时,数据表T1、T2之间存在明确的关联关系。但在其它类型的数据仓库中,如Hive,并不支持这种关联关系。即使在关系型数据库,数据开发人员也可以选择不设置外键关系,以获取更好的写入性能。此时,需要一种自动的预先判断数据表之间是否存在关联关系的功能实现。
所述关联关系判断单元50,具体用于:
a1,从第一数据表的第一字段列表、第二数据表的第二字段列表分别选取第一字段、第二字段;
a2,分别从第一数据表、第二数据表中获取第一字段的值集合、第二字段的值集合;其中,第一字段的值集合与第二字段的值集合包含的值数量均等于预设数量值;
a3,判断第一字段的值集合与第二字段的值集合的相似度是否大于预设相似度阈值;
若是,则确定第一字段与第二字段存在关联关系,并确定第一数据表与第二数据表存在关联关系;重新执行步骤a1~a3,直至遍历第一字段列表的所有字段;
若否,则重新执行步骤a1~a3,直至遍历第一字段列表的所有字段。
下面,进行举例说明。假设存在2个数据表A(a1,a2,a3…)、B(b1,b2,b3…)。其中,数据表A的字段列表(括号内)为:A(col_a1,col_a2,col_a3…),数据表B的字段列表(括号内)为:B(col_b1,col_b2,col_b3…)。
首先,关联关系判断单元50分别从数据表A、B的字段列表中随机选取一个字段,如col_a1、col_b1。此时,需要判断字段col_a1与col_b1是否存在关联关系。
关联关系判断单元50设置一个参数s。参数s的取值根据业务场景进行设定,一般而言,参数s的取值需要涵盖大部分的关联字段唯一值的个数,比如公司产品数量为20个,交易类型为10种,则参数s取二者的较大值:20。
然后,关联关系判断单元50分别从数据表A、B获取字段col_a1和col_b1的去重、排序并取交集后的s个值,从而得到上述两个字段对应的值集合:d(col_a1)、d(col_b1)。更具体地,在支持SQL查询语句的数据仓库中,可以用以下方法得到值集合d(col_a1)、d(col_b1):
从两个数据表分别选取第一字段的值集合及第二字段的值集合,具体可以通过如下语句确定:
d(col_a1)=SELECT DISTINCT col_a1 FROM A ORDER BY col_a1 LIMIT s;
d(col_b1)=SELECT DISTINCT col_b1 FROM B ORDER BY col_b1 LIMIT s;
然后,判断值集合d(col_a1)与值集合d(col_b1)的相似度是否大于预设相似度阈值。具体可以通过如下语句确定:
Sim(d(col_a1),d(col_b1))=intersect(d(col_a1),d(col_b1))/maxsize(d(col_a1),d(col_b1))。
其中,intersect(d(col_a1),d(col_b1))是指同时存在于两个值集合的元素的个数。maxsize(d(col_a1),d(col_b1))用于取两个值集合中的较大集合的元素个数。
预设相似度阈值Sim’可以根据实际需要设定。通过比较相似度Sim(d(col_a1),d(col_b1))与预设相似度阈值Sim’;若Sim(d(col_a1),d(col_b1))大于Sim’,则判断字段col_a1与col_b1存在关联关系;否则,判断字段col_a1与col_b1不存在关联关系。两个数据表A、B的其余字段之间是否存在关联关系的判断方式也以此类推。
若关联关系判断单元50判断两个数据表之间的任意一组字段存在关联关系,则将该组字段定义为一组关联字段。相应地,判断这两个数据表之间存在关联关系。
此外,在关联关系判断单元50判断两个数据表之间的任意一组字段是否存在关联关系后,还需要继续判断两个数据表之间的其它任意一组字段是否关联关系,直至遍历完某一数据表中的所有字段。从而,查找出存在关联关系的所有关联字段。
在本装置中,通过关联关系判断单元50分别获取两个数据表的任意一组字段的值集合,并判断两个值集合的相似程度是否大于预设相似度阈值,以此判断该组字段是否存在关联关系,以及判断两个数据表是否关联关系。此类关联关系的确定方式简便可靠,计算量少且易于实现。
进一步地,如图8所示,所述装置还包括:行动库单元60;
所述行动库单元60,用于构建包含若干个行动的行动库;其中,每个行动包含对应的前置条件与行动路径;所述前置条件,与对检索项执行的检查属性对应,所述检查属性存在于包含所述上下游关系、关联信息集合的元数据属性中;
行动库中的任一具体行动的类型不作限制,具体可以用于检索及其相关动作时间,例如在分析集群中检索数据、申请数据授权、申请导出一定量的脱敏数据等。每个行动包含对应的前置条件和行动路径,即:action={predicates,actionPath}。其中,predicates为前置条件,actionPath为行动路径。前置条件是对检索项进行的检查,例如行动为“申请数据授权”,则前置条件为本部门是否申请过授权;或者行动为“申请导出一定量的脱敏数据”,则前置条件为数据库中是否包含敏感数据。前置条件的对应检查属性存在于元数据属性中,需要做标签化、归一化处理,才能达到较好的检查效果。而元数据属性包含有上文获取的上下游关系、关联信息集合等元数据信息。基于元数据属性,可以方便快捷地对检索项执行检查,进而根据检查判断结果,对行动路径进行对应的调整。
所述行动库单元60,还用于在执行任一行动时,根据所述前置条件的判断结果,对所述行动路径进行调整。
即在执行任一动作时,所述行动库单元60根据该动作的前置条件的不同判断结果,对应调整不同的行动路径。
例如,在执行“申请导出一定量的脱敏数据”动作时,根据前置条件对数据库进行检查,以判断数据库中是否包含敏感数据。此时,若数据库中的某一数据表中包含有敏感数据的相关字段,则基于本发明所述的元数据处理装置得到的该数据表的关联信息集合确定数据库是否含有敏感数据。若判断数据库不含有敏感数据,则该动作的行动路径为正常的数据申请导出动作。若判断数据库含有敏感数据,则该动作的行动路径为申请导出数据、确认导出的数据是否已脱敏。
而行动库的匹配,可以用Drools或其他规则引擎实现,也可以用编程语言if-else逻辑实现。
本装置的行动库单元60构建的行动库中任一行动均包含有前置条件和行动路径。基于包含有已获取的上下游关系、关联信息集合等的元数据信息,实现前置条件的判断,并根据判断结果对应调整行动的行动路径,从而充分地利用元数据信息资源,使得上下游关系、关联信息集合等元数据信息资源有效地参与到数据库的具体应用中。
此外,本发明还提供一种元数据处理设备,所述元数据处理设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的元数据处理程序,所述元数据处理程序被所述处理器执行时实现如上任一项所述的元数据处理方法的步骤。
如图8所示,图9是本发明实施例方案涉及的元数据处理设备结构示意图。
本发明实施例元数据处理设备可以是PC机或服务器。
如图9所示,该设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图9中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图9所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及元数据处理程序。
在图9所示的设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的元数据处理程序,并执行上述元数据处理方法实施例中的操作。
基于上述硬件结构,提出本发明元数据处理方法实施例。
此外,本发明还提供一种可读取存储介质。
所述存储介质上存储有元数据处理程序,所述元数据处理程序被处理器执行时实现如上任一项所述的元数据处理方法的步骤。
本发明元数据处理设备及存储介质的具体实施例与上述元数据处理方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,这些均属于本发明的保护之内。

Claims (10)

1.一种元数据处理方法,其特征在于,所述方法包括以下步骤:
获取目标数据表与不同关联数据表相互间的关联字段;
根据所述关联字段,获取目标数据表与不同关联数据表相互间的关联信息,并构建目标数据表的关联信息集合;
获取目标数据表的加工任务信息;
根据所述加工任务信息,确定目标数据表与不同数据表相互间的上下游关系,并基于所述上下游关系确定目标数据表的上游数据表与下游数据表;其中,目标数据表继承所述上游数据表的关联信息,所述下游数据表继承目标数据表的所述关联信息集合。
2.如权利要求1所述的一种元数据处理方法,其特征在于,所述获取目标数据表与不同关联数据表相互间的关联字段的步骤之前,还包括:预先判断不同数据表之间是否存在关联关系的步骤;
所述预先判断不同数据表之间是否存在关联关系的步骤,具体包括:
a1,从第一数据表的第一字段列表、第二数据表的第二字段列表分别选取第一字段、第二字段;
a2,分别从第一数据表、第二数据表中获取第一字段的值集合、第二字段的值集合;其中,第一字段的值集合与第二字段的值集合包含的值数量均等于预设数量值;
a3,判断第一字段的值集合与第二字段的值集合的相似度是否大于预设相似度阈值;
若是,则确定第一字段与第二字段存在关联关系,并确定第一数据表与第二数据表存在关联关系;重新执行步骤a1~a3,直至遍历第一字段列表的所有字段;
若否,则重新执行步骤a1~a3,直至遍历第一字段列表的所有字段。
3.如权利要求2所述的元数据处理方法,其特征在于,所述根据所述关联字段,获取目标数据表与不同关联数据表相互间的关联信息,并构建目标数据表的关联信息集合的步骤,具体包括:
基于目标数据表与任一关联数据表相互间的关联字段,将目标数据表中记录关联字段的值与对应关联数据表的业务信息进行匹配;
其中,所匹配的业务信息即为目标数据表与对应关联数据表的关联信息;
将各关联信息进行组合,形成目标数据表的关联信息集合。
4.如权利要求1-3任一项所述的元数据处理方法,其特征在于,所述基于所述上下游关系,确定目标数据表的下游数据表的步骤之后,还包括:
构建包含若干个行动的行动库;
其中,每个行动包含对应的前置条件与行动路径;所述前置条件与对检索项执行的检查属性对应,所述检查属性存在于包含所述上下游关系、关联信息集合的元数据属性中;
在执行任一行动时,根据所述前置条件的判断结果,对所述行动路径进行调整。
5.一种元数据处理装置,其特征在于,所述装置包括:
关联字段获取单元,用于获取目标数据表与不同关联数据表相互间的关联字段;
关联信息集合构建单元,用于根据所述关联字段,获取目标数据表与不同关联数据表相互间的关联信息,并构建目标数据表的关联信息集合;
加工任务信息获取单元,用于获取目标数据表的加工任务信息;
上下游关系确定单元,用于根据所述加工任务信息,确定目标数据表与不同数据表相互间的上下游关系,并基于所述上下游关系确定目标数据表的上游数据表与下游数据表;其中,目标数据表继承所述上游数据表的关联信息,所述下游数据表继承目标数据表的所述关联信息集合。
6.如权利要求5所述的元数据处理装置,其特征在于,所述装置还包括:关联关系判断单元;所述关联关系判断单元,用于预先判断不同数据表之间是否存在关联关系的步骤;
所述关联关系判断单元,具体用于:
a1,从第一数据表的第一字段列表、第二数据表的第二字段列表分别选取第一字段、第二字段;
a2,分别从第一数据表、第二数据表中获取第一字段的值集合、第二字段的值集合;其中,第一字段的值集合与第二字段的值集合包含的值数量均等于预设数量值;
a3,判断第一字段的值集合与第二字段的值集合的相似度是否大于预设相似度阈值;
若是,则确定第一字段与第二字段存在关联关系,并确定第一数据表与第二数据表存在关联关系;重新执行步骤a1~a3,直至遍历第一字段列表的所有字段;
若否,则重新执行步骤a1~a3,直至遍历第一字段列表的所有字段。
7.如权利要求6所述的元数据处理装置,其特征在于,所述关联信息集合构建单元,具体用于基于目标数据表与任一关联数据表相互间的关联字段,将目标数据表中记录关联字段的值与对应关联数据表的业务信息进行匹配;其中,所匹配的业务信息即为目标数据表与对应关联数据表的关联信息;将各关联信息进行组合,形成目标数据表的关联信息集合。
8.如权利要求5-7任一项所述的元数据处理装置,其特征在于,所述装置还包括:行动库单元;
所述行动库单元,用于构建包含若干个行动的行动库;其中,每个行动包含对应的前置条件与行动路径;所述前置条件,与对检索项执行的检查属性对应,所述检查属性存在于包含所述上下游关系、关联信息集合的元数据属性中;在执行任一行动时,根据所述前置条件的判断结果,对所述行动路径进行调整。
9.一种元数据处理设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的元数据处理程序,所述元数据处理程序被所述处理器执行时实现如权利要求1至4中任一项所述的元数据处理方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有元数据处理程序,所述元数据处理程序被处理器执行时实现如权利要求1至4中中任一项所述的元数据处理方法的步骤。
CN201910023646.4A 2019-01-10 2019-01-10 元数据处理方法及装置、设备、可读存储介质 Active CN109766345B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910023646.4A CN109766345B (zh) 2019-01-10 2019-01-10 元数据处理方法及装置、设备、可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910023646.4A CN109766345B (zh) 2019-01-10 2019-01-10 元数据处理方法及装置、设备、可读存储介质

Publications (2)

Publication Number Publication Date
CN109766345A true CN109766345A (zh) 2019-05-17
CN109766345B CN109766345B (zh) 2022-07-15

Family

ID=66453622

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910023646.4A Active CN109766345B (zh) 2019-01-10 2019-01-10 元数据处理方法及装置、设备、可读存储介质

Country Status (1)

Country Link
CN (1) CN109766345B (zh)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399423A (zh) * 2019-07-24 2019-11-01 北京明略软件系统有限公司 元数据血缘关系的处理方法及装置、存储介质和电子装置
CN110532180A (zh) * 2019-08-15 2019-12-03 中国银行股份有限公司 一种测试数据的生成方法及装置
CN110807033A (zh) * 2019-10-12 2020-02-18 中思博安科技(北京)有限公司 数据管理方法、装置及系统
CN111159178A (zh) * 2019-12-12 2020-05-15 浙江华云信息科技有限公司 基于大数据sql解析的数据地图路径导航方法
CN111367914A (zh) * 2020-03-04 2020-07-03 网易(杭州)网络有限公司 数据处理的方法、装置、设备及存储介质
CN111563076A (zh) * 2020-05-09 2020-08-21 咪咕文化科技有限公司 数据稽核方法、装置、网络设备及存储介质
CN111859448A (zh) * 2020-07-02 2020-10-30 合肥森亿智能科技有限公司 基于角色权限设定的数据导出审核方法、系统以及终端
CN112287269A (zh) * 2020-06-22 2021-01-29 上海柯林布瑞信息技术有限公司 数据加载方法及装置、计算设备、计算机可读存储介质
CN112464640A (zh) * 2020-10-22 2021-03-09 浙江大华技术股份有限公司 数据要素分析方法、装置、电子装置和存储介质
CN113254453A (zh) * 2021-06-23 2021-08-13 中国银行股份有限公司 关联数据表的查询方法及装置
CN115185982A (zh) * 2022-09-14 2022-10-14 浩鲸云计算科技股份有限公司 一种基于数据集编排的数据准备方法及系统
CN116756460A (zh) * 2023-08-16 2023-09-15 中移(苏州)软件技术有限公司 组合数据获取方法、装置及相关设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070073688A1 (en) * 2005-09-29 2007-03-29 Fry Jared S Methods, systems, and computer program products for automatically associating data with a resource as metadata based on a characteristic of the resource
CN104657396A (zh) * 2013-11-25 2015-05-27 腾讯科技(深圳)有限公司 数据迁移方法及装置
CN108920592A (zh) * 2018-06-26 2018-11-30 杭州骑轻尘信息技术有限公司 数据库字段关联方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070073688A1 (en) * 2005-09-29 2007-03-29 Fry Jared S Methods, systems, and computer program products for automatically associating data with a resource as metadata based on a characteristic of the resource
CN104657396A (zh) * 2013-11-25 2015-05-27 腾讯科技(深圳)有限公司 数据迁移方法及装置
CN108920592A (zh) * 2018-06-26 2018-11-30 杭州骑轻尘信息技术有限公司 数据库字段关联方法及装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110399423A (zh) * 2019-07-24 2019-11-01 北京明略软件系统有限公司 元数据血缘关系的处理方法及装置、存储介质和电子装置
CN110532180A (zh) * 2019-08-15 2019-12-03 中国银行股份有限公司 一种测试数据的生成方法及装置
CN110807033A (zh) * 2019-10-12 2020-02-18 中思博安科技(北京)有限公司 数据管理方法、装置及系统
CN111159178B (zh) * 2019-12-12 2023-06-13 浙江华云信息科技有限公司 基于大数据sql解析的数据地图路径导航方法
CN111159178A (zh) * 2019-12-12 2020-05-15 浙江华云信息科技有限公司 基于大数据sql解析的数据地图路径导航方法
CN111367914A (zh) * 2020-03-04 2020-07-03 网易(杭州)网络有限公司 数据处理的方法、装置、设备及存储介质
CN111367914B (zh) * 2020-03-04 2023-09-12 网易(杭州)网络有限公司 数据处理的方法、装置、设备及存储介质
CN111563076B (zh) * 2020-05-09 2023-06-30 咪咕文化科技有限公司 数据稽核方法、装置、网络设备及存储介质
CN111563076A (zh) * 2020-05-09 2020-08-21 咪咕文化科技有限公司 数据稽核方法、装置、网络设备及存储介质
CN112287269A (zh) * 2020-06-22 2021-01-29 上海柯林布瑞信息技术有限公司 数据加载方法及装置、计算设备、计算机可读存储介质
CN112287269B (zh) * 2020-06-22 2024-03-22 上海柯林布瑞信息技术有限公司 数据加载方法及装置、计算设备、计算机可读存储介质
CN111859448A (zh) * 2020-07-02 2020-10-30 合肥森亿智能科技有限公司 基于角色权限设定的数据导出审核方法、系统以及终端
CN112464640A (zh) * 2020-10-22 2021-03-09 浙江大华技术股份有限公司 数据要素分析方法、装置、电子装置和存储介质
CN113254453A (zh) * 2021-06-23 2021-08-13 中国银行股份有限公司 关联数据表的查询方法及装置
CN115185982A (zh) * 2022-09-14 2022-10-14 浩鲸云计算科技股份有限公司 一种基于数据集编排的数据准备方法及系统
CN116756460A (zh) * 2023-08-16 2023-09-15 中移(苏州)软件技术有限公司 组合数据获取方法、装置及相关设备
CN116756460B (zh) * 2023-08-16 2023-11-03 中移(苏州)软件技术有限公司 组合数据获取方法、装置及相关设备

Also Published As

Publication number Publication date
CN109766345B (zh) 2022-07-15

Similar Documents

Publication Publication Date Title
CN109766345A (zh) 元数据处理方法及装置、设备、可读存储介质
US20080288822A1 (en) Exhaustive security fuzzing for transact structured query language
US8214411B2 (en) Atomic deletion of database data categories
US11681719B2 (en) Efficient access of chainable records
US11797617B2 (en) Method and apparatus for collecting information regarding dark web
WO2019179408A1 (zh) 机器学习模型的构建
US11720607B2 (en) System for lightweight objects
CN104392171A (zh) 一种基于数据关联的自动内存证据分析方法
US11294906B2 (en) Database record searching with multi-tier queries
US11709814B2 (en) Building of tries over sorted keys
US11157506B2 (en) Multiform persistence abstraction
CN117421302A (zh) 一种数据处理方法及相关设备
US9009731B2 (en) Conversion of lightweight object to a heavyweight object
US11574217B2 (en) Machine learning based identification and classification of database commands
US9916373B2 (en) Dynamic data partitioning extension
Mishra et al. Document oriented nosql databases: An empirical study
JP6631139B2 (ja) 検索制御プログラム、検索制御方法および検索サーバ装置
US7987470B1 (en) Converting heavyweight objects to lightwight objects
US20230060127A1 (en) Techniques to generate and store graph models from structured and unstructured data in a cloud-based graph database system
CN106547626A (zh) 用于对等架构均衡服务器的方法及服务器
Tovpinets et al. The Usage of Apache Spark for Collection and Analysis of Social Networking Statistics
JP3926303B2 (ja) データ検索装置,方法およびプログラム
Botes et al. NoSQL: Revealing Hidden Data
Al-Wattar Data Warehouse performance comparing Relational Database Management Systems and the Hadoop-based NoSQL Database system
WO2024199642A1 (en) Devices and methods for controlling access to a database

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant