CN116383777B - 一种数据治理平台和面向数据治理的数据确权方法 - Google Patents
一种数据治理平台和面向数据治理的数据确权方法 Download PDFInfo
- Publication number
- CN116383777B CN116383777B CN202310312862.7A CN202310312862A CN116383777B CN 116383777 B CN116383777 B CN 116383777B CN 202310312862 A CN202310312862 A CN 202310312862A CN 116383777 B CN116383777 B CN 116383777B
- Authority
- CN
- China
- Prior art keywords
- data
- column
- data management
- array
- management unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013523 data management Methods 0.000 title claims abstract description 120
- 238000000034 method Methods 0.000 title claims abstract description 34
- 239000011159 matrix material Substances 0.000 claims abstract description 89
- 230000009466 transformation Effects 0.000 claims abstract description 58
- 238000004364 calculation method Methods 0.000 claims abstract description 28
- 230000008859 change Effects 0.000 claims abstract description 27
- 230000001131 transforming effect Effects 0.000 claims abstract description 15
- 238000004458 analytical method Methods 0.000 claims description 16
- 238000013502 data validation Methods 0.000 claims description 16
- 230000008569 process Effects 0.000 claims description 8
- 238000013507 mapping Methods 0.000 claims description 5
- 238000004148 unit process Methods 0.000 claims description 2
- 238000006243 chemical reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/10—Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2433—Query languages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Technology Law (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及计算机技术领域,具体涉及一种数据治理平台及面向数据治理的数据确权方法。该方法包括接收数据治理单元变更的信号;则依次对数据治理平台中数据治理单元的进行处理,获得并保存第一列变换特征矩阵X、第一数组B1和第二列变换特征矩阵Y;根据第一列变换特征矩阵X、第一数组B1和第二列变换特征矩阵Y,获得第一目标表数据溯源信息数组D1;接收数据来源表的权利主体变更的信号,则依次对数据治理平台中数据治理单元的进行处理,获得第二数组B2;根据第一列变换特征矩阵X、第二数组B2和第二列变换特征矩阵Y,获得第二目标表数据溯源信息数组D2。本发明实现数据资产表字段级权利主体的自动计算。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种数据治理平台和面向数据治理的数据确权方法。
背景技术
所谓数据确权,就是确定数据的权利属性,最关键的是确定权利主体。确定权利主体是数据资产的交易、定价、保护、共享的重要条件。数据资产的数据确权是数据治理面临的一个重要问题。
目前现有的数据确权,是由数据管理人员根据经验判断数据资产的权利主体,在系统中给每个数据资产标记出权利主体。缺点:(1)每次新增数据资产都需要手工进行数据资产的确权操作;(2)数据资产的确权,凭经验,缺少依据;(3)一般数据资产的确权粒度是到表,没有到字段,粒度比较粗。
发明内容
为了解决上述现有技术中存在的技术问题,本发明提供了一种数据治理平台和一种面向数据治理的数据确权方法,能够在数据治理场景下在生成数据资产时自动进行数据确权的技术方案。
为实现上述目的,本发明实施例提供了如下的技术方案:
第一方面,在本发明提供的一个实施例中,提供了一种数据治理平台,该平台包括:至少一个以上的数据治理单元;所述数据治理单元用于读取数据源中的数据,按照预设的数据治理规则对数据进行标准化处理;
所述数据治理单元包括SQL解析模块和列变换模块。
所述SQL解析模块用于对SQL语句进行解析,获取查询结果集的字段名称和数据来源表名称。
所述列变换模块用于将查询结果集的字段名称的映射到目标表中,以实现数据确权。
作为本发明的进一步方案,所述数据治理单元的输入是一张或多张数据来源表,经过SQL解析模块和列变换模块,将处理结果输出到一张目标表,以实现按照预设的数据治理规则对数据进行标准化处理。
第二方面,在本发明提供的又一个实施例中,提供了面向数据治理的数据确权方法,该方法包括:
S10、接收数据治理单元变更的信号;其中,所述数据治理单元变更,包括新增数据治理单元、数据治理单元SQL变更和数据治理单元列变换变更;则依次对数据治理平台中的数据治理单元进行处理,获得并保存第一列变换特征矩阵X、第一数组B1和第二列变换特征矩阵Y;
S20、根据第一列变换特征矩阵X、第一数组B1和第二列变换特征矩阵Y,获得第一目标表数据溯源信息数组D1,所述第一目标表数据溯源信息数组D1用于实现第一数据确权;
S30、接收数据来源表的权利主体变更的信号,则依次对数据治理平台中的数据治理单元进行处理,获得第二数组B2;
S40、根据第一列变换特征矩阵X、第二数组B2和第二列变换特征矩阵Y,获得第二目标表数据溯源信息数组D2,所述第二目标表数据溯源信息数组D2用于实现第二数据确权。
作为本发明的进一步方案,所述步骤S10,包括:
S101、接收数据治理单元变更的信号。
S102、清空用于储存目标表的第一队列和用于储存数据治理单元的ID的第二队列,且广度优先遍历数据治理单元。
S103、解析发生变更的数据治理单元的SQL语句,获得数据治理单元的数据来源表和目标表。
S104、判断所述目标表在第一队列中是否存在,若是,则存在有向环不符合数据治理业务规则,异常退出;若否,则将数据来源表保存到第一队列中。
S105、将所述发生变更的数据治理单元的ID插入第二队列,以实现数据治理单元的排序。
S106、基于第二队列中的数据治理单元的ID,依次对数据治理单元进行处理,获得并保存第一列变换特征矩阵X、第一数组B1和第二列变换特征矩阵Y。
作为本发明的进一步方案,所述步骤S106,包括:
S1061、数据治理单元中的SQL解析模块对SQL语句进行解析获得并保存第一列变换特征矩阵X和第一数组B1;
S1062、列变换模块基于所述目标表获取第二列变换特征矩阵Y。
作为本发明的进一步方案,S106、基于第二队列中的数据治理单元的ID,依次对数据治理单元进行处理,获得并保存第一列变换特征矩阵X、第一数组B1、第一数据溯源信息数组C1和第二列变换特征矩阵Y,包括:
S1061、数据治理单元中的SQL解析模块对SQL语句进行解析获得并保存第一列变换特征矩阵X和第一数组B1;
S1062、列变换模块基于所述目标表获取第二列变换特征矩阵Y。
作为本发明的进一步方案,所述第一数组B1通过如下方式获得:
SQL解析模块处理SQL语句,根据SQL语法树中的表顺序T1、T2...Tn,构建第一数组B1=[A1,A2,...,An];其中,数据来源表Ti的数据溯源信息数组Ai由元素E构成。
作为本发明的进一步方案,S20、根据第一列变换特征矩阵X、第一数组B1和第二列变换特征矩阵Y,获得第一目标表数据溯源信息数组D1,包括;
S201、基于所述第一列变换特征矩阵X和第一数组B1,按照C1=B1X进行矩阵计算得到第一数据溯源信息数组C1;
S202、基于所述第一数据溯源信息数组C1和第二列变换特征矩阵Y,按照D1=C1Y进行矩阵计算后得到第一目标表数据溯源信息数组D1,完成权利主体信息计算,返回至S102遍历发生变更的数据治理单元。
作为本发明的进一步方案,S30接收数据来源表的权利主体变更的信号,则依次对数据治理平台中的数据治理单元进行处理,获得第二数组B2,包括:
S301、接收数据来源表的权利主体变更的信号;
S302、遍历第二队列中的数据治理单元的ID,直到遍历结束;
S303、基于第二队列中的数据治理单元的ID,依次对数据治理单元的SQL语句进行解析,获得第二数组B2。
作为本发明的进一步方案,S40、根据第一列变换特征矩阵X、第二数组B2和第二列变换特征矩阵Y,获得第二目标表数据溯源信息数组D2,包括:
S401、基于所述第一列变换特征矩阵X和第二数组B2,按照C2=B2X进行矩阵计算得到第二数据溯源信息数组C2;
S402、基于所述第二数据溯源信息数组C2和第二列变换特征矩阵Y,按照D2=C2Y进行矩阵计算后得到第二目标表数据溯源信息数组D2,完成权利主体信息计算,返回至S302遍历数据治理单元。
本发明提供的技术方案,具有如下有益效果:
本发明提供的一种数据治理平台和一种面向数据治理的数据确权方法,本发明实现数据资产表字段级权利主体的自动计算;支持四种场景下数据资产权利主体的自动计算:(1)新增数据治理单元;(2)数据治理单元SQL变更;(3)数据治理单元列变换变更;(4)数据来源表的权利主体变更;无需执行治理操作,即可实现权利主体的自动计算。
本发明的这些方面或其他方面在以下实施例的描述中会更加简明易懂。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明一个实施例的一种数据治理平台中数据治理单元的结构框图。
图2为本发明一个实施例的一种数据治理平台中数据治理单元与表的关系。
图3为本发明一个实施例的面向数据治理的数据确权方法的流程图。
图4为本发明一个实施例的面向数据治理的数据确权方法中S10的流程图。
图5为本发明一个实施例的面向数据治理的数据确权方法中S20的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书断是否是目标中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
具体地,下面结合附图,对本发明实施例作进一步阐述。
参见图1和2所示,在本发明的实施例中还提供了数据治理平台,该平台包括至少一个以上的数据治理单元;所述数据治理单元用于读取数据源中的数据,按照预设的数据治理规则对数据进行标准化处理;
所述数据治理单元包括SQL解析模块和列变换模块。
所述SQL解析模块用于对SQL语句进行解析,获取查询结果集的字段名称和数据来源表名称。
所述列变换模块用于将查询结果集的字段名称的映射到目标表中,以实现数据确权。
所述数据治理平台还包括治理执行模块。所述治理执行模块用于执行SQL语句。
数据治理单元的输入是一张或多张数据来源表,经过SQL解析模块和列变换模块,将处理结果输出到一张目标表,以实现按照预设的数据治理规则对数据进行标准化处理。该技术为现有技术故不在此做过多赘述,数据治理单元输出的目标表可以作为另一个数据治理单元的数据来源表。
所述数据治理平台中数据治理单元的输出目标表作为另一个数据治理单元的输入表。
在一个实施例中,请参阅图3和4,图3是本发明实施例提供的一种基于数据治理平台的所述面向数据治理的数据确权方法的流程图,如图3所示,该面向数据治理的数据确权方法包括步骤S10至步骤S40。
S10、接收数据治理单元变更的信号;其中,所述数据治理单元变更,包括新增数据治理单元、数据治理单元SQL变更和数据治理单元列变换变更;则依次对数据治理平台中的数据治理单元进行处理,获得并保存第一列变换特征矩阵X、第一数组B1和第二列变换特征矩阵Y。
请参阅图4,在本发明实施例中,所述步骤S10,包括:
S101、接收数据治理单元变更的信号。
S102、清空用于储存目标表的第一队列和用于储存数据治理单元的ID的第二队列,且广度优先遍历数据治理单元。所述第一队列只是用于判断有向环的中间技术。
所述广度优先为广度优先算法(Breadth-Fi rst Search),同广度优先遍历,又称作宽度优先遍历,或横向优先遍历,简称BFS,是一种图形搜索演算法。简单的说,BFS是从根节点开始,沿着树的宽度遍历树的节点,如果发现目标,则演算终止。广度优先遍历的实现一般采用open-closed表。
S103、解析发生变更的数据治理单元的SQL语句,获得数据治理单元的数据来源表和目标表。SQL(Structured Query Language)为结构化查询语言,sq l语句为对数据库进行操作的一种语言。
S104、判断所述目标表在第一队列中是否存在,若是,则存在有向环不符合数据治理业务规则,异常退出;若否,则将数据来源表保存到第一队列中。
S105、将所述发生变更的数据治理单元的ID插入第二队列,以实现数据治理单元的排序。
S106、基于第二队列中的数据治理单元的ID,依次对数据治理单元进行处理,获得并保存第一列变换特征矩阵X、第一数组B1和第二列变换特征矩阵Y。
在本发明实施例中,所述步骤S106,包括:
S1061、数据治理单元中的SQL解析模块对SQL语句进行解析获得并保存第一列变换特征矩阵X和第一数组B1;
其中,所述第一数组B1通过如下方式获得,SQL解析模块处理SQL语句,根据SQL语法树中的表顺序T1、T2...Tn,构建第一数组B1=[A1,A2,...,An];其中,数据来源表Ti的数据溯源信息数组Ai由元素E构成。
所述元素E表示为数据溯源信息,数据溯源信息包括表名、字段名和权利主体信息;所述元素E={表名,字段名,权利主体}。
所述第一列变换特征矩阵X是一个k1*k2的矩阵,第i行第j列值为1表示第一数组B1的第i个元素映射到第一数据溯源信息数组C1的第j个元素上,其它元素为0。
S1062、列变换模块基于所述目标表获取第二列变换特征矩阵Y。
所述列变换模块是通过对目标表进行识别获取第二列变换特征矩阵Y。
其中,所述第二列变换特征矩阵Y是一个k2*k3的矩阵,第i行第j列值为1表示数据溯源信息数组C的第i个元素映射到目标表的第j个元素上,其它元素为0。目标表的列数为k3。
所述第二列变换特征矩阵Y表示为数据治理单元的列变换模块,调整第一数据溯源信息数组C的数据列,映射到目标表中。
S20、根据第一列变换特征矩阵X、第一数组B1和第二列变换特征矩阵Y,获得第一目标表数据溯源信息数组D1,所述第一目标表数据溯源信息数组D1用于实现第一数据确权。
在本发明实施例中,S20、根据第一列变换特征矩阵X、第一数组B1和第二列变换特征矩阵Y,获得第一目标表数据溯源信息数组D1,包括;
S201、基于所述第一列变换特征矩阵X和第一数组B1,按照C1=B1X进行矩阵计算得到第一数据溯源信息数组C1;
S202、基于所述第一数据溯源信息数组C1和第二列变换特征矩阵Y,按照D1=C1Y进行矩阵计算后得到第一目标表数据溯源信息数组D1,完成权利主体信息计算,返回至S102遍历发生变更的数据治理单元。
具体的,数据治理单元的SQL解析模块处理SQL语句,根据SQL语法树中的字段顺序F1、F2...Fi,1<=i<=k2,k2是结果集的列数,构建SQL语句查询结果集的第一数据溯源信息数组C1,C1=[c1,c2,c3...ci],1<=i<=k2,i为数据集的列号。k1和k2均为正整数。
目标表数据溯源信息数组D1=[d1,d2,d3...di],1<=i<=k3。
S30、接收数据来源表的权利主体变更的信号,则依次对数据治理平台中的数据治理单元进行处理,获得第二数组B2。
请参阅图5,本发明的实施例中,S30接收数据来源表的权利主体变更的信号,则依次对数据治理平台中的数据治理单元进行处理,获得第二数组B2,包括:
S301、接收数据来源表的权利主体变更的信号。
S302、遍历第二队列中的数据治理单元的ID,直到遍历结束。
S303、基于第二队列中的数据治理单元的ID,依次对数据治理单元的SQL语句进行解析,获得第二数组B2;所述第二数组B2与第一数组B1获得方法一致。
S40、根据第一列变换特征矩阵X、第二数组B2和第二列变换特征矩阵Y,获得第二目标表数据溯源信息数组D2,所述第二目标表数据溯源信息数组D2用于实现第二数据确权。
在本发明实施例中,S40、根据第一列变换特征矩阵X、第二数组B2和第二列变换特征矩阵Y,获得第二目标表数据溯源信息数组D2,包括:
S401、基于所述第一列变换特征矩阵X和第二数组B2,按照C2=B2X进行矩阵计算得到第二数据溯源信息数组C2。
S402、基于所述第二数据溯源信息数组C2和第二列变换特征矩阵Y,按照D2=C2Y进行矩阵计算后得到第二目标表数据溯源信息数组D2,完成权利主体信息计算,返回至S302遍历数据治理单元。
本发明实现数据资产表字段级权利主体的自动计算;支持四种场景下数据资产权利主体的自动计算:(1)新增数据治理单元;(2)数据治理单元SQL变更;(3)数据治理单元列变换变更;(4)数据来源表的权利主体变更;无需执行治理操作,即可实现权利主体的自动计算。
在一个实施例中,参见图3所示,在本发明的实施例中还提供了主题装置,该系统包括第一计算模块100、第二计算模块200、第三计算模块300和第四计算模块400。
所述第一计算模块100,用于接收数据治理单元变更的信号;其中,所述数据治理单元变更,包括新增数据治理单元、数据治理单元SQL变更和数据治理单元列变换变更;则依次对数据治理平台中的数据治理单元进行处理,获得并保存第一列变换特征矩阵X、第一数组B和第二列变换特征矩阵Y。
第二计算模块200,用于根据第一列变换特征矩阵X和第二列变换特征矩阵Y,获得第一目标表数据溯源信息数组D1。
第三计算模块300,用于接收数据来源表的权利主体变更的信号,则依次对数据治理平台中的数据治理单元进行处理,获得第二数组B2。
第四计算模块400,用于根据第一列变换特征矩阵X、第二数组B2和第二列变换特征矩阵Y,获得第二目标表数据溯源信息数组D2。
应该理解的是,上述虽然是按照某一顺序描述的,但是这些步骤并不是必然按照上述顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,本实施例的一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
应当理解的是,在本文中使用的,除非上下文清楚地支持例外情况,单数形式“一个”旨在也包括复数形式。还应当理解的是,在本文中使用的“和/或”是指包括一个或者一个以上相关联地列出的项目的任意和所有可能组合。上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明实施例的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,并存在如上的本发明实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明实施例的保护范围之内。
Claims (3)
1.一种面向数据治理的数据确权方法,其特征在于,包括:
S10、接收数据治理单元变更的信号;其中,所述数据治理单元变更,包括新增数据治理单元、数据治理单元SQL变更和数据治理单元列变换变更;则依次对数据治理平台中的数据治理单元进行处理,获得并保存第一列变换特征矩阵X、第一数组B1和第二列变换特征矩阵Y;
S20、根据第一列变换特征矩阵X、第一数组B1和第二列变换特征矩阵Y,获得第一目标表数据溯源信息数组D1,所述第一目标表数据溯源信息数组D1用于实现第一数据确权;
S30、接收数据来源表的权利主体变更的信号,则依次对数据治理平台中的数据治理单元进行处理,获得第二数组B2;
S40、根据第一列变换特征矩阵X、第二数组B2和第二列变换特征矩阵Y,获得第二目标表数据溯源信息数组D2,所述第二目标表数据溯源信息数组D2用于实现第二数据确权;
其中,步骤S10包括:
S101、接收数据治理单元变更的信号;
S102、清空用于储存目标表的第一队列和用于储存数据治理单元的ID的第二队列,且广度优先遍历数据治理单元;
S103、解析发生变更的数据治理单元的SQL语句,获得数据治理单元的数据来源表和目标表;
S104、判断所述目标表在第一队列中是否存在,若是,则存在有向环不符合数据治理业务规则,异常退出;若否,则将数据来源表保存到第一队列中;
S105、将所述发生变更的数据治理单元的ID插入第二队列,以实现数据治理单元的排序;
S106、基于第二队列中的数据治理单元的ID,依次对数据治理单元进行处理,获得并保存第一列变换特征矩阵X、第一数组B1和第二列变换特征矩阵Y;
所述步骤S106包括:
S1061、数据治理单元中的SQL解析模块对SQL语句进行解析获得并保存第一列变换特征矩阵X和第一数组B1;
其中,所述第一数组B1通过如下方式获得,SQL解析模块处理SQL语句,根据SQL语法树中的表顺序T1、T2...Tn,构建第一数组B1=[A1,A2,...,An];其中,数据来源表Ti的数据溯源信息数组Ai由元素E构成;
所述元素E表示为数据溯源信息,数据溯源信息包括表名、字段名和权利主体信息;所述元素E={表名,字段名,权利主体};
所述第一列变换特征矩阵X是一个k1*k2的矩阵,第i行第j列值为1表示第一数组B1的第i个元素映射到第一数据溯源信息数组C1的第j个元素上,其它元素为0;
S1062、列变换模块基于所述目标表获取第二列变换特征矩阵Y;
所述列变换模块是通过对目标表进行识别获取第二列变换特征矩阵Y;
其中,所述第二列变换特征矩阵Y是一个k2*k3的矩阵,第i行第j列值为1表示数据溯源信息数组C的第i个元素映射到目标表的第j个元素上,其它元素为0;目标表的列数为k3;
所述第二列变换特征矩阵Y表示为数据治理单元的列变换模块,调整第一数据溯源信息数组C的数据列,映射到目标表中;
所述步骤S20包括:
S201、基于所述第一列变换特征矩阵X和第一数组B1,按照C1=B1X进行矩阵计算得到第一数据溯源信息数组C1;
S202、基于所述第一数据溯源信息数组C1和第二列变换特征矩阵Y,按照D1=C1Y进行矩阵计算后得到第一目标表数据溯源信息数组D1,完成权利主体信息计算,返回至S102遍历发生变更的数据治理单元;
数据治理单元的SQL解析模块处理SQL语句,根据SQL语法树中的字段顺序F1、F2...Fi,1<=i<=k2,k2是结果集的列数,构建SQL语句查询结果集的第一数据溯源信息数组C1,C1=[c1,c2,c3...ci],1<=i<=k2,i为数据集的列号,k1和k2均为正整数;
目标表数据溯源信息数组D1=[d1,d2,d3...di],1<=i<=k3;
所述步骤S30包括:
S301、接收数据来源表的权利主体变更的信号;
S302、遍历第二队列中的数据治理单元的ID,直到遍历结束;
S303、基于第二队列中的数据治理单元的ID,依次对数据治理单元的SQL语句进行解析,获得第二数组B2;
所述步骤S40包括:
S401、基于所述第一列变换特征矩阵X和第二数组B2,按照C2=B2X进行矩阵计算得到第二数据溯源信息数组C2;
S402、基于所述第二数据溯源信息数组C2和第二列变换特征矩阵Y,按照D2=C2Y进行矩阵计算后得到第二目标表数据溯源信息数组D2,完成权利主体信息计算,返回至S302遍历数据治理单元。
2.一种用于实现权利要求1所述数据确权方法的数据治理平台,其特征在于,该平台包括:至少一个以上的数据治理单元;所述数据治理单元用于读取数据源中的数据,按照预设的数据治理规则对数据进行标准化处理;
其中,所述数据治理单元包括SQL解析模块和列变换模块;
所述SQL解析模块用于对SQL语句进行解析,获取查询结果集的字段名称和数据来源表名称;
所述列变换模块用于将查询结果集的字段名称的映射到目标表中,以实现数据确权。
3.如权利要求2所述的数据治理平台,其特征在于,所述数据治理单元的输入是一张或多张数据来源表,经过SQL解析模块和列变换模块,将处理结果输出到一张目标表,以实现按照预设的数据治理规则对数据进行标准化处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310312862.7A CN116383777B (zh) | 2023-03-28 | 2023-03-28 | 一种数据治理平台和面向数据治理的数据确权方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310312862.7A CN116383777B (zh) | 2023-03-28 | 2023-03-28 | 一种数据治理平台和面向数据治理的数据确权方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116383777A CN116383777A (zh) | 2023-07-04 |
CN116383777B true CN116383777B (zh) | 2024-02-27 |
Family
ID=86978102
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310312862.7A Active CN116383777B (zh) | 2023-03-28 | 2023-03-28 | 一种数据治理平台和面向数据治理的数据确权方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116383777B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017088683A1 (zh) * | 2015-11-24 | 2017-06-01 | 阿里巴巴集团控股有限公司 | 一种数据脱敏的方法及系统 |
CN111612079A (zh) * | 2020-05-22 | 2020-09-01 | 深圳前海微众银行股份有限公司 | 数据确权方法、设备及可读存储介质 |
CN111833059A (zh) * | 2020-07-02 | 2020-10-27 | 清华大学 | 一种数据银行中的数据资产管理方法和数据银行系统 |
CN112540989A (zh) * | 2020-12-08 | 2021-03-23 | 北京交通大学 | 一种基于数据交换日志的数据确权和管理方法 |
CN114357475A (zh) * | 2021-12-03 | 2022-04-15 | 福建省星云大数据应用服务有限公司 | 一种基于区块链的数据确权方法、系统、设备及介质 |
CN114428822A (zh) * | 2022-01-27 | 2022-05-03 | 云启智慧科技有限公司 | 一种数据处理的方法、装置、电子设备及存储介质 |
CN115131035A (zh) * | 2022-06-23 | 2022-09-30 | 史云凌 | 一种基于区块链综合溯源的方法 |
CN115204873A (zh) * | 2022-07-07 | 2022-10-18 | 北京航空航天大学云南创新研究院 | 一种基于区块链的开放大数据交易撮合方法及系统 |
CN115544156A (zh) * | 2022-10-13 | 2022-12-30 | 山东浪潮智慧医疗科技有限公司 | 一种实现数据溯源可视化的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11163904B2 (en) * | 2018-09-04 | 2021-11-02 | International Business Machines Corporation | Fine-grained access control to datasets |
-
2023
- 2023-03-28 CN CN202310312862.7A patent/CN116383777B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017088683A1 (zh) * | 2015-11-24 | 2017-06-01 | 阿里巴巴集团控股有限公司 | 一种数据脱敏的方法及系统 |
CN111612079A (zh) * | 2020-05-22 | 2020-09-01 | 深圳前海微众银行股份有限公司 | 数据确权方法、设备及可读存储介质 |
WO2021232747A1 (zh) * | 2020-05-22 | 2021-11-25 | 深圳前海微众银行股份有限公司 | 数据确权方法、设备及可读存储介质 |
CN111833059A (zh) * | 2020-07-02 | 2020-10-27 | 清华大学 | 一种数据银行中的数据资产管理方法和数据银行系统 |
CN112540989A (zh) * | 2020-12-08 | 2021-03-23 | 北京交通大学 | 一种基于数据交换日志的数据确权和管理方法 |
CN114357475A (zh) * | 2021-12-03 | 2022-04-15 | 福建省星云大数据应用服务有限公司 | 一种基于区块链的数据确权方法、系统、设备及介质 |
CN114428822A (zh) * | 2022-01-27 | 2022-05-03 | 云启智慧科技有限公司 | 一种数据处理的方法、装置、电子设备及存储介质 |
CN115131035A (zh) * | 2022-06-23 | 2022-09-30 | 史云凌 | 一种基于区块链综合溯源的方法 |
CN115204873A (zh) * | 2022-07-07 | 2022-10-18 | 北京航空航天大学云南创新研究院 | 一种基于区块链的开放大数据交易撮合方法及系统 |
CN115544156A (zh) * | 2022-10-13 | 2022-12-30 | 山东浪潮智慧医疗科技有限公司 | 一种实现数据溯源可视化的方法 |
Non-Patent Citations (1)
Title |
---|
赵海军 ; .大数据环境下的信息确权方法探究.图书情报导刊.2017,全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN116383777A (zh) | 2023-07-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111522816B (zh) | 基于数据库引擎的数据处理方法、装置、终端及介质 | |
CN110908997B (zh) | 数据血缘构建方法、装置、服务器及可读存储介质 | |
US9665619B1 (en) | Optimizing database queries using subquery composition | |
US20230195728A1 (en) | Column lineage and metadata propagation | |
CN110795455A (zh) | 依赖关系解析方法、电子装置、计算机设备及可读存储介质 | |
CN112445875B (zh) | 数据关联及检验方法、装置、电子设备及存储介质 | |
CN103136260A (zh) | 评估过滤因子用于数据库中访问路径优化的方法和装置 | |
US11269880B2 (en) | Retroreflective clustered join graph generation for relational database queries | |
CN115543402B (zh) | 一种基于代码提交的软件知识图谱增量更新方法 | |
CN112579586A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN114116065A (zh) | 获取拓扑图数据对象的方法、装置、及电子设备 | |
US20120330988A1 (en) | Systems And Methods For Performing Index Joins Using Auto Generative Queries | |
US20230126509A1 (en) | Database management system and method for graph view selection for a relational-graph database | |
CN111143390A (zh) | 更新元数据的方法及装置 | |
WO2023125718A1 (zh) | 基于知识图谱的数据查询方法、系统、设备及存储介质 | |
WO2011106006A1 (en) | Optimization method and apparatus | |
CN111651641A (zh) | 一种图查询方法、装置及存储介质 | |
CN116244386A (zh) | 应用于多源异构数据存储系统的实体关联关系的识别方法 | |
CN117130932A (zh) | 大数据平台的sql静态检测方法及装置 | |
US9348884B2 (en) | Methods and apparatus for reuse optimization of a data storage process using an ordered structure | |
CN116383777B (zh) | 一种数据治理平台和面向数据治理的数据确权方法 | |
US8468116B2 (en) | Rule creation method and rule creating apparatus | |
US11386155B2 (en) | Filter evaluation in a database system | |
CN114090558A (zh) | 针对数据库的数据质量管理方法和装置 | |
CN117632963B (zh) | 一种建表方法、系统及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
PE01 | Entry into force of the registration of the contract for pledge of patent right |
Denomination of invention: A data governance platform and a data ownership method for data governance Granted publication date: 20240227 Pledgee: China Postal Savings Bank Co.,Ltd. Wuhan Branch Pledgor: Yunqi Intelligent Technology Co.,Ltd. Registration number: Y2024980029917 |
|
PE01 | Entry into force of the registration of the contract for pledge of patent right |