CN117688110B - 数据中台数据血缘图谱构建方法 - Google Patents
数据中台数据血缘图谱构建方法 Download PDFInfo
- Publication number
- CN117688110B CN117688110B CN202410145210.3A CN202410145210A CN117688110B CN 117688110 B CN117688110 B CN 117688110B CN 202410145210 A CN202410145210 A CN 202410145210A CN 117688110 B CN117688110 B CN 117688110B
- Authority
- CN
- China
- Prior art keywords
- data
- blood
- source
- adjacency list
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 14
- 239000008280 blood Substances 0.000 claims abstract description 28
- 210000004369 blood Anatomy 0.000 claims abstract description 28
- 238000000034 method Methods 0.000 claims abstract description 28
- 230000004927 fusion Effects 0.000 claims abstract description 21
- 238000004458 analytical method Methods 0.000 claims abstract description 13
- 238000005516 engineering process Methods 0.000 claims abstract description 9
- 230000007246 mechanism Effects 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 239000011159 matrix material Substances 0.000 claims description 46
- 238000004364 calculation method Methods 0.000 claims description 16
- 238000010586 diagram Methods 0.000 claims description 10
- 238000009826 distribution Methods 0.000 claims description 9
- 238000002372 labelling Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 7
- 238000000354 decomposition reaction Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 4
- 230000015572 biosynthetic process Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 210000004204 blood vessel Anatomy 0.000 claims 2
- 238000007405 data analysis Methods 0.000 abstract description 2
- 230000005540 biological transmission Effects 0.000 description 10
- 230000000694 effects Effects 0.000 description 4
- 238000010348 incorporation Methods 0.000 description 4
- 230000008520 organization Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000007667 floating Methods 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/288—Entity relationship models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/26—Visual data mining; Browsing structured data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及数据分析技术领域,具体涉及数据中台数据血缘图谱构建方法,包括如下步骤:收集多源数据,对多源数据进行预处理,再利用数据融合技术进行整合;对整合过的数据分类和命名,形成数据的层次结构和数据链路;使用网络封包分析工具识别数据链路的源头和终点并记录数据链路的关键信息;根据数据链路的描述,基于邻接表建立数据血缘关系图并对血缘关系图进行标注;将数据血缘关系图可视化并建立实时数据追踪机制。本发明利用数据融合技术,将多源数据进行整合和优化,提高数据血缘关系图谱构建的全面性和准确性。基于邻接表建立数据血缘关系,能够高效地进行图的遍历,查找和分析,使得在处理大规模图时能够保持高效和快速。
Description
技术领域
本发明涉及数据分析技术领域,尤其为数据中台数据血缘图谱构建方法。
背景技术
随着企业信息化和数字化的深入推进,企业数据呈现爆炸式增长,为了充分发挥数据的价值,需要对海量数据进行有效的管理和利用,数据血缘关系图谱作为数据管理的重要手段,可以帮助企业更好地管理和利用数据。现有技术中,对于复杂的数据血缘关系识别和标注还存在一定的困难。特别是在面对多源异构数据、动态变化的数据链路和数据血缘关系时,准确识别和标注数据血缘关系的难度较大。鉴于以上问题,本发明提出数据中台数据血缘图谱构建方法以解决上述问题。
发明内容
本发明的主要目的在于提供数据中台数据血缘图谱构建方法,以解决相关技术中提出的问题。
为了实现上述目的,根据本发明的一个方面,提供了数据中台数据血缘图谱构建方法,包括如下步骤:
S1:收集多源数据,对多源数据进行预处理,再利用数据融合技术进行整合;
S2:对整合过的数据分类和命名,形成数据的层次结构和数据链路;
S3:使用网络封包分析工具识别数据链路的源头和终点并记录数据链路的关键信息;
S4:根据数据链路的描述,基于邻接表建立数据血缘关系图并对血缘关系图进行标注;
S5:将数据血缘关系图可视化并建立实时数据追踪机制。
进一步地,S1中,多源数据包括数据库中的数据、文件系统数据和API接收的数据,对多源数据进行预处理为数据清洗,处理数据的缺失值和重复值。
进一步地,S1中,利用数据融合技术进行整合的具体步骤如下:
S11:对预处理后的数据进行多样性判断;
S12:经多样性判断后的数据进行标准化处理;
S13:计算标准化后数据的准特征矩阵;
S14:对准特征矩阵进行特征分解,得到特征值;
S15:对准特征矩阵进行正交投影,将原始数据投影到新的空间。
进一步地,利用数据融合技术进行整合的计算如下:
多样性判断公式为:
;
;
;
;
其中,d和k权重,X和Y是两种数据源,x和y分别是数据源X和数据源Y中的数据,为数据源X的多样性,/>为X和Y的互信息,/>为数据源X的左邻接熵,为数据源Y的左邻接熵,/>为x、y的联合分布,/>和/>分别是x和y的边缘分布;
经多样性判断后的数据进行标准化处理,计算公式为:
;
其中,S是一个的矩阵,m是样本数量,n是特征数量,S是标准化后的矩阵,X是原始矩阵;/>为原始样本均值,/>为原始样本标准差;
标准化后数据的准特征矩阵,计算公式为:
;
其中,是一个/>的准特征矩阵,m是样本数量,n是特征数量,E为期望值,/>为S的均值向量,/>为特征为n的值,/>为样本为m的值;
准特征矩阵中的对角元素值为:
;
其中,是第i行第j列的元素,/>是特征j这组样本的均值,m是样本数量,n是特征数量,/>为对角线元素的值;
准特征对角线上的特征值为:
;
;
其中,为对角线上的均值,/>为准特征矩阵中的对角线特征值;
每个元素的特征值为:
;
其中,是第i行第j列的元素。
进一步地,S2中,数据层次结构和数据链路形成的具体步骤如下:
S21:依据业务属性和数据类型对整合后的数据分类;
S22:确定数据的命名格式、命名规则以及命名标准,再对数据进行命名;
S23:根据分类命名的结果,形成数据与数据之间的层次结构;
S24:根据数据与数据之间的层次结构,将数据之间建立连接并传输数据,形成数据链路。
进一步地,S3中,网络封包分析工具的使用步骤如下:
S31:网络封包分析工具会通过网络接口卡捕获流经的网络封包;
S32:监听特定的网络接口并捕获所有经过该接口的数据包;
S33:对捕获的数据包进行解码;
S34:通过显示过滤器过滤掉没用的数据包,只显示关键信息。
进一步地,S4中,建立数据血缘关系图的具体步骤为:
S41:从数据库中提取关键信息;
S42:根据提取的关键信息,设计网络拓扑结构图,再使用邻接表建立数据血缘关系的图谱结构;
S43:对图谱结构中的每个节点和边使用自动化标注工具和半自动化工具结合进行标注;
S44:将标注好的数据血缘关系图保存到数据库中。
进一步地,S42中,邻接表的表达式为:
网络拓扑结构图表示为:
;
其中,V是节点的集合,E是边的集合,,,n为节点的总数;
邻接表表示为:
;
其中,k为与相邻节点的总数,/>为/>的邻接节点;
数据血缘关系图的邻接表表示为:
;
;
其中,为数据表。
进一步地,在数据血缘关系图的邻接表中引入增量更新,避免整个邻接表进行重新构建,与节点A有关的新增关系为:
;
将变化合集与原始邻接表合并,更新后的邻接表为:
;
其中,为数据表,表示数据集A与数据集B存在数据流向,数据集A与数据集D存在数据流向。
进一步地,邻接表的构建过程如下:
S421:创建空的数组存储邻接表;
S422:从数据中提取邻接信息,确定每个节点的入度数量;
S423:将每个节点的入度信息添加到其对应的邻接列表中;
S424:再遍历数据链路中的所有节点,将所有节点入度的路径长度存储在邻接表中;
S425:从邻接列表中提取出邻接表。
与现有技术相比,本发明具有以下有益效果:
本发明通过整合来自不同数据源的数据,实现数据链路的全覆盖和无缝连接,利用数据融合技术,将多源数据进行整合和优化,提高数据血缘关系图谱构建的全面性和准确性。基于邻接表建立数据血缘关系,只需要维护每个节点的入度信息,以及边的信息即可,能够高效地进行图的遍历,查找和分析,使得在处理大规模图时能够保持高效和快速。
附图说明
图1为本发明的方法流程图。
具体实施方式
为更进一步阐述本发明为实现预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明的具体实施方式、结构、特征及其功效,详细说明如后。
参照图1,提供数据中台数据血缘图谱构建方法,包括如下步骤:
S1:收集多源数据,对多源数据进行预处理,再利用数据融合技术进行整合;
S2:对整合过的数据分类和命名,形成数据的层次结构和数据链路;
S3:使用网络封包分析工具识别数据链路的源头和终点并记录数据链路的关键信息;
S4:根据数据链路的描述,基于邻接表建立数据血缘关系图并对血缘关系图进行标注;
S5:将数据血缘关系图可视化并建立实时数据追踪机制。
S1中,多源数据包括数据库中的数据、文件系统数据和API接收的数据,对多源数据进行预处理为数据清洗,处理数据的缺失值和重复值。
S1中,利用数据融合技术进行整合的具体步骤如下:
S11:对预处理后的数据进行多样性判断;
S12:经多样性判断后的数据进行标准化处理;
S13:计算标准化后数据的准特征矩阵;
S14:对准特征矩阵进行特征分解,得到特征值;
S15:对准特征矩阵进行正交投影,将原始数据投影到新的空间。
利用数据融合技术进行整合的计算如下:
多样性判断公式为:
;
;
;
;
其中,d和k权重,X和Y是两种数据源,x和y分别是数据源X和数据源Y中的数据,为数据源X的多样性,/>为X和Y的互信息,/>为数据源X的左邻接熵,为数据源Y的左邻接熵,/>为x、y的联合分布,/>和/>分别是x和y的边缘分布;
由于数据源的多样性对PCA的计算精度有很大影响,在本实施例中,采用多样性阈值来判断多样性,若/>,经多样性判断后的数据进行标准化处理,计算公式为:
;
其中,S是一个的矩阵,m是样本数量,n是特征数量,S是标准化后的矩阵,X是原始矩阵;/>为原始样本均值,/>为原始样本标准差;
而若是,则采用另一种标准化方式来处理:
;
其中,表示原始矩阵的中位数,/>表示原始矩阵四分位距。
其中,=/>,/>=/>,其中,/>为矩阵的第一四分位数,/>为矩阵的第三四分位数。
这样在多样性较大的情况下,对于存在离群值的数据更为鲁棒。中位数不受极端值的影响,而四分位距提供了一个不容易受到异常值干扰的度量。更能适应不同特征的分布范围。
标准化后数据的准特征矩阵,计算公式为:
;
其中,是一个/>的准特征矩阵,m是样本数量,n是特征数量,E为期望值,/>为S的均值向量,/>为特征为n的值,/>为样本为m的值;
准特征矩阵中的对角元素值为:
;
其中,是第i行第j列的元素,/>是特征j这组样本的均值,m是样本数量,n是特征数量,/>为对角线元素的值;
准特征对角线上的特征值为:
;
;
其中,为对角线上的均值,/>为准特征矩阵中的对角线特征值;
每个元素的特征值为:
;
其中,是第i行第j列的元素。
S2中,数据层次结构和数据链路形成的具体步骤如下:
S21:依据业务属性和数据类型对整合后的数据分类;
S22:确定数据的命名格式、命名规则以及命名标准,再对数据进行命名;
S23:根据分类命名的结果,形成数据与数据之间的层次结构;
S24:根据数据与数据之间的层次结构,将数据之间建立连接并传输数据,形成数据链路。
S3中,网络封包分析工具的使用步骤如下:
S31:网络封包分析工具会通过网络接口卡捕获流经的网络封包;
S32:监听特定的网络接口并捕获所有经过该接口的数据包;
S33:对捕获的数据包进行解码;
S34:通过显示过滤器过滤掉没用的数据包,只显示关键信息。
S4中,建立数据血缘关系图的具体步骤为:
S41:从数据库中提取关键信息;
S42:根据提取的关键信息,设计网络拓扑结构图,再使用邻接表建立数据血缘关系的图谱结构;
S43:对图谱结构中的每个节点和边使用自动化标注工具和半自动化工具结合进行标注;
S44:将标注好的数据血缘关系图保存到数据库中。
S42中,邻接表的表达式为:
网络拓扑结构图表示为:
;
其中,V是节点的集合,E是边的集合,,,n为节点的总数;
邻接表表示为:
;
其中,k为与相邻节点的总数,/>为/>的邻接节点;
数据血缘关系图的邻接表表示为:
;
;
其中,为数据表。
在数据血缘关系图的邻接表中引入增量更新,避免整个邻接表进行重新构建,与节点A有关的新增关系为:
;
将变化合集与原始邻接表合并,更新后的邻接表为:
;
其中,为数据表,表示数据集A与数据集B存在数据流向,数据集A与数据集D存在数据流向。
邻接表的构建过程如下:
S421:创建空的数组存储邻接表;
S422:从数据中提取邻接信息,确定每个节点的入度数量;
S423:将每个节点的入度信息添加到其对应的邻接列表中;
S424:再遍历数据链路中的所有节点,将所有节点入度的路径长度存储在邻接表中;
S425:从邻接列表中提取出邻接表。
在本实施例中,数据血缘图谱是一种用于描述数据之间关系的可视化工具,它可以帮助用户理解数据之间的依赖和影响。通过数据血缘图谱,用户可以快速定位到数据的来源和影响,从而更好地管理和使用数据。这种图谱可以展示数据的上下游关系,以及数据之间的依赖关系,有助于理解数据的生成、加工和使用过程,要想实现数据血缘图谱的建立,首先得明确数据的核心主题,以及数据的使用场景和范围,然后收集多源数据,对多源数据进行预处理,多源数据包括了数据库中的数据、文件系统数据和API接收的数据,对多源数据进行预处理为数据清洗,处理数据的缺失值和重复值,去除噪声和无关的信息,保证数据的质量,再利用数据融合技术进行整合,基于PCA,PCA可以通过将多个原始数据集同时投影到新的空间中,实现不同数据集之间的融合。这种方法可以有效地处理多元数据融合问题,提高数据处理效率和准确性。但是PCA依赖于数据的多样性,如果数据缺乏多样性,可能会导致PCA无法有效地提取数据的特征值,因此,需要确保数据源的多样性状态良好,在数据融合之前,进行数据的多样性判断,计算公式为:
;
;
;
;
其中,d和k权重,X和Y是两种数据源,x和y分别是数据源X和数据源Y中的数据,为数据源X的多样性,/>为X和Y的互信息,/>为数据源X的左邻接熵,为数据源Y的左邻接熵,/>为x、y的联合分布,/>和/>分别是x和y的边缘分布;
该多样性判断结合了互信息以及左邻接熵的方法,互信息用于衡量一个变量依赖于另一个变量的程度,即一个数据依赖于其他数据的程度,也就是这个数据受多少数据影响,如果越大,说明该数据源X受数据源Y的影响越多,说明这个数据具有多样性,左邻接熵用来衡量数据x的左邻接数的多样性。如果/>或/>越大,那么说明数据x或者数据y和它相邻的数据组合信息越丰富,因此可以认为数据x或数据y具有较高的多样性,根据使用的场景来调节两种方法的权重,对数据进行多样性判断,确保每个数据源均具有多样性,可以提高判断的准确度和PAC的效果,然后,基于PCA进行数据融合的具体步骤如下:
S11:对预处理后的数据进行标准化处理,为了消除各特征之间的量纲差异,使其处于同一数量级,计算公式为:
;
其中,S是一个的矩阵,m是样本数量,n是特征数量,S是标准化后的矩阵,X是原始矩阵;/>为原始样本均值,/>为原始样本标准差;
S12:计算标准化后数据的准特征矩阵,可以通过计算标准化后数据的准特征矩阵来反映数据的共线性,计算公式为:
;
其中,是一个/>的准特征矩阵,m是样本数量,n是特征数量,E为期望值,/>为S的均值向量,/>为特征为n的值,/>为样本为m的值;
为了保证计算效率,本实施例采用梯度下降法来加速准特征矩阵的计算过程。这样可以更快地找到最优解。具体如下:
定义损失函数:,其中,/>是真实值矩阵的元素;
计算损失函数关于均值向量的梯度:/>,/>表示矩阵的第 i行第 j 列的元素。
最后使用梯度下降规则来更新矩阵S:
;
S13:对准特征矩阵进行特征分解,得到特征值,特征值对应的是数据的共线性程度,数值越大意味着共线性越严重,计算公式如下:
先计算准特征矩阵中的对角元素,对角线的特点是它只包含两个元素,即1和0。这意味着对角线的所有元素都是二进制的。可以通过比较对角线的元素来确定每个元素的特征:
;
其中,是第i行第j列的元素,/>是特征j这组样本的均值,m是样本数量,n是特征数量,/>为对角线元素的值;
准特征对角线上的特征值为:
;
;
其中,为对角线上的均值,/>为准特征矩阵中的对角线特征值;
通过计算对角线上的特性值,可以快速地确定某个元素是否存在或完整,根据对角线的特征值得出每个元素的特征值,为:
;
其中,是第i行第j列的元素。
S14:对准特征矩阵进行正交投影,将原始数据投影到新的空间,实现降维,投影后的数据在新的空间中相互独立,且保留了原始数据的主要信息。
数据融合的基础是数据的特征表示,特征值就是用来衡量这个表示的好坏,通过特征值的大小,可以判断不同数据之间的相似性和差异性,从而为后续的数据融合提供重要的依据,特征值还可以帮助我们了解不同特征对最终融合结果的贡献大小,如果某个特征的特征值较大,说明该特征对最终结果的贡献较大,应该在数据融合中给予更高的权重;反之,如果某个特征的特性值较小,说明该特征的贡献较小,可以考虑忽略或给予较低的权重。
其次,对整合过的数据分类和命名,形成数据的层次结构;这样可以更容易地识别和理解数据之间的关系和价值,数据层级结构提供了一个有组织的框架,使得数据可以被有效地管理和组织,具体地,依据业务属性和数据类型对整合后的数据分类,根据业务属性进行分类可分为与特定业务或流程直接相关的数据,如销售数据、财务数据、客户数据等,业务指标数据:用于衡量业务性能和效率的数据,如收入、利润率、客户满意度等,还有关键绩效指标数据,用于评估业务或组织的绩效;根据数据类型分类可分为结构化数据、半结构化数据和非结构化数据;结构化数据:存储在表格中,具有明确格式和结构的数据,如数据库中的数据;半结构化数据:介于结构化和非结构化数据之间的数据,如HTML文档、XML文件等;非结构化数据是指没有明确格式或结构的数据,例如文本、图像、视频等;分类完成后需要开始命名这些数据,在开始命名数据之前,要制定一套清晰的规则和标准,包括数据的命名格式、命名规则、命名标准;定期对数据命名进行审查和更新,确保数据命名的规范性和一致性。
命名的格式要求为:命名应该是描述性的,能够清晰地表达数据的含义和属性;命名应遵循一定的格式,例如使用驼峰式命名法或下划线命名法;对于数字类型的数据,可以使用整数或浮点数来表示,还要避免使用模糊不清或歧义的命名。命名的规则包括:简洁性:命名应尽可能简洁,避免使用冗长或复杂的名称;一致性:命名应遵循团队或组织内部的一致性规则,如命名约定、标准等;可扩展性:命名应有助于未来的可扩展性,即当数据的含义或属性发生变化时,名称仍然能够准确地反映其含义;可读性:命名应易于阅读和理解,避免使用难以理解的缩写或符号。命名标准包括:考虑使用命名空间来组织数据,以避免名称冲突。例如,在一个包含用户信息的数据集中,可以为每个用户的属性创建一个唯一的名称空间。命名约定:团队或组织应制定统一的命名约定,以确保所有成员都能正确理解和使用数据名称。元数据:为每个数据命名添加必要的元数据,如描述、数据类型、来源等,以帮助其他人更好地理解和使用数据。
同时,根据分类命名的结果,形成数据与数据之间的层次结构,层次结构用来表示数据之间的层次关系,由数据元素以及元素之间的关系组成,根据数据与数据之间的层次结构,将数据之间建立连接并传输数据,形成数据链路,在层次结构中,数据链路的建立能够确保数据的可靠传输和有效利用。
然后,使用网络封包分析工具自动识别数据链路的源头和终点并记录数据链路的关键信息;关键信息包括数据链路ID,用于唯一标识数据链路、源IP地址和目标IP地址,发送方和接收方的IP地址、协议类型、数据包大小、传输时间和传输状态,数据包从发送到接收所花费的时间以及传输成功还是失败,关键信息被保存在一个特定的数据库中,对数据链路的关键信息进行分类、归档和保护。识别数据链路的源头和终点并记录数据链路的关键信息基于网络封包分析工具,首先,网络封包分析工具会通过网络接口卡捕获流经的网络封包;监听特定的网络接口并捕获所有经过该接口的数据包;对捕获的数据包进行解码,将其转换为可以理解的格式;通过显示过滤器过滤掉不感兴趣的数据包,只显示关键信息,有助于用户快速定位和识别感兴趣的数据包。
进一步地,根据数据链路的描述,基于邻接表建立数据血缘关系图并对血缘关系图进行标注;先从特定的数据库中提取关键信息;根据提取的关键信息,设计网络拓扑结构图,网络拓扑结构是网络中设备布局的图形表示,它描述了设备之间的连接方式,首先根据数据的类型选择合适的网络拓扑类型,小型网络数据使用星型拓扑,大型网络数据使用总线型拓扑。其中,星型拓扑由一个中心节点和多个从节点组成,中心节点通常被称为中心节点或主节点,从节点通常被连接到中心节点的节点。在星型拓扑中,所有节点都通过点对点连接与中心节点相连,中心节点负责管理和控制网络中的数据流。总线型拓扑是一种类型的网络拓扑。在这种拓扑结构中,所有的计算机或设备都直接连接到一个公共的传输媒介上,总线型拓扑结构简单、易于安装和维护。
根据网络拓扑图,使用邻接表建立数据血缘关系的图谱结构。邻接表的构建过程如下:创建空的数组存储邻接表;根据给定的拓扑图,构建一个邻接矩阵或直接从数据中提取邻接信息。这个邻接矩阵或信息将用于确定每个顶点的入度数量,使用深度优先遍历或广度优先遍历等方法,遍历整个图,在遍历的过程中,对于每个顶点,我们将其入度信息添加到其对应的邻接列表中,入度信息为每个节点的入度数量以及与每个节点有关的数据表;再遍历数据链路中的所有节点,将所有节点入度的路径长度存储在邻接表中;从邻接列表中提取出邻接表,如果两个节点之间存在数据链路,则单元格的值为1,否则为0。具体表达式为:
网络拓扑结构图表示为:
;
其中,V是节点的集合,E是边的集合,,,n为节点的总数;
邻接表表示为:
;
其中,k为与相邻节点的总数,/>为/>的邻接节点;
数据血缘关系图的邻接表表示为:
;
;
其中,为数据表。表示数据集A与数据集B存在数据流向,数据集B与数据集C存在数据流向。
在数据血缘关系图中,可能会存在动态更新的情况,为了减少更新时的计算复杂性,在数据血缘关系图的邻接表中引入增量更新,避免整个邻接表进行重新构建,只更新发生变化的部分,当与节点A有关的新增关系为时:
;
表述数据集A与数据集D有流向关系;
将变化合集与原始邻接表合并,更新后的邻接表为:
;
其中,为数据表,表示数据集A与数据集B存在数据流向,数据集A与数据集D存在数据流向。数据血缘关系图是一个有向图,因此,在建立完邻接表后需要标注每条边上的信息,使数据的传输更加精确直观易懂。
因此最后对图谱结构中的每个节点和边使用自动化标注工具和半自动化工具结合进行标注;包括节点的类型,如数据源、数据目标等,边的属性,如传输协议、传输方向等,以及其他相关信息,如传输时间、传输质量等,将标注好的数据血缘关系图保存到数据库中。最后将数据血缘图谱可视化并建立实时数据追踪机制。数据血缘图谱可视化是通过颜色、形状、大小三种视觉因素来展示数据之间的血缘关系,使用不同颜色表示不同的数据来源或处理流程,使用线条连接数据节点表示数据关系。数据追踪机制通过对实时数据流进行监控和分析,及时发现数据异常和数据质量问题,更新数据血缘图谱,根据数据追踪的结果,持续优化数据追踪策略和数据处理流程,不断提升数据处理的效率和准确性,提高数据的价值。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭示如上,然而并非用以限定本发明,任何本领域技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容做出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何间接修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (7)
1.数据中台数据血缘图谱构建方法,其特征在于,包括如下步骤:
S1:收集多源数据,对多源数据进行预处理,再利用数据融合技术进行整合;
S2:对整合过的数据分类和命名,形成数据的层次结构和数据链路;
S3:使用网络封包分析工具识别数据链路的源头和终点并记录数据链路的关键信息;
S4:根据数据链路的描述,基于邻接表建立数据血缘关系图并对血缘关系图进行标注;
S5:将数据血缘关系图可视化并建立实时数据追踪机制;
S1中,利用数据融合技术进行整合的具体步骤如下:
S11:对预处理后的数据进行多样性判断;
S12:对经多样性判断后的数据进行标准化处理;
S13:计算标准化后数据的准特征矩阵;
S14:对准特征矩阵进行特征分解,得到特征值;
S15:对准特征矩阵进行正交投影,将原始数据投影到新的空间;
利用数据融合技术进行整合的计算如下:
多样性判断公式为:
;
;
;
;
其中,d和k表示权重,X和Y是两种数据源,x和y分别是数据源X和数据源Y中的数据,为数据源X的多样性,/>为X和Y的互信息,/>为数据源X的左邻接熵,为数据源Y的左邻接熵,/>为x、y的联合分布,/>和/>分别是x和y的边缘分布;
采用多样性阈值来判断多样性,若/>,经多样性判断后的数据进行标准化处理,计算公式为:
;
其中,S是一个的矩阵,m是样本数量,n是特征数量,S是标准化后的矩阵,X是原始矩阵;/>为原始样本均值,/>为原始样本标准差;
而若是,则采用另一种标准化方式来处理:
;
其中,表示原始矩阵的中位数,/>表示原始矩阵四分位距;
其中,=/>,/>=/>,其中,/>为矩阵的第一四分位数,/>为矩阵的第三四分位数;
标准化后数据的准特征矩阵,计算公式为:
;
其中,是一个/>的准特征矩阵,m是样本数量,n是特征数量,E为期望值,/>为S的均值向量,/>为特征为n的值,/>为样本为m的值;
准特征矩阵中的对角元素值为:
;
其中,是第i行第j列的元素,/>是特征j这组样本的均值,m是样本数量,n是特征数量,为对角线元素的值;
准特征对角线上的特征值为:
;
;
其中,为对角线上的均值,/>为准特征矩阵中的对角线特征值;
每个元素的特征值为:
;
其中,是第i行第j列的元素;
邻接表的构建过程如下:
S421:创建空的数组存储邻接表;
S422:从数据中提取邻接信息,确定每个节点的入度数量;
S423:将每个节点的入度信息添加到其对应的邻接列表中;
S424:再遍历数据链路中的所有节点,将所有节点入度的路径长度存储在邻接表中;
S425:从邻接列表中提取出邻接表。
2.根据权利要求1所述的数据中台数据血缘图谱构建方法,其特征在于,S1中,多源数据包括数据库中的数据、文件系统数据和API接收的数据,对多源数据进行预处理为数据清洗,处理数据的缺失值和重复值。
3.根据权利要求1所述的数据中台数据血缘图谱构建方法,其特征在于,S2中,数据层次结构和数据链路形成的具体步骤如下:
S21:依据业务属性和数据类型对整合后的数据分类;
S22:确定数据的命名格式、命名规则以及命名标准,再对数据进行命名;
S23:根据分类命名的结果,形成数据与数据之间的层次结构;
S24:根据数据与数据之间的层次结构,将数据之间建立连接并传输数据,形成数据链路。
4.根据权利要求1所述的数据中台数据血缘图谱构建方法,其特征在于,S3中,网络封包分析工具的使用步骤如下:
S31:网络封包分析工具会通过网络接口捕获流经的网络封包;
S32:监听特定的网络接口并捕获所有经过该接口的数据包;
S33:对捕获的数据包进行解码;
S34:通过显示过滤器过滤掉没用的数据包,只显示关键信息。
5.根据权利要求1所述的数据中台数据血缘图谱构建方法,其特征在于,S4中,建立数据血缘关系图的具体步骤为:
S41:从数据库中提取关键信息;
S42:根据提取的关键信息,设计网络拓扑结构图,再使用邻接表建立数据血缘关系的图谱结构;
S43:对图谱结构中的每个节点和边使用自动化标注工具和半自动化工具结合进行标注;
S44:将标注好的数据血缘关系图保存到数据库中。
6.根据权利要求5所述的数据中台数据血缘图谱构建方法,其特征在于,S42中,邻接表的表达式为:
网络拓扑结构图表示为:
;
其中,V是节点的集合,E是边的集合,,,n为节点的总数;
邻接表表示为:
;
其中,k为与相邻节点的总数,/>为/>的邻接节点;
数据血缘关系图的邻接表表示为:
;
;
其中,为数据表。
7.根据权利要求6所述的数据中台数据血缘图谱构建方法,其特征在于,在数据血缘关系图的邻接表中引入增量更新,避免整个邻接表进行重新构建,与节点A有关的新增关系为:
;
将变化合集与原始邻接表合并,更新后的邻接表为:
;
其中,为数据表,表示数据集A与数据集B存在数据流向,数据集A与数据集D存在数据流向。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410145210.3A CN117688110B (zh) | 2024-02-02 | 2024-02-02 | 数据中台数据血缘图谱构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410145210.3A CN117688110B (zh) | 2024-02-02 | 2024-02-02 | 数据中台数据血缘图谱构建方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117688110A CN117688110A (zh) | 2024-03-12 |
CN117688110B true CN117688110B (zh) | 2024-04-26 |
Family
ID=90133744
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410145210.3A Active CN117688110B (zh) | 2024-02-02 | 2024-02-02 | 数据中台数据血缘图谱构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117688110B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428053A (zh) * | 2020-03-30 | 2020-07-17 | 西安交通大学 | 一种面向税务领域知识图谱的构建方法 |
CN114491068A (zh) * | 2022-01-21 | 2022-05-13 | 武汉东湖大数据交易中心股份有限公司 | 一种融合多源异构数据的产业园知识图谱构建方法及系统 |
WO2023077854A1 (zh) * | 2021-11-03 | 2023-05-11 | 山西医科大学 | 一种基于异构关联网络深度学习的药物重定位系统及方法 |
CN116483903A (zh) * | 2023-04-26 | 2023-07-25 | 江苏苏宁银行股份有限公司 | 一种面向多源异构数据源的全链路数据血缘关系识别方法 |
CN116957838A (zh) * | 2023-08-04 | 2023-10-27 | 宜宾学院 | 一种基于知识图表示学习的农作物生长环境监测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111221983B (zh) * | 2020-01-15 | 2023-08-04 | 北京百度网讯科技有限公司 | 时序知识图谱生成方法、装置、设备和介质 |
-
2024
- 2024-02-02 CN CN202410145210.3A patent/CN117688110B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111428053A (zh) * | 2020-03-30 | 2020-07-17 | 西安交通大学 | 一种面向税务领域知识图谱的构建方法 |
WO2023077854A1 (zh) * | 2021-11-03 | 2023-05-11 | 山西医科大学 | 一种基于异构关联网络深度学习的药物重定位系统及方法 |
CN114491068A (zh) * | 2022-01-21 | 2022-05-13 | 武汉东湖大数据交易中心股份有限公司 | 一种融合多源异构数据的产业园知识图谱构建方法及系统 |
CN116483903A (zh) * | 2023-04-26 | 2023-07-25 | 江苏苏宁银行股份有限公司 | 一种面向多源异构数据源的全链路数据血缘关系识别方法 |
CN116957838A (zh) * | 2023-08-04 | 2023-10-27 | 宜宾学院 | 一种基于知识图表示学习的农作物生长环境监测方法 |
Non-Patent Citations (2)
Title |
---|
基于互信息和邻接熵的新词发现算法;刘伟童等;计算机应用研究;20180314;第1-4页 * |
朱烨 ; 陈世平 ; .融合卷积神经网络和注意力的评论文本情感分析.小型微型计算机系统.2020,(03),全文. * |
Also Published As
Publication number | Publication date |
---|---|
CN117688110A (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113010506B (zh) | 一种多源异构水环境大数据管理系统 | |
CN109961204B (zh) | 一种微服务架构下业务质量分析方法和系统 | |
WO2021169454A1 (zh) | 图特征处理的方法及装置 | |
CN117056867B (zh) | 一种可用于数字孪生的多源异构数据融合方法及系统 | |
Huang et al. | Dynamic network topology and market performance: A case of the Chinese stock market | |
CN103605651A (zh) | 一种基于olap多维分析的数据处理展现方法 | |
Deming et al. | Exploratory Data Analysis and Visualization for Business Analytics | |
CN111160867A (zh) | 大范围地域停车场大数据分析系统 | |
CN114048340B (zh) | 一种层级融合的组合查询图像检索方法 | |
CN110287329A (zh) | 一种基于商品文本分类的电商类目属性挖掘方法 | |
CN104486116A (zh) | 多维度查询流量数据的方法及系统 | |
CN114119026B (zh) | 一种虚拟货币交易追踪溯源方法及系统 | |
CN114153980A (zh) | 知识图谱构建方法和装置、检查方法、存储介质 | |
CN102868601B (zh) | 一种有关基于图形配置数据库业务网络拓扑的路由系统 | |
CN111061792A (zh) | 一种金融服务管理系统 | |
MacDonald et al. | Measuring political brand equity in Ireland | |
CN114281877A (zh) | 一种数据管理系统及方法 | |
CN113779261B (zh) | 知识图谱的质量评价方法、装置、计算机设备及存储介质 | |
CN117688110B (zh) | 数据中台数据血缘图谱构建方法 | |
Graham et al. | The coordination network toolkit: a framework for detecting and analysing coordinated behaviour on social media | |
CN112363996A (zh) | 用于建立电网知识图谱的物理模型的方法及系统和介质 | |
CN107679097A (zh) | 一种分布式数据处理方法、系统和存储介质 | |
WO2023178767A1 (zh) | 基于企业征信大数据知识图谱的企业风险检测方法和装置 | |
CN116881512A (zh) | 一种跨系统元数据血缘自动解析方法 | |
Framewala et al. | Blockchain analysis tool for monitoring coin flow |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |