CN113254507B - 一种数据资产目录智能构建盘点方法 - Google Patents
一种数据资产目录智能构建盘点方法 Download PDFInfo
- Publication number
- CN113254507B CN113254507B CN202110694767.9A CN202110694767A CN113254507B CN 113254507 B CN113254507 B CN 113254507B CN 202110694767 A CN202110694767 A CN 202110694767A CN 113254507 B CN113254507 B CN 113254507B
- Authority
- CN
- China
- Prior art keywords
- inventory
- directory
- metadata
- data
- service
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010276 construction Methods 0.000 title claims abstract description 9
- 238000000034 method Methods 0.000 title claims description 80
- 230000006870 function Effects 0.000 claims abstract description 106
- 230000004927 fusion Effects 0.000 claims abstract description 18
- 238000010801 machine learning Methods 0.000 claims abstract description 17
- 238000012545 processing Methods 0.000 claims abstract description 10
- 238000004422 calculation algorithm Methods 0.000 claims description 29
- 238000012549 training Methods 0.000 claims description 16
- 239000013598 vector Substances 0.000 claims description 16
- 230000001537 neural effect Effects 0.000 claims description 12
- 238000000354 decomposition reaction Methods 0.000 claims description 11
- 238000012795 verification Methods 0.000 claims description 10
- 230000003993 interaction Effects 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 5
- 238000013515 script Methods 0.000 claims description 5
- 235000018185 Betula X alpestris Nutrition 0.000 claims description 4
- 235000018212 Betula X uliginosa Nutrition 0.000 claims description 4
- 230000004931 aggregating effect Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 238000004364 calculation method Methods 0.000 claims description 3
- 238000013479 data entry Methods 0.000 claims description 2
- 238000005516 engineering process Methods 0.000 claims description 2
- 238000007499 fusion processing Methods 0.000 description 4
- 238000005295 random walk Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000012790 confirmation Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000009960 carding Methods 0.000 description 1
- 230000019771 cognition Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2471—Distributed queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Fuzzy Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种数据资产目录智能构建盘点方法,涉及数据资产管理技术领域。本申请通过综合利用盘点目录系统操作日志数据、元数据、盘点目录系统数据库数据日志数据、盘点目录系统业务规范描述文档,通过机器学习、知识表示、知识推理、知识融合等技术手段,构建得到展示盘点目录系统数据库表字段与功能对应关系的盘点目录系统功能目录,以及展示盘点目录系统数据库表字段与业务对应关系的盘点目录系统业务目录。以盘点目录系统数据库表字段为基础,对盘点目录系统功能目录和盘点目录系统业务目录进行进一步的知识融合和知识推理处理,即可在确认功能和业务内容的同时生成表字段的字典和对应的元数据,从而得到完整的数据资产目录。
Description
技术领域
本申请涉及数据资产管理技术领域,尤其是涉及一种数据资产目录智能构建盘点方法。
背景技术
由于历史原因、企业信息化建设长周期性的问题,大量企业的业务系统元数据或数据字典都存在错误和缺失现象,导致后续企业数据治理工作难以推进。传统上采用大量的人工操作,难以准确完成大规模的元数据语义和目录识别和验证。系统固有复杂性或数据采集、处理、分析和表述的过程中出现的误差,都会导致人工处理工作急剧增加。如何通过人工智能和自动化手段实现企业内部各个异构业务系统的各种数据资产、元数据目录和数据字典的自动生成、校验,完成数据资产梳理盘点,掌握数据集与字段内容,从而规划数据资产架构,构建统一数据资产目录,掌握数据资产家底,提供数据共享开放,成为各大企业要解决的一个关键问题。
发明内容
本申请的目的在于提供一种数据资产目录智能构建盘点方法,用于解决目前企业系统元数据或数据字典因错误或缺失,从而导致的企业数据治理工作难以快速推进的技术问题。
本申请所提供的数据资产目录智能构建盘点方法,用于盘点目录系统,其具体实施步骤如下:
S1.对盘点目录系统操作日志数据进行检索和机器学习,获得反映盘点目录系统操作日志的操作与日志分类对应关系的功能目录;对功能目录进行知识表示和知识推理,得到完整的系统功能目录图谱;系统功能目录图谱用于反映功能与数据库表的对应关系;
采集盘点目录系统数据库表与表字段结构,并进行知识表示和知识推理,得到完整的数据表图谱;数据表图谱用于反映数据库表和表间关系;
对盘点目录系统业务规范描述文件进行自然语言理解分析,识别业务实体并抽取实体关系,进而通过知识表示和知识推理,得到完整的系统业务数据目录图谱,系统业务数据目录图谱用于反映业务实体和实体关系;
S2.对步骤S1所得的系统功能目录图谱和数据表图谱进行知识融合,用于使两图谱合并,得到盘点目录系统功能目录;盘点目录系统功能目录展示了盘点目录系统数据库表字段与功能的对应关系;
对步骤S1所得的系统业务数据目录图谱和数据表图谱进行知识融合,使两图谱合并,得到盘点目录系统业务目录;盘点目录系统业务目录展示了盘点目录系统数据库表字段与业务的对应关系;
S3.对步骤S2盘点目录系统功能目录和盘点目录系统业务目录进行知识融合和知识推理,构建得到功能目录与业务目录校验模型;功能目录与业务目录校验模型用于识别表字段对应的功能和业务内容,并在确认功能和业务内容的同时生成表字段的字典和对应的元数据,从而得到完整的数据资产目录。
其中,步骤S3具体包括:
D1.采用图示模型分别对步骤S2得到的盘点目录系统功能目录和盘点目录系统业务目录进行节点分类、链接预测、社群检测和网络相似度的机器学习,获得盘点目录系统功能目录对应的功能视图及特征向量,以及盘点目录系统业务目录对应的业务视图及特征向量;
D2.采用多视图聚类算法融合步骤D1得到的功能视图的特征向量和业务视图的特征向量,并使用BIRCH算法进行聚合,获得并确认实体对齐后的实体名和对齐关系;
D3.采用步骤D2确认后的实体信息,通过Trans系列算法对步骤D1的盘点目录系统功能目录和盘点目录系统业务目录进行元数据迭代优化。
本申请所公开的数据资产目录构建盘点方法,综合利用盘点目录系统操作日志数据、元数据、盘点目录系统数据库数据日志数据、盘点目录系统业务规范描述文档,通过机器学习、知识表示、知识推理、知识融合等技术手段,构建得到展示盘点目录系统数据库表字段与功能对应关系的盘点目录系统功能目录,以及展示盘点目录系统数据库表字段与业务对应关系的盘点目录系统业务目录。以盘点目录系统数据库表字段为基础,对盘点目录系统功能目录和盘点目录系统业务目录进行进一步的知识融合和知识推理处理,即可在确认功能和业务内容的同时生成表字段的字典和对应的元数据,从而得到完整且统一的数据资产目录。
本申请所提供的数据资产目录智能构建盘点方法中,步骤S1具体包括:
A1.使用字符提取方法对已有各种类型的盘点目录系统操作日志文本数据进行切割提取;
A2.利用步骤A1提取到的内容进行全文检索,并采用机器学习方法对盘点目录系统操作日志进行分类,将盘点目录系统操作日志数据解析为功能列表;
A3.汇总通过步骤A2所得的功能列表为功能目录;
A4.采用知识图谱表示步骤A3所得的功能目录中的操作与功能目录结构的关系;
A5.采用知识推理补全步骤A4所得的知识图谱。
其中,
步骤A2中采用基于Apach Lucene搜索引擎库的Elasticsearch工具进行全文检索,从而获得实时数据。同时,Elasticsearch属于分布式系统,节点对外表现对等,加入节点时自动均衡;也可根据不同的用途分类索引,并可同时操作多个索引。上述特点有利于步骤A4实施的知识图谱表示操作。
对功能列表的解析关键在于识别出日志中的各类操作,如“选择”、“合并”、“提交数据”、“查看”等。若采用传统的日志解析方法,开发者需根据自己的认知手动检查系统问题或者创建正则表达式来定期维护,该方法依赖于专家经验知识,不具备从历史经验中主动学习知识的能力。当不同系统的格式日志出现时,解析规则很容易就变得过时。采用自动化的日志解析方法可克服上述问题,但也存在以下问题:
(1)只适用于严格的格式化、结构化日志,其性能严重依赖日志信息的格式与结构特征;
(2)依赖于源程序对日志文本的约束,适用性不强;
(3)日志格式的非结构性导致解析精度不高;
(4)对日志管理员要求较高,相关规则需要日志管理员预先写成脚本,管理员需要对系统或者代码有深刻的理解,否则难以写出有效的脚本。
本申请步骤A2中采用聚类算法或/和启发式的算法进行机器学习,利用日志位置、距离等特征,自动选择出适合的操作功能项。具体地,包括以下步骤:
A21.计算盘点目录系统各操作日志之间的距离;
A22.根据步骤A21的结果,对盘点目录系统各操作日志进行聚类,组成若干日志簇;
A23.由步骤A22得到的各日志簇形成对应的功能项;
和/或
a21.计数盘点目录系统中各操作日志位置的项;
a22.选取步骤a21中频繁出现的项作为功能候选者;
a23.自步骤a22得到的功能候选者中选择功能项。
上述聚类算法和启发式算法可单独使用,也可联用以提高识别操作功能项的准确度。
步骤A4中知识图谱采用RDF表示,Neo4J图数据库进行存储。该知识图谱中的节点为公司、用户、地点等实体,节点间的关系代表实体间的联系。在进行知识图谱表示时,首先对步骤A3的功能目录转给你的实体进行打标,命名实体以及实体类型(如功能、操作项、表数据变更项、时间等),随后,通过实体的属性识别出实体间的关系,并对名称不同而功能相同的实体进行名称统一。
步骤A5中,通过知识推理技术能够预测步骤A4所得的知识图谱中的潜在实体,以及实体间关系,从而使知识图谱得以扩展、完善。本申请中采用路径相似度指标作为预测基础,对各种关系的交互作用进行建模,并对各种关系类型的形成机制进行区分。具体包括:
A51.针对各实体关系的交互作用进行多关系网络数据建模,将关系预测转化为张量分解;
A52.使用步骤A51的张量分解构建神经张量网络;
A53.采用步骤A52所得到的神经张量网络判断两实体间是否存在某种关系;
或
a51.针对各实体关系的交互作用进行多关系网络数据建模,将关系预测转化为张量分解;
a52.使用步骤a51的张量分解构建神经张量网络;
a53.采用步骤a52所得到的神经张量网络判断两实体间是否存在某种关系;
a54.采用PRA算法预测两个实体间的关系;
a55.校核步骤a53与步骤a54,确认两实体间的预测关系。
本申请中,为了克服传统预测方法只适用于单个关系网络的问题,采用了深度神经网络结合特征路径的方法,利用张量将多关系网络中的关系预测任务转化为张量分解模型。基于神经张量网络的知识推理技术的主要目的是判别两个实体(el,e2)间是否存在某种关系R,为此,为关系R确定并训练一组相应的模型参数。模型参数求解可采用批量梯度下降/上升法、随机梯度下降法、L-BFGS算法等。
本申请一实施例中采用了路径排序算法(PRA),将步骤A4所得的知识图谱编码为由一系列异构的边所组成的图,每条边都标有两个实体之间存在的关系类型。具体地,包括:
1)采用随机游走算法查找给定关系的两个实体之间的路径(即连接上述两个实体的关系序列),并将该路径作为预测特定关系是否存在的特征;
2)针对PRA编码后的多关系图中一对给定的实体(h,t),通过随机游走的方式在图中找到路径,并记录从h开始并在t处以有界长度结束的那些路径,并选择一组路径作为特征;
3)针对2)中选择的路径和实体,计算随机游走概率p(t|h,),即从h开始随机游走到达t的概率恰好是π值的所有关系;
采用1)的方法为3)中所得的每个关系训练一个单独的分类器,以判断两个实体是否应该通过该关系链路。
本申请所提供的数据资产目录智能构建盘点方法,步骤S1还包括:
B1.采集盘点目录系统数据库元数据并将其分类,形成元数据集;
B2.以每一类中的元数据为节点,元数据的关系为节点路径,构建元数据语义网络;
B3.利用操作盘点目录系统时新生成的元数据迭代步骤B2得到的元数据语义网络;
B4.采用知识图谱表示步骤B3所得的元数据语义网络;
B5.采用知识推理补全步骤B4所得的知识图谱。
其中,
步骤B1中盘点目录系统数据库元数据包括盘点目录系统元数据、人工整理的元数据和SQL脚本和存储过程数据。
步骤B2构建得到的语义网络能够在应用系统操作过程中,根据操作关联的数据发现数据的变化和数据间的关系,并对上述新发现进行验证,从而不断迭代,直到识别出全部盘点目录系统的元数据,使语义网络达到收敛状态。
步骤B4中知识图谱表示的方法可参照步骤A4。
步骤B5中,由于元数据形成的知识图谱的噪音较大,采用路径发现算法得到的元数据实体间的多条路径中,存在不对应实际意义或不存在语义关系的路径。因此,本申请中,采用循环神经网络对路径上经过的实体信息、关系进行处理,将不同路径及其包含的信息作为元数据实体对潜在关系的预测依据,将与预测关系之间具有最大的可能性的元数据实体关系作为知识图谱中潜在的元数据实体关系。具体地,包括:
B51.采用PFA算法预测元数据实体间路径;
B52.采用RNN对步骤B51所预测得到的路径上的实体及关系进行递归处理,获得元数据实体关系可能性最大的实体对及关系;
B53.将步骤B52所得的实体对及关系作为潜在的元数据实体关系,用以排除步骤B51中预测得到的元数据实体间路径中无实际意义的路径。
对于大型企业,其盘点目录系统常无法统一,有的系统能支持获得SQL脚本,有的系统能采集到表元数据,而有的系统仅能支持数据库日志访问,因此,本申请中,还包括了从数据库日志构建数据表图谱的方法,该方法与步骤A1~A5相类似。对数据库日志的解析关键在于识别出数据库日志中的表以及对表的操作,如各类读、写、删除、修改、插入等,这些操作中可能蕴含了表间的关系。具体地,包括:
b1.采集盘点目录系统数据库元数据并将其分类,形成元数据集;
b2.以每一类中元数据为节点,元数据的关系为节点路径,构建元数据语义网络;
b3.利用操作盘点目录系统时新生成的元数据迭代步骤b2得到的元数据语义网络;
b4.对盘点目录系统数据库日志数据进行检索、分析,识别得到与盘点目录系统数据库日志对应的表及对表的操作;其中,通过分析对表的操作而获得表间关系;
b5.采用机器学习方法对步骤b4的盘点目录系统数据库日志进行分类,得到盘点目录系统数据库中表及表间关系;
b6.采用知识图谱表示步骤b3的元数据语义网络和步骤b5得到的盘点目录系统数据库中表及表间关系;
b7.采用知识推理补全步骤b6所得的知识图谱。
本申请所提供的数据资产目录智能构建盘点方法中,步骤S1还包括:
C1.对盘点目录系统业务规范描述文件进行数据采集,获得业务元数据;
C2.采用自然语言理解技术处理步骤C1获得的业务元数据,识别得到业务实体与关系;
C3.采用知识图谱表示步骤C2识别所得的业务实体与关系;
C4.采用知识推理补全步骤C3所得的知识图谱。
其中,步骤C1中盘点目录系统业务规范描述文件包括ERP、报表、表格、文件、BI工具、数据仓库。业务元数据包括:业务名称、业务定义、业务描述等,上述信息表示出公司环境中的各种属性和概念,从一定程度上讲,所有数据背后的业务上下文都可以看成是业务元数据。与技术元数据相比,业务元数据能让用户更好地理解和使用企业环境中的数据,比如用户通过查看业务元数据就可以清晰地理解各指标的含义,指标的计算方法等信息。步骤C1中数据采集方法包括:在数据采集层系统定制文档采集业务,由数据录入业务上次业务文档数据集。
步骤C2中,采用自然语言理解技术在步骤C1的盘点目录系统业务规范描述文件中提取概念、实体、关键字、类别、关系和语义角色等数据,识别业务实体与关系。
业务实体的识别是指识别盘点目录系统业务规范描述文件中具有特定意义的实体,包括实体边界的识别以及实体类型(如人名、地名、机构名等)的确定。
业务实体关系的识别基础在于,当从盘点目录系统业务规范描述文件中抽取一个句子,并由该句子中确定出多个实体,该实体间存在语义关系,因其出现在同一业务句子中,上下文环境就决定了两个实体间的语义关系。
完整的实体关系包括关系类型和关系参数两个方面。关系类型说明了该实体关系是什么联系,如雇佣关系、类属关系等;关系的参数也就是发生关系的实体,如雇佣关系中的雇员和公司。关系的参数至少是两个,两个参数的关系叫二元关系,两个以上参数的关系是多元关系。关系有对称关系和非对称关系,对称关系的参数不考虑参数的顺序,非对称关系的参数要考虑顺序,不同的顺序表达不同的关系。
对业务实体与实体关系的识别,具体采用以下步骤实现:
C21.采用NER在盘点目录系统业务规范描述文件中实体边界和实体类型;
C22.采用基于规则的方法、基于统计的方法、混合方法训练模型,以完成实体关系抽取;
混合方法包括:基于统计的方法之间或内部进行层叠融合;在基于统计的方法中引入部分规则,结合机器学习和人工知识;采用多个模型、算法,将前一模型的结果作为下一级的训练数据,并采用训练数据对模型进行训练,得到下一级模型。
其中,
步骤C22中,基于规则的方法需要根据待识别的业务实体的语言学上的表现形式,设定一些规则,再将上述规则用于识别业务实体。该方法多采用行业专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段。
步骤C22中,基于统计的方法可采用以下模型:N元模型、隐马尔克夫模型、最大熵模型、条件随机场、决策树。
上下文信息对序列标注任务有很大帮助,本申请中也可采用长短词记忆网络对上下文进行处理。
步骤C3、C4可参考A4、A5。
本申请所提供的数据资产目录智能构建盘点方法中,步骤S2中系统功能目录图谱和数据表图谱进行的知识融合采用有监督的实体对齐方法或文本相似度计算方法;
步骤S2中系统业务数据目录图谱和数据表图谱进行的知识融合采用有监督的实体对齐方法、无监督的实体对齐方法或多视图知识图谱嵌入方法。
对于盘点目录系统,其功能与数据表是密切相关的,因此,通过对盘点目录系统进行知识表示、知识推理所得到的系统功能目录图谱、数据表图谱间必然存在关联。因此,对两图谱进行知识融合处理,使在真实世界中指代同一事物的两实体对齐,即可获得该实体所对应的功能和表字段的多项信息(如图1所示)。
同样地,系统业务数据目录图谱与数据表图谱也存在关联性。对两图谱进行知识融合处理后,对齐实体处即可获得该实体所对应的业务和表字段的多项信息(如图2所示)。
再将上述知识融合后所得的功能目录与业务目录进行二次知识融合,即可以实体和表字段两个角度,对实体进行对齐,并对融合的知识图谱进行验证,从而获得较为准确、统一的数据资产目录。
附图说明
为了更清楚地说明本申请或现有技术中的技术方案,下面将对实施例中所需要使用的附图做简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为盘点目录系统功能目录的局部展示。
图2为盘点目录系统业务目录的局部展示。
图3为本申请实施例1的流程示意图。
图4为本申请实施例2的流程示意图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本申请实施例的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
实施例1
如图3所示,本申请实施例所提供的数据资产目录智能构建盘点方法,包括以下步骤:
P1.使用字符提取方法对已有各种类型的盘点目录系统操作日志文本数据进行切割提取;
P2.采用Elasticsearch,利用步骤P1提取到的内容进行全文检索;
P3.计算盘点目录系统各操作日志之间的距离,以此为依据,对盘点目录系统各操作日志进行聚类,组成若干日志簇,并由各日志簇生成对应的功能项,形成功能列表;
P4.汇总盘点目录系统中全部的功能列表,形成功能目录,并采用知识图谱表示;
P5.针对P4所得的知识图谱中的各实体关系的交互作用进行多关系网络数据建模,将关系预测转化为张量分解,并构建神经张量网络;
P6.采用P5所得的神经张量网络判断两实体间的关系,从而对P4所得知识图谱进行实体预测和实体关系补全。
通过P1~P6构建得到系统功能目录图谱推理模型,用以获得完整的系统功能目录图谱,从而以知识谱图展示出盘点目录系统中功能与数据库表的对应关系。
P7.采集盘点目录系统数据库元数据并将其分类,形成元数据集;对以每一类中的元数据为节点,元数据的关系为节点路径,构建元数据语义网络;当操作盘点目录系统时,新生成的元数据迭代原语义网络,直至网络达到收敛状态;
P8.采用知识图谱表示P7所得的元数据语义网络;
P9.采用PFA算法预测元数据实体间路径,并采用RNN对P8所得知识图谱中预测得到的路径上的实体及关系进行递归处理,获得元数据实体关系可能性最大的实体对及关系,并将其作为潜在的元数据实体关系,排除预测得到的路径中无实际意义的部分;
P10.通过P9不断补全P8所得的知识图谱。
通过P7~P10构建得到数据表图谱推理模型,用以获得完整的数据表图谱,从而以知识谱图展示出盘点目录系统中数据库表和表间关系。
P11.对盘点目录系统业务规范描述文件进行数据采集,获得业务元数据;
P12.采用NER在盘点目录系统业务规范描述文件中实体边界和实体类型;选取与P11业务元数据对应的实体,采用基于规则的方法、基于统计的方法、混合方法训练模型,抽取P出实体关系;采用知识图谱对实体及实体关系进行表示;
P13.参照P5~P6或P9~P10的方法对P12的知识图谱进行补全。
通过P11~P13构建得到系统业务数据目录图谱推理模型,用以获得完整的系统业务数据目录图谱,从而以知识谱图展示出盘点目录系统中业务实体和实体关系。
P14.对系统功能目录图谱和数据表图谱进行信息抽取、属性值规范化处理;
P15.获取候选实体并根据候选实体构造待分类文本数据;
P16.综合利用各类信息的各种特征对于生成文本进行特征表示,让构造数据的特性更明显;
P17.利用前期构建的训练数据对于二分类器进行训练,通过验证集判断训练效果,使用训练好的模型对候选生成数据进行检验,判定候选实体对是否为同义对齐实体。
通过P14~p17构建得到功能目录表图谱绑定模型,用以获得展示盘点目录系统数据库字段与功能对应关系的盘点目录系统功能目录。
P18.采用P14~P17相类似的过程对系统业务目录图谱和数据表图谱进行知识融合处理。构建得到业务目录表图谱绑定模型,用以获得展示盘点目录系统数据库字段与业务对应关系的盘点目录系统业务目录。
P19.采用图示模型分别对上述盘点目录系统功能目录和盘点目录系统业务目录进行节点分类、链接预测、社群检测和网络相似度的机器学习,获得盘点目录系统功能目录对应的功能视图及特征向量,以及盘点目录系统业务目录对应的业务视图及特征向量;
P20.采用多视图聚类算法融合P19得到的功能视图的特征向量和业务视图的特征向量,并使用BIRCH算法进行聚合,获得并确认实体对齐后的实体名和对齐关系;
P21.采用P20确认后的实体信息,通过Trans系列算法对P20的盘点目录系统功能目录和盘点目录系统业务目录进行元数据迭代优化。
通过P19~P21构建得到功能目录与业务目录校验模型,能够识别出表字段对应的功能和业务内容,从而在实现功能业务确认的同时,生成出表字段的字典和对应元数据。
实施例2
如图4所示,本申请实施例所提供的数据资产目录智能构建盘点方法,包括以下步骤:
T1.使用字符提取方法对已有各种类型的盘点目录系统操作日志文本数据进行切割提取;
T2.采用Elasticsearch,利用步骤T1提取到的内容进行全文检索;
T3.计数盘点目录系统中各操作日志位置的项;选取频繁出现的项作为功能候选者;并在功能候选者中选择功能项;
T4.汇总盘点目录系统中全部的功能列表,形成功能目录,并采用知识图谱表示;
T5.针对T4所得的知识图谱中的各实体关系的交互作用进行多关系网络数据建模,将关系预测转化为张量分解,并构建神经张量网络,判断两实体间是否存在某种关系;
T6.采用PRA算法预测T5选取的两实体间的关系,与T5的结果进行校核,从而对T4所得知识图谱进行实体预测和实体关系补全。
通过T1~T6构建得到系统功能目录图谱推理模型,用以获得完整的系统功能目录图谱,从而以知识谱图展示出盘点目录系统中功能与数据库表的对应关系。
T7.采集盘点目录系统数据库元数据并将其分类,形成元数据集;对以每一类中的元数据为节点,元数据的关系为节点路径,构建元数据语义网络;当操作盘点目录系统时,新生成的元数据迭代原语义网络,直至网络达到收敛状态;
T8.对盘点目录系统数据库日志数据进行检索、分析,识别得到与盘点目录系统数据库日志对应的表及对表的操作;其中,通过分析对表的操作而获得表间关系;采用机器学习方法对上述盘点目录系统数据库日志进行分类,得到盘点目录系统数据库中表及表间关系;
T9.采用知识图谱表示T7和T8所得的盘点目录系统数据库中表及表间关系;
T10.采用TFA算法预测元数据实体间路径,并采用RNN对T9所得知识图谱中预测得到的路径上的实体及关系进行递归处理,获得元数据实体关系可能性最大的实体对及关系,并将其作为潜在的元数据实体关系,排除预测得到的路径中无实际意义的部分;重复上述操作,不断补全T8所得的知识图谱。
通过T7~T10构建得到数据表图谱推理模型,用以获得完整的数据表图谱,从而以知识谱图展示出盘点目录系统中数据库表和表间关系。
T11.对盘点目录系统业务规范描述文件进行数据采集,获得业务元数据;
T12.采用NER在盘点目录系统业务规范描述文件中实体边界和实体类型;选取与T11业务元数据对应的实体,采用基于规则的方法、基于统计的方法、混合方法训练模型,抽取T出实体关系;采用知识图谱对实体及实体关系进行表示;
T13.参照T5~T6或T9~T10的方法对T12的知识图谱进行补全。
通过T11~T13构建得到系统业务数据目录图谱推理模型,用以获得完整的系统业务数据目录图谱,从而以知识谱图展示出盘点目录系统中业务实体和实体关系。
T14.对系统功能目录图谱和数据表图谱进行信息抽取、属性值规范化处理;
T15.获取候选实体并根据候选实体构造待分类文本数据;
T16.综合利用各类信息的各种特征对于生成文本进行特征表示,让构造数据的特性更明显;
T17.利用前期构建的训练数据对于二分类器进行训练,通过验证集判断训练效果,使用训练好的模型对候选生成数据进行检验,判定候选实体对是否为同义对齐实体。
通过T14~T17构建得到功能目录表图谱绑定模型,用以获得展示盘点目录系统数据库字段与功能对应关系的盘点目录系统功能目录。
T18.采用T14~T17相类似的过程对系统业务目录图谱和数据表图谱进行知识融合处理。构建得到业务目录表图谱绑定模型,用以获得展示盘点目录系统数据库字段与业务对应关系的盘点目录系统业务目录。
T19.采用图示模型分别对上述盘点目录系统功能目录和盘点目录系统业务目录进行节点分类、链接预测、社群检测和网络相似度的机器学习,获得盘点目录系统功能目录对应的功能视图及特征向量,以及盘点目录系统业务目录对应的业务视图及特征向量;
T20.采用多视图聚类算法融合T19得到的功能视图的特征向量和业务视图的特征向量,并使用BIRCH算法进行聚合,获得并确认实体对齐后的实体名和对齐关系;
T21.采用T20确认后的实体信息,通过Trans系列算法对T20的盘点目录系统功能目录和盘点目录系统业务目录进行元数据迭代优化。
通过T19~T21构建得到功能目录与业务目录校验模型,能够识别出表字段对应的功能和业务内容,从而在实现功能业务确认的同时,生成出表字段的字典和对应元数据。
Claims (9)
1.一种数据资产目录智能构建盘点方法,其特征在于,用于盘点目录系统,包括以下步骤:
S1.对盘点目录系统操作日志数据进行检索和机器学习,获得反映盘点目录系统操作日志的操作与日志分类对应关系的功能目录;对所述功能目录进行知识表示和知识推理,得到完整的系统功能目录图谱;所述系统功能目录图谱用于反映功能与数据库表的对应关系;
采集盘点目录系统数据库表与表字段结构,并进行知识表示和知识推理,得到完整的数据表图谱;所述数据表图谱用于反映数据库表和表间关系;
对盘点目录系统业务规范描述文件进行自然语言理解分析,识别业务实体并抽取实体关系,进而通过知识表示和知识推理,得到完整的系统业务数据目录图谱,所述系统业务数据目录图谱用于反映业务实体和实体关系;
S2.对步骤S1所得的所述系统功能目录图谱和所述数据表图谱进行知识融合,用于使两图谱合并,得到盘点目录系统功能目录;所述盘点目录系统功能目录展示了盘点目录系统数据库表字段与功能的对应关系;
对步骤S1所得的所述系统业务数据目录图谱和所述数据表图谱进行知识融合,使两图谱合并,得到盘点目录系统业务目录;所述盘点目录系统业务目录展示了盘点目录系统数据库表字段与业务的对应关系;
S3.对步骤S2所述盘点目录系统功能目录和所述盘点目录系统业务目录进行知识融合和知识推理,构建得到功能目录与业务目录校验模型;所述功能目录与业务目录校验模型用于识别表字段对应的功能和业务内容,并在确认功能和业务内容的同时生成表字段的字典和对应的元数据,从而得到完整的数据资产目录;
其中,步骤S3具体包括:
D1.采用图示模型分别对步骤S2得到的所述盘点目录系统功能目录和所述盘点目录系统业务目录进行节点分类、链接预测、社群检测和网络相似度的机器学习,获得所述盘点目录系统功能目录对应的功能视图及特征向量,以及所述盘点目录系统业务目录对应的业务视图及特征向量;
D2.采用多视图聚类算法融合步骤D1得到的所述功能视图的特征向量和所述业务视图的特征向量,并使用BIRCH算法进行聚合,获得并确认实体对齐后的实体名和对齐关系;
D3.采用步骤D2确认后的实体信息,通过Trans系列算法对步骤D1的所述盘点目录系统功能目录和所述盘点目录系统业务目录进行元数据迭代优化。
2.根据权利要求1所述的一种数据资产目录智能构建盘点方法,其特征在于,步骤S1具体包括:
A1.使用字符提取方法对已有各种类型的盘点目录系统操作日志文本数据进行切割提取;
A2.利用步骤A1提取到的内容进行全文检索,并采用机器学习方法对所述盘点目录系统操作日志进行分类,将所述盘点目录系统操作日志数据解析为功能列表;
A3.汇总通过步骤A2所得的功能列表为功能目录;
A4.采用知识图谱表示步骤A3所得的所述功能目录中的操作与所述功能目录结构的关系;
A5.采用知识推理补全步骤A4所得的知识图谱。
3.根据权利要求2所述的一种数据资产目录智能构建盘点方法,其特征在于,
步骤A2中采用Elasticsearch进行全文检索;
步骤A2中所述机器学习方法包括;
A21.计算盘点目录系统各操作日志之间的距离;
A22.根据步骤A21的结果,对盘点目录系统各操作日志进行聚类,组成若干日志簇;
A23.由步骤A22得到的各所述日志簇形成对应的功能项;
或
a21.计数盘点目录系统中各操作日志位置的项;
a22.选取步骤a21中频繁出现的项作为功能候选者;
a23.自步骤a22得到的功能候选者中选择功能项;
步骤A4中所述知识图谱采用RDF表示,Neo4J图数据库进行存储;
步骤A5中所述知识推理采用路径相似度指标扩展步骤A4中所述知识图谱的实体关系预测指标,具体包括:
A51.针对各实体关系的交互作用进行多关系网络数据建模,将关系预测转化为张量分解;
A52.使用步骤A51的张量分解构建神经张量网络;
A53.采用步骤A52所得到的所述神经张量网络判断两实体间是否存在某种关系;
或
a51.针对各实体关系的交互作用进行多关系网络数据建模,将关系预测转化为张量分解;
a52.使用步骤a51的张量分解构建神经张量网络;
a53.采用步骤a52所得到的所述神经张量网络判断两实体间是否存在某种关系;
a54.采用PRA算法预测两个实体间的关系;
a55.校核步骤a53与步骤a54,确认两实体间的预测关系。
4.根据权利要求1所述的一种数据资产目录智能构建盘点方法,其特征在于,步骤S1还包括:
B1.采集盘点目录系统数据库元数据并将其分类,形成元数据集;
B2.以每一类中元数据为节点,元数据的关系为节点路径,构建元数据语义网络;
B3.利用操作盘点目录系统时新生成的元数据迭代步骤B2得到的所述元数据语义网络;
B4.采用知识图谱表示步骤B3所得的元数据语义网络;
B5.采用知识推理补全步骤B4所得的知识图谱。
5.根据权利要求4所述的一种数据资产目录智能构建盘点方法,其特征在于,
步骤B1中所述盘点目录系统数据库元数据包括盘点目录系统元数据、人工整理的元数据和SQL脚本和存储过程数据;
步骤B5中所述知识推理用于获得未知的元数据及关系,具体包括:
B51.采用PFA算法预测元数据实体间路径;
B52.采用RNN对步骤B51所预测得到的路径上的实体及关系进行递归处理,获得元数据实体关系可能性最大的实体对及关系;
B53.将步骤B52所得的实体对及关系作为潜在的元数据实体关系,用以排除步骤B51中预测得到的所述元数据实体间路径中无实际意义的路径。
6.根据权利要求1~3中任意一项所述的一种数据资产目录智能构建盘点方法,其特征在于,步骤S1还包括:
b1.采集盘点目录系统数据库元数据并将其分类,形成元数据集;
b2.以每一类中元数据为节点,元数据的关系为节点路径,构建元数据语义网络;
b3.利用操作盘点目录系统时新生成的元数据迭代步骤b2得到的所述元数据语义网络;
b4.对盘点目录系统数据库日志数据进行检索、分析,识别得到与盘点目录系统数据库日志对应的表及对表的操作;其中,通过分析对表的操作而获得表间关系;
b5.采用机器学习方法对步骤b4的盘点目录系统数据库日志进行分类,得到盘点目录系统数据库中表及表间关系;
b6.采用知识图谱表示步骤b3的元数据语义网络和步骤b5得到的盘点目录系统数据库中表及表间关系;
b7.采用知识推理补全步骤b6所得的知识图谱。
7.根据权利要求1所述的一种数据资产目录智能构建盘点方法,其特征在于,步骤S1还包括:
C1.对盘点目录系统业务规范描述文件进行数据采集,获得业务元数据;
C2.采用自然语言理解技术处理步骤C1获得的业务元数据,识别得到业务实体与关系;
C3.采用知识图谱表示步骤C2识别所得的业务实体与关系;
C4.采用知识推理补全步骤C3所得的知识图谱。
8.根据权利要求7所述的一种数据资产目录智能构建盘点方法,其特征在于,
步骤C1中所述盘点目录系统业务规范描述文件包括ERP、报表、表格、文件、BI工具、数据仓库;
步骤C1中数据采集方法包括:在数据采集层系统定制文档采集业务,由数据录入业务上次业务文档数据集;
步骤C2具体包括:
C21.采用NER在盘点目录系统业务规范描述文件中识别出实体边界和实体类型;
C22.采用基于规则的方法、基于统计的方法、混合方法训练模型,以完成实体关系抽取;
其中,
所述混合方法包括:基于统计的方法之间或内部进行层叠融合;在基于统计的方法中引入部分规则,结合机器学习和人工知识;采用多个模型、算法,将前一模型的结果作为下一级的训练数据,并采用所述训练数据对模型进行训练,得到下一级模型。
9.根据权利要求1所述的一种数据资产目录智能构建盘点方法,其特征在于, 步骤S2中所述系统功能目录图谱和所述数据表图谱进行的知识融合采用有监督的实体对齐方法或文本相似度计算方法;
步骤S2中所述系统业务数据目录图谱和所述数据表图谱进行的知识融合采用有监督的实体对齐方法、无监督的实体对齐方法或多视图知识图谱嵌入方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110694767.9A CN113254507B (zh) | 2021-06-23 | 2021-06-23 | 一种数据资产目录智能构建盘点方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110694767.9A CN113254507B (zh) | 2021-06-23 | 2021-06-23 | 一种数据资产目录智能构建盘点方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113254507A CN113254507A (zh) | 2021-08-13 |
CN113254507B true CN113254507B (zh) | 2021-10-26 |
Family
ID=77189222
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110694767.9A Active CN113254507B (zh) | 2021-06-23 | 2021-06-23 | 一种数据资产目录智能构建盘点方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113254507B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113792081B (zh) * | 2021-08-31 | 2022-05-17 | 吉林银行股份有限公司 | 一种自动化进行数据资产盘点的方法和系统 |
CN114218932B (zh) * | 2021-11-26 | 2024-02-20 | 中国航空综合技术研究所 | 基于故障因果图谱的航空故障文本摘要生成方法及其装置 |
CN115510204B (zh) * | 2022-09-29 | 2024-01-12 | 河北雄安睿天科技有限公司 | 一种智慧水务数据资源目录管理方法及装置 |
CN117312303A (zh) * | 2023-08-23 | 2023-12-29 | 北京远舢智能科技有限公司 | 一种自动化的数据资产盘点方法、装置、电子设备及介质 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200117737A1 (en) * | 2018-10-16 | 2020-04-16 | LeapAnalysis Inc. | Fast heterogeneous multi-data source search and analytics |
CN111080261A (zh) * | 2019-12-19 | 2020-04-28 | 国网安徽省电力有限公司信息通信分公司 | 一种基于大数据的可视化数据资产管理系统 |
CN112308230A (zh) * | 2020-10-30 | 2021-02-02 | 云南电网有限责任公司电力科学研究院 | 一种资产管理全生命周期知识库的构建及应用方法 |
CN112579609A (zh) * | 2020-12-25 | 2021-03-30 | 国家电投集团科学技术研究院有限公司 | 基于数据资产目录实现数据标准化管理与共享方法及系统 |
CN112732924A (zh) * | 2020-12-04 | 2021-04-30 | 国网安徽省电力有限公司 | 一种基于知识图谱的电网数据资产管理系统与方法 |
CN112989132A (zh) * | 2021-03-29 | 2021-06-18 | 国网宁夏电力有限公司电力科学研究院 | 一种企业数据盘点的数据目录建成方法 |
CN113010696A (zh) * | 2021-04-21 | 2021-06-22 | 上海勘察设计研究院(集团)有限公司 | 基于元数据模型的工程领域知识图谱构建方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11086935B2 (en) * | 2018-05-07 | 2021-08-10 | Apple Inc. | Smart updates from historical database changes |
CN111597267A (zh) * | 2020-05-21 | 2020-08-28 | 中建材信息技术股份有限公司 | 一种基于多层服务引擎的数据中台及构建方法 |
CN111966866A (zh) * | 2020-08-11 | 2020-11-20 | 福建博思数字科技有限公司 | 一种数据资产管理的方法和装置 |
-
2021
- 2021-06-23 CN CN202110694767.9A patent/CN113254507B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200117737A1 (en) * | 2018-10-16 | 2020-04-16 | LeapAnalysis Inc. | Fast heterogeneous multi-data source search and analytics |
CN111080261A (zh) * | 2019-12-19 | 2020-04-28 | 国网安徽省电力有限公司信息通信分公司 | 一种基于大数据的可视化数据资产管理系统 |
CN112308230A (zh) * | 2020-10-30 | 2021-02-02 | 云南电网有限责任公司电力科学研究院 | 一种资产管理全生命周期知识库的构建及应用方法 |
CN112732924A (zh) * | 2020-12-04 | 2021-04-30 | 国网安徽省电力有限公司 | 一种基于知识图谱的电网数据资产管理系统与方法 |
CN112579609A (zh) * | 2020-12-25 | 2021-03-30 | 国家电投集团科学技术研究院有限公司 | 基于数据资产目录实现数据标准化管理与共享方法及系统 |
CN112989132A (zh) * | 2021-03-29 | 2021-06-18 | 国网宁夏电力有限公司电力科学研究院 | 一种企业数据盘点的数据目录建成方法 |
CN113010696A (zh) * | 2021-04-21 | 2021-06-22 | 上海勘察设计研究院(集团)有限公司 | 基于元数据模型的工程领域知识图谱构建方法 |
Non-Patent Citations (1)
Title |
---|
电网企业固定资产移动盘点系统的建设与应用;张敏 等;《电力信息与通信技术》;20161015;第14卷(第10期);109-113 * |
Also Published As
Publication number | Publication date |
---|---|
CN113254507A (zh) | 2021-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110889556B (zh) | 一种企业经营风险特征数据信息提取方法和提取系统 | |
CN111428054B (zh) | 一种网络空间安全领域知识图谱的构建与存储方法 | |
CN110825882B (zh) | 一种基于知识图谱的信息系统管理方法 | |
CN113254507B (zh) | 一种数据资产目录智能构建盘点方法 | |
CN110727779A (zh) | 基于多模型融合的问答方法及系统 | |
US20060242180A1 (en) | Extracting data from semi-structured text documents | |
CN109255031A (zh) | 基于知识图谱的数据处理方法 | |
US11620453B2 (en) | System and method for artificial intelligence driven document analysis, including searching, indexing, comparing or associating datasets based on learned representations | |
CN116737967B (zh) | 一种基于自然语言的知识图谱构建和完善系统及方法 | |
CN111078835A (zh) | 简历评估方法、装置、计算机设备及存储介质 | |
CN115964273A (zh) | 基于深度学习的航天器测试脚本自动生成方法 | |
CN116484024A (zh) | 一种基于知识图谱的多层次知识库构建方法 | |
CN114495143A (zh) | 一种文本对象识别方法、装置、电子设备及存储介质 | |
EP4222635A1 (en) | Lifecycle management for customized natural language processing | |
CN117454884A (zh) | 历史人物信息纠错方法、系统、电子设备和存储介质 | |
CN116861269A (zh) | 工程领域的多源异构数据融合及分析方法 | |
CN116050408A (zh) | 一种土木规范领域知识图谱构建方法及构建系统 | |
CN117473054A (zh) | 基于知识图谱的通用智能问答方法及装置 | |
CN114443783B (zh) | 一种供应链数据分析和增强处理方法及装置 | |
CN115204179A (zh) | 基于电网公共数据模型的实体关系预测的方法及装置 | |
CN115658845A (zh) | 一种适用于开源软件供应链的智能问答方法及装置 | |
CN116049213A (zh) | 表格文档的关键词检索方法及电子设备 | |
CN114372148A (zh) | 一种基于知识图谱技术的数据处理方法及终端设备 | |
CN114357175A (zh) | 一种基于语义网络的数据挖掘系统 | |
CN114417008A (zh) | 一种面向建设工程领域的知识图谱构建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |