CN116522095B - 一种基于数据中台的主数据治理方法 - Google Patents
一种基于数据中台的主数据治理方法 Download PDFInfo
- Publication number
- CN116522095B CN116522095B CN202310788822.XA CN202310788822A CN116522095B CN 116522095 B CN116522095 B CN 116522095B CN 202310788822 A CN202310788822 A CN 202310788822A CN 116522095 B CN116522095 B CN 116522095B
- Authority
- CN
- China
- Prior art keywords
- main data
- information
- data
- data information
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 26
- 238000013523 data management Methods 0.000 title abstract description 15
- 238000011156 evaluation Methods 0.000 claims abstract description 87
- 238000007726 management method Methods 0.000 claims abstract description 70
- 230000007246 mechanism Effects 0.000 claims abstract description 58
- 238000004458 analytical method Methods 0.000 claims abstract description 54
- 238000012545 processing Methods 0.000 claims abstract description 31
- 238000012544 monitoring process Methods 0.000 claims abstract description 30
- 230000010354 integration Effects 0.000 claims abstract description 18
- 230000002159 abnormal effect Effects 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 18
- 238000012937 correction Methods 0.000 claims description 15
- 238000001514 detection method Methods 0.000 claims description 13
- 238000000605 extraction Methods 0.000 claims description 11
- 238000012423 maintenance Methods 0.000 claims description 11
- 238000013210 evaluation model Methods 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000003066 decision tree Methods 0.000 claims description 6
- 238000007637 random forest analysis Methods 0.000 claims description 6
- 238000012550 audit Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 claims description 5
- 206010000117 Abnormal behaviour Diseases 0.000 claims description 4
- 230000005856 abnormality Effects 0.000 claims description 4
- 238000004140 cleaning Methods 0.000 claims description 4
- 238000013135 deep learning Methods 0.000 claims description 4
- 238000013507 mapping Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 claims description 4
- 238000002955 isolation Methods 0.000 claims description 3
- 238000012558 master data management Methods 0.000 claims description 3
- 238000012552 review Methods 0.000 claims description 3
- 238000012795 verification Methods 0.000 claims description 3
- 230000008859 change Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 3
- 238000013500 data storage Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 230000018109 developmental process Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/10—Pre-processing; Data cleansing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/604—Tools and structures for managing or administering access control systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Bioethics (AREA)
- Computer Security & Cryptography (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Automation & Control Theory (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于数据中台的主数据治理的方法,包括:获取初始主数据信息,通过数据中台对所述初始主数据信息进行数据整合与标准化处理,得到主数据信息;建立数据质量管理机制,对所述主数据信息进行质量管理,得到标准主数据信息;对所述标准主数据信息进行特征提取和语义分析,并对标准主数据信息进行归类;根据语义分析结果信息和标准主数据特征信息对所述标准主数据信息进行属性评估,得到属性评估结果信息;建立权限管理机制,对标准主数据信息进行权限设定和信息加密;建立数据监控与治理机制,对主数据信息进行实时的监测和分析。有效的提高了主数据管理和治理得效率性和便利性,同时提高数据的准确性、一致性。
Description
技术领域
本发明涉及主数据治理和管理技术领域,尤其涉及一种基于数据中台的主数据治理方法。
背景技术
随着信息技术的迅速发展和大数据时代的到来,各个组织面临着日益增长的数据量和复杂的数据结构。在这样的背景下,主数据治理成为了管理和利用数据的关键任务之一。主数据是指组织内被广泛使用、对业务流程和决策具有重要影响的核心数据,例如客户信息、产品数据、供应链信息等。有效的主数据管理和治理能够提高数据的准确性、一致性和可信度,为组织带来诸多益处。
通过基于数据中台的主数据治理方法,可以实现主数据的集中管理、一致性维护和高质量管理,为组织提供准确可靠的数据基础,提升数据驱动的决策和业务能力。因此,本立项旨在探索并提出一种基于数据中台的主数据治理方法,以应对组织面临的主数据管理挑战,促进数据驱动的创新和发展。
发明内容
本发明克服了现有技术的缺陷,提出了一种基于数据中台的主数据治理方法,其重要目的在于通过有效的主数据管理和治理提高数据的准确性、一致性和可信度。
为实现上述目的本发明提供了一种基于数据中台的主数据治理方法,包括:
获取初始主数据信息,通过数据中台对所述初始主数据信息进行数据整合与标准化处理,得到主数据信息;
建立数据质量管理机制,对所述主数据信息进行数据质量管理,得到标准主数据信息;
对所述标准主数据信息进行特征提取和语义分析,并对标准主数据信息进行归类;
根据语义分析结果信息和标准主数据特征信息对所述标准主数据信息进行属性评估,得到属性评估结果信息;
建立权限管理机制,对标准主数据信息进行权限设定和信息加密;
建立数据监控与治理机制,对主数据信息进行实时的监测和分析。
本方案中,所述获取初始主数据信息,通过数据中台对所述初始主数据信息进行数据整合与标准化处理,具体为:
建立数据中台,通过数据中台获取不同系统和部门的初始主数据信息,并对所述初始主数据信息进行数据整合和标准化处理;
对所述初始主数据信息按行或列进行数据拼接,基于merge函数对所述初始主数据信息进行数据合并;
对所述初始主数据信息进行标准化处理,将数据线性映射到线性空间中,得到数据相对顺序和分布稳定的初始主数据信息;
对所述初始主数据信息进行数据整合和标准化处理后得到主数据信息。
本方案中,所述建立数据质量管理机制,对所述主数据信息进行数据质量管理,得到标准主数据信息,具体为:
基于随机森林算法、孤立森林算法和数据纠错算法构建数据质量管理模型,通过深度的学习和训练得到符合期望的数据质量管理模型;
建立数据质量管理机制并结合数据质量管理模型对所述主数据信息进行数据质量管理,得到标准主数据信息;
数据质量管理包括:数据清洗、数据修正、异常验证及检测。
本方案中,所述对所述主数据信息进行数据质量管理,得到标准主数据信息,还包括:
基于随机森林算法对主数据信息进行随机特征选取和预测,构建多个决策树对主数据信息进行分类,集成每个决策树的分类结果,选择出现频率最高的类别作为预测结果信息;
基于孤立森林算法识别异常主数据信息,通过构建随机二叉搜索树检测特征空间中分布低密度和孤立的主数据,得到检测主数据信息;
计算所述检测主数据信息的异常分数,将所述异常分数与预设值进行判断,判断检测主数据信息是否为异常数据信息;
若所述异常分数大于预设阈值,则所述检测主数据信息为异常主数据信息;
若所述异常分数小于预设阈值,则所述检测主数据信息为正常主数据信息;
通过数据纠错算法结合异常数据信息和预测结果信息进行缺失值填充和修正及文本纠错,得到标准主数据信息。
本方案中,所述对所述标准主数据信息进行特征提取和语义分析,并对标准主数据信息进行归类,具体为:
构建特征提取模型和多维语义分析模型,构建数据主题域;
将所述标准主数据信息导入特征提取模型中,得到标准主数据特征信息;
将标准主数据特征信息和标准主数据信息导入多维语义分析模型中进行语义分析,得到语义分析结果信息;
根据语义分析结果信息与所述数据主题域中的主题信息进行相似度计算,得到相似度值计算值;
将相似度计算值与判断阈值进行判断,根据判断结果信息将标准主数据信息归类至对应的主题域。
本方案中,所述将相似度计算值与判断阈值进行判断,根据判断结果信息将标准主数据信息归类至对应的主题域,还包括:
所述主题域包括多个大类主题域和多个小类主题域,分别预设若干个大类主题域和小类主题域的判断阈值;
将相似度值计算值与判断阈值进行判断,得到判断结果信息;
若相似度值计算值大于判断阈值,则得到标准主数据属于某个大类主题域或某个小类主题域的判断结果信息;
若相似度计算值小于判断阈值,则得到标准主数据不属于某个大类主题域或某个小类主题域的判断结果信息;
根据判断结果信息将标准主数据信息归类至对应的主题域。
本方案中,所述对所述标准主数据信息进行属性评估,得到属性评估结果信息,具体为:
构建属性评估模型,通过属性评估模型对标准主信息进行属性评估;
获取语义分析结果信息,将语义分析结果信息导入属性评估模型进行属性评估,得到属性评估结果信息;
属性评估结果信息包括:共享价值属性评估结果信息、保密价值属性评估结果信息、使用属性评估结果信息。
本方案中,所述建立权限管理机制,对标准主数据信息进行权限设定和信息加密,具体为:
建立权限管理机制,定义不同使用用户的使用权限,并对标准主数据信息进行权限设定和信息加密;
通过数据中台的统一数据访问接口和权限管理机制控制用户对主数据信息的使用;
权限设定包括:访问权限、编辑权限、查阅权限、共享权限;
通过属性评估结果信息对标准主数据信息进行开放程度评估,根据权限管理机制结合开放程度评估信息对标准主数据信息进行权限设定和信息加密。
本方案中,所述通过属性评估结果信息对标准主数据信息进行开放程度评估,对标准主数据信息进行权限设定和信息加密,还包括:
预设若干个不同属性的开放程度判断阈值,将属性评估结果信息与开放程度判断阈值进行判断,得到开放程度评估结果信息;
将共享价值属性评估结果、保密价值属性评估结果和使用属性评估结果分别与开放程度判断阈值进行判断,得到各个属性的开放程度评估结果信息;
根据各个属性的开放程度评估结果信息结合权限管理机制计算对应的权限等级和信息加密等级。
本方案中,所述建立数据监控与治理机制,对主数据信息进行实时的监测和分析,具体为:
建立数据监控与治理机制,包括主数据审计和监控机制、主数据维护和更新机制;
通过主数据审计和监控机制跟踪和记录主数据的访问和操作,监控并预警异常行为和数据滥用;
通过主数据维护和更新机制对数据中台存储的主数据进行维护和更新。
本发明公开了一种基于数据中台的主数据治理的方法,包括:获取初始主数据信息,通过数据中台对所述初始主数据信息进行数据整合与标准化处理,得到主数据信息;建立数据质量管理机制,对所述主数据信息进行质量管理,得到标准主数据信息;对所述标准主数据信息进行特征提取和语义分析,并对标准主数据信息进行归类;根据语义分析结果信息和标准主数据特征信息对所述标准主数据信息进行属性评估,得到属性评估结果信息;建立权限管理机制,对标准主数据信息进行权限设定和信息加密;建立数据监控与治理机制,对主数据信息进行实时的监测和分析。有效的提高了主数据管理和治理得效率性和便利性,同时提高数据的准确性、一致性。
附图说明
为了更清楚地说明本发明实施例或示例性中的技术方案,下面将对实施例或示例性描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以按照这些附图示出的获得其他的附图。
图1为本发明一实施例提供的一种数据中台的主数据治理方法流程图;
图2为本发明一实施例提供的主数据处理流程图;
图3为本发明一实施例提供的数据中台基本框图;
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1为本发明一实施例提供的一种数据中台的主数据治理方法流程图;
如图1所示,本发明一实施例提供了一种基于数据中台得主数据治理方法流程图,包括:
S102,获取初始主数据信息,通过数据中台对所述初始主数据信息进行数据整合与标准化处理,得到主数据信息;
建立数据中台,通过数据中台获取不同系统和部门的初始主数据信息,并对所述初始主数据信息进行数据整合和标准化处理;
对所述初始主数据信息按行或列进行数据拼接,基于merge函数对所述初始主数据信息进行数据合并;
对所述初始主数据信息进行标准化处理,将数据线性映射到线性空间中,得到数据相对顺序和分布稳定的初始主数据信息;
对所述初始主数据信息进行数据整合和标准化处理后得到主数据信息。
S104,建立数据质量管理机制,对所述主数据信息进行数据质量管理,得到标准主数据信息;
基于随机森林算法、孤立森林算法和数据纠错算法构建数据质量管理模型,通过深度的学习和训练得到符合期望的数据质量管理模型;
建立数据质量管理机制并结合数据质量管理模型对所述主数据信息进行数据质量管理,得到标准主数据信息;
数据质量管理包括:数据清洗、数据修正、异常验证及检测。
进一步的,所述对所述主数据信息进行数据质量管理,得到标准主数据信息,还包括:基于随机森林算法对主数据信息进行随机特征选取和预测,构建多个决策树对主数据信息进行分类,集成每个决策树的分类结果,选择出现频率最高的类别作为预测结果信息;基于孤立森林算法识别异常主数据信息,通过构建随机二叉搜索树检测特征空间中分布低密度和孤立的主数据,得到检测主数据信息;计算所述检测主数据信息的异常分数,将所述异常分数与预设值进行判断,判断检测主数据信息是否为异常数据信息;若所述异常分数大于预设阈值,则所述检测主数据信息为异常主数据信息;若所述异常分数小于预设阈值,则所述检测主数据信息为正常主数据信息;通过数据纠错算法结合异常数据信息和预测结果信息进行缺失值填充和修正及文本纠错,得到标准主数据信息。
S106,对所述标准主数据信息进行特征提取和语义分析,并对标准主数据信息进行归类;
构建特征提取模型和多维语义分析模型,构建数据主题域;
将所述标准主数据信息导入特征提取模型中,得到标准主数据特征信息;
将标准主数据特征信息和标准主数据信息导入多维语义分析模型中进行语义分析,得到语义分析结果信息;
根据语义分析结果信息与所述数据主题域中的主题信息进行相似度计算,得到相似度值计算值;
将相似度计算值与判断阈值进行判断,根据判断结果信息将标准主数据信息归类至对应的主题域。
进一步的,所述将相似度计算值与判断阈值进行判断,根据判断结果信息将标准主数据信息归类至对应的主题域,还包括:所述主题域包括多个大类主题域和多个小类主题域,分别预设若干个大类主题域和小类主题域的判断阈值;将相似度值计算值与判断阈值进行判断,得到判断结果信息;若相似度值计算值大于判断阈值,则得到标准主数据属于某个大类主题域或某个小类主题域的判断结果信息;若相似度计算值小于判断阈值,则得到标准主数据不属于某个大类主题域或某个小类主题域的判断结果信息;根据判断结果信息将标准主数据信息归类至对应的主题域。
S108,根据语义分析结果信息和标准主数据特征信息对所述标准主数据信息进行属性评估,得到属性评估结果信息;
构建属性评估模型,通过属性评估模型对标准主信息进行属性评估;
获取语义分析结果信息,将语义分析结果信息导入属性评估模型进行属性评估,得到属性评估结果信息;
属性评估结果信息包括:共享价值属性评估结果信息、保密价值属性评估结果信息、使用属性评估结果信息。
进一步的,获取进行维护更新后的更新主数据信息;对更新主数据信息进行语义分析,得到更新语义分析结果信息;将所述更新语义分析结果信息与所述语义分析结果信息进行对比计算,判断维护更新后的主数据信息是否发生语义变化;若未发生语义变化,则维持原有设定的权限等级和加密等级;若发生语义变化,则对更新主数据信息进行属性评估和主题归类,得到更新主数据属性评估结果信息和更新主数据主题归类信息;根据更新主数据属性评估结果信息对更新主数据信息的权限等级和加密等级进行重新评估计算。
需要说明的是,通过对更新主数据信息进行语义分析和变化检测,可以及时发现主数据的变化情况,避免因过期或不准确数据而做出错误的决策。重新评估权限等级和加密等级,保证对更新后的主数据信息进行合适的权限控制和信息保护,提高数据的安全性和隐私保护水平。更新主数据属性评估结果和主题归类信息提供了对主数据内容和特征的更深入了解,为进一步的数据分析和决策提供支持和依据。通过维护和更新后的主数据信息,持续保持数据的准确性、完整性和一致性,提供可靠的数据基础,促进业务的持续发展和提高决策的有效性。
S110,建立权限管理机制,对标准主数据信息进行权限设定和信息加密;
建立权限管理机制,定义不同使用用户的使用权限,并对标准主数据信息进行权限设定和信息加密;
通过数据中台的统一数据访问接口和权限管理机制控制用户对主数据信息的使用;
权限设定包括:访问权限、编辑权限、查阅权限、共享权限;
通过属性评估结果信息对标准主数据信息进行开放程度评估,根据权限管理机制结合开放程度评估信息对标准主数据信息进行权限设定和信息加密。
进一步的,所述通过属性评估结果信息对标准主数据信息进行开放程度评估,对标准主数据信息进行权限设定和信息加密,还包括:预设若干个不同属性的开放程度判断阈值,将属性评估结果信息与开放程度判断阈值进行判断,得到开放程度评估结果信息;将共享价值属性评估结果、保密价值属性评估结果和使用属性评估结果分别与开放程度判断阈值进行判断,得到各个属性的开放程度评估结果信息;根据各个属性的开放程度评估结果信息结合权限管理机制计算对应的权限等级和信息加密等级。
S112,建立数据监控与治理机制,对主数据信息进行实时的监测和分析。
建立数据监控与治理机制,包括主数据审计和监控机制、主数据维护和更新机制;
通过主数据审计和监控机制跟踪和记录主数据的访问和操作,监控并预警异常行为和数据滥用;
通过主数据维护和更新机制对数据中台存储的主数据进行维护和更新。
进一步的,通过数据中台基于主数据审计和监控机制对主数据的访问和编辑进行实时监控,得到实时监控信息;
基于数据中台获取主数据的维护更新信息、访问信息和操作日志信息,通过维护更新信息、访问信息和操作日志信息生成主数据监控报告;对主数据监控报告进行分析,得到分析结果信息;根据分析结果信息进行异常操作预警、数据质量预警和数据更新预警;
需要说明的是,通过数据中台对初始主数据信息进行整合和标准化处理,消除数据的冗余和重复,确保数据的一致性和可比性。使不同系统和部门的数据可以被有效地集成和共享,提高数据的可靠性和可用性。建立数据质量管理机制,并应用数据质量管理模型对主数据信息进行验证、清洗、修正和异常验证。通过深度学习和训练的模型,可以检测和纠正数据错误和异常,提高数据的准确性和完整性,同时对标准主数据信息进行深入的分析和归类,获得更深层次的数据理解,为决策和业务分类提供更准确和全面的数据支持,基于语义分析结果和标准主数据特征信息对标准主数据信息进行属性评估,根据属性评估结果设定不同用户的权限和信息加密等级,保护数据的安全性和隐私。通过主数据审计和监控机制,实时跟踪和记录主数据的访问和操作,预警异常行为和数据滥用。通过主数据维护和更新机制,确保主数据的及时更新和准确性,提高数据的实时监测和分析效果。
图2为本发明一实施例提供的主数据处理流程图;
如图2所示,本发明提供的主数据处理流程图包括:
S202,获取初始主数据信息;
S204,通过数据中台对所述初始主数据信息进行数据整合与标准化处理;
对所述初始主数据信息按行或列进行数据拼接,基于merge函数对所述初始主数据信息进行数据合并;
对所述初始主数据信息进行标准化处理,将数据线性映射到线性空间中,得到数据相对顺序和分布稳定的初始主数据信息;
对所述初始主数据信息进行数据整合和标准化处理后得到主数据信息。
S206,对所述主数据信息进行质量管理,得到标准主数据信息;
建立数据质量管理机制并结合数据质量管理模型对所述主数据信息进行数据质量管理,得到标准主数据信息。
S208,对所述标准主数据信息进行特征提取和语义分析,并对标准主数据信息进行归类;
将所述标准主数据信息导入特征提取模型中,得到标准主数据特征信息;
将标准主数据特征信息和标准主数据信息导入多维语义分析模型中进行语义分析,得到语义分析结果信息;
根据语义分析结果信息与所述数据主题域中的主题信息进行相似度计算,得到相似度值计算值;
将相似度计算值与判断阈值进行判断,根据判断结果信息将标准主数据信息归类至对应的主题域。
S210,根据语义分析结果信息和标准主数据特征信息对所述标准主数据信息进行属性评估;
获取语义分析结果信息,将语义分析结果信息导入属性评估模型进行属性评估,得到属性评估结果信息;
属性评估结果信息包括:共享价值属性评估结果信息、保密价值属性评估结果信息、使用属性评估结果信息。
S212,对标准主数据信息进行权限设定和信息加密;
通过属性评估结果信息对标准主数据信息进行开放程度评估,根据权限管理机制结合开放程度评估信息对标准主数据信息进行权限设定和信息加密。
需要说明的是,通过数据中台对从各种数据源或数据地址获取初始主数据信息进行数据整合和标准化处理,再进行语义分析和属性评估,通过语义分析结果信息进行主题归类,再根据属性评估结果信息结合权限管理机制进行权限设定和信息加密。有效的提高了主数据的数据质量,同时为主数据治理提供了可靠的基础。
图3为本发明一实施例提供的数据中台基本框图,包括:
主数据获取和传输层:用于从各种初始主数据的数据地址获取初始主数据信息,并将获取的初始主数据传输至主数据处理层进行数据处理;
主数据存储层:存储各种数据,包括:标准主数据信息、信息主题大类、信息主题小类、信息项、数据类型、数据长度、数据定义、数据规则;
主数据资源管理层:用于管理和记录主数据信息的访问信息和操作信息,分析和评估主数据信息变化或更新的影响;
主数据处理层:对获取的初始主数据信息进行数据整合和标准化处理,同时对标准主数据信息进行语义分析、主题归类、属性评估、权限设定和信息加密操作;
主数据资源维护更新层:根据实时上传和采集的主数据信息,对数据中台中存储的主数据信息进行维护和更新;
可视化操作层:用于用户使用、编辑和查询主数据信息。
需要说明的是,通过主数据获取和传输层确保从各种数据源中获取初始主数据,并将其传输到后续处理层,为主数据治理理提供数据基础。主数据存储层提供了可靠的数据存储环境,用于保存标准主数据信息和与之相关的元数据。主数据资源管理层监控和管理主数据的使用情况,分析主数据变化和更新对业务的影响,并确保主数据的质量和一致性。主数据处理层通过对获取的初始主数据信息进行数据整合和标准化处理确保了主数据信息的信息质量,通过对标准主数据信息的语义理解、主题分类、属性评估、权限管理和信息加密操作,保障了主数据的安全和提高了主数据的可用性。主数据资源维护更新层确保主数据信息与业务需求的匹配,并及时响应主数据变化,保持主数据的更新。可视化操作层提供用户友好的界面,使用户能够直观地操作和查询主数据信息,提高数据的可用性和可操作性。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (8)
1.一种基于数据中台的主数据治理方法,其特征在于,包括:
获取初始主数据信息,通过数据中台对所述初始主数据信息进行数据整合与标准化处理,得到主数据信息;
建立数据质量管理机制,对所述主数据信息进行数据质量管理,得到标准主数据信息;
对所述标准主数据信息进行特征提取和语义分析,并对标准主数据信息进行归类;
根据语义分析结果信息和标准主数据特征信息对所述标准主数据信息进行属性评估,得到属性评估结果信息;
建立权限管理机制,对标准主数据信息进行权限设定和信息加密;
建立数据监控与治理机制,对主数据信息进行实时的监测和分析;
所述建立数据质量管理机制,对所述主数据信息进行质量管理,得到标准主数据信息,具体包括:
基于随机森林算法、孤立森林算法和数据纠错算法构建数据质量管理模型,通过深度的学习和训练得到符合期望的数据质量管理模型;
建立数据质量管理机制并结合数据质量管理模型对所述主数据信息进行数据质量管理,得到标准主数据信息;
数据质量管理包括:数据清洗、数据修正、异常验证及检测;
所述对所述主数据信息进行数据质量管理,得到标准主数据信息,还包括:
基于随机森林算法对主数据信息进行随机特征选取和预测,构建多个决策树对主数据信息进行分类,集成每个决策树的分类结果,选择出现频率最高的类别作为预测结果信息;
基于孤立森林算法识别异常主数据信息,通过构建随机二叉搜索树检测特征空间中分布低密度和孤立的主数据,得到检测主数据信息;
计算所述检测主数据信息的异常分数,将所述异常分数与预设值进行判断,判断检测主数据信息是否为异常数据信息;
若所述异常分数大于预设阈值,则所述检测主数据信息为异常主数据信息;
若所述异常分数小于预设阈值,则所述检测主数据信息为正常主数据信息;
通过数据纠错算法结合异常数据信息和预测结果信息进行缺失值填充和修正及文本纠错,得到标准主数据信息。
2.根据权利要求1所述的一种基于数据中台的主数据治理方法,其特征在于,所述获取初始主数据信息,通过数据中台对所述初始主数据信息进行数据整合与标准化处理,具体包括:
建立数据中台,通过数据中台获取不同系统和部门的初始主数据信息,并对所述初始主数据信息进行数据整合和标准化处理;
对所述初始主数据信息按行或列进行数据拼接,基于merge函数对所述初始主数据信息进行数据合并;
对所述初始主数据信息进行标准化处理,将数据线性映射到线性空间中,得到数据相对顺序和分布稳定的初始主数据信息;
对所述初始主数据信息进行数据整合和标准化处理后得到主数据信息。
3.根据权利要求1所述的一种基于数据中台的主数据治理方法,其特征在于,所述对所述标准主数据信息进行特征提取和语义分析,并对标准主数据信息进行归类,具体包括:
构建特征提取模型和多维语义分析模型,构建数据主题域;
将所述标准主数据信息导入特征提取模型中,得到标准主数据特征信息;
将标准主数据特征信息和标准主数据信息导入多维语义分析模型中进行语义分析,得到语义分析结果信息;
根据语义分析结果信息与所述数据主题域中的主题信息进行相似度计算,得到相似度值计算值;
将相似度计算值与判断阈值进行判断,根据判断结果信息将标准主数据信息归类至对应的主题域。
4.根据权利要求3所述的一种基于数据中台的主数据治理方法,其特征在于,所述将相似度计算值与判断阈值进行判断,根据判断结果信息将标准主数据信息归类至对应的主题域,还包括:
所述主题域包括多个大类主题域和多个小类主题域,分别预设若干个大类主题域和小类主题域的判断阈值;
将相似度值计算值与判断阈值进行判断,得到判断结果信息;
若相似度值计算值大于判断阈值,则得到标准主数据属于某个大类主题域或某个小类主题域的判断结果信息;
若相似度计算值小于判断阈值,则得到标准主数据不属于某个大类主题域或某个小类主题域的判断结果信息;
根据判断结果信息将标准主数据信息归类至对应的主题域。
5.根据权利要求1所述的一种基于数据中台的主数据治理方法,其特征在于,所述对所述标准主数据信息进行属性评估,得到属性评估结果信息,具体包括:
构建属性评估模型,通过属性评估模型对标准主信息进行属性评估;
获取语义分析结果信息,将语义分析结果信息导入属性评估模型进行属性评估,得到属性评估结果信息;
属性评估结果信息包括:共享价值属性评估结果信息、保密价值属性评估结果信息、使用属性评估结果信息。
6.根据权利要求1所述的一种基于数据中台的主数据治理方法,其特征在于,所述建立权限管理机制,对标准主数据信息进行权限设定和信息加密,具体包括:
建立权限管理机制,定义不同使用用户的使用权限,并对标准主数据信息进行权限设定和信息加密;
通过数据中台的统一数据访问接口和权限管理机制控制用户对主数据信息的使用;
权限设定包括:访问权限、编辑权限、查阅权限、共享权限;
通过属性评估结果信息对标准主数据信息进行开放程度评估,根据权限管理机制结合开放程度评估信息对标准主数据信息进行权限设定和信息加密。
7.根据权利要求6所述的一种基于数据中台的主数据治理方法,其特征在于,所述通过属性评估结果信息对标准主数据信息进行开放程度评估,对标准主数据信息进行权限设定和信息加密,还包括:
预设若干个不同属性的开放程度判断阈值,将属性评估结果信息与开放程度判断阈值进行判断,得到开放程度评估结果信息;
将共享价值属性评估结果、保密价值属性评估结果和使用属性评估结果分别与开放程度判断阈值进行判断,得到各个属性的开放程度评估结果信息;
根据各个属性的开放程度评估结果信息结合权限管理机制计算对应的权限等级和信息加密等级。
8.根据权利要求1所述的一种基于数据中台的主数据治理方法,其特征在于,所述建立数据监控与治理机制,对主数据信息进行实时的监测和分析,具体包括:
建立数据监控与治理机制,包括主数据审计和监控机制、主数据维护和更新机制;
通过主数据审计和监控机制跟踪和记录主数据的访问和操作,监控并预警异常行为和数据滥用;
通过主数据维护和更新机制对数据中台存储的主数据进行维护和更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310788822.XA CN116522095B (zh) | 2023-06-30 | 2023-06-30 | 一种基于数据中台的主数据治理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310788822.XA CN116522095B (zh) | 2023-06-30 | 2023-06-30 | 一种基于数据中台的主数据治理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116522095A CN116522095A (zh) | 2023-08-01 |
CN116522095B true CN116522095B (zh) | 2023-09-08 |
Family
ID=87397962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310788822.XA Active CN116522095B (zh) | 2023-06-30 | 2023-06-30 | 一种基于数据中台的主数据治理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116522095B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729377A (zh) * | 2017-09-14 | 2018-02-23 | 广州大学 | 基于数据挖掘的顾客分类方法与系统 |
CN112241543A (zh) * | 2020-10-27 | 2021-01-19 | 国网福建省电力有限公司信息通信分公司 | 一种基于数据中台的敏感数据梳理方法 |
CN113268894A (zh) * | 2021-07-20 | 2021-08-17 | 国能信控互联技术有限公司 | 一种基于数据中台的火电生产数据治理方法和系统 |
CN114298550A (zh) * | 2021-12-28 | 2022-04-08 | 安徽海螺信息技术工程有限责任公司 | 一种对水泥生产经营数据的治理方法 |
CN114416714A (zh) * | 2022-01-18 | 2022-04-29 | 军事科学院系统工程研究院后勤科学与技术研究所 | 数据治理系统 |
CN114493535A (zh) * | 2022-01-28 | 2022-05-13 | 北京乐开科技有限责任公司 | 一种基于资产模型的数据驱动用数据中台系统 |
CN115935235A (zh) * | 2022-12-09 | 2023-04-07 | 广州汇通国信科技有限公司 | 一种基于数据中台的大数据决策分析方法与流程 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230196230A1 (en) * | 2017-08-02 | 2023-06-22 | Strong Force Iot Portfolio 2016, Llc | User interface for industrial digital twin system analyzing data to determine structures with visualization of those structures with reduced dimensionality |
-
2023
- 2023-06-30 CN CN202310788822.XA patent/CN116522095B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107729377A (zh) * | 2017-09-14 | 2018-02-23 | 广州大学 | 基于数据挖掘的顾客分类方法与系统 |
CN112241543A (zh) * | 2020-10-27 | 2021-01-19 | 国网福建省电力有限公司信息通信分公司 | 一种基于数据中台的敏感数据梳理方法 |
CN113268894A (zh) * | 2021-07-20 | 2021-08-17 | 国能信控互联技术有限公司 | 一种基于数据中台的火电生产数据治理方法和系统 |
CN114298550A (zh) * | 2021-12-28 | 2022-04-08 | 安徽海螺信息技术工程有限责任公司 | 一种对水泥生产经营数据的治理方法 |
CN114416714A (zh) * | 2022-01-18 | 2022-04-29 | 军事科学院系统工程研究院后勤科学与技术研究所 | 数据治理系统 |
CN114493535A (zh) * | 2022-01-28 | 2022-05-13 | 北京乐开科技有限责任公司 | 一种基于资产模型的数据驱动用数据中台系统 |
CN115935235A (zh) * | 2022-12-09 | 2023-04-07 | 广州汇通国信科技有限公司 | 一种基于数据中台的大数据决策分析方法与流程 |
Non-Patent Citations (1)
Title |
---|
大型航运集团主数据管理体系规划;贾怡菁;金华;韩明龙;;《上海船舶运输科学研究所学报》;第38卷(第03期);第83-90页 * |
Also Published As
Publication number | Publication date |
---|---|
CN116522095A (zh) | 2023-08-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110399925B (zh) | 账号的风险识别方法、装置及存储介质 | |
CN106789885B (zh) | 一种大数据环境下用户异常行为检测分析方法 | |
CN111343173B (zh) | 数据访问的异常监测方法及装置 | |
CN101902366B (zh) | 一种业务行为异常检测方法和系统 | |
CN109714187A (zh) | 基于机器学习的日志分析方法、装置、设备及存储介质 | |
CN112491779B (zh) | 一种异常行为检测方法及装置、电子设备 | |
CN116112292B (zh) | 基于网络流量大数据的异常行为检测方法、系统和介质 | |
CN114372098A (zh) | 基于特权账号管理对电力数据中台隐私数据保护与数据挖掘平台及方法 | |
CN116861446A (zh) | 一种数据安全的评估方法及系统 | |
CN110928864A (zh) | 一种科研项目管理方法及系统 | |
CN116522095B (zh) | 一种基于数据中台的主数据治理方法 | |
CN112799722A (zh) | 命令识别方法、装置、设备和存储介质 | |
CN117370548A (zh) | 用户行为风险识别方法、装置、电子设备及介质 | |
US11429714B2 (en) | Centralized privacy management system for automatic monitoring and handling of personal data across data system platforms | |
CN112039907A (zh) | 一种基于物联网终端评测平台的自动测试方法及系统 | |
Yalaoui et al. | A survey on data quality: principles, taxonomies and comparison of approaches | |
Desai et al. | Process trace identification from unstructured execution logs | |
CN112685768A (zh) | 一种基于软件资产审计的数据防泄漏方法及装置 | |
Mihailescu et al. | Unveiling Threats: Leveraging User Behavior Analysis for Enhanced Cybersecurity | |
CN117195183B (zh) | 一种数据安全合规风险评估系统 | |
KR102470364B1 (ko) | 보안 이벤트 학습데이터 생성 방법 및 보안 이벤트 학습데이터 생성 장치 | |
CN116707834B (zh) | 一种基于云存储的分布式大数据取证与分析平台 | |
CN111598159B (zh) | 机器学习模型的训练方法、装置、设备及存储介质 | |
CN117540372B (zh) | 智能学习的数据库入侵检测与响应系统 | |
CN117633766B (zh) | 一种基于树型结构的业务数据权限授予方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |