CN112506906A - 一种基于人工智能技术的数据治理平台 - Google Patents

一种基于人工智能技术的数据治理平台 Download PDF

Info

Publication number
CN112506906A
CN112506906A CN202011409349.2A CN202011409349A CN112506906A CN 112506906 A CN112506906 A CN 112506906A CN 202011409349 A CN202011409349 A CN 202011409349A CN 112506906 A CN112506906 A CN 112506906A
Authority
CN
China
Prior art keywords
data
unit
metadata
quality detection
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011409349.2A
Other languages
English (en)
Inventor
金震
王兆君
李明
曹朝辉
杨海建
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SunwayWorld Science and Technology Co Ltd
Original Assignee
Beijing SunwayWorld Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SunwayWorld Science and Technology Co Ltd filed Critical Beijing SunwayWorld Science and Technology Co Ltd
Priority to CN202011409349.2A priority Critical patent/CN112506906A/zh
Publication of CN112506906A publication Critical patent/CN112506906A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于人工智能技术的数据治理平台,包括:交互模块、数据应用模块、数据质量管理模块、元数据管理模块和数据访问模块,交互模块响应用户请求,实现与用户的交互;数据应用模块响应所述交互模块中用户请求的信息,维护数据的变更历史和数据之间的关系;数据质量管理模块对元数据管理模块中存储的元数据的数据源进行数据质量检测和数据清洗;元数据管理模块分析通过数据访问模块访问的数据源,从数据源中发现元数据,并对数据源的元数据进行存储;数据访问模块对治理的数据源进行访问。本发明提出了一种基于人工智能技术的数据治理平台,以人工智能技术为依托,解决了现有技术方案中组件复杂,程序维护和可扩展成本高的问题。

Description

一种基于人工智能技术的数据治理平台
技术领域
本发明涉及数据治理技术领域,特别涉及一种基于人工智能技术的数据治理平台。
背景技术
数据治理(Data Governance)是对数据资产管理行使权力和控制的活动集合,是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。大数据治理平台的目的在于汇聚组织内全项数据,理清数据资产,实现数据有效组织与管理,推动组织治理水平和业务协同能力,提升数据应用价值,所以说数据治理是非常必要,是企业实现数字战略的基础。
目前企业、政府等用户正在开展数据治理的工作,应用到很多样的数据治理工具,这些数据治理工具较多考虑技术层面的内容,而对业务逻辑的支持考虑较少,用户在使用过程中难以达成业务的分析目的。现存在的数据治理平台往往业务逻辑的复杂性导致组件复杂,程序维护和可扩展成本高,因此,本发明提出了一种基于人工智能技术的数据治理平台,以人工智能技术为依托,解决了现有技术方案中组件复杂,程序维护和可扩展成本高的问题。
发明内容
本发明提出了一种基于人工智能技术的数据治理平台,本发明提出了一种基于人工智能技术的数据治理平台,以人工智能技术为依托,解决了现有技术方案中组件复杂,程序维护和可扩展成本高的问题。
本发明提供一种基于人工智能技术的数据治理平台,包括:交互模块、数据应用模块、数据质量管理模块、元数据管理模块和数据访问模块;
所述交互模块,用于响应用户请求,实现与用户的交互;
所述数据应用模块,用于响应所述交互模块中用户请求的信息,维护数据的变更历史和数据之间的关系;
所述数据质量管理模块,用于对所述元数据管理模块中存储的元数据的数据源进行数据质量检测和数据清洗;
所述元数据管理模块,用于分析通过所述数据访问模块访问的数据源,从所述数据源中发现元数据,并对所述数据源的元数据进行存储;
所述数据访问模块,用于对治理的数据源进行访问。
进一步地,所述交互模块,包括:用户请求单元和数据交互单元;
所述用户请求单元,用于接收用户请求信息;
所述数据交互单元,用于将根据所述用户请求信息得到的反馈信息呈现给用户。
进一步地,所述数据应用模块,包括:数据源维护单元、数据历史查询单元和数据溯源单元;
所述数据源维护单元,用于向用户提供服务,允许用户对创建、查询、修改和删除数据源;
所述数据历史查询单元,用于查询数据源的优化过程和系统的迭代信息;
所述数据溯源单元,用于管理数据治理平台中的数据源的溯源信息。
进一步地,所述数据质量管理模块,包括:数据质量检测单元和数据清洗单元;
所述数据质量检测单元,用于对数据进行检测,得到需要处理的缺失数据、需要去除的重复数据、需要去除的噪声数据和需要处理的异常真实数据,并获得数据健康度分析报告;
所述数据清洗单元,用于根据所述数据健康度分析报告进行清洗治理。
进一步地,所述质量检测单元获得数据健康度分析报告的过程中,包括:
生成数据质量检测规则;
根据定义的数据质量检测规则制定数据质量检测方案;
对数据质量检测的时间进行定时设置;
依据定时设置的数据质量检测的时间,按照制定的数据质量检测方案进行数据质量检测,获得数据质量检测结果;
根据所述数据质量检测结果生成数据健康度分析报告。
进一步地,所述数据健康度分析报告包括数据质量问题,数据质量问题的明细以及数据质量问题的改进建议。
进一步地,所述生成数据质量检测规则时,通过Drools访问企业策略,调整以及管理的开源业务规则,通过CHARLESFORGY'S的RETE算法基于规则的系统的时间冗余性和结构相似性形成一个RETE网络进行模式匹配。
进一步地,所述数据清洗单元通过数据转换工具,根据所述数据质量检测报告对缺失数据、重复数据、噪声数据和异常真实数据进行可视化操作处理。
进一步地,所述元数据管理模块,包括:元数据发现单元、元数据更新单元、元数据查询单元、追踪日志收集单元、数据模式监视单元和元数据存储单元;
所述元数据发现单元,用于获得数据源的元数据;
所述数据模式监视单元,用于监视数据模式,捕获数据模式的变更;
所述元数据更新单元,用于根据数据模式的变更对所述元数据进行更新;
所述元数据查询单元,用于根据所述数据质量管理模块的需要提供元数据查询,获得数据源的信息;
所述追踪日志收集单元,用于收集数据源的追踪日志并提供对追踪日志的查询功能;
所述元数据存储单元,用于存储数据源的结构和数据源之间的关系。
进一步地,所述数据清洗单元进行清洗治理过程中包括:
对待清洗的数据进行预处理;
对预处理后的需要处理的缺失数据、需要去除的重复数据、需要去除的噪声数据和需要处理的异常真实数据进行清洗治理;
其中,在对需要处理的缺失数据进行清洗治理时,根据如下步骤进行:
A1、计算缺失数据的占比;
Figure BDA0002818468470000041
上述公式中,Hi表示第i个缺失数据的占比,w(i)表示第i个缺失数据的属性数据,count(w(i))表示缺失数据所述的属性数据的数量,count(Ω)表示所有数据的数量;
A2、对计算的缺失数据的占比进行判断;
Figure BDA0002818468470000042
上述公式中,Di表示判断值,h表示预设阈值,在这里取0.1;
当判断值小于0.27时,对于缺失数据即可直接删除,当判断值大于等于0.27时,进行步骤A3;
A3、对缺失数据进行替换;
Figure BDA0002818468470000043
上述公式中,ki表示缺失函数的数据,MODE表示取众数函数。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明所述的一种基于人工智能技术的数据治理平台的结构示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
如图1所示,本发明实施例提供了一种基于人工智能技术的数据治理平台,包括:交互模块、数据应用模块、数据质量管理模块、元数据管理模块和数据访问模块;
所述交互模块,用于响应用户请求,实现与用户的交互;
所述数据应用模块,用于响应所述交互模块中用户请求的信息,维护数据的变更历史和数据之间的关系;
所述数据质量管理模块,用于对所述元数据管理模块中存储的元数据的数据源进行数据质量检测和数据清洗;
所述元数据管理模块,用于分析通过所述数据访问模块访问的数据源,从所述数据源中发现元数据,并对所述数据源的元数据进行存储;
所述数据访问模块,用于对治理的数据源进行访问。
上述技术方案的原理:上述技术方案中,数据治理平台包括交互模块、数据应用模块、数据质量管理模块、元数据管理模块和数据访问模块;交互模块响应用户请求,实现与用户的交互;数据应用模块响应所述交互模块中用户请求的信息,维护数据的变更历史和数据之间的关系;数据质量管理模块对所述元数据管理模块中存储的元数据的数据源进行数据质量检测和数据清洗;元数据管理模块分析通过所述数据访问模块访问的数据源,从数据源中发现元数据,并对所述数据源的元数据进行存储;数据访问模块对治理的数据源进行访问。
上述技术方案的有益效果:通过上述技术方案简化数据治理平台组件的复杂程度,使得数据治理平台程序维修的成本和可扩展性的成本降低,通过数据应用模块使得将客户一开始没有提到要将业务逻辑考虑在内,应付特殊状况,而且数据治理平台能够对数据进行质量检测,发现需要处理缺失数据、需去除的重复数据、需去除的噪声数据、需处理的异常但真实的数据,并提供数据健康度分析,为数据清洗和治理提供依据,再对这些检测出来的数据进行清洗治理,从而保证数据的完整性、唯一性、一致性、精确性、合法性、及时性数据质量,提高数据的品质,此外,数据交互模块能够将用户的请求收集并使得数据应用模块、数据质量管理模块、元数据管理模块和数据访问模块按照用户的请求的得到用户的请求信息反馈结果,以及将得到的用户请求信息反馈结果呈现给用户,使得用户直观获得请求信息反馈结果,方便用户使用,提高用户使用满意度;数据应用模块响应所述交互模块中用户请求的信息,面向用户提供服务,数据源维护单元根据用户的请求信息对数据进行创建、查询、修改和删除,从而获得满足客户请求的请求信息反馈结果,使得用户能获得比较满意的请求信息反馈结果;元数据管理模块从所述数据源中发现元数据,并对所述数据源的元数据进行存储,应用数据之间在时序上的关系,提高元数据发现的精度和效率。
本发明提供的一个实施例中,所述交互模块,包括:用户请求单元和数据交互单元;
所述用户请求单元,用于接收用户请求信息;
所述数据交互单元,用于将根据所述用户请求信息得到的反馈信息呈现给用户。
上述技术方案的原理:上述技术方案中,交互模块通过用户请求单元,用于接收用户请求信息;通过数据交互单元将根据所述用户请求信息得到的反馈信息呈现给用户。
上述技术方案的有益效果:通过上述技术方案交互模块实现与用户的交互,使得根据用户请求反馈给用户相应的结果,方便用户使用,用户请求单元能够将用户的请求收集并使得数据应用模块、数据质量管理模块、元数据管理模块和数据访问模块按照用户的请求的得到用户的请求信息反馈结果,并通过数据交互单元反馈给用户,使得用户直观获得请求信息反馈结果,提高用户使用满意度。
本发明提供的一个实施例中,所述数据应用模块,包括:数据源维护单元、数据历史查询单元和数据溯源单元;
所述数据源维护单元,用于向用户提供服务,允许用户对创建、查询、修改和删除数据源;
所述数据历史查询单元,用于查询数据源的优化过程和系统的迭代信息;
所述数据溯源单元,用于管理数据治理平台中的数据源的溯源信息。
上述技术方案的原理:上述技术方案中,数据应用模块通过数据源维护单元向用户提供服务,允许用户对创建、查询、修改和删除数据源;通过数据历史查询单元查询数据源的优化过程和系统的迭代信息;通过数据溯源单元管理数据治理平台中的数据源的溯源信息。
上述技术方案的有益效果:通过上述技术方案,数据应用模块响应所述交互模块中用户请求的信息,面向用户提供服务,数据源维护单元根据用户的请求信息对数据进行创建、查询、修改和删除,从而获得满足客户请求的请求信息反馈结果,使得用户能获得比较满意的请求信息反馈结果,通过数据源维护单元应付特殊状况,将客户一开始没有提到要将业务逻辑考虑在内,达到定制化,轻量化的目的;在数据系统中,出于业务迭代、系统架构演进等原因,数据源的结构经常会发生变更,因此就会产生数据源的一系列历史数据,数据历史查询单元将数据源的历史信息收集起来,进行初步的统计分析,反映数据源的重要性、稳定程度,使得数据源的优化和系统的迭代被了解和透明化呈现;大数据系统中,并非所有的数据源都产生原始的数据,或者是从系统外部直接引入的数据,有的可能是现有的数据源经过处理产生新的数据源,数据溯源单元将数据源经是由哪些数据源经过哪些处理得到进行溯源信息描述,提供数据源的详细信息,为提高数据质量,进行数据质量管理提供基础。
本发明提供的一个实施例中,所述数据质量管理模块,包括:数据质量检测单元和数据清洗单元;
所述数据质量检测单元,用于对数据进行检测,得到需要处理的缺失数据、需要去除的重复数据、需要去除的噪声数据和需要处理的异常真实数据,并获得数据健康度分析报告;
所述数据清洗单元,用于根据所述数据健康度分析报告进行清洗治理。
上述技术方案的原理:上述技术方案中,数据质量管理模块通过数据质量检测单元对数据进行检测,得到需要处理的缺失数据、需要去除的重复数据、需要去除的噪声数据、需要处理的异常真实数据,并获得数据健康度分析报告;通过数据清洗单元根据所述数据健康度分析报告进行清洗治理。
上述技术方案的有益效果:通过上述技术方案,数据质量检测单元和数据清洗单元发现需要处理缺失数据、需去除的重复数据、需去除的噪声数据、需处理的异常但真实的数据,并提供数据健康度分析,为数据清洗和治理提供依据,再对这些检测出来的数据进行清洗治理,从而保证数据的完整性、唯一性、一致性、精确性、合法性、及时性等数据质量,进而提高数据的质量,更好的实现数据治理。
本发明提供的一个实施例中,所述质量检测单元获得数据健康度分析报告的过程中,包括:
生成数据质量检测规则;
根据定义的数据质量检测规则制定数据质量检测方案;
对数据质量检测的时间进行定时设置;
依据定时设置的数据质量检测的时间,按照制定的数据质量检测方案进行数据质量检测,获得数据质量检测结果;
根据所述数据质量检测结果生成数据健康度分析报告。
上述技术方案的原理:上述技术方案中,质量检测单元获得数据质量检测报告时依次按照如下步骤:生成数据质量检测规则;根据定义的数据质量检测规则制定数据质量检测方案;对数据质量检测的时间进行定时设置;依据定时设置的数据质量检测的时间,按照制定的数据质量检测方案进行数据质量检测,获得数据质量检测结果;根据所述数据质量检测结果生成数据质量检测报告。
上述技术方案的有益效果:通过上述技术方案获得数据质量检测报告,以数据标准为数据检核依据,通过向导化、可视化等简易操作手段,将质量评估、质量检核、质量整改与质量报告等工作环节进行流程整合,形成完整的数据质量管理闭环,而且还能够通过进行定时设置使得质量检测单元定时自动执行质量检查,自动生成质检报告。
本发明提供的一个实施例中,所述数据健康度分析报告包括数据质量问题,数据质量问题的明细以及数据质量问题的改进建议。
上述技术方案的原理:上述技术方案,数据健康度分析报告中包含着数据质量问题,数据质量问题的明细以及数据质量问题的改进建议。
上述技术方案的有益效果:通过上述技术方案,在数据健康度分析报告中不仅能够体现数据质量问题,而且还能够查看数据质量问题的明细,并且还对数据质量问题的改进建议,使得通过数据健康度分析报告就能了解众多数据中存在的数据质量问题,而且还能够直接根据数据健康度分析报告中存在数据质量问题进行清洗治理,避免数据清洗单元在进行清洗治理时再耗费大量时间,加快数据清洗单元进行清洗治理的效率。
本发明提供的一个实施例中,所述生成数据质量检测规则时,通过Drools访问企业策略,调整以及管理的开源业务规则,通过CHARLESFORGY'S的RETE算法基于规则的系统的时间冗余性和结构相似性形成一个RETE网络进行模式匹配。
上述技术方案的原理:上述技术方案中,在生成数据质量检测规则时,通过Drools访问企业策略,调整和管理的开源业务规则,通过CHARLESFORGY'S的RETE算法基于规则的系统的时间冗余性和结构相似性形成一个RETE网络进行模式匹配。
上述技术方案的有益效果:通过上述技术方案,将业务逻辑和开发逻辑分离开来,分离质量规则决策者的规则逻辑和应用开发者的技术决策,使得前后台耦合性降低,基于Drools使得易于访问企业策略、易于调整以及易于管理的开源业务规则引擎,符合业内标准,而且提升了速度和效率,并且业务分析师或审核人员可以利用它轻松查看业务规则,从而检验是否已编码的规则执行了所需的业务规则,也降低对工作人员的素质要求,此外,基于Rete算法使得匹配速度与规则数目无关,达到前向规则快速匹配的目的,提高系统模式匹配效率。
本发明提供的一个实施例中,所述数据清洗单元通过数据转换工具,根据所述数据质量检测报告对缺失数据、重复数据、噪声数据和异常真实数据进行可视化操作处理。
上述技术方案的原理:上述技术方案中,通过数据清洗单元对缺失数据、重复数据、噪声数据和异常真实数据进行可视化操作处理。
上述技术方案的有益效果:通过上述技术方案对数据进行可视化操作处理,采用高级的数据操作,以一种很像传统excel软件的处理方式处理列和字段,满足单元格转换、增加源列、拆分列、行列转换等操作,使得对于探索、清洗、整合数据功能更加强大,使得数据清洗治理更加便捷。
本发明提供的一个实施例中,所述元数据管理模块,包括:元数据发现单元、元数据更新单元、元数据查询单元、追踪日志收集单元、数据模式监视单元和元数据存储单元;
所述元数据发现单元,用于获得数据源的元数据;
所述数据模式监视单元,用于监视数据模式,捕获数据模式的变更;
所述元数据更新单元,用于根据数据模式的变更对所述元数据进行更新;
所述元数据查询单元,用于根据所述数据质量管理模块的需要提供元数据查询,获得数据源的信息;
所述追踪日志收集单元,用于收集数据源的追踪日志并提供对追踪日志的查询功能;
所述元数据存储单元,用于存储数据源的结构和数据源之间的关系。
上述技术方案的原理:上述技术方案中,元数据管理模块通过元数据发现单元获得数据源的元数据;通过数据模式监视单元监视数据模式,捕获数据模式的变更;通过元数据更新单元根据数据模式的变更对所述元数据进行更新;通过元数据查询单元根据所述数据质量管理模块的需要提供元数据查询,获得数据源的信息;通过追踪日志收集单元收集数据源的追踪日志并提供对追踪日志的查询功能;通过元数据存储单元存储数据源的结构和数据源之间的关系。
上述技术方案的有益效果:通过上述技术方案分析通过所述数据访问模块访问的数据源,从所述数据源中发现元数据,并对所述数据源的元数据进行存储,应用数据之间在时序上的关系,提高元数据发现的精度和效率;元数据发现单元发现数据源的元数据,为元数据管理和数据治理提供基础;数据模式监视单元在当数据模式发生变化时,对变更做出响应,保证数据治理系统中管理的元数据和数据源本身的结构和数据属性之间的关系相一致;随着系统的迭代,元数据更新单元随着数据属性的种类和结构以及数据属性之间的关系发生变化进行更新,确保元数据对象反应真实、及时的数据属性结构和约束。
本发明提供的一个实施例中,所述数据清洗单元进行清洗治理过程中包括:
对待清洗的数据进行预处理;
对预处理后的需要处理的缺失数据、需要去除的重复数据、需要去除的噪声数据和需要处理的异常真实数据进行清洗治理;
其中,在对需要处理的缺失数据进行清洗治理时,根据如下步骤进行:
A1、计算缺失数据的占比;
Figure BDA0002818468470000121
上述公式中,Hi表示第i个缺失数据的占比,w(i)表示第i个缺失数据的属性数据,count(w(i))表示缺失数据所述的属性数据的数量,count(Ω)表示所有数据的数量;
A2、对计算的缺失数据的占比进行判断;
Figure BDA0002818468470000131
上述公式中,Di表示判断值,h表示预设阈值,在这里取0.1;
当判断值小于0.27时,对于缺失数据即可直接删除,当判断值大于等于0.27时,进行步骤A3;
A3、对缺失数据进行替换;
Figure BDA0002818468470000132
上述公式中,ki表示缺失函数的数据,MODE表示取众数函数。
上述技术方案的原理:上述技术方案中,数据清洗单元在进行清洗治理的时候先对数据进行预处理然后再进行数据清洗,其中对缺失数据进行数据清洗时,先计算缺失数据的占比,然后对计算的缺失数据的占比进行判断,最后对缺失数据进行替换。
上述技术方案的有益效果:通过上述技术方案,对待清洗的数据进行预处理使得在进行清洗治理时更加方便使用;在对缺失数据进行清洗治理时,根据缺失数据的占比判断缺失数据的重要影响程度,进而进行是否删除缺失数据的判断,使得缺失数据对数据的整体影响程度降低,在无法删除缺失数据时,根据缺数据的类型进行替换,使得将缺失数据对整体数据的影响降到最低,进而提升数据的品质。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (10)

1.一种基于人工智能技术的数据治理平台,其特征在于,所述数据治理平台包括:交互模块、数据应用模块、数据质量管理模块、元数据管理模块和数据访问模块;
所述交互模块,用于响应用户请求,实现与用户的交互;
所述数据应用模块,用于响应所述交互模块中用户请求的信息,维护数据的变更历史和数据之间的关系;
所述数据质量管理模块,用于对所述元数据管理模块中存储的元数据的数据源进行数据质量检测和数据清洗;
所述元数据管理模块,用于分析通过所述数据访问模块访问的数据源,从所述数据源中发现元数据,并对所述数据源的元数据进行存储;
所述数据访问模块,用于对治理的数据源进行访问。
2.根据权利要求1所述的数据治理平台,其特征在于,所述交互模块,包括:用户请求单元和数据交互单元;
所述用户请求单元,用于接收用户请求信息;
所述数据交互单元,用于将根据所述用户请求信息得到的反馈信息呈现给用户。
3.根据权利要求1所述的数据治理平台,其特征在于,所述数据应用模块,包括:数据源维护单元、数据历史查询单元和数据溯源单元;
所述数据源维护单元,用于向用户提供服务,允许用户对创建、查询、修改和删除数据源;
所述数据历史查询单元,用于查询数据源的优化过程和系统的迭代信息;
所述数据溯源单元,用于管理数据治理平台中的数据源的溯源信息。
4.根据权利要求1所述的数据治理平台,其特征在于,所述数据质量管理模块,包括:数据质量检测单元和数据清洗单元;
所述数据质量检测单元,用于对数据进行检测,得到需要处理的缺失数据、需要去除的重复数据、需要去除的噪声数据和需要处理的异常真实数据,并获得数据健康度分析报告;
所述数据清洗单元,用于根据所述数据健康度分析报告进行清洗治理。
5.根据权利要求4所述的数据治理平台,其特征在于,所述质量检测单元获得数据健康度分析报告的过程中,包括:
生成数据质量检测规则;
根据定义的数据质量检测规则制定数据质量检测方案;
对数据质量检测的时间进行定时设置;
依据定时设置的数据质量检测的时间,按照制定的数据质量检测方案进行数据质量检测,获得数据质量检测结果;
根据所述数据质量检测结果生成数据健康度分析报告。
6.根据权利要求5所述的数据治理平台,其特征在于,所述数据健康度分析报告包括数据质量问题,数据质量问题的明细以及数据质量问题的改进建议。
7.根据权利要求5所述的数据治理平台,其特征在于,所述生成数据质量检测规则时,通过Drools访问企业策略,调整以及管理的开源业务规则,通过CHARLESFORGY'S的RETE算法基于规则的系统的时间冗余性和结构相似性形成一个RETE网络进行模式匹配。
8.根据权利要求4所述的数据治理平台,其特征在于,所述数据清洗单元通过数据转换工具,根据所述数据质量检测报告对缺失数据、重复数据、噪声数据和异常真实数据进行可视化操作处理。
9.根据权利要求1所述的数据治理平台,其特征在于,所述元数据管理模块,包括:元数据发现单元、元数据更新单元、元数据查询单元、追踪日志收集单元、数据模式监视单元和元数据存储单元;
所述元数据发现单元,用于获得数据源的元数据;
所述数据模式监视单元,用于监视数据模式,捕获数据模式的变更;
所述元数据更新单元,用于根据数据模式的变更对所述元数据进行更新;
所述元数据查询单元,用于根据所述数据质量管理模块的需要提供元数据查询,获得数据源的信息;
所述追踪日志收集单元,用于收集数据源的追踪日志并提供对追踪日志的查询功能;
所述元数据存储单元,用于存储数据源的结构和数据源之间的关系。
10.根据权利要求4所述的数据治理平台,其特征在于,所述数据清洗单元进行清洗治理过程中包括:
对待清洗的数据进行预处理;
对预处理后的需要处理的缺失数据、需要去除的重复数据、需要去除的噪声数据和需要处理的异常真实数据进行清洗治理;
其中,在对需要处理的缺失数据进行清洗治理时,根据如下步骤进行:
A1、计算缺失数据的占比;
Figure FDA0002818468460000031
上述公式中,Hi表示第i个缺失数据的占比,w(i)表示第i个缺失数据的属性数据,count(w(i))表示缺失数据所述的属性数据的数量,count(Ω)表示所有数据的数量;
A2、对计算的缺失数据的占比进行判断;
Figure FDA0002818468460000041
上述公式中,Di表示判断值,h表示预设阈值,在这里取0.1;
当判断值小于0.27时,对于缺失数据即可直接删除,当判断值大于等于0.27时,进行步骤A3;
A3、对缺失数据进行替换;
Figure FDA0002818468460000042
上述公式中,ki表示缺失函数的数据,MODE表示取众数函数。
CN202011409349.2A 2020-12-04 2020-12-04 一种基于人工智能技术的数据治理平台 Pending CN112506906A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011409349.2A CN112506906A (zh) 2020-12-04 2020-12-04 一种基于人工智能技术的数据治理平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011409349.2A CN112506906A (zh) 2020-12-04 2020-12-04 一种基于人工智能技术的数据治理平台

Publications (1)

Publication Number Publication Date
CN112506906A true CN112506906A (zh) 2021-03-16

Family

ID=74971762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011409349.2A Pending CN112506906A (zh) 2020-12-04 2020-12-04 一种基于人工智能技术的数据治理平台

Country Status (1)

Country Link
CN (1) CN112506906A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116610724A (zh) * 2023-04-23 2023-08-18 北京优特捷信息技术有限公司 一种日志数据追踪方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121993A (zh) * 2016-11-28 2018-06-05 中国移动通信有限公司研究院 一种数据处理方法及装置
CN108153747A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种并行数据清洗系统
CN109241107A (zh) * 2018-08-03 2019-01-18 北京邮电大学 基于Hadoop的大数据治理装置
CN109635118A (zh) * 2019-01-10 2019-04-16 博拉网络股份有限公司 一种基于大数据的用户搜索匹配方法
CN111177217A (zh) * 2019-12-24 2020-05-19 平安信托有限责任公司 数据预处理方法、装置、计算机设备及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108121993A (zh) * 2016-11-28 2018-06-05 中国移动通信有限公司研究院 一种数据处理方法及装置
CN108153747A (zh) * 2016-12-02 2018-06-12 航天星图科技(北京)有限公司 一种并行数据清洗系统
CN109241107A (zh) * 2018-08-03 2019-01-18 北京邮电大学 基于Hadoop的大数据治理装置
CN109635118A (zh) * 2019-01-10 2019-04-16 博拉网络股份有限公司 一种基于大数据的用户搜索匹配方法
CN111177217A (zh) * 2019-12-24 2020-05-19 平安信托有限责任公司 数据预处理方法、装置、计算机设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116610724A (zh) * 2023-04-23 2023-08-18 北京优特捷信息技术有限公司 一种日志数据追踪方法、装置、电子设备和存储介质
CN116610724B (zh) * 2023-04-23 2024-02-09 北京优特捷信息技术有限公司 一种日志数据追踪方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US11216461B2 (en) Query transformations in a hybrid multi-cloud database environment per target query performance
CN110796470B (zh) 一种面向市场主体监管和服务的数据分析系统
US11403347B2 (en) Automated master data classification and curation using machine learning
Tran et al. A new approach to dynamic self-tuning of database buffers
Palopoli et al. DIKE: a system supporting the semi‐automatic construction of cooperative information systems from heterogeneous databases
US20150039555A1 (en) Heuristically modifying dbms environments using performance analytics
CN110544035A (zh) 一种内控检测方法、系统和计算机可读存储介质
WO2024001080A1 (zh) 基于人工智能运维的数据库贯穿基础设施的故障定位方法
CN114756563A (zh) 一种互联网多种复杂业务线并存的数据治理系统
CN115221337A (zh) 数据编织处理方法、装置、电子设备及可读存储介质
Dai Designing an accounting information management system using big data and cloud technology
CN111861750A (zh) 一种基于决策树方法的特征衍生系统及可读存储介质
US8364697B2 (en) Method and system for creation and dynamic updating of best data arrangement in digital data store system
CN112506906A (zh) 一种基于人工智能技术的数据治理平台
CN117217933A (zh) 用于保险行业的数据多维分析方法及装置
CN116318907A (zh) 基于大数据和神经网络分析计算机网络态势的方法及系统
Govindasamy et al. Prediction of events based on complex event processing and probabilistic fuzzy logic
Sun Management Research of Big Data Technology in Financial Decision-Making of Enterprise Cloud Accounting
Guo et al. Influencing Factors and Forecasting Statistics of Enterprise Market Sales Based on Big Data and Intelligent IoT
Zhu et al. Research on system of data mining technology based on computer
Wang et al. Research on information intelligent collection model of service consultation system
Liu RETRACTED: Research on the Application of Artificial Intelligence in Energy Science and Engineering Monitoring Software Engineering Technology under the Background of Big Data
Němec Assessment of query execution performance using selected Business Intelligence tools and experimental agile oriented data modeling approach
LI et al. Potential off-grid user prediction system based on Spark
Tian et al. RETRACTED: Research on Big Data Analysis Platform of Power Grid Enterprise Accounting Based on Cloud Computing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210316

RJ01 Rejection of invention patent application after publication