CN111291031A - 一种数据修正方法及装置 - Google Patents
一种数据修正方法及装置 Download PDFInfo
- Publication number
- CN111291031A CN111291031A CN202010074178.6A CN202010074178A CN111291031A CN 111291031 A CN111291031 A CN 111291031A CN 202010074178 A CN202010074178 A CN 202010074178A CN 111291031 A CN111291031 A CN 111291031A
- Authority
- CN
- China
- Prior art keywords
- data
- correction
- standard
- service
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012937 correction Methods 0.000 title claims abstract description 77
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000001514 detection method Methods 0.000 claims abstract description 18
- 238000004590 computer program Methods 0.000 claims description 12
- 230000015654 memory Effects 0.000 claims description 10
- 238000012986 modification Methods 0.000 claims description 10
- 230000004048 modification Effects 0.000 claims description 10
- 238000006243 chemical reaction Methods 0.000 claims description 7
- 238000010835 comparative analysis Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 6
- 238000013523 data management Methods 0.000 abstract description 42
- 238000007726 management method Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012217 deletion Methods 0.000 description 3
- 230000037430 deletion Effects 0.000 description 3
- 238000012544 monitoring process Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000012800 visualization Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了一种数据修正方法及装置,应用于数据治理系统,包括:获取目标数据源的业务数据;对所述业务数据进行数据检测,得到所述业务数据中的问题数据;根据目标数据源对应的行业数据标准,为所述问题数据匹配对应的修正规则;依据所述问题数据对应的修正规则对业务数据中问题数据进行修正,得到修正后的标准数据.本申请实施例所提出的数据治理方法通过有针对性地以目标数据源所属行业的行业数据标准来进行数据治理,实现了数据高效的智能标准化处理,提高了数据治理的准确度。
Description
技术领域
本申请涉及数据处理领域,具体而言,涉及一种数据修正方法及装置。
背景技术
数据治理是组织中涉及数据使用的一整套管理行为。由企业数据治理部门发起并推行,关于如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程。数据治理的最终目标是提升数据的价值,数据治理非常必要,是企业实现数字战略的基础,它是一个管理体系,包括组织、制度、流程和工具。
目前大部分企业使用第三方平台的服务来进行数据治理的工作,现有技术中第三方的数据治理是通过统一的数据标准对各类数据源的业务数据进行数据处理,使得数据符合数据标准的基本语义和业务规则,物理定义符合技术规范,但由于数据标准是通用的,导致数据治理得到的修正后的数据往往存在部分数据不符合数据源所属的行业数据标准。
发明内容
有鉴于此,本申请的目的在于提供一种数据修正方法及装置,用于解决现有技术中数据治理的准确度低的问题。
第一方面,本申请实施例提供了一种数据修正方法,应用于数据治理系统,该方法包括:
获取目标数据源的业务数据;
对所述业务数据进行数据检测,得到所述业务数据中的问题数据;
根据目标数据源对应的行业数据标准,为所述问题数据匹配对应的修正规则;
依据所述问题数据对应的修正规则对业务数据中问题数据进行修正,得到修正后的标准数据。
根据第一方面,本申请实施例提供了第一方面的第一种可能的实施方案,其中,在所述根据目标数据源对应的行业数据标准,为所述问题数据匹配对应的修正规则之前,还包括:
根据所述目标数据源对应的行业领域,从历史数据库获取所述行业领域的历史业务数据;
根据所述历史业务数据中各类别中使用频次最高的数据格式,确定所述目标数据源对应的行业数据标准。
根据第一方面,本申请实施例提供了第一方面的第二种可能的实施方案,其中,根据目标数据源对应的行业数据标准,为所述问题数据匹配对应的修正规则,包括:
根据目标数据源对应的行业数据标准,匹配所述问题数据对应的参考处理规则;
将所述问题数据及对应的参考处理规则发送给管理端,以使管理端返回针对所述参考处理规则进行修订后的修正规则。
根据第一方面,本申请实施例提供了第一方面的第三种可能的实施方案,其中,在依据所述问题数据对应的修正规则对业务数据中问题数据进行修正,得到修正后的标准数据之后,还包括:
根据所述修正后的标准数据,更新目标数据源对应的行业数据标准。
根据第一方面,本申请实施例提供了第一方面的第四种可能的实施方案,其中,还包括:
通过显示设备同步展示针对目标数据源的数据修正状态和修正过程中生成的反馈报告;所述反馈报告包括以下的任意一种或多种:数据概况统计报告、数据质量报告、问题数据报告和对比分析报告。
根据第一方面,本申请实施例提供了第一方面的第五种可能的实施方案,其中,所述目标数据源包括以下的任意一种或多种:日志服务器和业务服务器。
根据第一方面,本申请实施例提供了第一方面的第六种可能的实施方案,其中,所述修正规则包括数据分类、格式转换、缺失数据补全和重复数据删除。
第二方面,本申请实施例提供了一种数据修正装置,应用于数据治理系统,该装置包括:
获取模块,用于获取目标数据源的业务数据;
检测模块,用于对所述业务数据进行数据检测,得到所述业务数据中的问题数据;
匹配模块,用于根据目标数据源对应的行业数据标准,为所述问题数据匹配对应的修正规则;
修正模块,用于依据所述问题数据对应的修正规则对业务数据中问题数据进行修正,得到修正后的标准数据。
第三方面,本申请实施例提供了一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面及其可能的实施方案中任一项所述的方法的步骤。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面及其可能的实施方案中任一项所述的方法的步骤。
本申请实施例提出的一种数据修正方法,通过对目标数据源的业务数据进行数据检测,以得到所述业务数据中的问题数据,再根据目标数据源对应的行业数据标准,为所述问题数据匹配对应的修正规则并使用该修正规则对问题数据进行修正。本申请实施例所提出的数据治理方法通过有针对性地以目标数据源所属行业的行业数据标准来进行数据治理,实现了数据高效的智能标准化处理,提高了数据治理的准确度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种数据修正方法的流程示意图;
图2为本申请实施例提供的一种数据修正方法的流程示意图;
图3为本申请实施例提供的一种数据修正装置的结构示意图;
图4为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
数据治理构成了公司范围数据管理的基础,可以有效地使用可信赖的数据。有效的数据管理是一项需要集中控制机制的重要任务。现有技术中第三方的数据治理是通过通用数据标准对各类数据源的业务数据进行数据处理,使得数据符合数据标准的基本语义和业务规则,物理定义符合技术规范,但由于数据标准是通用的,导致数据治理得到的修正后的数据往往存在部分数据不符合数据源所属的行业数据标准,从而导致了数据治理的准确度低。并且现有技术中使用通用数据标准,无法实现积累数据治理中不同行业的标准和知识,并且检查业务数据落标情况是较为困难的。
因此,本申请旨在提供一种数据修正方法,通过适应性地使用与所服务的目标数据源所属的行业相符的数据标准来进行数据治理中的数据修正,将存在问题的数据修正为符合行业数据标准的标准化数据,以实现提升数据治理效率、积累数据治理知识以及辅助各行业进行业务数据落标检测的目的。
本申请实施例提供了一种数据修正方法,应用于数据治理系统,如图1所示,包括以下步骤:
步骤S101,获取目标数据源的业务数据;
步骤S102,对上述业务数据进行数据检测,得到上述业务数据中的问题数据;
步骤S103,根据目标数据源对应的行业数据标准,为上述问题数据匹配对应的修正规则;
步骤S104,依据上述问题数据对应的修正规则对业务数据中问题数据进行修正,得到修正后的标准数据。
具体地,在数据治理系统为用户服务时,要连入用户的数据源(目标数据源),从中获取所要进行数据标准化的业务数据,然后通过数据治理系统中的数据质量组件对该部分原始的业务数据进行处理前的数据检测,标记处符合标准的数据和的问题数据。
针对问题数据,需要通过数据治理系统中所装载的问题识别组件分析问题数据不符合标准的问题事件,并根据分析得到的问题事件匹配对应的修正规则,再以该修正规则为依据进行问题数据的标准化修正,得到修正后的标准数据,并将该修正后的标准数据按数据标准整合到符合标准的数据所在的表单下,得到标准化的业务数据,并返回给用户。
其中,在数据治理系统可能会对部分问题数据无法匹配出对应的修正规则,这部分问题数据会整理出来形成清单,交由管理端的工作人员进行修正规则的决策。
由于所使用的数据标准是与目标数据源所属的行业领域相适应的,因此能够避免在传统的数据治理中由于不分行业领域地使用统一数据标准,导致的部分标准化后的数据与行业的数据标准要求不匹配的情况,完善了标准化检测,有效地提升了数据的质量,为用户提供完整、及时、准确、高质量的数据。
以上的数据修正服务是通过将通用元数据对接数据治理系统来提供底层元数据存储和服务的能力,其中,通用元数据包括了技术元数据和业务元数据,通用元数据为数据治理系统的数据检测和修正提供了元数据支持。
本申请实施例通过对目标数据源的业务数据进行数据检测得到业务数据中存在数据格式问题或数据内容问题的问题数据,接着,根据目标数据源所属行业的数据标准为所述问题数据匹配对应的修正规则,再根据该修正规则对问题数据进行标准化修正,以得到修正后的标准数据。本申请实施例所提出的数据治理方法通过有针对性地以目标数据源所属行业的行业数据标准来进行数据治理,实现了数据高效的智能标准化处理,提高了数据治理的准确度。
在一可选的实施例中,上述目标数据源包括以下的任意一种或多种:日志服务器和业务服务器。
具体地,目标数据源是任意的一个或多个存储业务数据的数据源,常见的有存储操作数据的日志服务器和存储业务文件的业务服务器,也可以是其他种类存储业务数据的数据源,对此不予限制。
在一可选的实施例中,上述修正规则包括数据分类、格式转换、缺失数据补全和重复数据删除。
具体地,数据治理系统智能分析及匹配出的修正规则中包括了数据分类、格式转换、缺失数据补全和重复数据删除的修正项。
问题数据是数据的格式或者内容与所在的业务数据的类别或项目下的数据标准不符的数据,因此就要针对问题数据进行类别智能匹配,即数据分类,又称作数据对标。
问题数据还可能存在虽确定了数据的类别,但其内容不符合基本语义和/或所属行业的业务规则,因此需要格式转换。
有些问题数据本身是残缺数据,需要对其进行分析,判断是否可以进行修复,当该问题数据不可修复时,是否应该进行人工处理等操作,这些都是在缺失数据补全这一修正项中所要判断的。在部分情况下残缺数据也有可能本身是一个不必要的错误数据,当数据治理系统分析残缺数据判断出该数据不属于目标数据源所属的业务数据时,可生成删除该数据的修正规则。
部分数据可能存在是因为与其他数据重复而被判断是问题数据的,这类问题数据是否进行删除,数据治理系统会判断该问题数据是否确实是无用的重复数据,并得出该问题数据的重复数据删除的修正项的策略。
在一可选的实施例中,上述方法还包括:
步骤105,通过显示设备同步展示针对目标数据源的数据修正状态和修正过程中生成的反馈报告;上述反馈报告包括以下的任意一种或多种:数据概况统计报告、数据质量报告、问题数据报告和对比分析报告。
具体地,本申请实施例还提供了数据修正的进程可视化功能,该功能可以实现对数据治理的全链路动态监控,并且可以浏览数据治理中各阶段所生成的所有反馈报告,如:对业务数据进行检测时生成的数据质量报告和问题数据清单,或对于问题数据进行修正规则匹配时生成的问题数据的问题类型统计报告,或对比数据治理系统进行数据修正前的业务数据和数据修正后的标准数据的对比分析报告等。
该功能可以是以提供给数据治理系统的管理员进行系统调试或测试时使用的形式实现,也可以是以将该功能下所要展示的状态数据和反馈报告通过实时向用户反馈的形式实现。
在一可选的实施例中,在上述步骤S103,根据目标数据源对应的行业数据标准,为上述问题数据匹配对应的修正规则之前,还包括:
步骤106,根据上述目标数据源对应的行业领域,从历史数据库获取上述行业领域的历史业务数据;
步骤107,根据上述历史业务数据中各类别中使用频次最高的数据格式,确定上述目标数据源对应的行业数据标准。
具体地,数据治理系统所使用的行业数据标准是通过数据治理系统对目标数据源所属行业的现有的业务术语、代码表、业务规则、业务定义等基础数据,和历史数据库中该目标数据源所属行业的历史业务数据,进行标准采集并分析提炼得到的。
其中,对于历史数据库中的历史业务数据通常是通过对各类别中的数据格式使用的频次进行统计,选择平次最高的数据格式作为所在类别的数据标准,但也可以通过其他规则筛选出数据标准,本申请对此不予限制。
在一可选的实施例中,步骤S103,根据目标数据源对应的行业数据标准,为上述问题数据匹配对应的修正规则,如图2所示,该方法包括:
步骤S1031,根据目标数据源对应的行业数据标准,匹配上述问题数据对应的参考处理规则;
步骤S1032,将上述问题数据及对应的参考处理规则发送给管理端,以使管理端返回针对上述参考处理规则进行修订后的修正规则。
具体地,由于数据治理系统分析匹配得到参考处理规则只是根据数据标准判断的,可能存在判断失误或判断不当的可能,所以需要管理端的进行人工审核,并对判断失误或判断不当的参考处理规则进行修订,得到修订后的修正规则。
在一可选的实施例中,在步骤S104,依据上述问题数据对应的修正规则对业务数据中问题数据进行修正,得到修正后的标准数据之后,还包括:
步骤108,根据上述修正后的标准数据,更新目标数据源对应的行业数据标准。
具体地,数据治理系统中的数据标准是通过每一次对用户进行的数据治理服务来进行完善的,通过对修正后的标准数据进行分析,积累数据治理知识,也就是由数据元、数据元限定词、数据项、字典表、通用规则等组成的数据标准。
并且,数据治理系统所构建的针对各行业的业务数据标准可以以API(Application Programming Interface,应用程序接口)的方式共享给其他用户,也可以在接入一个新数据源之后可使用已通过在历史数据治理中积累的知识进行该新数据源的数据治理。
为了对本申请进行详细阐述,下对本申请实施方案进行举例说明:
有一用户提供的数据源是广告曝光日志服务器,数据治理系统基于广告行业的现有的业务术语、代码表、业务规则、业务定义等基础数据,和历史数据库中广告行业的历史业务数据,进行标准采集并分析提炼得到的广告行业数据标准;将通用元数据对接数据治理系统,以提供底层元数据存储和服务的能力;数据治理系统对接上述广告曝光日志服务器,接入广告曝光日志数据作为原始层的业务数据;通过数据治理系统中的数据质量组件介入,对原始层的业务数据进行事前数据检测,输出数据质量报告和问题数据;针对其中的问题数据,进行参考处理规则的智能匹配,按照广告行业数据标准自动对问题数据进行数据分类、格式转换、缺失数据补全和重复数据删除等修正项的配置,生成参考处理规则,再将该参考处理规则发送给管理端,通过管理端的审核人员复查检验确认,并对参考处理规则进行修订,将修订后的修正规则返回给数据治理系统,以使数据治理系统能够根据修正规则对问题数据进行数据修正。
数据治理系统中的数据质量组件对治理的数据做事中事后检测,输出数据质量报告、质量对比报告,并形成对应的问题数据统计报告和问题数据清单,以供管理人员进一步讨论可能存在的剩余问题数据修正方案,进行有针对性的数据修正,待该部分问题数据也完成修正后,将全部修正后的标准数据和在事前检测中符合标准的业务数据一并反馈给用户端。
通过显示设备进行治理全链路动态监控,对数据概况统计报告、数据质量报告、问题数据统计报告、问题数据清单、数据修正前后数据质量的对比分析报告和任务状态监控等内容进行显示,或将上述内容实时发送给用户端。
数据治理系统对管理端修订后的修正规则以及修正后的标准数据,进行分析,更新完善广告行业的数据标准以及修正规则的判断策略,完成知识积累;通过事前数据标准采集和事中的数据标准的完善,形成包含广告行业数据资源目录、规则库、字典库等的广告行业数据标准知识库,可通过API的方式提供知识分享服务。
本申请实施例提供了一种数据修正装置,应用于数据治理系统,如图3所示,包括:
获取模块30,用于获取目标数据源的业务数据;
检测模块31,用于对上述业务数据进行数据检测,得到上述业务数据中的问题数据;
匹配模块32,用于根据目标数据源对应的行业数据标准,为上述问题数据匹配对应的修正规则;
修正模块33,用于依据上述问题数据对应的修正规则对业务数据中问题数据进行修正,得到修正后的标准数据。
在一可选的实施例中,所述装置还包括:标准模块,用于根据上述目标数据源对应的行业领域,从历史数据库获取上述行业领域的历史业务数据;根据上述历史业务数据中各类别中使用频次最高的数据格式,确定上述目标数据源对应的行业数据标准。
在一可选的实施例中,匹配模块32,包括:
匹配单元,用于根据目标数据源对应的行业数据标准,匹配上述问题数据对应的参考处理规则;
通信单元,用于将上述问题数据及对应的参考处理规则发送给管理端,以使管理端返回针对上述参考处理规则进行修订后的修正规则。
在一可选的实施例中,该装置还包括:
更新模块,用于根据上述修正后的标准数据,更新目标数据源对应的行业数据标准。
在一可选的实施例中,该装置还包括:
可视化模块,用于通过显示设备同步展示针对目标数据源的数据修正状态和修正过程中生成的反馈报告;上述反馈报告包括以下的任意一种或多种:数据概况统计报告、数据质量报告、问题数据报告和对比分析报告。
在一可选的实施例中,上述目标数据源包括以下的任意一种或多种:日志服务器和业务服务器。
在一可选的实施例中,上述修正规则包括数据分类、格式转换、缺失数据补全和重复数据删除。
对应于图1中的一种数据修正方法,本申请实施例还提供了一种计算机设备400,如图4所示,该设备包括存储器401、处理器402及存储在该存储器401上并可在该处理器402上运行的计算机程序,其中,上述处理器402执行上述计算机程序时实现上述一种数据修正方法。
具体地,上述存储器401和处理器402能够为通用的存储器和处理器,这里不做具体限定,当处理器402运行存储器401存储的计算机程序时,能够执行上述一种数据修正方法,解决了现有技术中数据治理的准确度低的问题。
对应于图1中的一种数据修正方法,本申请实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述一种数据修正方法的步骤。
具体地,该存储介质能够为通用的存储介质,如移动磁盘、硬盘等,该存储介质上的计算机程序被运行时,能够执行上述一种数据修正方法,解决了现有技术中数据治理的准确度低的问题,本申请实施例提出的一种数据修正方法,通过对目标数据源的业务数据进行数据检测,以得到所述业务数据中的问题数据,再根据目标数据源对应的行业数据标准,为所述问题数据匹配对应的修正规则并使用该修正规则对问题数据进行修正。本申请实施例所提出的数据治理方法通过有针对性地以目标数据源所属的行业的行业数据标准来进行数据治理,实现了数据高效的智能标准化处理,提高了数据治理的准确度。
在本申请所提供的实施例中,应该理解到,所揭露方法和装置,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请提供的实施例中的各功能单元可以集成在一个修正单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释,此外,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围。都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
Claims (10)
1.一种数据修正方法,其特征在于,应用于数据治理系统,包括:
获取目标数据源的业务数据;
对所述业务数据进行数据检测,得到所述业务数据中的问题数据;
根据目标数据源对应的行业数据标准,为所述问题数据匹配对应的修正规则;
依据所述问题数据对应的修正规则对业务数据中问题数据进行修正,得到修正后的标准数据。
2.根据权利要求1所述的方法,其特征在于,在所述根据目标数据源对应的行业数据标准,为所述问题数据匹配对应的修正规则之前,还包括:
根据所述目标数据源对应的行业领域,从历史数据库获取所述行业领域的历史业务数据;
根据所述历史业务数据中各类别中使用频次最高的数据格式,确定所述目标数据源对应的行业数据标准。
3.根据权利要求1所述的方法,其特征在于,根据目标数据源对应的行业数据标准,为所述问题数据匹配对应的修正规则,包括:
根据目标数据源对应的行业数据标准,匹配所述问题数据对应的参考处理规则;
将所述问题数据及对应的参考处理规则发送给管理端,以使管理端返回针对所述参考处理规则进行修订后的修正规则。
4.根据权利要求1所述的方法,其特征在于,在依据所述问题数据对应的修正规则对业务数据中问题数据进行修正,得到修正后的标准数据之后,还包括:
根据所述修正后的标准数据,更新目标数据源对应的行业数据标准。
5.根据权利要求1所述的方法,其特征在于,还包括:
通过显示设备同步展示针对目标数据源的数据修正状态和修正过程中生成的反馈报告;所述反馈报告包括以下的任意一种或多种:数据概况统计报告、数据质量报告、问题数据报告和对比分析报告。
6.根据权利要求1所述的方法,其特征在于,所述目标数据源包括以下的任意一种或多种:日志服务器和业务服务器。
7.根据权利要求1所述的方法,其特征在于,所述修正规则包括数据分类、格式转换、缺失数据补全和重复数据删除。
8.一种数据修正装置,其特征在于,应用于数据治理系统,包括:
获取模块,用于获取目标数据源的业务数据;
检测模块,用于对所述业务数据进行数据检测,得到所述业务数据中的问题数据;
匹配模块,用于根据目标数据源对应的行业数据标准,为所述问题数据匹配对应的修正规则;
修正模块,用于依据所述问题数据对应的修正规则对业务数据中问题数据进行修正,得到修正后的标准数据。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现上述权利要求1-7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1-7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010074178.6A CN111291031A (zh) | 2020-01-22 | 2020-01-22 | 一种数据修正方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010074178.6A CN111291031A (zh) | 2020-01-22 | 2020-01-22 | 一种数据修正方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111291031A true CN111291031A (zh) | 2020-06-16 |
Family
ID=71030704
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010074178.6A Pending CN111291031A (zh) | 2020-01-22 | 2020-01-22 | 一种数据修正方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111291031A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109462517A (zh) * | 2018-10-24 | 2019-03-12 | 云南电网有限责任公司信息中心 | 一种面向数字电网业务的数据监测的方法、系统及设备 |
CN109522746A (zh) * | 2018-11-07 | 2019-03-26 | 平安医疗健康管理股份有限公司 | 一种数据处理方法、电子设备及计算机存储介质 |
CN110008208A (zh) * | 2019-04-04 | 2019-07-12 | 北京易华录信息技术股份有限公司 | 一种数据治理方法及系统 |
CN110162516A (zh) * | 2019-05-27 | 2019-08-23 | 浪潮软件集团有限公司 | 一种基于海量数据处理的数据治理的方法及系统 |
-
2020
- 2020-01-22 CN CN202010074178.6A patent/CN111291031A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109462517A (zh) * | 2018-10-24 | 2019-03-12 | 云南电网有限责任公司信息中心 | 一种面向数字电网业务的数据监测的方法、系统及设备 |
CN109522746A (zh) * | 2018-11-07 | 2019-03-26 | 平安医疗健康管理股份有限公司 | 一种数据处理方法、电子设备及计算机存储介质 |
CN110008208A (zh) * | 2019-04-04 | 2019-07-12 | 北京易华录信息技术股份有限公司 | 一种数据治理方法及系统 |
CN110162516A (zh) * | 2019-05-27 | 2019-08-23 | 浪潮软件集团有限公司 | 一种基于海量数据处理的数据治理的方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10769159B2 (en) | Systems and methods for data mining of historic electronic communication exchanges to identify relationships, patterns, and correlations to deal outcomes | |
EP3308297B1 (en) | Data quality analysis | |
CN110019486B (zh) | 数据采集方法、装置、设备及存储介质 | |
CN109522746A (zh) | 一种数据处理方法、电子设备及计算机存储介质 | |
US9047164B2 (en) | Calculating defect density by file and source module | |
CN111078140B (zh) | 核电站文件上传管理方法、装置、终端设备及介质 | |
US11625371B2 (en) | Automated audit balance and control processes for data stores | |
CN109272219B (zh) | 绩效考核方法、装置、计算机设备及存储介质 | |
US20120116984A1 (en) | Automated evaluation of compliance data from heterogeneous it systems | |
CN111553137A (zh) | 报告生成方法、装置、存储介质及计算机设备 | |
CN112667697A (zh) | 结合rpa和ai的房产信息的获取方法及装置 | |
WO2024067358A1 (zh) | 仓库管理系统的效率分析方法、系统及计算机设备 | |
CN113868498A (zh) | 数据存储方法、电子装置、装置及可读存储介质 | |
CN114880405A (zh) | 一种基于数据湖的数据处理方法及系统 | |
US8543552B2 (en) | Detecting statistical variation from unclassified process log | |
CN110618911B (zh) | 数据监控方法、装置、存储介质和服务器 | |
CN109947797B (zh) | 一种数据检查装置及方法 | |
CN117217699A (zh) | 一种合同审批管理系统及方法 | |
Hinrichs et al. | An ISO 9001: 2000 Compliant Quality Management System for Data Integration in Data Warehouse Systems. | |
CN111291031A (zh) | 一种数据修正方法及装置 | |
CN116719799A (zh) | 环保数据治理方法、装置、计算机设备和存储介质 | |
CN110795308A (zh) | 一种服务器检验方法、装置、设备及存储介质 | |
CN111209765B (zh) | 识别物料条码的方法、装置及终端设备 | |
CN112860700A (zh) | 数据表的生成方法及装置、存储介质及电子装置 | |
CN111045983A (zh) | 核电站电子文件管理方法、装置、终端设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200616 |
|
RJ01 | Rejection of invention patent application after publication |