CN113626421A - 一种数据校验的数据质量管控方法 - Google Patents

一种数据校验的数据质量管控方法 Download PDF

Info

Publication number
CN113626421A
CN113626421A CN202110879128.XA CN202110879128A CN113626421A CN 113626421 A CN113626421 A CN 113626421A CN 202110879128 A CN202110879128 A CN 202110879128A CN 113626421 A CN113626421 A CN 113626421A
Authority
CN
China
Prior art keywords
data
verification
quality control
nodes
control method
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110879128.XA
Other languages
English (en)
Inventor
高冉
唐立宝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Software Co Ltd
Original Assignee
Inspur Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Software Co Ltd filed Critical Inspur Software Co Ltd
Priority to CN202110879128.XA priority Critical patent/CN113626421A/zh
Publication of CN113626421A publication Critical patent/CN113626421A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及数据汇聚中数据质量管控领域,具体提供了一种数据校验的数据质量管控方法,有事前节点、事中节点和事后节点三部分,不同节点采用不同的校验算法,具体为:所述事前节点中制定标准规则,所述事中节点中进行身份校验和字段级校验,所述事后节点中进行逻辑运算校验和预警校验。与现有技术相比,本发明通过事前、事中和事后三个数据汇聚节点进行数据质量检测,基本涵盖了数据处理的所有节点,能够从数据处理的生命周期做到从开始到结束,全程护航数据,确保数据质量稳定可靠,具有良好的推广价值。

Description

一种数据校验的数据质量管控方法
技术领域
本发明涉及数据汇聚中数据质量管控领域,具体提供一种数据校验的数据质量管控方法。
背景技术
数据质量管理(Data Quality Management),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。
目前的数据质量管理主要集中于字段级校验,且校验阶段大多位于事后。
一方面校验覆盖面不够全面,另一方面,校验的维度不够多样,对于问题数据无法及时反馈,导致数据质量管控难度较大,质量不高。
发明内容
本发明是针对上述现有技术的不足,提供一种实用性强的数据校验的数据质量管控方法。
本发明解决其技术问题所采用的技术方案是:
一种数据校验的数据质量管控方法,有事前节点、事中节点和事后节点三部分,不同节点采用不同的校验算法,具体为:
所述事前节点中制定标准规则,所述事中节点中进行身份校验和字段级校验,所述事后节点中进行逻辑运算校验和预警校验。
进一步的,在事中节点身份校验中,数据汇集中,数据生产者身份要进行验证。
进一步的,在事中节点字段级校验中,数据汇聚过程中根据标准规范进行字段级数据校验,字段级校验提供相关校验结果查询功能,且校验完毕的数据存在待校验库,经过事后节点逻辑运算校验后迁移到正式库。
作为优选,字段级数据校验规则包括完整性、数据准确性、数据一致性和数据及时性。
进一步的,在事后节点逻辑运算中,根据待校验库中数据的汇聚时间,定时进行逻辑运算校验,校验通过,转移数据进正式数据库,校验失败提供相关校验结果查询功能,提示数据问题。
进一步的,在事后节点逻辑运算中,校验失败的数据提供待校验数据查询,及时查找数据问题并针对性进行修正。
进一步的,在事后节点预警校验中,逻辑校验完毕通过的数据将会被迁移进正式库,此时的数据一定程度上已经属于可信数据。
进一步的,在事后节点预警校验中,要进一步提高数据质量,设置部分预警算法,用于对异常数据进行校验。
本发明的一种数据校验的数据质量管控方法和现有技术相比,具有以下突出的有益效果:
本发明通过事前、事中和事后三个数据汇聚节点进行数据质量检测,基本涵盖了数据处理的所有节点,能够从数据处理的生命周期做到从开始到结束,全程护航数据,确保数据质量稳定可靠。
校验算法层面,通过身份校验、字段级校验、逻辑运算校验及预警监测校验等算法,从不同粒度、不同维度,全方位对数据进行核查,深挖数据问题。结合待校验库、正式库,提供相关的字段级校验查询、待校验数据查询、逻辑校验结果查询、预警数据查询等功能,从制度上进行考评打分,各种维度确保数据质量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1是一种数据校验的数据质量管控方法的流程示意图;
附图2是一种数据校验的数据质量管控方法中字段级校验结果图;
附图3是一种数据校验的数据质量管控方法中进销存校验结果图;
附图4是一种数据校验的数据质量管控方法中汇总明细校验图;
附图5是一种数据校验的数据质量管控方法中待校验数据查询图。
具体实施方式
为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
下面给出一个最佳实施例:
如图1所示,本实施例中的一种数据校验的数据质量管控方法,有事前节点、事中节点和事后节点三部分,在所述事前节点中制定标准规则,在所述事中节点中进行身份校验和字段级校验,在所述事后节点中进行逻辑运算校验和预警校验。
事前标准制定:标准规范建设是系统的基石,能够一定程度上解决系统数据质量规范问题。根据后续数据需求及要汇聚的业务数据,制定科学详细的标准规范,确保数据既能满足需求又合理稳定。
事中节点身份校验:数据汇聚过程中,数据生产者身份要进行验证,确保数据来源可靠,防止数据被非法篡改。
如图2所示,事中节点字段级校验:数据汇聚过程中根据标准规范要求进行字段级数据校验,包括数据完整性、数据准确性、数据一致性、数据及时性等校验规则。字段级校验提供相关校验结果查询功能,方便及时发现问题,修正数据错误重新汇聚。字段级校验完毕的数据存在待校验库,需经过逻辑运算校验以后才能迁移到正式库。
如图3、4所示,事后节点逻辑运算校验:根据数据的业务特性,有针对地进行逻辑运算,由此判断数据是否合法,例:进货数据-销售数据=库存数据、日销售汇总数据=销售明细数据合计等。此外,也可以从数据的不同维度进行校验,比如企业级校验、门店级校验、商品级校验等。
根据待校验库中数据的汇聚时间,定时进行逻辑运算校验,校验通过,转移数据进正式数据库,校验失败提供相关校验结果查询功能,提示数据问题,确保数据及时进行修正。
如图5所示,校验失败的数据共提供待校验数据查询,及时查找数据问题并针对性进行修正,提高数据质量。
事后节点预警校验:逻辑校验完毕通过的数据将会被迁移进正式库,此时的数据一定程度上已经属于可信数据,为进一步提高数据质量,还需要设置部分预警算法,对于异常数据进行校验。例:数据中存在退换货数据,却无该订单的发货数据等。事后预警校验需结合考核打分进行,针对问题数据设置一定的处罚措施,从制度上提高数据质量。
具体的流程为:
为收集所属店铺相关进销存数据,要求店铺定时进行数据上报。根据要收集的进销存数据特点,梳理数据标准,包含入库、调拨、销售、破损、库存等数据,每一类数据梳理相关字段信息。对于上报方下发唯一身份标识,数据上报过程中要带着密钥进行访问。
数据接收方收到请求以后,首先根据密钥进行身份校验,身份验证通过后,对于必填字段及相关字段类型、值域等进行字段级校验,校验失败提供相关校验日志查询,校验成功,数据存入待校验数据库。
根据所收集的数据特点,整理逻辑校验算法:期初库存(昨日期末库存)+本日购进-本日销售+本日调拨入库-本日调拨出库-破损库存=今日期末库存。根据逻辑校验算法对待校验库中数据进行验证,验证失败,通过逻辑校验日志查询功能进行反馈,校验成功,相关数据存入正式库。
对于其他无法通过字段校验或者逻辑校验进行验证的特点,提供预警算法校验。例如发货数据必定存在支付记录,若无支付记录,则数据并不完整。所有预警结果提供相关查询功能,结合考核打分制度,提供数据上报质量。
上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明的一种数据校验的数据质量管控方法权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种数据校验的数据质量管控方法,其特征在于:有事前节点、事中节点和事后节点三部分,不同节点采用不同的校验算法,具体为:
所述事前节点中制定标准规则,所述事中节点中进行身份校验和字段级校验,所述事后节点中进行逻辑运算校验和预警校验。
2.根据权利要求1所述的一种数据校验的数据质量管控方法,其特征在于,在事中节点身份校验中,数据汇集中,数据生产者身份要进行验证。
3.根据权利要求2所述的一种数据校验的数据质量管控方法,其特征在于,在事中节点字段级校验中,数据汇聚过程中根据标准规范进行字段级数据校验,字段级校验提供相关校验结果查询功能,且校验完毕的数据存在待校验库,经过事后节点逻辑运算校验后迁移到正式库。
4.根据权利要求3所述的一种数据校验的数据质量管控方法,其特征在于,字段级数据校验规则包括完整性、数据准确性、数据一致性和数据及时性。
5.根据权利要求4所述的一种数据校验的数据质量管控方法,其特征在于,在事后节点逻辑运算中,根据待校验库中数据的汇聚时间,定时进行逻辑运算校验,校验通过,转移数据进正式数据库,校验失败提供相关校验结果查询功能,提示数据问题。
6.根据权利要求5所述的一种数据校验的数据质量管控方法,其特征在于,在事后节点逻辑运算中,校验失败的数据提供待校验数据查询,及时查找数据问题并针对性进行修正。
7.根据权利要求6所述的一种数据校验的数据质量管控方法,其特征在于,在事后节点预警校验中,逻辑校验完毕通过的数据将会被迁移进正式库,此时的数据一定程度上已经属于可信数据。
8.根据权利要求7所述的一种数据校验的数据质量管控方法,其特征在于,在事后节点预警校验中,要进一步提高数据质量,设置部分预警算法,用于对异常数据进行校验。
CN202110879128.XA 2021-08-02 2021-08-02 一种数据校验的数据质量管控方法 Pending CN113626421A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110879128.XA CN113626421A (zh) 2021-08-02 2021-08-02 一种数据校验的数据质量管控方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110879128.XA CN113626421A (zh) 2021-08-02 2021-08-02 一种数据校验的数据质量管控方法

Publications (1)

Publication Number Publication Date
CN113626421A true CN113626421A (zh) 2021-11-09

Family

ID=78382114

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110879128.XA Pending CN113626421A (zh) 2021-08-02 2021-08-02 一种数据校验的数据质量管控方法

Country Status (1)

Country Link
CN (1) CN113626421A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114091109A (zh) * 2022-01-19 2022-02-25 豆沙包科技(深圳)有限公司 跨境电商平台数据验证方法、系统、终端及存储介质
CN115866087A (zh) * 2022-11-29 2023-03-28 广发银行股份有限公司 一种报文映射、http请求的报文转换方法及装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114091109A (zh) * 2022-01-19 2022-02-25 豆沙包科技(深圳)有限公司 跨境电商平台数据验证方法、系统、终端及存储介质
CN114091109B (zh) * 2022-01-19 2022-05-20 豆沙包科技(深圳)有限公司 跨境电商平台数据验证方法、系统、终端及存储介质
CN115866087A (zh) * 2022-11-29 2023-03-28 广发银行股份有限公司 一种报文映射、http请求的报文转换方法及装置
CN115866087B (zh) * 2022-11-29 2023-11-17 广发银行股份有限公司 一种报文映射、报文转换方法、装置及传输系统

Similar Documents

Publication Publication Date Title
CN108446407B (zh) 基于区块链的数据库审计方法和装置
CN108520464B (zh) 一种基于传统区块链的实时自动化监管报告系统
CN109325030B (zh) 报文处理方法、装置、计算机设备和存储介质
US11429614B2 (en) Systems and methods for data quality monitoring
US20190244227A1 (en) Bulletin board information management system
CN108932189B (zh) 保存服务器日志的方法和装置
US20210109917A1 (en) System and Method for Processing a Database Query
CN111612483B (zh) 基于去中心化与中心化协作的茶叶可信追溯系统
CN113626421A (zh) 一种数据校验的数据质量管控方法
US20170262847A1 (en) Automated Transactions Clearing System and Method
CN107391557B (zh) 针对设置链外勘误表的区块链串行查询方法及系统
CN104778123A (zh) 一种检测系统性能的方法及装置
US20230334609A1 (en) Information management method and non-transitory, computer readable, tangible storage medium storing information management program
WO2024073535A1 (en) System and method of providing physically authenticated digital tracking and association for objects and products
CN112560111B (zh) 一种适用于物联网的时序数据采集防篡改方法及装置
CN112269829B (zh) 一种基于资源回收系统平台的区块链数据管理方法
US11157620B2 (en) Classification of executable files using a digest of a call graph pattern
CN116991839A (zh) 一种基于企业经营布局的跨区财务云处理方法
US20130305317A1 (en) Creating federated associate identifiers to positively identify associates interfacing across multiple business applications
CN112200549B (zh) 应用于区块链支付的区块链节点验证方法及支付验证平台
CN115168822A (zh) 管理活体资产电子档案的系统和方法及电子设备
CN114629690A (zh) 设备安全基线合规检测方法、装置和计算机设备
CN117195256B (zh) 一种财务数据处理方法及系统
CN117494146B (zh) 一种模型数据库管理系统
CN116680460A (zh) 银行数据的血缘分析方法、装置、介质和设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination