CN112231312A - 一种基于流程的数据质量校验方法 - Google Patents

一种基于流程的数据质量校验方法 Download PDF

Info

Publication number
CN112231312A
CN112231312A CN202011183014.3A CN202011183014A CN112231312A CN 112231312 A CN112231312 A CN 112231312A CN 202011183014 A CN202011183014 A CN 202011183014A CN 112231312 A CN112231312 A CN 112231312A
Authority
CN
China
Prior art keywords
rule
check
data
data quality
rules
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011183014.3A
Other languages
English (en)
Inventor
冯蕾
毕茂华
马晓光
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong Chaoyue CNC Electronics Co Ltd
Original Assignee
Shandong Chaoyue CNC Electronics Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong Chaoyue CNC Electronics Co Ltd filed Critical Shandong Chaoyue CNC Electronics Co Ltd
Priority to CN202011183014.3A priority Critical patent/CN112231312A/zh
Publication of CN112231312A publication Critical patent/CN112231312A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Abstract

一种基于流程的数据质量校验方法,包括以下步骤:建立数据质量校验服务模型;设置虚拟字段规则;设置数据质量校验规则;通过所述数据质量校验服务模型基于所述虚拟字段规则和数据质量校验规则进行数据校验并输出校验结果。通过本发明提出的一种基于流程的数据质量校验方法,实现质量校验服务的流程化管控,通过丰富多样的质量校验规则,从而实现数据质量校验的全面把控和大幅提升。

Description

一种基于流程的数据质量校验方法
技术领域
本发明涉及数据分析和处理领域,更具体地,涉及一种基于流程的数据质量校验方法。
背景技术
随着大数据技术的普及和广泛应用,各行各业的数据时时刻刻都在以巨大的体量扩充着,我们处于这样一个“数据大爆发”的初期,大数据的存储、分析和管理都面临着严峻的挑战。其中数据质量校验更是数据分析与处理领域的热点研究课题。海量的、异构的数据在快速产生着,经过流通汇聚后,流入形形色色的业务系统用于数据处理与应用,数据源头纷繁复杂,数据流转过程关系混乱,导致数据质量良莠不齐,数据质量校验与修复问题难度增大,数据质量溯源更加困难。因此,本发明提出一种基于流程的数据质量校验方法,流程化的进行数据质量校验并修复数据问题,处理效率高,能够充分满足大数据时代的数据治理要求。
发明内容
有鉴于此,本发明提出一种基于流程的数据质量校验方法,包括以下步骤:
建立数据质量校验服务模型;
设置虚拟字段规则;
设置数据质量校验规则;
通过所述数据质量校验服务模型基于所述虚拟字段规则和数据质量校验规则进行数据校验并输出校验结果。
在本发明的一些实施方式中,建立数据质量校验模型包括:选择数据源以确定需要进行数据质量校验的源对象,建立检查任务并配置定时调度类型与定时调度的时长。
在本发明的一些实施方式中,设置虚拟字段规则包括:
确定要处理的字段;
根据确定的字段的数据类型,确定虚拟字段匹配规则;
根据虚拟字段规则重新建立新字段。
在本发明的一些实施方式中,设置数据质量校验规则包括:根据业务需要从一般规则、运算规则、自定义逻辑规则中选择匹配该字段数据类型的校验规则。
在本发明的一些实施方式中,数据质量校验规则的一般规则包括:数据类型校验规则、长度校验规则、编码校验规则、违规校验规则、值域校验规则、格式校验规则。
在本发明的一些实施方式中,数据质量校验规则的运算规则包括:逻辑运算规则与科学运算规则。
在本发明的一些实施方式中,数据质量校验规则的自定义规则包括:自定义生成规则模板自动生成相关校验规则。
在本发明的一些实施方式中,输出校验结果包括:输出并显示统计结果与详细结果。
在本发明的一些实施方式中,输出统计结果包括:
质量校验统计结果;
问题数据统计情况。
在本发明的一些实施方式中,输出详细结果包括:校验结果中的问题数据详情。
通过本发明提出的一种基于流程的数据质量校验方法,实现质量校验服务的流程化管控,通过丰富多样的质量校验规则,从而实现数据质量校验的全面把控和大幅提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的实施例。
图1为本发明方法的一实施例的流程图;
图2为本发明的方法的一实施例中数据质量校验规则的框图;
图3为本发明的方法的一实施例的流程图。
图4为本发明的方法的一实施例的流程图。
图5为本发明的方法的一实施例的流程图。
图6为本发明的方法的一实施例的屏幕截图。
图7为本发明的方法的一实施例的屏幕截图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明实施例进一步详细说明。
如图1所示,本发明公开了一种基于流程的数据质量校验方法,包括以下步骤:
S1、建立数据质量校验服务模型;
S2、设置虚拟字段规则;
S3、设置数据质量校验规则;
S4、通过所述数据质量校验服务模型基于所述虚拟字段规则和数据质量校验规则进行数据校验并输出校验结果。
在本发明的一些实施例中,在步骤S1中,进行基于流程的数据质量校验第一步即为建立一个数据质量校验服务模型,从而为后期质量校验的复用、定时调度等配置相关指标项。通过数据源的选择,确定需要进行数据质量校验的对象,确定对象后进行服务模型的配置,主要设置其定时调度等相关信息。设置成功,即完成数据质量校验服务模型的创建。
在本发的一些实施例中,建立数据质量校验服务模型包括:选择数据源以确定需要进行数据质量校验的源对象,建立检查任务并配置定时调度类型与定时调度的时长。通过新建检查任务的方式选择需要进行数据质量校验的源对象,此处每次只可以选择一个对象进行校验。选择成功后,可以配置校验服务模型的详情,包括定时调度类型与定时调度的时长,其中,定时调度类型主要包括:不需要定时、分钟间隔、按天、按周、按月,选择定时调度类型后即可配置相应的定时调度时长。如图3所示。
在步骤S2中,设置虚拟字段规则主要是通过相应内置规则设置虚拟字段,实现数据对象的预处理包括:确定要处理的字段;根据确定的字段的数据类型,确定虚拟字段匹配规则;根据虚拟字段规则重新建立新字段。依照逻辑规则与标准,通过计算处理,建立全新的虚拟字段。如图4所示
在本发的一些实施例中,用于虚拟字段的规则包括:加、减、乘、除拼接、复制,通过等对字段中的内容进行预处理,例如,选择name字段后,通过选择处理复制处理规则”Create a copy of field A”可以复制一个全新的字段与name字段相同。同样可以选择id字段与num字段,选择处理加法规则”A+B”将id字段与num字段拼接在一起生成NewId字段,用于数据的拼接校验。
在步骤S3中,确定待校验字段;根据业务需要从一般规则、运算规则、自定义逻辑规则中选择匹配该字段数据类型的校验规则。数据质量校验规则包含一般规则、运算规则和自定义逻辑规则。设置校验规则还提供数据质量检查服务对数据库表做指定规则检查,包括格式检查、范围检查、缺失记录检查、相似重复记录检查、精度检查、逻辑表达式检查、复合规则检查等。在数据质量检查服务可视化配置出单字段多规则检查,也可以配置出多字段同规则检查,还可以配置出多字段之间的关联检查。
在本发明的一些实施例中,确定待校验字段;根据业务需要从一般规则、运算规则、自定义逻辑规则中选择匹配该字段数据类型的校验规则。
在本发明的一些实施例中,如图2所示,设置数据质量校验规则包括:一般规则、运算规则、自定义逻辑规则。
在本发明的一些实施例中,一般规则又包括:数据类型校验规则、长度校验规则、编码校验规则、违规校验规则、值域校验规则、格式校验规则。
在本发明的一些实施例中,在一般规则中的格式规则校验中,例如筛选IDNumber字段识别出年龄<60岁的山东省成年男性市民,已知公民身份号码是特征组合码,由十七位数字本体码和一位校验码组成。排列顺序从左至右依次为:六位数字地址码,八位数字出生日期码,三位数字顺序码和一位数字校验码。地址码匹配规则为/^[1-9]\d{5}/,其中地址为山东省的规则为/37\d{4}/,年份码规则为/(18|19|20|(3\d))\d{2}/<60岁的成年人,年份码规则为/196[1-9]|19[7-9][0-9]|200[0-2]/(1960年~2002年之间出生),月份码校验规则为/((0[1-9])|(1[0-2]))/,日期码校验规则/(([0-2][1-9])|10|20|30|31)/,顺序码校验规则为/\d{2}|[13579]/,校验码校验规则为/[0-9Xx]/。
通过以上校验规则即可筛选年龄小于60岁的山东省成年男性信息。本发明中还包括若干常规选择,无需手动输入相应正则表达式进行匹配。
在本发明的一些实施例中,运算规则包括:逻辑运算规则。逻辑运算规则又包括:包含、拼接、截取等逻辑运算校验规则。
在本发明的一些实施例中,运算规则还包括科学运算规则如:加、减、乘、除、平方、求根等。
在本发明的一些实施例中,自定义逻辑规则包括自定义生成规则模板,自动生成相关校验规则,能够根据数据标准定义,自动生成相关校验规则。
在本发明的一些实施方式中,输出校验结果包括:输出并显示统计结果与详细结果。
在步骤S4中,部署执行数据质量校验服务,可以对服务进行调度管理,通过查看日志监控结果查询校验服务运行情况。校验结果以报告形式输出,输出内容主要包含统计结果和详细结果。
在本发明的一些实施例中,统计结果包括:质量校验统计结果,问题数据统计情况。如图6所示。包括:数据质量校验的对象名称、标识、服务类型、业务类别、操作、部署情况等。
在本发明的一些实施例中,输出详细结果包括:校验结果中的问题数据详情。如图7所示。包括:检查指标统计和错误明细情况;
其中,检查指标统计的内容包括:检查表为m_gzsl、数据及时性指标0.41、问题描述为数据超出值域、有问题记录数为276个;
错误数据明细情况也以列表形式予以展示。
通过本发明提出的一种基于流程的数据质量校验方法,实现质量校验服务的流程化管控,通过设置丰富多样的质量校验规则,实现数据质量校验在效率和功能上全面提升。
本领域技术人员还将明白的是,结合这里的公开所描述的各种示例性逻辑块、模块、电路和算法步骤可以被实现为电子硬件、计算机软件或两者的组合。为了清楚地说明硬件和软件的这种可互换性,已经就各种示意性组件、方块、模块、电路和步骤的功能对其进行了一般性的描述。这种功能是被实现为软件还是被实现为硬件取决于具体应用以及施加给整个系统的设计约束。本领域技术人员可以针对每种具体应用以各种方式来实现的功能,但是这种实现决定不应被解释为导致脱离本发明实施例公开的范围。
在一个或多个示例性设计中,功能可以在硬件、软件、固件或其任意组合中实现。如果在软件中实现,则可以将功能作为一个或多个指令或代码存储在计算机可读介质上或通过计算机可读介质来传送。计算机可读介质包括计算机存储介质和通信介质,该通信介质包括有助于将计算机程序从一个位置传送到另一个位置的任何介质。存储介质可以是能够被通用或专用计算机访问的任何可用介质。作为例子而非限制性的,该计算机可读介质可以包括RAM、ROM、EEPROM、CD-ROM或其它光盘存储设备、磁盘存储设备或其它磁性存储设备,或者是可以用于携带或存储形式为指令或数据结构的所需程序代码并且能够被通用或专用计算机或者通用或专用处理器访问的任何其它介质。此外,任何连接都可以适当地称为计算机可读介质。例如,如果使用同轴线缆、光纤线缆、双绞线、数字用户线路(DSL)或诸如红外线、无线电和微波的无线技术来从网站、服务器或其它远程源发送软件,则上述同轴线缆、光纤线缆、双绞线、DSL或诸如红外线、无线电和微波的无线技术均包括在介质的定义。如这里所使用的,磁盘和光盘包括压缩盘(CD)、激光盘、光盘、数字多功能盘(DVD)、软盘、蓝光盘,其中磁盘通常磁性地再现数据,而光盘利用激光光学地再现数据。上述内容的组合也应当包括在计算机可读介质的范围内。
在技术上可行的前提下,以上针对不同实施例所列举的技术特征可以相互组合,从而形成本发明范围内的另外实施例。
在本申请中,反意连接词的使用旨在包括连接词。定或不定冠词的使用并不旨在指示基数。具体而言,对“该”对象或“一”和“一个”对象的引用旨在表示多个这样对象中可能的一个。此外,可以使用连接词“或”来传达同时存在的特征,而不是互斥方案。换句话说,连接词“或”应理解为包括“和/或”。术语“包括”是包容性的并且具有与“包含”相同的范围。
上述实施例是本发明的实施方式的可能示例,并且仅是为了使本领域技术人员清楚地理解本发明的原理而给出。本领域技术人员应当理解:以上针对任何实施例的讨论仅为示例性的,并非旨在暗示本发明实施例公开的范围(包括权利要求)被限于这些例子;在本发明的整体构思下,以上实施例或者不同实施例中的技术特征之间也可以彼此进行组合,并产生如上所述的本发明实施例的不同方面的许多其它变化,为了简明它们没有在具体实施方式中提供。因此,凡在本发明实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本发明所要求的保护范围之内。

Claims (10)

1.一种基于流程的数据质量校验方法,其特征在于,包括:
建立数据质量校验服务模型;
设置虚拟字段规则;
设置数据质量校验规则;
通过所述数据质量校验服务模型基于所述虚拟字段规则和数据质量校验规则进行数据校验并输出校验结果。
2.根据权利要求1所述的方法,其特征在于,所述建立数据质量校验服务模型包括:
选择数据源以确定需要进行数据质量校验的源对象,建立检查任务并配置定时调度类型与定时调度的时长。
3.根据权利要求1所述的方法,其特征在于,所述设置虚拟字段规则包括:
确定要处理的字段;
根据确定的字段的数据类型,确定虚拟字段匹配规则;
根据虚拟字段规则重新建立新字段。
4.根据权利要求1所述的方法,其特征在于,设置数据质量校验规则包括:
确定待校验字段;
根据业务需要从一般规则、运算规则、自定义逻辑规则中选择匹配该字段数据类型的校验规则。
5.根据权利要求4所述的方法,其特征在于,所述一般规则包括:
数据类型校验规则、长度校验规则、编码校验规则、违规校验规则、值域校验规则、格式校验规则。
6.根据权利要求4所述的方法,其特征在于,所述运算规则包括:
逻辑运算规则与科学运算规则。
7.根据权利要求4所述的方法,其特征在于,所述自定义逻辑规则包括:
自定义生成规则模板自动生成相关校验规则。
8.根据权利要求1所述的方法,其特征在于,所述输出校验结果包括:
输出并显示统计结果与详细结果。
9.根据权利要求1所述的方法,其特征在于,所述统计结果包括:
质量校验统计结果;
问题数据统计情况。
10.根据权利要求1所述的方法,其特征在于,所述详细结果包括:
校验结果中的问题数据详情。
CN202011183014.3A 2020-10-29 2020-10-29 一种基于流程的数据质量校验方法 Pending CN112231312A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011183014.3A CN112231312A (zh) 2020-10-29 2020-10-29 一种基于流程的数据质量校验方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011183014.3A CN112231312A (zh) 2020-10-29 2020-10-29 一种基于流程的数据质量校验方法

Publications (1)

Publication Number Publication Date
CN112231312A true CN112231312A (zh) 2021-01-15

Family

ID=74122911

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011183014.3A Pending CN112231312A (zh) 2020-10-29 2020-10-29 一种基于流程的数据质量校验方法

Country Status (1)

Country Link
CN (1) CN112231312A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116150142A (zh) * 2023-04-14 2023-05-23 成都数联云算科技有限公司 字段校验及其规则获得方法、装置、介质、设备及产品

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2367344A1 (en) * 1998-03-09 1999-09-16 William R. Pape Method and apparatus for livestock data collection and management system
KR20090003040A (ko) * 2006-12-04 2009-01-09 한국전자통신연구원 비즈니스 프로세스 수행시 메타데이터 규정을 통한 데이터품질관리 방법 및 시스템
CN101894319A (zh) * 2010-06-28 2010-11-24 中国烟草总公司湖南省公司 一种烟草企业数据质量管理系统及方法
CN101990208A (zh) * 2009-07-31 2011-03-23 中国移动通信集团公司 一种数据自动校验方法、系统和设备
CN104766151A (zh) * 2014-12-29 2015-07-08 国家电网公司 一种用于电力交易数据仓库的质量管控方法及其管控系统
CN106484590A (zh) * 2015-09-02 2017-03-08 阿里巴巴集团控股有限公司 数据校验方法和装置
CN106528828A (zh) * 2016-11-22 2017-03-22 山东浪潮云服务信息科技有限公司 一种基于多维度校验规则的数据质量检测方法
CN106649840A (zh) * 2016-12-30 2017-05-10 国网江西省电力公司经济技术研究院 一种适用于电力数据质量评估与规则校验的方法
US20180101831A1 (en) * 2016-10-10 2018-04-12 AO Kaspersky Lab System and method for performing secure online banking transactions
CN107958049A (zh) * 2017-11-28 2018-04-24 航天科工智慧产业发展有限公司 一种数据质量稽查管理系统
CN110019158A (zh) * 2017-11-13 2019-07-16 北京京东尚科信息技术有限公司 一种监控数据质量的方法和装置
CN110162516A (zh) * 2019-05-27 2019-08-23 浪潮软件集团有限公司 一种基于海量数据处理的数据治理的方法及系统
CN110515937A (zh) * 2019-09-02 2019-11-29 中国农业银行股份有限公司 一种数据校验方法及装置
CN111475494A (zh) * 2020-03-05 2020-07-31 苏州浪潮智能科技有限公司 一种海量数据处理方法、系统、终端及存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2367344A1 (en) * 1998-03-09 1999-09-16 William R. Pape Method and apparatus for livestock data collection and management system
KR20090003040A (ko) * 2006-12-04 2009-01-09 한국전자통신연구원 비즈니스 프로세스 수행시 메타데이터 규정을 통한 데이터품질관리 방법 및 시스템
CN101990208A (zh) * 2009-07-31 2011-03-23 中国移动通信集团公司 一种数据自动校验方法、系统和设备
CN101894319A (zh) * 2010-06-28 2010-11-24 中国烟草总公司湖南省公司 一种烟草企业数据质量管理系统及方法
CN104766151A (zh) * 2014-12-29 2015-07-08 国家电网公司 一种用于电力交易数据仓库的质量管控方法及其管控系统
CN106484590A (zh) * 2015-09-02 2017-03-08 阿里巴巴集团控股有限公司 数据校验方法和装置
US20180101831A1 (en) * 2016-10-10 2018-04-12 AO Kaspersky Lab System and method for performing secure online banking transactions
CN106528828A (zh) * 2016-11-22 2017-03-22 山东浪潮云服务信息科技有限公司 一种基于多维度校验规则的数据质量检测方法
CN106649840A (zh) * 2016-12-30 2017-05-10 国网江西省电力公司经济技术研究院 一种适用于电力数据质量评估与规则校验的方法
CN110019158A (zh) * 2017-11-13 2019-07-16 北京京东尚科信息技术有限公司 一种监控数据质量的方法和装置
CN107958049A (zh) * 2017-11-28 2018-04-24 航天科工智慧产业发展有限公司 一种数据质量稽查管理系统
CN110162516A (zh) * 2019-05-27 2019-08-23 浪潮软件集团有限公司 一种基于海量数据处理的数据治理的方法及系统
CN110515937A (zh) * 2019-09-02 2019-11-29 中国农业银行股份有限公司 一种数据校验方法及装置
CN111475494A (zh) * 2020-03-05 2020-07-31 苏州浪潮智能科技有限公司 一种海量数据处理方法、系统、终端及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
曾庆妍等: "监管报送数据质量平台的设计与实现", 《信息技术与信息化》 *
路劲: "动态校验技术在数据质量提升中的应用", 《云南电力技术》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116150142A (zh) * 2023-04-14 2023-05-23 成都数联云算科技有限公司 字段校验及其规则获得方法、装置、介质、设备及产品
CN116150142B (zh) * 2023-04-14 2023-06-27 成都数联云算科技有限公司 字段校验及其规则获得方法、装置、介质、设备及产品

Similar Documents

Publication Publication Date Title
CN104391934B (zh) 数据校验方法和装置
CN101849399B (zh) 用于基于规则的内容过滤的系统和方法
CN106033436B (zh) 一种数据库的合并方法
CN102314460B (zh) 数据分析方法、系统及服务器
CN101504672B (zh) 一种动态配置实体数据表的方法和系统
US20090055341A1 (en) Regulatory Survey Automation System (RSAS)
CN111666464A (zh) 一种基于云服务的项目文档协作管理系统及方法
CN110990274B (zh) 一种生成测试案例的数据处理方法、装置及系统
CN107153646B (zh) 一种数据处理方法和设备
CN110287188B (zh) 通话详单数据的特征变量生成方法及装置
CN103455589A (zh) 产品工厂模式下的产品数据迁移方法、装置及系统
CN112231312A (zh) 一种基于流程的数据质量校验方法
CN113704343A (zh) 一种数据治理中的数据血缘可视化实现方法及系统
CN112506771A (zh) 一种报文比对方法和装置
CN113934710B (zh) 数据采集方法及装置
CN115599840A (zh) 一种复杂业务数据治理方法和系统
CN114610803A (zh) 一种数据处理方法、装置、电子设备和存储介质
CN111309370B (zh) 多项目多系统环境的版本号有向图排序稽核方法和系统
CN114510497A (zh) 一种变量加工方法、装置、设备及可读存储介质
CN114356374A (zh) 车辆数据的处理方法、装置和车辆
CN112508520A (zh) 一种快速核查物料清单的方法、系统、装置和存储介质
CN112256978B (zh) 一种基于数据模型的数据处理方法、装置、介质
CN116756129A (zh) 数据补录方法、装置、存储介质及电子设备
CN117827832A (zh) 数据核验方法、装置、计算机设备和存储介质
CN115599469A (zh) 交易执行方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20210115