CN108733362A - 一种数据质量检验方法和装置 - Google Patents
一种数据质量检验方法和装置 Download PDFInfo
- Publication number
- CN108733362A CN108733362A CN201810456907.7A CN201810456907A CN108733362A CN 108733362 A CN108733362 A CN 108733362A CN 201810456907 A CN201810456907 A CN 201810456907A CN 108733362 A CN108733362 A CN 108733362A
- Authority
- CN
- China
- Prior art keywords
- data
- tested
- formula
- current trial
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/30—Creation or generation of source code
- G06F8/31—Programming languages or programming paradigms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F8/00—Arrangements for software engineering
- G06F8/40—Transformation of program code
- G06F8/41—Compilation
- G06F8/43—Checking; Contextual analysis
Landscapes
- Engineering & Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Software Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Test And Diagnosis Of Digital Computers (AREA)
Abstract
本发明提供了一种数据质量检验方法和装置,其中,该方法包括:预先设置至少两种检验公式,还包括:确定待检验数据;在所述至少两种检验公式中,确定至少两种当前检验公式;根据所述至少两种当前检验公式,生成当前检验规则;根据所述当前检验规则,对所述待检验数据进行检验。当检验需求发生变化时,本发明提供的方案不需要重新编写检验规则,能够节省时间。
Description
技术领域
本发明涉及计算机技术领域,特别涉及一种数据质量检验方法和装置。
背景技术
随着信息技术的发展,企业系统中形成了不同类型的数据,这些数据可能存在重复、不完整、不准确等情况。如何从大量的数据中筛选出这些存在问题的数据,是企业一直关注的问题。
现有技术中,一般通过编写的检验规则对数据字典中的数据进行检验。
但是,现有的检验规则是固定的,当检验需求发生变化时,需要重新编写检验规则,需要花费较长的时间。
发明内容
本发明实施例提供了一种数据质量检验方法和装置,当检验需求发生变化时,不需要重新编写检验规则,能够节省时间。
第一方面,本发明实施例提供了一种数据质量检验方法,预先设置至少两种检验公式,还包括:
确定待检验数据;
在所述至少两种检验公式中,确定至少两种当前检验公式;
根据所述至少两种当前检验公式,生成当前检验规则;
根据所述当前检验规则,对所述待检验数据进行检验。
优选地,
在所述根据所述当前检验规则,对所述待检验数据进行检验之前,进一步包括:
确定与所述待检验数据相关联的关联数据;
所述根据所述当前检验规则,对所述待检验数据进行检验,包括:
根据所述当前检验规则和所述关联数据,对所述待检验数据进行检验;
其中,所述关联数据中包括与所述待检验数据相关联的表名称、字段名称、常量数值和变量参数名中任意一种或多种的组合。
优选地,
在所述根据所述当前检验规则,对所述待检验数据进行检验之后,进一步包括:
对不满足所述当前检验规则的所述待检验数据进行统计;
利用列表方式对统计结果进行展示。
第二方面,本发明实施例提供了一种数据质量检验装置,包括:
设置单元,用于设置至少两种检验公式;
确定单元,用于确定待检验数据,在所述设置单元设置的所述至少两种检验公式中,确定至少两种当前检验公式;
生成单元,用于根据所述至少两种当前检验公式,生成当前检验规则;
检验单元,用于根据所述当前检验规则,对所述待检验数据进行检验。
优选地,
所述确定单元,进一步用于确定与所述待检验数据相关联的关联数据;
所述检验单元,用于根据所述当前检验规则和所述关联数据,对所述待检验数据进行检验;其中,所述关联数据中包括与所述待检验数据相关联的表名称、字段名称、常量数值和变量参数名中任意一种或多种的组合。
优选地,
进一步包括:
统计单元,用于对不满足所述当前检验规则的所述待检验数据进行统计;
展示单元,用于利用列表方式对所述统计单元得到的统计结果进行展示。
第三方面,本发明实施例提供了一种可读介质,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行上述任一实施例所述的方法。
第四方面,本发明实施例提供了一种存储控制器,包括:处理器、存储器和总线;
所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行上述任一实施例所述的方法。
本发明实施例提供了一种数据质量检验方法和装置,其中,该方法预先设置多种不同的检验公式,对于不同的待检验数据,可以分别从众多的检验公式中选择满足需求的检验公式组成检验规则,并通过检验规则对相应的待检验数据进行检验。当检验需求发生变化时,本发明提供的方案只需要重新选择检验公式而不需要重新编写检验规则,能够节省时间。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一个实施例提供的一种数据质量检验方法的流程图;
图2是本发明另一个实施例提供的一种数据质量检验方法的流程图;
图3是本发明一个实施例提供的一种数据质量检验装置的结构示意图;
图4是本发明另一个实施例提供的一种数据质量检验装置的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供了一种数据质量检验方法,该方法可以包括以下步骤:
步骤101:设置至少两种检验公式;
步骤102:确定待检验数据;
步骤103:在至少两种检验公式中,确定至少两种当前检验公式;
步骤104:根据至少两种当前检验公式,生成当前检验规则;
步骤105:根据当前检验规则,对待检验数据进行检验。
该方法预先设置多种不同的检验公式,对于不同的待检验数据,可以分别从众多的检验公式中选择满足需求的检验公式组成检验规则,并通过检验规则对相应的待检验数据进行检验。当检验需求发生变化时,本发明提供的方案只需要重新选择检验公式而不需要重新编写检验规则,能够节省时间。
在本发明的一个实施例中,在根据当前检验规则,对待检验数据进行检验之前,进一步包括:
确定与待检验数据相关联的关联数据;
根据当前检验规则,对待检验数据进行检验,包括:
根据当前检验规则和关联数据,对待检验数据进行检验;
其中,关联数据中包括与待检验数据相关联的表名称、字段名称、常量数值和变量参数名中任意一种或多种的组合。
在本发明的一个实施例中,在根据当前检验规则,对待检验数据进行检验之后,进一步包括:
对不满足当前检验规则的待检验数据进行统计;
利用列表方式对统计结果进行展示。
对检验得到的存在问题的数据通过列表方式更加直观地进行展示。
如图2所示,本发明实施例将对数据质量检验方法进行详细地说明,该方法包括以下步骤:
步骤201:设置四种检验公式。
设置检验公式A、B、C、D。
例如,检验公式为“校验码”公式,用于对“客户”字典中的“组织机构代码”字段进行检验。
步骤202:确定待检验数据。
待检验数据为数据字典的一个或多个字段。例如,“客户”字典中的“组织机构代码”字段进行检验。
步骤203:在四种检验公式中,确定两种当前检验公式。
将检验公式A、B作为当前检验公式。
步骤204:根据两种当前检验公式,生成当前检验规则。
根据当前检验公式A、B,生成当前检验规则S。
步骤205:确定与待检验数据相关联的关联数据。
步骤206:根据当前检验规则和关联数据,对待检验数据进行检验。
其中,关联数据中包括与待检验数据相关联的表名称、字段名称、常量数值和变量参数名中任意一种或多种的组合。
即判断待检验数据和关联数据是否满足当前检验规则。
调用方法如下:
步骤207:对不满足当前检验规则的待检验数据进行统计。例如,统计组织机构代码为空或者组织机构代码错误等情况。
步骤208:利用列表方式对统计结果进行展示。
调用方法如下:
在实际应用场景中,可以由选择的结果生成数据库SQL语句(Structured QueryLanguage,结构化查询语言),也可以由人为录入的方式形成数据库SQL语句,并通过执行数据库SQL语句进行数据质量检验过程。
如图3所示,本发明实施例提供了一种数据质量检验装置,包括:
设置单元301,用于设置至少两种检验公式;
确定单元302,用于确定待检验数据,在设置单元301设置的至少两种检验公式中,确定至少两种当前检验公式;
生成单元303,用于根据至少两种当前检验公式,生成当前检验规则;
检验单元304,用于根据当前检验规则,对待检验数据进行检验。
在本发明的一个实施例中,确定单元302,进一步用于确定与待检验数据相关联的关联数据;
检验单元304,用于根据当前检验规则和关联数据,对待检验数据进行检验;其中,关联数据中包括与待检验数据相关联的表名称、字段名称、常量数值和变量参数名中任意一种或多种的组合。
在本发明的一个实施例中,如图4所示,该装置还包括:
统计单元305,用于对不满足当前检验规则的待检验数据进行统计;
展示单元306,用于利用列表方式对统计单元305得到的统计结果进行展示。
上述装置内的各单元之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
本发明实施例提供了一种可读介质,包括执行指令,当存储控制器的处理器执行执行指令时,存储控制器执行上述任一实施例的方法。
本发明实施例提供了一种存储控制器,包括:处理器、存储器和总线;
存储器用于存储执行指令,处理器与存储器通过总线连接,当存储控制器运行时,处理器执行存储器存储的执行指令,以使存储控制器执行上述任一实施例的方法。
综上,本发明各个实施例至少具有如下效果:
1、在本发明实施例中,该方法预先设置多种不同的检验公式,对于不同的待检验数据,可以分别从众多的检验公式中选择满足需求的检验公式组成检验规则,并通过检验规则对相应的待检验数据进行检验。当检验需求发生变化时,本发明提供的方案只需要重新选择检验公式而不需要重新编写检验规则,能够节省时间。
需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个······”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质中。
最后需要说明的是:以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
Claims (8)
1.一种数据质量检验方法,其特征在于,预先设置至少两种检验公式,还包括:
确定待检验数据;
在所述至少两种检验公式中,确定至少两种当前检验公式;
根据所述至少两种当前检验公式,生成当前检验规则;
根据所述当前检验规则,对所述待检验数据进行检验。
2.根据权利要求1所述的数据质量检验方法,其特征在于,
在所述根据所述当前检验规则,对所述待检验数据进行检验之前,进一步包括:
确定与所述待检验数据相关联的关联数据;
所述根据所述当前检验规则,对所述待检验数据进行检验,包括:
根据所述当前检验规则和所述关联数据,对所述待检验数据进行检验;
其中,所述关联数据中包括与所述待检验数据相关联的表名称、字段名称、常量数值和变量参数名中任意一种或多种的组合。
3.根据权利要求1或2所述的数据质量检验方法,其特征在于,
在所述根据所述当前检验规则,对所述待检验数据进行检验之后,进一步包括:
对不满足所述当前检验规则的所述待检验数据进行统计;
利用列表方式对统计结果进行展示。
4.一种数据质量检验装置,其特征在于,包括:
设置单元,用于设置至少两种检验公式;
确定单元,用于确定待检验数据,在所述设置单元设置的所述至少两种检验公式中,确定至少两种当前检验公式;
生成单元,用于根据所述至少两种当前检验公式,生成当前检验规则;
检验单元,用于根据所述当前检验规则,对所述待检验数据进行检验。
5.根据权利要求4所述的数据质量检验装置,其特征在于,
所述确定单元,进一步用于确定与所述待检验数据相关联的关联数据;
所述检验单元,用于根据所述当前检验规则和所述关联数据,对所述待检验数据进行检验;其中,所述关联数据中包括与所述待检验数据相关联的表名称、字段名称、常量数值和变量参数名中任意一种或多种的组合。
6.根据权利要求4或5所述的数据质量检验装置,其特征在于,进一步包括:
统计单元,用于对不满足所述当前检验规则的所述待检验数据进行统计;
展示单元,用于利用列表方式对所述统计单元得到的统计结果进行展示。
7.一种可读介质,其特征在于,包括执行指令,当存储控制器的处理器执行所述执行指令时,所述存储控制器执行权利要求1-3中任一所述的方法。
8.一种存储控制器,其特征在于,包括:处理器、存储器和总线;
所述存储器用于存储执行指令,所述处理器与所述存储器通过所述总线连接,当所述存储控制器运行时,所述处理器执行所述存储器存储的所述执行指令,以使所述存储控制器执行权利要求1-3中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810456907.7A CN108733362A (zh) | 2018-05-14 | 2018-05-14 | 一种数据质量检验方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810456907.7A CN108733362A (zh) | 2018-05-14 | 2018-05-14 | 一种数据质量检验方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108733362A true CN108733362A (zh) | 2018-11-02 |
Family
ID=63937414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810456907.7A Pending CN108733362A (zh) | 2018-05-14 | 2018-05-14 | 一种数据质量检验方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108733362A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101118550A (zh) * | 2007-09-04 | 2008-02-06 | 山东浪潮齐鲁软件产业股份有限公司 | 一种应用数据质量检测方法 |
CN101364291A (zh) * | 2008-07-17 | 2009-02-11 | 中冶长天国际工程有限责任公司 | 数据准确性的校验方法、装置及一种工时数据校验系统 |
CN101788950A (zh) * | 2010-01-27 | 2010-07-28 | 浪潮(山东)电子信息有限公司 | 一种基于jsp页面的数据项校验方法 |
US20110052001A1 (en) * | 2009-09-01 | 2011-03-03 | Container Trac, Inc. | Automatic error detection for inventory tracking and management systems used at a shipping container yard |
US20130073594A1 (en) * | 2011-09-19 | 2013-03-21 | Citigroup Technology, Inc. | Methods and Systems for Assessing Data Quality |
CN105930492A (zh) * | 2016-05-05 | 2016-09-07 | 北京思特奇信息技术股份有限公司 | 一种将关系表数据载入缓存的系统和方法 |
CN106202110A (zh) * | 2015-05-06 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 数据质量检测的方法和装置 |
CN106528828A (zh) * | 2016-11-22 | 2017-03-22 | 山东浪潮云服务信息科技有限公司 | 一种基于多维度校验规则的数据质量检测方法 |
CN107895003A (zh) * | 2017-10-31 | 2018-04-10 | 山东浪潮云服务信息科技有限公司 | 一种数据质量检测方法和装置 |
-
2018
- 2018-05-14 CN CN201810456907.7A patent/CN108733362A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101118550A (zh) * | 2007-09-04 | 2008-02-06 | 山东浪潮齐鲁软件产业股份有限公司 | 一种应用数据质量检测方法 |
CN101364291A (zh) * | 2008-07-17 | 2009-02-11 | 中冶长天国际工程有限责任公司 | 数据准确性的校验方法、装置及一种工时数据校验系统 |
US20110052001A1 (en) * | 2009-09-01 | 2011-03-03 | Container Trac, Inc. | Automatic error detection for inventory tracking and management systems used at a shipping container yard |
CN101788950A (zh) * | 2010-01-27 | 2010-07-28 | 浪潮(山东)电子信息有限公司 | 一种基于jsp页面的数据项校验方法 |
US20130073594A1 (en) * | 2011-09-19 | 2013-03-21 | Citigroup Technology, Inc. | Methods and Systems for Assessing Data Quality |
CN106202110A (zh) * | 2015-05-06 | 2016-12-07 | 阿里巴巴集团控股有限公司 | 数据质量检测的方法和装置 |
CN105930492A (zh) * | 2016-05-05 | 2016-09-07 | 北京思特奇信息技术股份有限公司 | 一种将关系表数据载入缓存的系统和方法 |
CN106528828A (zh) * | 2016-11-22 | 2017-03-22 | 山东浪潮云服务信息科技有限公司 | 一种基于多维度校验规则的数据质量检测方法 |
CN107895003A (zh) * | 2017-10-31 | 2018-04-10 | 山东浪潮云服务信息科技有限公司 | 一种数据质量检测方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ostrand et al. | Predicting the location and number of faults in large software systems | |
US7757125B2 (en) | Defect resolution methodology and data defects quality/risk metric model extension | |
US7917897B2 (en) | Defect resolution methodology and target assessment process with a software system | |
US8589884B2 (en) | Method and system for identifying regression test cases for a software | |
US20080092120A1 (en) | Size and effort estimation in testing applications | |
US20140033176A1 (en) | Methods for predicting one or more defects in a computer program and devices thereof | |
CN111126026B (zh) | 将sql语句解析生成可视化报表的方法和工具 | |
CN107665171A (zh) | 自动回归测试方法及装置 | |
CN110096430B (zh) | 第三方sdk准入测试方法、装置、终端及存储介质 | |
CN107895003A (zh) | 一种数据质量检测方法和装置 | |
US8990626B2 (en) | Method and apparatus for determining relevance of assignments in combinatorial models | |
Corea et al. | A taxonomy of business rule organizing approaches in regard to business process compliance | |
JP6975086B2 (ja) | 品質評価方法および品質評価装置 | |
CN112685275A (zh) | 算法策略搜索方法、装置、电子设备及存储介质 | |
Chillarege et al. | Identifying risk using ODC based growth models | |
CN108733362A (zh) | 一种数据质量检验方法和装置 | |
US11921155B2 (en) | Dice testing method | |
CN115185819A (zh) | 系统测试方法、装置、设备及计算机可读存储介质 | |
US8027764B2 (en) | Method and system for automatic test data generation for lookup tables | |
US10803219B1 (en) | Method and system for combined formal static analysis of a design code | |
Damm et al. | Identification of test process improvements by combining fault trigger classification and faults-slip-through measurement | |
Kinneer et al. | Automatically Evaluating the Efficiency of Search-Based Test Data Generation for Relational Database Schemas. | |
CN110008098A (zh) | 评估业务流程中的节点的运行状况的方法和装置 | |
CN110276171A (zh) | 第三方库文件安全评估方法、系统、装置及存储介质 | |
CN111078543B (zh) | 系统动态化测试方法及测试装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20181102 |
|
RJ01 | Rejection of invention patent application after publication |