CN113468037A - 一种数据质量评估方法、装置、介质和电子设备 - Google Patents
一种数据质量评估方法、装置、介质和电子设备 Download PDFInfo
- Publication number
- CN113468037A CN113468037A CN202110841999.2A CN202110841999A CN113468037A CN 113468037 A CN113468037 A CN 113468037A CN 202110841999 A CN202110841999 A CN 202110841999A CN 113468037 A CN113468037 A CN 113468037A
- Authority
- CN
- China
- Prior art keywords
- data
- evaluated
- subset
- target
- field information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 81
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012795 verification Methods 0.000 claims abstract description 70
- 238000012797 qualification Methods 0.000 claims abstract description 61
- 238000004590 computer program Methods 0.000 claims description 13
- 238000001303 quality assessment method Methods 0.000 claims description 9
- 238000001514 detection method Methods 0.000 abstract description 3
- 238000011156 evaluation Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000002360 explosive Substances 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004140 cleaning Methods 0.000 description 1
- 238000011157 data evaluation Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供一种数据质量评估方法、装置、介质和电子设备,涉及数据检测技术领域。该方法,获取待评估数据的待评估数据子集;将待评估数据子集与预设数据元进行匹配,确定待评估数据子集中的字段信息对应的目标数据元;根据预设的数据元与校验规则的对应关系,确定目标数据元对应的目标校验规则;根据目标校验规则,确定待评估数据子集的子集数据合格率。该方法,通过基于预设的数据元及数据元与校验规则的对应关系,为待评估数据的字段信息匹配适用的校验规则,得到待评估数据的待评估数据子集的合格率,实现对待评估数据的数据质量的自动评估,可以节省数据质量评估的人力成本,提升数据质量评估的效率。
Description
技术领域
本申请实施例涉及数据检测技术领域,尤其涉及一种数据质量评估方法、装置、介质和电子设备。
背景技术
数据质量是指在业务环境中,数据满足用户需求的程度以及在完整性、有效性、一致性等方面的完善程度。
在数据仓库飞速发展的今天,数据仓库中海量数据呈现爆发式增长,数据的集中为后续的数据分析和挖掘数据价值提供了更多可能。数据质量直接决定了业务的正确性以及算法的准确性。所以数据质量评估变的尤为重要。
目前数据仓库的数据质量评估,通常在将原始数据接入到数据仓库的阶段通过人工进行。相关技术在数据质量评估时,对专业化要求高,工作量大,因而数据质量评估的效率低。
发明内容
为解决现有存在的技术问题,本申请实施例提供了一种数据质量评估方法、装置、介质和电子设备,可以提高数据质量评估的效率。
为达到上述目的,本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供一种数据质量评估方法,包括:
获取待评估数据的待评估数据子集;其中,所述待评估数据子集包括至少一个字段信息;所述字段信息具有对应的字段名称;
将所述待评估数据子集与预设数据元进行匹配,确定所述待评估数据子集中的所述字段信息对应的目标数据元;
根据预设的数据元与校验规则的对应关系,确定所述目标数据元对应的目标校验规则;
根据所述目标校验规则,确定所述待评估数据子集的子集数据合格率;所述子集数据合格率表征所述待评估数据子集包含的字段信息中,符合所述目标校验规则的字段信息所占的比例。
本申请实施例提供的数据质量评估方法,获取待评估数据的待评估数据子集;将待评估数据子集与预设数据元进行匹配,确定待评估数据子集中的字段信息对应的目标数据元;根据预设的数据元与校验规则的对应关系,确定目标数据元对应的目标校验规则;根据目标校验规则,确定待评估数据子集的子集数据合格率。该方法在数据质量评估时,通过基于预设的数据元及数据元与校验规则的对应关系,为待评估数据的字段信息匹配适用的校验规则,得到待评估数据的所述待评估数据子集的合格率,实现对待评估数据的数据质量的自动评估,无需人为干预,可以节省数据质量评估的人力成本,提升数据质量评估的效率。
在一种可选的实施例中,所述将所述待评估数据子集与预设数据元进行匹配,确定所述待评估数据子集中的所述字段信息对应的目标数据元,包括:
确定所述待评估数据子集包含的所述字段信息对应的目标字段名称;
将所述目标字段名称与预设数据元进行匹配,确定所述目标字段名称匹配的数据元;
将所述目标字段名称匹配的数据元,作为所述待评估数据子集中的所述字段信息对应的目标数据元。
在该实施例中,确定所述待评估数据子集包含的所述字段信息对应的目标字段名称;将所述目标字段名称与预设数据元进行匹配,确定所述目标字段名称匹配的数据元;将所述目标字段名称匹配的数据元,作为所述待评估数据子集中的所述字段信息对应的目标数据元。该方法通过字段信息对应的字段名称与预设数据元进行匹配,确定所述待评估数据子集中的所述字段信息对应的目标数据元,可以快速地确定数据元,无需人工识别,进一步节省数据质量评估的人力成本,提升数据质量评估的效率。
在一种可选的实施例中,所述根据所述目标校验规则,确定所述待评估数据子集的子集数据合格率,包括:
根据所述目标校验规则,确定所述待评估数据子集包含的所述字段信息是否符合对应的所述目标校验规则,以得到所述待评估数据子集的子集数据合格数量;
根据所述待评估数据子集的所述子集数据合格数量和所述待评估数据子集中包含的所述字段信息的数量,得到所述待评估数据子集的子集数据合格率。
在该实施例中,根据所述目标校验规则,确定所述待评估数据子集包含的所述字段信息是否符合对应的所述目标校验规则,得到所述待评估数据子集的子集数据合格数量;根据所述待评估数据子集的所述子集数据合格数量和所述待评估数据子集中包含的所述字段信息的数量,得到所述待评估数据子集的子集数据合格率。该方法无需人工识别及计算,进一步节省数据质量评估的人力成本,提升数据质量评估的效率。
在一种可选的实施例中,在所述根据所述目标校验规则,确定所述待评估数据子集的子集数据合格率之后,该方法还包括:
根据所述待评估数据子集的所述子集数据合格率,确定所述待评估数据的数据合格率;所述数据合格率表征所述待评估数据的待评估数据子集中,包含的所述字段信息全部符合对应的所述目标校验规则的待评估数据子集的占比。
在该实施例中,根据所述待评估数据子集的所述子集数据合格率,确定所述待评估数据的数据合格率。该方法可以自动得出待评估数据的数据合格率,进一步减少人工计算,节省数据质量评估的人力成本,提升数据质量评估的效率。
在一种可选的实施例中,在所述获取待评估数据的待评估数据子集之前,所述方法还包括:
构建所述预设数据元及与所述预设数据元分别对应的校验规则;
根据所述预设数据元对原始数据的原始字段名称进行标准化处理,得到标准数据;所述标准数据用于从所述标准数据中获取所述待评估数据。
在该实施例中,构建所述预设数据元及与所述预设数据元分别对应的校验规则;根据所述预设数据元对原始数据的原始字段名称进行标准化处理,得到标准数据;所述标准数据用于从所述标准数据中获取所述待评估数据。通过构建所述预设数据元及与所述预设数据元分别对应的校验规则,根据所述预设数据元对原始数据的原始字段名称进行标准化处理,得到标准数据,可以实现对基于数据元的校验规则的配置,从而使得可以不借助人工识别就可以对数据仓库中的标准数据进行数据评估,节省数据质量评估的人力成本,提升数据质量评估的效率。
在一种可选的实施例中,所述待评估数据子集为所述待评估数据中选取的一组字段信息对应的字段名称相同的列数据;或所述待评估数据中选取的一组字段信息对应的字段名称不同的行数据。
在该实施例中,待评估数据子集为所述待评估数据中选取的一组字段信息对应的字段名称均相同的列数据,或所述待评估数据中选取的一组字段信息对应的字段名称均不同的行数据。该方法即可以得到待评估数据的列数据的合格率,也可以得到待评估数据的行数据的合格率,进一步减少人工识别,节省数据质量评估的人力成本,提升数据质量评估的效率。
在一种可选的实施例中,所述子集数据合格率表征所述待评估数据子集包含的通用字段信息中,符合所述目标校验规则的字段信息所占的比例;所述通用字段信息为所述待评估数据子集包含的字段信息中,可以确定出所述目标校验规则的字段信息。
在该实施例中,所述子集数据合格率表征所述待评估数据子集包含的通用字段信息中,符合所述目标校验规则的字段信息所占的比例;所述通用字段信息为所述待评估数据子集包含的字段信息中,可以确定出所述目标校验规则的字段信息。该方法将可以确定出目标校验规则的字段信息作为基准,考察待评估数据子集的合格率,进一步细化数据质量评估,减少人工识别,节省数据质量评估的人力成本,从而提升数据质量评估的效率。
第二方面,本申请实施例还提供了一种数据质量评估装置,包括:
数据获取模块,被配置为获取待评估数据的待评估数据子集;其中,所述待评估数据子集包括至少一个字段信息;所述字段信息具有对应的字段名称;
数据元确定模块,被配置为将所述待评估数据子集与预设数据元进行匹配,确定所述待评估数据子集中的所述字段信息对应的目标数据元;
规则确定模块,被配置为根据预设的数据元与校验规则的对应关系,确定所述目标数据元对应的目标校验规则;
质量校验模块,被配置为根据所述目标校验规则,确定所述待评估数据子集的子集数据合格率;所述子集数据合格率表征所述待评估数据子集包含的字段信息中,符合所述目标校验规则的字段信息所占的比例。
在一种可选的实施例中,所述数据元确定模块,具体被配置为:
确定所述待评估数据子集包含的所述字段信息对应的目标字段名称;
将所述目标字段名称与预设数据元进行匹配,确定所述目标字段名称匹配的数据元;
将所述目标字段名称匹配的数据元,作为所述待评估数据子集中的所述字段信息对应的目标数据元。
在一种可选的实施例中,所述质量校验模块,具体被配置为:
根据所述目标校验规则,确定所述待评估数据子集包含的所述字段信息是否符合对应的所述目标校验规则,以得到所述待评估数据子集的子集数据合格数量;
根据所述待评估数据子集的所述子集数据合格数量和所述待评估数据子集中包含的所述字段信息的数量,得到所述待评估数据子集的子集数据合格率。
在一种可选的实施例中,所述质量校验模块还被配置为:
根据所述待评估数据子集的所述子集数据合格率,确定所述待评估数据的数据合格率;所述数据合格率表征所述待评估数据的待评估数据子集中,包含的所述字段信息全部符合对应的所述目标校验规则的待评估数据子集的占比。
在一种可选的实施例中,所述装置还包括模型初始化模块,所述模型初始化模块被配置为:
构建所述预设数据元及与所述预设数据元分别对应的校验规则;
根据所述预设数据元对原始数据的原始字段名称进行标准化处理,得到标准数据;所述标准数据用于从所述标准数据中获取所述待评估数据。
在一种可选的实施例中,所述待评估数据子集为所述待评估数据中选取的一组字段信息对应的字段名称均相同的列数据;或所述待评估数据中选取的一组字段信息对应的字段名称均不同的行数据。
在一种可选的实施例中,所述子集数据合格率表征所述待评估数据子集包含的通用字段信息中,符合所述目标校验规则的字段信息所占的比例;所述通用字段信息为所述待评估数据子集包含的字段信息中,可以确定出所述目标校验规则的字段信息。
第三方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现第一方面的数据质量评估方法。
第四方面,本申请实施例还提供了一种电子设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现第一方面的数据质量评估方法。
第二方面至第四方面中任意一种实现方式所带来的技术效果可参见第一方面中对应的实现方式所带来的技术效果,此处不再赘述。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种数据质量评估方法的流程示意图;
图2为本申请实施例提供的另一种数据质量评估方法的流程示意图;
图3为本申请实施例提供的另一种数据质量评估方法的流程示意图;
图4为本申请实施例提供的一种数据质量评估装置的结构示意图;
图5为本申请实施例提供的另一种数据质量评估装置的结构示意图;
图6为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
需要说明的是,本申请的文件中涉及的术语“包括”和“具有”以及它们的变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
下面对文中出现的一些词语进行解释:
(1)、数据元:也称数据元素,是用一组属性描述其定义、标识、表示和允许值的数据单元。数据元通常用于构建一个语义正确、独立且无歧义的特定概念语义的信息单元。
(2)、数据仓库(Data Warehouse,DW):数据仓库是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。数据仓库是集成的,数据仓库的数据有来自于分散的操作型数据,将所需数据从原来的数据中抽取出来,进行加工与集成,统一与综合之后才能进入数据仓库;数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。
(3)正则表达式(Regular Expression,RE),又称规则表达式,正则表达式是对字符串操作的一种逻辑公式,是用预先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。
数据质量是指在业务环境中,数据满足用户需求的程度以及在完整性、有效性、一致性等方面的完善程度。
在数据仓库飞速发展的今天,数据仓库中海量数据呈现爆发式增长,数据的集中为后续的数据分析和挖掘数据价值提供了更多可能。数据质量直接决定了业务的正确性以及算法的准确性。所以数据质量评估变的尤为重要。
目前数据仓库的数据质量评估,通常在将原始数据接入到数据仓库的阶段通过人工进行。相关技术在数据质量评估时,对专业化要求高,工作量大,因而数据质量评估的效率低。
为解决现有存在的技术问题,本申请实施例提供了一种数据质量评估方法,获取待评估数据的待评估数据子集;将待评估数据子集与预设数据元进行匹配,确定待评估数据子集中的字段信息对应的目标数据元;根据预设的数据元与校验规则的对应关系,确定目标数据元对应的目标校验规则;根据目标校验规则,确定待评估数据子集的子集数据合格率。该方法在数据质量评估时,通过基于预设的数据元及数据元与校验规则的对应关系,为待评估数据的字段信息匹配适用的校验规则,得到待评估数据的待评估数据子集的合格率,实现对待评估数据的数据质量的自动评估,无需人为干预,可以节省数据质量评估的人力成本,提升数据质量评估的效率。
下面将结合附图,对本申请实施例提供的技术方案进行详细说明。
本申请实施例提供了一种数据质量评估方法,如图1所示,包括如下步骤:
步骤S101,获取待评估数据的待评估数据子集。
其中,待评估数据子集包括至少一个字段信息;字段信息具有对应的字段名称。
具体实施时,可以依次获取待评估数据的待评估数据子集,其中,待评估数据子集包括至少一个字段信息;字段信息具有对应的字段名称。通过依次对待评估数据子集的数据质量评估,实现对待评估数据的数据质量评估。
示例性地,表1示出了本申请实施例提供的一种待评估数据子集,本申请的以下实施例,均以待评估数据是如表1所示的数据表为例。表1中,待评估数据包括36个字段信息,每个字段信息具有对应的字段名称,例如:姓名、性别、年龄、身份证、手机号码、邮箱。举例而言,字段信息“李勇”具有对应的字段名称“姓名”;字段信息“130xxx2003xxxxxxxx”具有对应的字段名称“身份证”。
表1
姓名 | 性别 | 年龄 | 身份证 | 手机号码 | 邮箱 |
李勇 | 男 | 21 | 120xxx2001xxxxxxxx | 138xxxxxxxx | liyong@xxx.com |
赵飞 | 女 | 19 | 130xxx2003xxxxxxxx | 139xxxxxxxx | zhaof@xxx.com |
张小红 | 女 | 20 | 120xxx2002xxxxxxxx | 137xxxxxxxx | zhangxh@xxx.com |
王磊 | 男男 | 40 | 130xxx1981xxxxxxxx | 136xxxxxxxx | zhangxh@xxx.com |
周不通 | 男 | 30 | 120xxx1991xxxxxxxx | 135xxxxxxxx | zhoubt@xxx.com |
张小满 | 男 | 35 | 130xxx1986xxxxxxxx | 133xxxxxxxx | zhangxm@xxx.com |
在一种可选的实施例中,待评估数据子集为待评估数据中选取的一组字段信息对应的字段名称相同的列数据;或待评估数据中选取的一组字段信息对应的字段名称不同的行数据。
示例性地,待评估数据子集可以是如表2所示的一组列数据,该列数据是从表1所示的待评估数据中选取的。
表2
姓名 |
李勇 |
赵飞 |
张小红 |
王磊 |
周不通 |
张小满 |
待评估数据子集还可以是如表3所示的一组列数据,该列数据是从表1所示的待评估数据中选取的。
表3
赵飞 | 女 | 19 | 130xxx2003xxxxxxxx | 139xxxxxxxx | zhaof@xxx.com |
可以理解地,对于待评估数据进行数据质量评估,既可以通过依次选取列数据分别进行数据质量评估,也可以通过依次选取列数据分别进行数据质量评估。
在一些实施例中,对于待评估数据进行数据质量评估时,还可以同时进行依次选取列数据分别进行数据质量评估,及依次选取列数据分别进行数据质量评估的操作。
示例性地,本申请的一种实施例中,对于待评估数据进行数据质量评估时,可以既包括依次选取如表2所示的列数据分别进行数据质量评估;也包括依次选取如表3所示的行数据分别进行数据质量评估的操作。
在一种可选的实施例中,在获取待评估数据的待评估数据子集之前,构建预设数据元及与预设数据元分别对应的校验规则,其中,预设数据元用于供用户根据预设数据元对原始数据的原始字段名称进行标准化处理,得到标准数据。标准数据用于从标准数据中获取待评估数据。
数据仓库的建设是建立在数据标准化的基础之上,即一些固定的字段都需要定义好统一的数据元,得到标准的数据元,例如性别,按照公安部国标就是XB,这样不管数据在原始层是什么样子的,都会转换成标准层数据,从而保证针对数据进行的业务的通用性。所以数据仓库建设中,需要有一套数据仓库的标准的数据元,可以沿用公安部的标准,也可以自己制定,在数据仓库的标准层中数据的物理模型必须是全部用预先定义的数据元来组成。
基于标准的数据元,针对每个数据元,相对应地定义一种数据质量检测方法。从而可以对后续数据仓库中所有生成的标准层的物理模型进行自动化的智能的数据质量评估。其他基于数据之上的业务或者是算法就可以直接用统一的数据质量评估结果来进行处理。
在一种可选的实施例中,在获取待评估数据的待评估数据子集之前,还包括:
步骤A01,构建预设数据元及与预设数据元分别对应的校验规则。
示例性地,在一种实施例中,分别对姓名,性别,年龄,身份证,手机号码,邮箱等字段名称对应的预设数据元,制定校验规则如下:
姓名(XM):2~6个中文字符;
性别(XB):中文字男,女;
年龄(NL):纯数字并且在0到150之间;
身份证(SFZHM):符合身份证正则表达式;
手机号码(SJHM):符合手机号码正则表达式;
邮箱(YX):符合邮箱正则表达式。
步骤A02,根据预设数据元对原始数据的原始字段名称进行标准化处理,得到标准数据。
标准数据用于从标准数据中获取待评估数据。
具体实施时,根据预设数据元对原始数据的原始字段名称进行标准化处理,得到标准数据,可以是通过人工进行识别实现。具体地,可以根据预设数据元,对原始数据的原始字段名称进行标准化:识别出与原始数据的原始字段名称相对应的标准的字段名称;将原始数据的原始字段名称修改为对应的标准的字段名称,从而得到标准数据。根据标准数据中的标准的字段名称可以确定出对应的预设数据元。
举例而言,假定一个原始数据的原始字段名称为“名字”,通过人工识别确定“名字”指的是人员的姓名,根据与预设数据元XM对应的标准的字段名称是“姓名”,则将原始数据的原始字段名称“名字”修改为“姓名”,后续进行数据质量评估时,该原始数据的原始字段名称为“名字”所对应的字段信息,均可以通过修改后的标准的字段名称“姓名”,关联到预设数据元“XM”,并通过预设数据元“XM”对应的校验规则“2~6个中文字符”进行数据质量评估。
步骤S102,将待评估数据子集与预设数据元进行匹配,确定待评估数据子集中的字段信息对应的目标数据元。
在一种可选的实施例中,将待评估数据子集与预设数据元进行匹配,确定待评估数据子集中的字段信息对应的目标数据元,通过以下步骤实现:
步骤B01,确定待评估数据子集包含的字段信息对应的目标字段名称。
具体地,待评估数据子集包括的字段信息,具有对应的字段名称,因此,将待评估数据子集与预设数据元进行匹配时,首先确定待评估数据子集包含的字段信息对应的目标字段名称。
示例性地,对于一个字段信息“张三”,当数据质量检测时,获得其字段名称为“姓名”。
步骤B02,将目标字段名称与预设数据元进行匹配,确定目标字段名称匹配的数据元。
本申请实施例中的待评估数据是从根据预设数据元对原始数据的原始字段名称进行标准化处理得到的标准数据获取的。因此,待评估数据子集包含的字段信息对应的目标字段名称与预设数据元进行匹配,预设数据元中与目标字段名称的值相同的数据元,确定为目标字段名称匹配的数据元。
示例性地,以一个字段名为例进行说明,将字段名称“姓名”与预设数据元进行匹配,预设数据元中存在与字段名称“姓名”相对应的预设数据元“XM”,从而确定字段名称“姓名”匹配的数据元为“XM”。
步骤B03,将目标字段名称匹配的数据元,作为待评估数据子集中的字段信息对应的目标数据元。
可以理解的是,目标字段名称匹配的数据元,表征与待评估数据子集中的字段信息对应的预设数据元。因此,具体实施时,将目标字段名称匹配的数据元,作为待评估数据子集中的字段信息对应的目标数据元。
示例性地,将数据元为“XM”,作为字段信息“张三”对应的目标数据元。
步骤S103,根据预设的数据元与校验规则的对应关系,确定目标数据元对应的目标校验规则。
示例性地,分别对姓名,性别,年龄,身份证,手机号码,邮箱等字段名称对应的预设数据元,制定校验规则如表4所示。
表4
字段名称 | 数据元 | 校验规则 |
姓名 | XM | 2~6个中文字符 |
性别 | XB | 中文字男,女; |
年龄 | NL | 纯数字并且在0到150之间; |
身份证 | SFZHM | 符合身份证正则表达式; |
手机号码 | SJHM | 符合手机号码正则表达式; |
邮箱 | YX | 符合邮箱正则表达式。 |
当数据质量检测时,若检测某个字段信息对应的目标数据元为“XM”,根据表4所示的预设的数据元与校验规则的对应关系,确定目标数据元“XM”对应的目标校验规则为“2~6个中文字符”。
步骤S104,根据目标校验规则,确定待评估数据子集的子集数据合格率。
其中,子集数据合格率表征待评估数据子集包含的字段信息中,符合目标校验规则的字段信息所占的比例。
在一种可选的实施例中,根据目标校验规则,确定待评估数据子集的子集数据合格率,可以通过以下步骤实现:
步骤C01,根据目标校验规则,确定待评估数据子集包含的字段信息是否符合对应的目标校验规则,以得到待评估数据子集的子集数据合格数量。
示例性地,以一个待评估数据子集为例进行说明,在匹配对应的数据元,得到对应的目标校验规则为“2~6个中文字符”之后,根据对应的目标校验规则“2~6个中文字符”对该字段信息“张三”的值进行规则校验,确定该字段信息是否符合对应的目标校验规则“2~6个中文字符”;同理我们可以得到待评估数据子集包含的其他字段信息是否符合对应的目标校验规则“2~6个中文字符”,从而得到待评估数据子集的子集数据合格数量。
步骤C02,根据待评估数据子集的子集数据合格数量和待评估数据子集中包含的字段信息的数量,得到待评估数据子集的子集数据合格率。
具体地,子集数据合格率表征待评估数据子集包含的字段信息中,符合目标校验规则的字段信息所占的比例。获取待评估数据子集中包含的字段信息的数量,并根据待评估数据子集的子集数据合格数量和待评估数据子集中包含的字段信息的数量,得到待评估数据子集的子集数据合格率。
示例性地,假定一个待评估数据子集Subi中包含的符合对应的目标校验规则的字段信息的数量为Total_Suci,待评估数据子集中包含的字段信息的数量Totali,则待评估数据子集Subi的子集数据合格率Ratei可以通过下式得到:
举例而言,对于如表1所示的待评估数据,包含6个如表2所示的列数据,列数据中包含的字段信息的数量均是6个,假设列数据包含的符合对应的目标校验规则的字段信息的数量依次为6、5、6、6、6、6,则列数据的子集数据合格率依次为100%,83.3%,100%,100%,100%,100%。
在一种可选的实施例中,在根据目标校验规则,确定待评估数据子集的子集数据合格率之后,根据待评估数据子集的子集数据合格率,确定待评估数据的数据合格率。其中,数据合格率表征待评估数据的待评估数据子集中,包含的字段信息全部符合对应的目标校验规则的待评估数据子集的占比。
示例性地,待评估数据的待评估数据子集是行数据,在根据目标校验规则,确定行数据的子集数据合格率之后,根据行数据的子集数据合格率,确定待评估数据的数据合格率。其中,待评估数据的数据合格率是整行数据质量合格的行数据的数量占全部行数据的数量的百分比。
举例而言,表1所示的待评估数据中,字段信息“男男”对应的字段名称是“性别”,对应的数据元是“XB”,该字段信息不符合与数据元“XB”对应的目标校验规则“中文字男,女”。对于如表1所示的待评估数据,包含6个如表3所示的行数据,行数据中包含的字段信息的数量均是6个,假设行数据包含的符合对应的目标校验规则的字段信息的数量依次为6、6、6、5、6、6,则列数据的子集数据合格率依次为100%,100%,100%,83.3%,100%,100%。由此可以得到,整行数据质量合格的行数据的数量是5,全部行数据的数量是6,待评估数据的数据合格率表征的是整行数据质量合格的行数据的数量占全部行数据的数量的百分比,因此,该待评估数据的数据合格率通过下式计算:
本申请实施例提供的数据质量评估方法,获取待评估数据的待评估数据子集;将待评估数据子集与预设数据元进行匹配,确定待评估数据子集中的字段信息对应的目标数据元;根据预设的数据元与校验规则的对应关系,确定目标数据元对应的目标校验规则;根据目标校验规则,确定待评估数据子集的子集数据合格率。该方法在数据质量评估时,通过基于预设的数据元及数据元与校验规则的对应关系,为待评估数据的字段信息匹配适用的校验规则,得到待评估数据的待评估数据子集的合格率,实现对待评估数据的数据质量的自动评估,无需人为干预,可以节省数据质量评估的人力成本,提升数据质量评估的效率。
在一种可选的实施例中,确定待评估数据的数据合格率之后,根据待评估数据的数据合格率形成待评估数据的数据质量报告。
可以理解地,数据质量报告包括的具体数据可以根据需要进行具体设定,本申请对数据质量报告包括的具体数据的内容不作具体限定。
在一种可选的实施例中,目标标准数据包含多个待评估数据;在确定待评估数据的数据合格率之后,根据待评估数据的数据合格率形成目标标准数据的整表数据质量报告。
上述实施例的方法,可以生成并输出数据质量报告,进一步节省数据质量评估的人力成本,提升数据质量评估的效率。
在一种可选的实施例中,子集数据合格率表征待评估数据子集包含的通用字段信息中,符合目标校验规则的字段信息所占的比例;通用字段信息为待评估数据子集包含的字段信息中,可以确定出目标校验规则的字段信息。
该方法可以自动得出待评估数据的数据合格率,进一步减少人工计算,节省数据质量评估的人力成本,提升数据质量评估的效率。
为了更好地帮助理解本申请的技术方案,本申请实施例提供了另一种数据质量评估方法的流程示意图。
该种数据质量评估方法,请参见图2,可以通过以下步骤实现:
步骤S201,获取待评估数据的待评估数据子集。
其中,待评估数据子集包括至少一个字段信息;字段信息具有对应的字段名称。
具体实施时,待评估数据子集可以为待评估数据中选取的一组字段信息对应的字段名称相同的列数据,也可以是待评估数据中选取的一组字段信息对应的字段名称不同的行数据。
步骤S202,确定待评估数据子集包含的字段信息对应的目标字段名称。
步骤S203,将目标字段名称与预设数据元进行匹配,确定目标字段名称匹配的数据元。
步骤S204,将目标字段名称匹配的数据元,作为待评估数据子集中的字段信息对应的目标数据元。
步骤S205,根据预设的数据元与校验规则的对应关系,确定目标数据元对应的目标校验规则。
步骤S206,根据目标校验规则,确定待评估数据子集包含的字段信息是否符合对应的目标校验规则,以得到待评估数据子集的子集数据合格数量。
步骤S207,根据待评估数据子集的子集数据合格数量和待评估数据子集中包含的字段信息的数量,得到待评估数据子集的子集数据合格率。
步骤S208,根据待评估数据子集的子集数据合格率,确定待评估数据的数据合格率。
其中,数据合格率表征待评估数据的待评估数据子集中,包含的字段信息全部符合对应的目标校验规则的待评估数据子集的占比。
步骤S209,根据待评估数据的数据合格率形成待评估数据的数据质量报告。
步骤S201~步骤S209中步骤具体过程可以参照前述实施例中的方法步骤执行,在此不再赘述。
可以理解地,本申请实施例提供的数据质量评估方法在具体实施时,可以采取不同的获取数据的步骤。获取数据只是准备数据以进行数据质量评估,根据需要,可以采取不同的获取数据的方式。与上述实施例不同地,本申请的实施例提供的数据质量评估方法还可以具有其他的取数据的方式,例如,可以获取当前待评估数据的全部的字段名称后,对字段名称对应的字段信息进行校验。
图3示出了本申请实施例提供的另一种数据质量评估方法。如图3所示,包括如下步骤:
步骤S301,获取数据仓库中全部的待评估数据。
其中,待评估数据是数据仓库中的标准层表。标准层表是根据预设数据元对原始数据的原始字段名称进行标准化处理,得到的标准数据。
步骤S302,遍历待评估数据,并判断遍历是否结束。若否,对个待评估数据分别执行步骤S303~步骤S307。若是,执行步骤S308。
具体地,遍历待评估数据,以对待评估数据进行数据质量评估。
步骤S303,获取当前待评估数据的全部的字段名称。
步骤S304,遍历当前待评估数据的字段名称,判断字段名称的遍历是否结束。若否,对当前字段名称分别执行步骤S305~步骤S306。若是,执行步骤S307。
步骤S305,确定当前字段名称与预设数据元是否匹配。若是,则执行步骤S306;若否,则返回步骤S304。
步骤S306,根据与遍历到的预设数据元对应的数据校验规则,对当前字段名称对应的字段信息进行校验,得到当前字段名称对应的列数据的子集数据合格率。
其中,列数据包括当前字段名称对应的字段信息。
步骤S307,根据当前待评估数据的字段名称对应的列数据的子集数据合格率,得到当前待评估数据的数据质量报告。
步骤S308,根据待评估数据的数据质量报告,得到数据仓库中全部的待评估数据的数据质量报告。
步骤S301~步骤S308中步骤具体过程可以参照前述实施例中的方法步骤执行,在此不再赘述。
与图1所示的数据质量评估方法基于同一发明构思,本申请实施例中还提供了一种数据质量评估装置。由于该装置是本申请数据质量评估方法对应的装置,并且该装置解决问题的原理与该方法相似,因此该装置的实施可以参见上述方法的实施,重复之处不再赘述。
图4示出了本申请实施例提供的一种数据质量评估装置的结构示意图,如图4所示,该数据质量评估装置包括数据获取模块401、数据元确定模块402、规则确定模块403和质量校验模块404。
其中,数据获取模块401,被配置为获取待评估数据的待评估数据子集;其中,待评估数据子集包括至少一个字段信息;字段信息具有对应的字段名称;
数据元确定模块402,被配置为将待评估数据子集与预设数据元进行匹配,确定待评估数据子集中的字段信息对应的目标数据元;
规则确定模块403,被配置为根据预设的数据元与校验规则的对应关系,确定目标数据元对应的目标校验规则;
质量校验模块404,被配置为根据目标校验规则,确定待评估数据子集的子集数据合格率;子集数据合格率表征待评估数据子集包含的字段信息中,符合目标校验规则的字段信息所占的比例。
在一种可选的实施例中,数据元确定模块402,具体被配置为:
确定待评估数据子集包含的字段信息对应的目标字段名称;
将目标字段名称与预设数据元进行匹配,确定目标字段名称匹配的数据元;
将目标字段名称匹配的数据元,作为待评估数据子集中的字段信息对应的目标数据元。
在一种可选的实施例中,质量校验模块404,具体被配置为:
根据目标校验规则,确定待评估数据子集包含的字段信息是否符合对应的目标校验规则,以得到待评估数据子集的子集数据合格数量;
根据待评估数据子集的子集数据合格数量和待评估数据子集中包含的字段信息的数量,得到待评估数据子集的子集数据合格率。
在一种可选的实施例中,质量校验模块404还被配置为:
根据待评估数据子集的子集数据合格率,确定待评估数据的数据合格率;数据合格率表征待评估数据的待评估数据子集中,包含的字段信息全部符合对应的目标校验规则的待评估数据子集的占比。
在一种可选的实施例中,如图5所示,数据质量评估装置还包括模型初始化模块501,模型初始化模块501被配置为:
构建预设数据元及与预设数据元分别对应的校验规则;
根据预设数据元对原始数据的原始字段名称进行标准化处理,得到标准数据;标准数据用于从标准数据中获取待评估数据。
在一种可选的实施例中,待评估数据子集为待评估数据中选取的一组字段信息对应的字段名称均相同的列数据;或待评估数据中选取的一组字段信息对应的字段名称均不同的行数据。
在一种可选的实施例中,子集数据合格率表征待评估数据子集包含的通用字段信息中,符合目标校验规则的字段信息所占的比例;通用字段信息为待评估数据子集包含的字段信息中,可以确定出目标校验规则的字段信息。
与上述方法实施例基于同一发明构思,本申请实施例中还提供了一种电子设备。该电子设备可以用于数据质量评估。在一种实施例中,该电子设备可以是服务器,也可以是终端设备或其他电子设备。在该实施例中,电子设备的结构可以如图6所示,包括存储器101,通讯模块103以及一个或多个处理器102。
存储器101,用于存储处理器102执行的计算机程序。存储器101可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统,以及运行即时通讯功能所需的程序等;存储数据区可存储各种即时通讯信息和操作指令集等。
存储器101可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器101也可以是非易失性存储器(non-volatilememory),例如只读存储器,快闪存储器(flash memory),硬盘(hard disk drive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器101是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器101可以是上述存储器的组合。
处理器102,可以包括一个或多个中央处理单元(central processing unit,CPU)或者为数字处理单元等等。处理器102,用于调用存储器101中存储的计算机程序时实现上述数据质量评估方法。
通讯模块103用于与终端设备和其他服务器进行通信。
本申请实施例中不限定上述存储器101、通讯模块103和处理器102之间的具体连接介质。本公开实施例在图6中以存储器101和处理器102之间通过总线104连接,总线104在图6中以粗线表示,其它部件之间的连接方式,仅是进行示意性说明,并不引以为限。总线104可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
根据本申请的一个方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述实施例中的数据质量评估方法。所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。
Claims (15)
1.一种数据质量评估方法,其特征在于,包括:
获取待评估数据的待评估数据子集;其中,所述待评估数据子集包括至少一个字段信息;所述字段信息具有对应的字段名称;
将所述待评估数据子集与预设数据元进行匹配,确定所述待评估数据子集中的所述字段信息对应的目标数据元;
根据预设的数据元与校验规则的对应关系,确定所述目标数据元对应的目标校验规则;
根据所述目标校验规则,确定所述待评估数据子集的子集数据合格率;所述子集数据合格率表征所述待评估数据子集包含的字段信息中,符合所述目标校验规则的字段信息所占的比例。
2.如权利要求1所述的方法,其特征在于,所述将所述待评估数据子集与预设数据元进行匹配,确定所述待评估数据子集中的所述字段信息对应的目标数据元,包括:
确定所述待评估数据子集包含的所述字段信息对应的目标字段名称;
将所述目标字段名称与预设数据元进行匹配,确定所述目标字段名称匹配的数据元;
将所述目标字段名称匹配的数据元,作为所述待评估数据子集中的所述字段信息对应的目标数据元。
3.如权利要求1所述的方法,其特征在于,所述根据所述目标校验规则,确定所述待评估数据子集的子集数据合格率,包括:
根据所述目标校验规则,确定所述待评估数据子集包含的所述字段信息是否符合对应的所述目标校验规则,以得到所述待评估数据子集的子集数据合格数量;
根据所述待评估数据子集的所述子集数据合格数量和所述待评估数据子集中包含的所述字段信息的数量,得到所述待评估数据子集的子集数据合格率。
4.如权利要求1所述的方法,其特征在于,在所述根据所述目标校验规则,确定所述待评估数据子集的子集数据合格率之后,所述方法还包括:
根据所述待评估数据子集的所述子集数据合格率,确定所述待评估数据的数据合格率;所述数据合格率表征所述待评估数据的待评估数据子集中,包含的所述字段信息全部符合对应的所述目标校验规则的待评估数据子集的占比。
5.如权利要求4所述的方法,其特征在于,在所述获取待评估数据的待评估数据子集之前,所述方法还包括:
构建所述预设数据元及与所述预设数据元分别对应的校验规则;
根据所述预设数据元对原始数据的原始字段名称进行标准化处理,得到标准数据;所述标准数据用于从所述标准数据中获取所述待评估数据。
6.如权利要求1~5中任一项所述的方法,其特征在于,所述待评估数据子集为所述待评估数据中的一组字段信息对应的字段名称相同的列数据;或为所述待评估数据中的一组字段信息对应的字段名称不同的行数据。
7.如权利要求1~5中任一项所述的方法,其特征在于,所述子集数据合格率表征所述待评估数据子集包含的通用字段信息中,符合所述目标校验规则的字段信息所占的比例;所述通用字段信息为所述待评估数据子集包含的字段信息中,可以确定出所述目标校验规则的字段信息。
8.一种数据质量评估装置,其特征在于,包括:
数据获取模块,被配置为获取待评估数据的待评估数据子集;其中,所述待评估数据子集包括至少一个字段信息;所述字段信息具有对应的字段名称;
数据元确定模块,被配置为将所述待评估数据子集与预设数据元进行匹配,确定所述待评估数据子集中的所述字段信息对应的目标数据元;
规则确定模块,被配置为根据预设的数据元与校验规则的对应关系,确定所述目标数据元对应的目标校验规则;
质量校验模块,被配置为根据所述目标校验规则,确定所述待评估数据子集的子集数据合格率;所述子集数据合格率表征所述待评估数据子集包含的字段信息中,符合所述目标校验规则的字段信息所占的比例。
9.如权利要求8所述的装置,其特征在于,所述数据元确定模块,具体被配置为:
确定所述待评估数据子集包含的所述字段信息对应的目标字段名称;
将所述目标字段名称与预设数据元进行匹配,确定所述目标字段名称匹配的数据元;
将所述目标字段名称匹配的数据元,作为所述待评估数据子集中的所述字段信息对应的目标数据元。
10.如权利要求8所述的装置,其特征在于,所述质量校验模块,具体被配置为:
根据所述目标校验规则,确定所述待评估数据子集包含的所述字段信息是否符合对应的所述目标校验规则,以得到所述待评估数据子集的子集数据合格数量;
根据所述待评估数据子集的所述子集数据合格数量和所述待评估数据子集中包含的所述字段信息的数量,得到所述待评估数据子集的子集数据合格率。
11.如权利要求8所述的装置,其特征在于,所述质量校验模块,还被配置为:根据所述待评估数据子集的所述子集数据合格率,确定所述待评估数据的数据合格率;所述数据合格率表征所述待评估数据的待评估数据子集中,包含的所述字段信息全部符合对应的所述目标校验规则的待评估数据子集的占比。
12.如权利要求11所述的装置,其特征在于,还包括模型初始化模块,所述模型初始化模块被配置为:
构建所述预设数据元及与所述预设数据元分别对应的校验规则;
根据所述预设数据元对原始数据的原始字段名称进行标准化处理,得到标准数据;所述标准数据用于从所述标准数据中获取所述待评估数据。
13.如权利要求8~12中任一项所述的装置,其特征在于,所述待评估数据子集为所述待评估数据中的一组字段信息对应的字段名称相同的列数据;或为所述待评估数据中的一组字段信息对应的字段名称不同的行数据。
14.一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,其特征在于:所述计算机程序被处理器执行时,实现权利要求1~7中任一项所述的方法。
15.一种电子设备,其特征在于,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,实现权利要求1~7中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110841999.2A CN113468037A (zh) | 2021-07-26 | 2021-07-26 | 一种数据质量评估方法、装置、介质和电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110841999.2A CN113468037A (zh) | 2021-07-26 | 2021-07-26 | 一种数据质量评估方法、装置、介质和电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113468037A true CN113468037A (zh) | 2021-10-01 |
Family
ID=77882349
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110841999.2A Pending CN113468037A (zh) | 2021-07-26 | 2021-07-26 | 一种数据质量评估方法、装置、介质和电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113468037A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115221893A (zh) * | 2022-09-21 | 2022-10-21 | 中国电子信息产业集团有限公司 | 基于规则与语义分析的质检规则自动化配置方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050060313A1 (en) * | 2003-09-15 | 2005-03-17 | Oracle International Corporation A California Corporation | Data quality analyzer |
US20130073594A1 (en) * | 2011-09-19 | 2013-03-21 | Citigroup Technology, Inc. | Methods and Systems for Assessing Data Quality |
US20140108357A1 (en) * | 2012-10-17 | 2014-04-17 | Ab Initio Technology Llc | Specifying and applying rules to data |
US8935379B1 (en) * | 2005-09-07 | 2015-01-13 | Reversevision, Inc. | Methods, systems, and products for evaluating electronic data and electronic forms |
CN108647358A (zh) * | 2018-05-17 | 2018-10-12 | 东软集团股份有限公司 | 数据质量校验方法、装置、存储介质及电子设备 |
CN110196834A (zh) * | 2019-05-21 | 2019-09-03 | 厦门市美亚柏科信息股份有限公司 | 一种用于数据项、文件、数据库的对标方法和系统 |
CN111061733A (zh) * | 2019-12-10 | 2020-04-24 | 北京明略软件系统有限公司 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
CN111639066A (zh) * | 2020-05-14 | 2020-09-08 | 杭州数梦工场科技有限公司 | 一种数据清洗的方法和装置 |
CN112395325A (zh) * | 2020-11-27 | 2021-02-23 | 广州光点信息科技有限公司 | 一种数据治理方法、系统、终端设备及存储介质 |
-
2021
- 2021-07-26 CN CN202110841999.2A patent/CN113468037A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050060313A1 (en) * | 2003-09-15 | 2005-03-17 | Oracle International Corporation A California Corporation | Data quality analyzer |
US8935379B1 (en) * | 2005-09-07 | 2015-01-13 | Reversevision, Inc. | Methods, systems, and products for evaluating electronic data and electronic forms |
US20130073594A1 (en) * | 2011-09-19 | 2013-03-21 | Citigroup Technology, Inc. | Methods and Systems for Assessing Data Quality |
US20140108357A1 (en) * | 2012-10-17 | 2014-04-17 | Ab Initio Technology Llc | Specifying and applying rules to data |
CN104737163A (zh) * | 2012-10-17 | 2015-06-24 | 起元科技有限公司 | 指定规则并将规则应用于数据 |
CN108647358A (zh) * | 2018-05-17 | 2018-10-12 | 东软集团股份有限公司 | 数据质量校验方法、装置、存储介质及电子设备 |
CN110196834A (zh) * | 2019-05-21 | 2019-09-03 | 厦门市美亚柏科信息股份有限公司 | 一种用于数据项、文件、数据库的对标方法和系统 |
CN111061733A (zh) * | 2019-12-10 | 2020-04-24 | 北京明略软件系统有限公司 | 数据处理方法、装置、电子设备和计算机可读存储介质 |
CN111639066A (zh) * | 2020-05-14 | 2020-09-08 | 杭州数梦工场科技有限公司 | 一种数据清洗的方法和装置 |
CN112395325A (zh) * | 2020-11-27 | 2021-02-23 | 广州光点信息科技有限公司 | 一种数据治理方法、系统、终端设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
JINYU SONG ET AL.: "data quality, rule mapping", 《2019 10TH INTERNATIONAL CONFERENCE ON INFORMATION TECHNOLOGY IN MEDICINE AND EDUCATION (ITME)》, 23 January 2020 (2020-01-23), pages 645 - 648 * |
张勇 等: "面向科技大数据的元数据仓储建设实践探索", 《情报工程》, vol. 6, no. 6, 31 December 2020 (2020-12-31), pages 84 - 96 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115221893A (zh) * | 2022-09-21 | 2022-10-21 | 中国电子信息产业集团有限公司 | 基于规则与语义分析的质检规则自动化配置方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109189888B (zh) | 电子装置、侵权分析的方法及存储介质 | |
CN108763952B (zh) | 一种数据分类方法、装置及电子设备 | |
CN110275965B (zh) | 假新闻检测方法、电子装置及计算机可读存储介质 | |
CN112613917A (zh) | 基于用户画像的信息推送方法、装置、设备及存储介质 | |
CN109600344B (zh) | 识别风险群体的方法、装置及电子设备 | |
CN110610196A (zh) | 脱敏方法、系统、计算机设备和计算机可读存储介质 | |
CN112560453A (zh) | 语音信息校验方法、装置、电子设备及介质 | |
CN110674360B (zh) | 一种用于数据的溯源方法和系统 | |
CN111090807A (zh) | 一种基于知识图谱的用户识别方法及装置 | |
CN113157854A (zh) | Api的敏感数据泄露检测方法及系统 | |
CN114265740A (zh) | 错误信息处理方法、装置、设备及存储介质 | |
CN111259207A (zh) | 短信的识别方法、装置及设备 | |
CN113435859A (zh) | 信访件处理方法、装置、电子设备和计算机可读介质 | |
CN111723210A (zh) | 存储数据表的方法、装置、计算机设备及可读存储介质 | |
CN113468037A (zh) | 一种数据质量评估方法、装置、介质和电子设备 | |
CN108875050B (zh) | 面向文本的数字取证分析方法、装置和计算机可读介质 | |
CN110895587A (zh) | 用于确定目标用户的方法和装置 | |
CN113094415B (zh) | 数据抽取方法、装置、计算机可读介质及电子设备 | |
CN114490673B (zh) | 数据信息处理方法、装置、电子设备及存储介质 | |
CN116304352A (zh) | 消息推送方法、装置、设备及存储介质 | |
CN116204428A (zh) | 一种测试用例生成方法和装置 | |
CN113869904B (zh) | 可疑数据识别方法、装置、电子设备、介质和计算机程序 | |
CN113052509A (zh) | 模型评估方法、模型评估装置、电子设备和存储介质 | |
CN111782967A (zh) | 信息处理方法、装置、电子设备和计算机可读存储介质 | |
CN113806372B (zh) | 新数据信息构建方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |