CN116226103A

CN116226103A - 一种基于FPGrowth算法进行政务数据质量检测的方法

Info

Publication number: CN116226103A
Application number: CN202211703969.6A
Authority: CN
Inventors: 王东伟; 张滨; 朱亚静; 率为朋; 翟盛龙
Original assignee: Inspur Cloud Information Technology Co Ltd
Current assignee: Inspur Cloud Information Technology Co Ltd
Priority date: 2022-12-29
Filing date: 2022-12-29
Publication date: 2023-06-06

Abstract

本发明涉及数据质量检测技术领域，具体为一种基于FPGrowth算法进行政务数据质量检测的方法包括以下步骤：S1、提供一种待检属性的自动发现模块，进行候选待检属性集R₁的自动发现；S2、提供一种人机交互模块，对候选待检属性集R₁进行人工干预，包括对候选属性的增加、删除筛选，得到候选待检属性集R₂；有益效果为：本发明提出的基于FPGrowth算法进行政务数据质量检测的方法通过设计一种基于FPGrowth算法的数据质量检测方法，可以有效发现异常数据，克服传统方法难以对数据的关联一致性进行校验的弊端，且不受限于某一具体业务场景，通用性较好。

Description

一种基于FPGrowth算法进行政务数据质量检测的方法

技术领域

本发明涉及数据质量检测技术领域，具体为一种基于FPGrowth算法进行政务数据质量检测的方法。

背景技术

数据质量控制是实现大数据技术应用的重要一环，坚实的质量基础可有效支撑公共政策的科学性，社会服务的精准化，提高政府的社会治理与服务水平，是实现数据价值，提高决策辅助的重要支撑。对数据质量的控制需要依赖一组校验规则，通过多个维度的校验，以确定数据是否满足使用要求。

现有技术中，传统数据质量校验通过设定的校验规则，可以对单个数据项的规范性、正确性、完整性等进行约束校验，但对于存在复杂关联关系的数据项的一致性校验还存在不足

发明内容

本发明的目的在于提供一种基于FPGROWTH算法进行政务数据质量检测的方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种基于FPGrowth算法进行政务数据质量检测的方法，所述检测的方法包括以下步骤：

S1、提供一种待检属性的自动发现模块，进行候选待检属性集R₁的自动发现；

S2、提供一种人机交互模块，对候选待检属性集R₁进行人工干预，包括对候选属性的增加、删除筛选，得到候选待检属性集R₂；

S3、提供一种对待检属性集的核验检查模块，对候选待检属性集R₂进行自动校核，对R₂中各属性进行值域特征值数量提取，选取1<特征值数量<α的属性，其中α为特征值数量阈值，得到候选待检属性集R₃；为提高分析效率，降低分析复杂度，属性集R₃中的属性个数应小于分析阈值β；

S4、重复上述步骤S2和S3，并根据业务需要调整特征值数量阈值α，最终得到待检属性集R₄；

S5、读取待检属性集R₄，构建FP-Tree频繁模式树，它由一个根节点、项前缀子树和一个频繁项头表组成；

S6、根据FP-tree和项头表挖掘频繁项集；

S7、提供一种问题数据的发现模块，根据质检项集知识库和其置信度判定是否为问题数据；

S8、提供一种问题数据的复核模块，由人工对疑似问题数据和疑似正常数据进行核对；

S9、提供一种检测结果输出模块，对校验结果进行输出；

S10、提供一种质检项集知识库维护模块。

优选的，对待校验的数据集进行元数据分析，获取到各元数据项的数据元标准、数据字典、数据项属性信息，将其传入自动发现模块，自动发现模块输出待检测属性集。

优选的，自动发现模块的详细工作步骤为：

S101、首先从质检项集知识库中根据数据表名或其他数据集标识，获取到该数据集的历史检测记录，根据历史检测记录获取待检属性集合，判断当前属性是否在该集合中，如存在则返回属性，结束判断；

S102、否则，根据数据元标准从知识表中查找该属性是否符合有限可枚举要求，如符合要求，则返回属性，结束判断；

S103、否则，根据元数据记录的数据字典信息判断该属性是否符合要求，如符合要求，则返回属性，结束判断；

S104、然后根据该数据项的存储属性判断是否符合要求，即该数据项的存储类型是否为可枚举值，如：长度为1的整数类型，其值域为0-9，可以符合要求；布尔类型的数据项可以符合要求；如符合要求，则返回属性，结束判断。

优选的，项前缀子树中的每个结点包括三个域：item_name、count和node_link，其中：item_name用于记录结点表示的项的标识，count记录到达该结点的子路径的事务数，node_link用于连接树中相同标识的下一个结点，如果不存在相同标识下一个结点，则值为“null”。

优选的，构建FP-Tree频繁模式树具体步骤如下：

S501、首先建立项头表，通过扫描待检关联属性集R₄，建立项头表，并对表中的各个属性计算其最小支持度，排除支持度小于阈值β的数据；

S502、建立FP-tree，首先建立根节点，记为null；然后将排序后的数据依次插入FP-tree树中，如果待添加的节点已经在FP-tree中出现，则更新该节点的支持度数值count，否则通过node_link域，接入新的节点，并设置新节点标识item_name。

优选的，对于待检属性集R的每一项用r表示，R＝{r₁,r₂,r₃,…,r_n}；待检数据集T中的每条数据用t表示，T＝{t₁,t₂,t₃,…,t_n}；数据集TR为待检数据集T在属性集R上的投影，对TR中的每条数据用tr表示，TR＝{tr₁,tr₂,tr₃,…,tr_n}；对于项集I中的每一项用i表示，I＝{i₁,i₂,i₃,…,i_n}，I是TR中所有符合最小支持度的数据项的合集，

对于关联规则/>

根据上述构建的FP-tree和项头表，一次挖掘1-项频繁项集、2-项频繁项集、3-项频繁项集…，至N频项集，N小于阈值β，β小于待检属性数。

优选的，将关联规则X→Y传入质检项集知识库进行比对，若存在于质检项集知识库中且为问题数据，则标记为问题数据，若存在于质检项集知识库中且为正常数据，则标记为正常数据；若不存在于质检项集知识库中，则计算其置信度，计算方法如下：

将置信度低于阈值β的数据，标记为疑似问题数据，将置信度高于阈值β的数据，标记为疑似正常数据。

优选的，将核对结果标记为问题数据或正常数据，同时将知识领域分类、知识编码、检测数据集标识、检测属性集、检测数据项、关联规则模型、置信度、判定结果信息持久化到质检项集知识库，沉淀相关问题数据模型，不断提高检测准确率。

优选的，输出数据包含：原始数据记录，检测属性集，检测数据项，关联规则模型，置信度，检测结果。

与现有技术相比，本发明的有益效果是：

本发明提出的基于FPGrowth算法进行政务数据质量检测的方法通过设计一种基于FPGrowth算法的数据质量检测方法，可以有效发现异常数据，克服传统方法难以对数据的关联一致性进行校验的弊端，且不受限于某一具体业务场景，通用性较好；

借助构建FP-tree只需读取两次数据库的优势，可以减少数据读取次数，提供资源占用少、处理速度快的数据质量检测方法；

通过提供关联属性集的自动发现模块，快速给出待检属性集的建议，简化操作难度，减少人工工作；

通过提供一种对待检属性集的自动校核模块，剔除不适宜进行关联校验的属性，限制属性数量，优化了FPGrowth算法在缺乏公共项时，空间占用率高，不能实现压缩存储，效率较低的问题，提高检测的准确率与处理效率；

通过建立一种质检项集知识库，沉淀相关数据模型，可逐步增量数据的检测效率和准确率，并减少人工介入。

附图说明

图1为本发明方法流程图。

具体实施方式

为了使本发明的目的、技术方案进行清楚、完整地描述，及优点更加清楚明白，以下结合附图对本发明实施例进行进一步详细说明。应当理解，此处所描述的具体实施例是本发明一部分实施例，而不是全部的实施例，仅仅用以解释本发明实施例，并不用于限定本发明实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种技术方案：一种基于FPGrowth算法进行政务数据质量检测的方法，所述检测的方法包括以下步骤：

S1、提供一种待检属性的自动发现模块，进行候选待检属性集R₁的自动发现；对待校验的数据集进行元数据分析，获取到各元数据项的数据元标准、数据字典、数据项属性等信息，将其传入自动发现模块，自动发现模块输出待检测属性集；

自动发现模块的详细工作步骤为：

S101、首先从质检项集知识库中根据数据表名或其他数据集标识，获取到该数据集的历史检测记录，根据历史检测记录获取待检属性集合，判断当前属性是否在该集合中，如存在则返回属性，结束判断。

S102、否则，根据数据元标准从知识表中查找该属性是否符合有限可枚举要求，如符合要求，则返回属性，结束判断。

S103、否则，根据元数据记录的数据字典信息判断该属性是否符合要求，如符合要求，则返回属性，结束判断。

S104、然后根据该数据项的存储属性判断是否符合要求，即该数据项的存储类型是否为可枚举值，如：长度为1的整数类型，其值域为0-9，可以符合要求；布尔类型的数据项可以符合要求。如符合要求，则返回属性，结束判断。

S2、提供一种人机交互模块，对候选待检属性集R₁进行人工干预，包括对候选属性的增加、删除筛选，得到候选待检属性集R₂。

S3、提供一种对待检属性集的核验检查模块，对候选待检属性集R₂进行自动校核，对R₂中各属性进行值域特征值数量提取，选取1<特征值数量<α的属性，其中α为特征值数量阈值，得到候选待检属性集R₃；为提高分析效率，降低分析复杂度，属性集R₃中的属性个数应小于分析阈值β。

S4、重复上述步骤(2)和(3)，并根据业务需要调整特征值数量阈值α，最终得到待检属性集R₄。

S5、读取待检属性集R₄，构建FP-Tree频繁模式树，它由一个根节点(值为null)、项前缀子树和一个频繁项头表组成。项前缀子树中的每个结点包括三个域：item_name、count和node_link，其中：item_name用于记录结点表示的项的标识，count记录到达该结点的子路径的事务数，node_link用于连接树中相同标识的下一个结点，如果不存在相同标识下一个结点，则值为“null”。

详细步骤为：

S501、首先建立项头表，通过扫描待检关联属性集R₄，建立项头表，并对表中的各个属性计算其最小支持度，排除支持度小于阈值β的数据。其过程如下：

(1)输入待检数据集；

(2)剪裁目标数据集

根据待检关联属性集R₄，对待检数据集进行投影操作，获取目标数据集。

(3)分析数据集，进行数据转换；

(4)假定最小支持度阈值β为10％的情况下，得到如下项头表

R1-a1	3
		R2-b2	3
R3-c3	2
		R4-d2	2
R5-e1	3

S502、建立FP-tree，首先建立根节点，记为null；然后将排序后的数据依次插入FP-tree树中，如果待添加的节点已经在FP-tree中出现，则更新该节点的支持度数值count，否则通过nodelink域，接入新的节点，并设置新节点标识item_name。

(1)根据项头表，对数据进行筛选排序；

(2)根据通用的FPGrowth算法规则生成FP-tree；

S6、根据FP-tree和项头表挖掘频繁项集

对于待检属性集R的每一项用r表示，R＝{r₁，r₂，r₃，...，_rn}；待检数据集T中的每条数据用t表示，T＝{t₁，t₂，t₃，...，t_n}；数据集TR为待检数据集T在属性集R上的投影，对TR中的每条数据用tr表示，TR＝{tr₁，tr₂，tr₃，...，tr_n}；对于项集I中的每一项用i表示，I＝{i₁，i₂，i₃，...，i_n}，I是TR中所有符合最小支持度的数据项的合集，

对于关联规则X→Y，/>

根据上述构建的FP-tree和项头表，一次挖掘1-项频繁项集、2-项频繁项集、3-项频繁项集…，至N频项集，N小于阈值β，β小于待检属性数。示例如下：

1-项频繁项集：

{R1-a1，}{R2-b2，}{R3-c3，}{R4-d2，}{R5-e1，}

2-项频繁项集：

{R1-a1，R2-b2，}{R1-a1，R3-c3，}{R1-a1，R3-c3，}……

3-项频繁项集：

{R1-a1,R2-b2,R3-c3,}{R1-a1,R2-b2,R4-d2,}{R1-a1,R2-b2,R5-e1,}……

S7、提供一种问题数据的发现模块，根据质检项集知识库和其置信度判定是否为问题数据。

将关联规则X→Y传入质检项集知识库进行比对，若存在于质检项集知识库中且为问题数据，则标记为问题数据，若存在于质检项集知识库中且为正常数据，则标记为正常数据；若不存在于质检项集知识库中，则计算其置信度，计算方法如下：

S8、提供一种问题数据的复核模块，由人工对疑似问题数据和疑似正常数据进行核对，并将核对结果标记为问题数据或正常数据，同时将知识领域分类、知识编码、检测数据集标识、检测属性集、检测数据项、关联规则模型、置信度、判定结果等信息持久化到质检项集知识库，沉淀相关问题数据模型，不断提高检测准确率。

S9、提供一种检测结果输出模块，对校验结果进行输出，输出数据包含：原始数据记录，检测属性集，检测数据项，关联规则模型，置信度，检测结果(正常数据、问题数据、疑似正常数据、疑似问题数据)等。

S10、提供一种质检项集知识库维护模块，包括：知识领域分类、知识编码、检测数据集标识、检测属性集、检测数据项、关联规则模型、置信度、判定结果(正常、问题、待定)，并可由人工对质检项集知识库进行定期维护和复核，确保知识准确性。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于FPGrowth算法进行政务数据质量检测的方法，其特征在于，所述检测的方法包括以下步骤：

S4、重复步骤S2和S3，并根据业务需要调整特征值数量阈值α，最终得到待检属性集R₄；

S6、根据FP-tree和项头表挖掘频繁项集；

S9、提供一种检测结果输出模块，对校验结果进行输出；

S10、提供一种质检项集知识库维护模块。

2.根据权利要求1所述的一种基于FPGrowth算法进行政务数据质量检测的方法，其特征在于：对待校验的数据集进行元数据分析，获取到各元数据项的数据元标准、数据字典、数据项属性信息，将其传入自动发现模块，自动发现模块输出待检测属性集。

3.根据权利要求2所述的一种基于FPGrowth算法进行政务数据质量检测的方法，其特征在于：自动发现模块的详细工作步骤为：

4.根据权利要求1所述的一种基于FPGrowth算法进行政务数据质量检测的方法，其特征在于：项前缀子树中的每个结点包括三个域：item_name、count和node_link，其中：item_name用于记录结点表示的项的标识，count记录到达该结点的子路径的事务数，node_link用于连接树中相同标识的下一个结点，如果不存在相同标识下一个结点，则值为“null”。

5.根据权利要求4所述的一种基于FPGrowth算法进行政务数据质量检测的方法，其特征在于：构建FP-Tree频繁模式树具体步骤如下：

6.根据权利要求5所述的一种基于FPGrowth算法进行政务数据质量检测的方法，其特征在于：对于待检属性集R的每一项用r表示，R＝{r₁,r₂,r₃,…,r_n}；待检数据集T中的每条数据用t表示，T＝{t₁,t₂,t₃,…,t_n}；数据集TR为待检数据集T在属性集R上的投影，对TR中的每条数据用tr表示，TR＝{tr₁,tr₂,tr₃,…,tr_n}；对于项集I中的每一项用i表示，I＝{i₁,i₂,i₃,…,i_n}，I是TR中所有符合最小支持度的数据项的合集，

对于关联规则X→Y，

7.根据权利要求1所述的一种基于FPGrowth算法进行政务数据质量检测的方法，其特征在于：将关联规则X→Y传入质检项集知识库进行比对，若存在于质检项集知识库中且为问题数据，则标记为问题数据，若存在于质检项集知识库中且为正常数据，则标记为正常数据；若不存在于质检项集知识库中，则计算其置信度，计算方法如下：

8.根据权利要求7所述的一种基于FPGrowth算法进行政务数据质量检测的方法，其特征在于：将核对结果标记为问题数据或正常数据，同时将知识领域分类、知识编码、检测数据集标识、检测属性集、检测数据项、关联规则模型、置信度、判定结果信息持久化到质检项集知识库，沉淀相关问题数据模型，不断提高检测准确率。

9.根据权利要求8所述的一种基于FPGrowth算法进行政务数据质量检测的方法，其特征在于：输出数据包含：原始数据记录，检测属性集，检测数据项，关联规则模型，置信度，检测结果。