CN116226103A - 一种基于FPGrowth算法进行政务数据质量检测的方法 - Google Patents

一种基于FPGrowth算法进行政务数据质量检测的方法 Download PDF

Info

Publication number
CN116226103A
CN116226103A CN202211703969.6A CN202211703969A CN116226103A CN 116226103 A CN116226103 A CN 116226103A CN 202211703969 A CN202211703969 A CN 202211703969A CN 116226103 A CN116226103 A CN 116226103A
Authority
CN
China
Prior art keywords
data
attribute
item
detected
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211703969.6A
Other languages
English (en)
Inventor
王东伟
张滨
朱亚静
率为朋
翟盛龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Cloud Information Technology Co Ltd
Original Assignee
Inspur Cloud Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Cloud Information Technology Co Ltd filed Critical Inspur Cloud Information Technology Co Ltd
Priority to CN202211703969.6A priority Critical patent/CN116226103A/zh
Publication of CN116226103A publication Critical patent/CN116226103A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Tourism & Hospitality (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Educational Administration (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及数据质量检测技术领域,具体为一种基于FPGrowth算法进行政务数据质量检测的方法包括以下步骤:S1、提供一种待检属性的自动发现模块,进行候选待检属性集R1的自动发现;S2、提供一种人机交互模块,对候选待检属性集R1进行人工干预,包括对候选属性的增加、删除筛选,得到候选待检属性集R2;有益效果为:本发明提出的基于FPGrowth算法进行政务数据质量检测的方法通过设计一种基于FPGrowth算法的数据质量检测方法,可以有效发现异常数据,克服传统方法难以对数据的关联一致性进行校验的弊端,且不受限于某一具体业务场景,通用性较好。

Description

一种基于FPGrowth算法进行政务数据质量检测的方法
技术领域
本发明涉及数据质量检测技术领域,具体为一种基于FPGrowth算法进行政务数据质量检测的方法。
背景技术
数据质量控制是实现大数据技术应用的重要一环,坚实的质量基础可有效支撑公共政策的科学性,社会服务的精准化,提高政府的社会治理与服务水平,是实现数据价值,提高决策辅助的重要支撑。对数据质量的控制需要依赖一组校验规则,通过多个维度的校验,以确定数据是否满足使用要求。
现有技术中,传统数据质量校验通过设定的校验规则,可以对单个数据项的规范性、正确性、完整性等进行约束校验,但对于存在复杂关联关系的数据项的一致性校验还存在不足
发明内容
本发明的目的在于提供一种基于FPGROWTH算法进行政务数据质量检测的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种基于FPGrowth算法进行政务数据质量检测的方法,所述检测的方法包括以下步骤:
S1、提供一种待检属性的自动发现模块,进行候选待检属性集R1的自动发现;
S2、提供一种人机交互模块,对候选待检属性集R1进行人工干预,包括对候选属性的增加、删除筛选,得到候选待检属性集R2
S3、提供一种对待检属性集的核验检查模块,对候选待检属性集R2进行自动校核,对R2中各属性进行值域特征值数量提取,选取1<特征值数量<α的属性,其中α为特征值数量阈值,得到候选待检属性集R3;为提高分析效率,降低分析复杂度,属性集R3中的属性个数应小于分析阈值β;
S4、重复上述步骤S2和S3,并根据业务需要调整特征值数量阈值α,最终得到待检属性集R4
S5、读取待检属性集R4,构建FP-Tree频繁模式树,它由一个根节点、项前缀子树和一个频繁项头表组成;
S6、根据FP-tree和项头表挖掘频繁项集;
S7、提供一种问题数据的发现模块,根据质检项集知识库和其置信度判定是否为问题数据;
S8、提供一种问题数据的复核模块,由人工对疑似问题数据和疑似正常数据进行核对;
S9、提供一种检测结果输出模块,对校验结果进行输出;
S10、提供一种质检项集知识库维护模块。
优选的,对待校验的数据集进行元数据分析,获取到各元数据项的数据元标准、数据字典、数据项属性信息,将其传入自动发现模块,自动发现模块输出待检测属性集。
优选的,自动发现模块的详细工作步骤为:
S101、首先从质检项集知识库中根据数据表名或其他数据集标识,获取到该数据集的历史检测记录,根据历史检测记录获取待检属性集合,判断当前属性是否在该集合中,如存在则返回属性,结束判断;
S102、否则,根据数据元标准从知识表中查找该属性是否符合有限可枚举要求,如符合要求,则返回属性,结束判断;
S103、否则,根据元数据记录的数据字典信息判断该属性是否符合要求,如符合要求,则返回属性,结束判断;
S104、然后根据该数据项的存储属性判断是否符合要求,即该数据项的存储类型是否为可枚举值,如:长度为1的整数类型,其值域为0-9,可以符合要求;布尔类型的数据项可以符合要求;如符合要求,则返回属性,结束判断。
优选的,项前缀子树中的每个结点包括三个域:item_name、count和node_link,其中:item_name用于记录结点表示的项的标识,count记录到达该结点的子路径的事务数,node_link用于连接树中相同标识的下一个结点,如果不存在相同标识下一个结点,则值为“null”。
优选的,构建FP-Tree频繁模式树具体步骤如下:
S501、首先建立项头表,通过扫描待检关联属性集R4,建立项头表,并对表中的各个属性计算其最小支持度,排除支持度小于阈值β的数据;
S502、建立FP-tree,首先建立根节点,记为null;然后将排序后的数据依次插入FP-tree树中,如果待添加的节点已经在FP-tree中出现,则更新该节点的支持度数值count,否则通过node_link域,接入新的节点,并设置新节点标识item_name。
优选的,对于待检属性集R的每一项用r表示,R={r1,r2,r3,…,rn};待检数据集T中的每条数据用t表示,T={t1,t2,t3,…,tn};数据集TR为待检数据集T在属性集R上的投影,对TR中的每条数据用tr表示,TR={tr1,tr2,tr3,…,trn};对于项集I中的每一项用i表示,I={i1,i2,i3,…,in},I是TR中所有符合最小支持度的数据项的合集,
Figure BDA0004025630650000031
对于关联规则/>
Figure BDA0004025630650000032
Figure BDA0004025630650000033
根据上述构建的FP-tree和项头表,一次挖掘1-项频繁项集、2-项频繁项集、3-项频繁项集…,至N频项集,N小于阈值β,β小于待检属性数。
优选的,将关联规则X→Y传入质检项集知识库进行比对,若存在于质检项集知识库中且为问题数据,则标记为问题数据,若存在于质检项集知识库中且为正常数据,则标记为正常数据;若不存在于质检项集知识库中,则计算其置信度,计算方法如下:
Figure BDA0004025630650000041
将置信度低于阈值β的数据,标记为疑似问题数据,将置信度高于阈值β的数据,标记为疑似正常数据。
优选的,将核对结果标记为问题数据或正常数据,同时将知识领域分类、知识编码、检测数据集标识、检测属性集、检测数据项、关联规则模型、置信度、判定结果信息持久化到质检项集知识库,沉淀相关问题数据模型,不断提高检测准确率。
优选的,输出数据包含:原始数据记录,检测属性集,检测数据项,关联规则模型,置信度,检测结果。
与现有技术相比,本发明的有益效果是:
本发明提出的基于FPGrowth算法进行政务数据质量检测的方法通过设计一种基于FPGrowth算法的数据质量检测方法,可以有效发现异常数据,克服传统方法难以对数据的关联一致性进行校验的弊端,且不受限于某一具体业务场景,通用性较好;
借助构建FP-tree只需读取两次数据库的优势,可以减少数据读取次数,提供资源占用少、处理速度快的数据质量检测方法;
通过提供关联属性集的自动发现模块,快速给出待检属性集的建议,简化操作难度,减少人工工作;
通过提供一种对待检属性集的自动校核模块,剔除不适宜进行关联校验的属性,限制属性数量,优化了FPGrowth算法在缺乏公共项时,空间占用率高,不能实现压缩存储,效率较低的问题,提高检测的准确率与处理效率;
通过建立一种质检项集知识库,沉淀相关数据模型,可逐步增量数据的检测效率和准确率,并减少人工介入。
附图说明
图1为本发明方法流程图。
具体实施方式
为了使本发明的目的、技术方案进行清楚、完整地描述,及优点更加清楚明白,以下结合附图对本发明实施例进行进一步详细说明。应当理解,此处所描述的具体实施例是本发明一部分实施例,而不是全部的实施例,仅仅用以解释本发明实施例,并不用于限定本发明实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明提供一种技术方案:一种基于FPGrowth算法进行政务数据质量检测的方法,所述检测的方法包括以下步骤:
S1、提供一种待检属性的自动发现模块,进行候选待检属性集R1的自动发现;对待校验的数据集进行元数据分析,获取到各元数据项的数据元标准、数据字典、数据项属性等信息,将其传入自动发现模块,自动发现模块输出待检测属性集;
自动发现模块的详细工作步骤为:
S101、首先从质检项集知识库中根据数据表名或其他数据集标识,获取到该数据集的历史检测记录,根据历史检测记录获取待检属性集合,判断当前属性是否在该集合中,如存在则返回属性,结束判断。
S102、否则,根据数据元标准从知识表中查找该属性是否符合有限可枚举要求,如符合要求,则返回属性,结束判断。
S103、否则,根据元数据记录的数据字典信息判断该属性是否符合要求,如符合要求,则返回属性,结束判断。
S104、然后根据该数据项的存储属性判断是否符合要求,即该数据项的存储类型是否为可枚举值,如:长度为1的整数类型,其值域为0-9,可以符合要求;布尔类型的数据项可以符合要求。如符合要求,则返回属性,结束判断。
S2、提供一种人机交互模块,对候选待检属性集R1进行人工干预,包括对候选属性的增加、删除筛选,得到候选待检属性集R2
S3、提供一种对待检属性集的核验检查模块,对候选待检属性集R2进行自动校核,对R2中各属性进行值域特征值数量提取,选取1<特征值数量<α的属性,其中α为特征值数量阈值,得到候选待检属性集R3;为提高分析效率,降低分析复杂度,属性集R3中的属性个数应小于分析阈值β。
S4、重复上述步骤(2)和(3),并根据业务需要调整特征值数量阈值α,最终得到待检属性集R4
S5、读取待检属性集R4,构建FP-Tree频繁模式树,它由一个根节点(值为null)、项前缀子树和一个频繁项头表组成。项前缀子树中的每个结点包括三个域:item_name、count和node_link,其中:item_name用于记录结点表示的项的标识,count记录到达该结点的子路径的事务数,node_link用于连接树中相同标识的下一个结点,如果不存在相同标识下一个结点,则值为“null”。
详细步骤为:
S501、首先建立项头表,通过扫描待检关联属性集R4,建立项头表,并对表中的各个属性计算其最小支持度,排除支持度小于阈值β的数据。其过程如下:
(1)输入待检数据集;
(2)剪裁目标数据集
根据待检关联属性集R4,对待检数据集进行投影操作,获取目标数据集。
(3)分析数据集,进行数据转换;
(4)假定最小支持度阈值β为10%的情况下,得到如下项头表
R1-a1 3
R2-b2 3
R3-c3 2
R4-d2 2
R5-e1 3
S502、建立FP-tree,首先建立根节点,记为null;然后将排序后的数据依次插入FP-tree树中,如果待添加的节点已经在FP-tree中出现,则更新该节点的支持度数值count,否则通过nodelink域,接入新的节点,并设置新节点标识item_name。
(1)根据项头表,对数据进行筛选排序;
(2)根据通用的FPGrowth算法规则生成FP-tree;
S6、根据FP-tree和项头表挖掘频繁项集
对于待检属性集R的每一项用r表示,R={r1,r2,r3,...,rn};待检数据集T中的每条数据用t表示,T={t1,t2,t3,...,tn};数据集TR为待检数据集T在属性集R上的投影,对TR中的每条数据用tr表示,TR={tr1,tr2,tr3,...,trn};对于项集I中的每一项用i表示,I={i1,i2,i3,...,in},I是TR中所有符合最小支持度的数据项的合集,
Figure BDA0004025630650000071
对于关联规则X→Y,/>
Figure BDA0004025630650000072
根据上述构建的FP-tree和项头表,一次挖掘1-项频繁项集、2-项频繁项集、3-项频繁项集…,至N频项集,N小于阈值β,β小于待检属性数。示例如下:
1-项频繁项集:
{R1-a1,}{R2-b2,}{R3-c3,}{R4-d2,}{R5-e1,}
2-项频繁项集:
{R1-a1,R2-b2,}{R1-a1,R3-c3,}{R1-a1,R3-c3,}……
3-项频繁项集:
{R1-a1,R2-b2,R3-c3,}{R1-a1,R2-b2,R4-d2,}{R1-a1,R2-b2,R5-e1,}……
S7、提供一种问题数据的发现模块,根据质检项集知识库和其置信度判定是否为问题数据。
将关联规则X→Y传入质检项集知识库进行比对,若存在于质检项集知识库中且为问题数据,则标记为问题数据,若存在于质检项集知识库中且为正常数据,则标记为正常数据;若不存在于质检项集知识库中,则计算其置信度,计算方法如下:
Figure BDA0004025630650000081
将置信度低于阈值β的数据,标记为疑似问题数据,将置信度高于阈值β的数据,标记为疑似正常数据。
S8、提供一种问题数据的复核模块,由人工对疑似问题数据和疑似正常数据进行核对,并将核对结果标记为问题数据或正常数据,同时将知识领域分类、知识编码、检测数据集标识、检测属性集、检测数据项、关联规则模型、置信度、判定结果等信息持久化到质检项集知识库,沉淀相关问题数据模型,不断提高检测准确率。
S9、提供一种检测结果输出模块,对校验结果进行输出,输出数据包含:原始数据记录,检测属性集,检测数据项,关联规则模型,置信度,检测结果(正常数据、问题数据、疑似正常数据、疑似问题数据)等。
S10、提供一种质检项集知识库维护模块,包括:知识领域分类、知识编码、检测数据集标识、检测属性集、检测数据项、关联规则模型、置信度、判定结果(正常、问题、待定),并可由人工对质检项集知识库进行定期维护和复核,确保知识准确性。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (9)

1.一种基于FPGrowth算法进行政务数据质量检测的方法,其特征在于,所述检测的方法包括以下步骤:
S1、提供一种待检属性的自动发现模块,进行候选待检属性集R1的自动发现;
S2、提供一种人机交互模块,对候选待检属性集R1进行人工干预,包括对候选属性的增加、删除筛选,得到候选待检属性集R2
S3、提供一种对待检属性集的核验检查模块,对候选待检属性集R2进行自动校核,对R2中各属性进行值域特征值数量提取,选取1<特征值数量<α的属性,其中α为特征值数量阈值,得到候选待检属性集R3;为提高分析效率,降低分析复杂度,属性集R3中的属性个数应小于分析阈值β;
S4、重复步骤S2和S3,并根据业务需要调整特征值数量阈值α,最终得到待检属性集R4
S5、读取待检属性集R4,构建FP-Tree频繁模式树,它由一个根节点、项前缀子树和一个频繁项头表组成;
S6、根据FP-tree和项头表挖掘频繁项集;
S7、提供一种问题数据的发现模块,根据质检项集知识库和其置信度判定是否为问题数据;
S8、提供一种问题数据的复核模块,由人工对疑似问题数据和疑似正常数据进行核对;
S9、提供一种检测结果输出模块,对校验结果进行输出;
S10、提供一种质检项集知识库维护模块。
2.根据权利要求1所述的一种基于FPGrowth算法进行政务数据质量检测的方法,其特征在于:对待校验的数据集进行元数据分析,获取到各元数据项的数据元标准、数据字典、数据项属性信息,将其传入自动发现模块,自动发现模块输出待检测属性集。
3.根据权利要求2所述的一种基于FPGrowth算法进行政务数据质量检测的方法,其特征在于:自动发现模块的详细工作步骤为:
S101、首先从质检项集知识库中根据数据表名或其他数据集标识,获取到该数据集的历史检测记录,根据历史检测记录获取待检属性集合,判断当前属性是否在该集合中,如存在则返回属性,结束判断;
S102、否则,根据数据元标准从知识表中查找该属性是否符合有限可枚举要求,如符合要求,则返回属性,结束判断;
S103、否则,根据元数据记录的数据字典信息判断该属性是否符合要求,如符合要求,则返回属性,结束判断;
S104、然后根据该数据项的存储属性判断是否符合要求,即该数据项的存储类型是否为可枚举值,如:长度为1的整数类型,其值域为0-9,可以符合要求;布尔类型的数据项可以符合要求;如符合要求,则返回属性,结束判断。
4.根据权利要求1所述的一种基于FPGrowth算法进行政务数据质量检测的方法,其特征在于:项前缀子树中的每个结点包括三个域:item_name、count和node_link,其中:item_name用于记录结点表示的项的标识,count记录到达该结点的子路径的事务数,node_link用于连接树中相同标识的下一个结点,如果不存在相同标识下一个结点,则值为“null”。
5.根据权利要求4所述的一种基于FPGrowth算法进行政务数据质量检测的方法,其特征在于:构建FP-Tree频繁模式树具体步骤如下:
S501、首先建立项头表,通过扫描待检关联属性集R4,建立项头表,并对表中的各个属性计算其最小支持度,排除支持度小于阈值β的数据;
S502、建立FP-tree,首先建立根节点,记为null;然后将排序后的数据依次插入FP-tree树中,如果待添加的节点已经在FP-tree中出现,则更新该节点的支持度数值count,否则通过node_link域,接入新的节点,并设置新节点标识item_name。
6.根据权利要求5所述的一种基于FPGrowth算法进行政务数据质量检测的方法,其特征在于:对于待检属性集R的每一项用r表示,R={r1,r2,r3,…,rn};待检数据集T中的每条数据用t表示,T={t1,t2,t3,…,tn};数据集TR为待检数据集T在属性集R上的投影,对TR中的每条数据用tr表示,TR={tr1,tr2,tr3,…,trn};对于项集I中的每一项用i表示,I={i1,i2,i3,…,in},I是TR中所有符合最小支持度的数据项的合集,
Figure FDA0004025630640000032
对于关联规则X→Y,
Figure FDA0004025630640000033
根据上述构建的FP-tree和项头表,一次挖掘1-项频繁项集、2-项频繁项集、3-项频繁项集…,至N频项集,N小于阈值β,β小于待检属性数。
7.根据权利要求1所述的一种基于FPGrowth算法进行政务数据质量检测的方法,其特征在于:将关联规则X→Y传入质检项集知识库进行比对,若存在于质检项集知识库中且为问题数据,则标记为问题数据,若存在于质检项集知识库中且为正常数据,则标记为正常数据;若不存在于质检项集知识库中,则计算其置信度,计算方法如下:
Figure FDA0004025630640000031
将置信度低于阈值β的数据,标记为疑似问题数据,将置信度高于阈值β的数据,标记为疑似正常数据。
8.根据权利要求7所述的一种基于FPGrowth算法进行政务数据质量检测的方法,其特征在于:将核对结果标记为问题数据或正常数据,同时将知识领域分类、知识编码、检测数据集标识、检测属性集、检测数据项、关联规则模型、置信度、判定结果信息持久化到质检项集知识库,沉淀相关问题数据模型,不断提高检测准确率。
9.根据权利要求8所述的一种基于FPGrowth算法进行政务数据质量检测的方法,其特征在于:输出数据包含:原始数据记录,检测属性集,检测数据项,关联规则模型,置信度,检测结果。
CN202211703969.6A 2022-12-29 2022-12-29 一种基于FPGrowth算法进行政务数据质量检测的方法 Pending CN116226103A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211703969.6A CN116226103A (zh) 2022-12-29 2022-12-29 一种基于FPGrowth算法进行政务数据质量检测的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211703969.6A CN116226103A (zh) 2022-12-29 2022-12-29 一种基于FPGrowth算法进行政务数据质量检测的方法

Publications (1)

Publication Number Publication Date
CN116226103A true CN116226103A (zh) 2023-06-06

Family

ID=86577657

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211703969.6A Pending CN116226103A (zh) 2022-12-29 2022-12-29 一种基于FPGrowth算法进行政务数据质量检测的方法

Country Status (1)

Country Link
CN (1) CN116226103A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116777288A (zh) * 2023-06-28 2023-09-19 广东裕太科技有限公司 一种政务系统信息整合系统及其应用方法
CN117093951A (zh) * 2023-10-16 2023-11-21 北京安天网络安全技术有限公司 一种威胁情报合并方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116777288A (zh) * 2023-06-28 2023-09-19 广东裕太科技有限公司 一种政务系统信息整合系统及其应用方法
CN116777288B (zh) * 2023-06-28 2024-03-12 广东裕太科技有限公司 一种政务系统信息整合系统及其应用方法
CN117093951A (zh) * 2023-10-16 2023-11-21 北京安天网络安全技术有限公司 一种威胁情报合并方法、装置、电子设备及存储介质
CN117093951B (zh) * 2023-10-16 2024-01-26 北京安天网络安全技术有限公司 一种威胁情报合并方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN116226103A (zh) 一种基于FPGrowth算法进行政务数据质量检测的方法
CN110263230B (zh) 一种基于密度聚类的数据清洗方法及装置
CN108959395B (zh) 一种面向多源异构大数据的层次约减联合清洗方法
CN110992059B (zh) 一种基于大数据的围串标行为识别分析方法
CN111709668A (zh) 基于数据挖掘技术的电网设备参数风险识别方法及装置
CN116881430B (zh) 一种产业链识别方法、装置、电子设备及可读存储介质
CN117131449A (zh) 面向数据治理的具有传播学习能力的异常识别方法及系统
CN114491081A (zh) 基于数据血缘关系图谱的电力数据溯源方法及系统
CN110990384B (zh) 一种大数据平台bi分析方法
CN112116007A (zh) 基于图算法和聚类算法的批量注册账号检测方法
CN109543712B (zh) 时态数据集上的实体识别方法
CN114611515B (zh) 一种基于企业舆情信息识别企业实际控制人的方法和系统
KR101985961B1 (ko) 국가연구개발과제 유사도 정량화 시스템 및 이를 이용한 국가연구개발과제 협업 제안 방법
CN105573984A (zh) 社会经济指标的识别方法及装置
CN115659323A (zh) 一种基于信息熵理论结合卷积神经网络的入侵检测方法
KR101085066B1 (ko) 대용량 다속성 데이터집합에서 의미 있는 지식 탐사를 위한 연관 분류 방법
CN114722960A (zh) 一种业务过程事件日志不完整轨迹检测方法与系统
CN117349346B (zh) 一种识别关系型数据库表中主键和外键的方法
CN115080921B (zh) 一种基于审计敏感的改进的Top-k Dominating方法
CN115810008B (zh) 一种基于深度学习的人工角膜镜柱质量检测方法
CN117371861B (zh) 基于数字化的家政服务质量智能分析方法及系统
CN117349087B (zh) 一种互联网信息数据备份方法
CN117745080B (zh) 基于多因素认证的数据访问控制和安全监管方法和系统
CN117312303A (zh) 一种自动化的数据资产盘点方法、装置、电子设备及介质
CN117539920B (zh) 基于房产交易多维度数据的数据查询方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination