CN105975640A - 一种大数据质量管理与有用数据挖掘装置 - Google Patents

一种大数据质量管理与有用数据挖掘装置 Download PDF

Info

Publication number
CN105975640A
CN105975640A CN201610528597.6A CN201610528597A CN105975640A CN 105975640 A CN105975640 A CN 105975640A CN 201610528597 A CN201610528597 A CN 201610528597A CN 105975640 A CN105975640 A CN 105975640A
Authority
CN
China
Prior art keywords
data
quality
submodule
useful
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201610528597.6A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610528597.6A priority Critical patent/CN105975640A/zh
Publication of CN105975640A publication Critical patent/CN105975640A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种大数据质量管理与有用数据挖掘装置,包括数据质量管理模块和有用数据挖掘模块,其中质量管理模块包括初步处理子模块、数据描述子模块、数据质量评价子模块和数据质量分级管理子模块,有用数据挖掘模块包括数据预处理子模块、有用数据构建子模块、有用数据修正子模块和有用数据分层挖掘子模块。

Description

一种大数据质量管理与有用数据挖掘装置
技术领域
本发明涉及大数据领域,具体涉及一种大数据质量管理与有用数据挖掘装置。
背景技术
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合,大数据的研究和应用已经成为现代信息一个不可或缺的研究领域。
在现在使用的数据信息中,有很大一部分的数据是由管理者来进行发布,并且根据用户的建议或者管理者自身的需求由管理者来进行修改的,对于这部分的海量信息,如何能够更好地进行质量管理和挖掘,快速有效地从中找到有用的信息,是一个亟需解决的问题。
发明内容
针对上述问题,本发明提供一种大数据质量管理与有用数据挖掘装置。
本发明的目的采用以下技术方案来实现:
一种大数据质量管理与有用数据挖掘装置,其特征是,包括数据质量管理模块和有用数据挖掘模块,其中质量管理模块包括初步处理子模块、数据描述子模块、数据质量评价子模块和数据质量分级管理子模块,有用数据挖掘模块包括数据预处理子模块、有用数据构建子模块、有用数据修正子模块和有用数据分层挖掘子模块;
初步处理子模块包括:
信息采集单元,用于收集质量规则管理和数据质量诊断所需要的各种原始信息;
质量规则管理单元,用于管理所有对象在准确性、一致性、完整性、及时性、可获取性这五大质量度量方面所应遵循的质量规则。
优选地,其特征是,初步处理子模块还包括
数据质量诊断单元,用于根据信息采集模块传递的数据、质量规则管理模块的质量规则定义和具体的数据质量诊断任务、定时进行数据质量诊断并生成质量诊断结果;
数据质量报告单元,用于将数据质量诊断的结果信息以不同用户使用的方式传递给所述用户;
数据质量处理单元,用于根据所述数据质量报告模块所列的待处理质量问题清单,按照级别高低处理质量问题。
优选地,所述数据质量诊断包括手工质量诊断和定时自动质量诊断两种方式。
优选地,
(1)数据描述子模块
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁;
(2)数据质量评价子模块
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级;
(3)数据质量分级管理子模块
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理;
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
有益效果为:引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是一种大数据质量管理与有用数据挖掘装置的结构框图。
附图标记:质量管理模块-1;有用数据挖掘模块-2;初步处理子模块-11;数据描述子模块-12;数据质量评价子模块-13;数据质量分级管理子模块-14;数据预处理子模块-21;有用数据构建子模块-22;有用数据修正子模块-23;有用数据分层挖掘子模块-24。
具体实施方式
结合以下实施例对本发明作进一步描述。
实施例1:
如图1所示的一种大数据质量管理与有用数据挖掘装置,包括数据质量管理模块1和有用数据挖掘模块2,其中质量管理模块1包括初步处理子模块11、数据描述子模块12、数据质量评价子模块13和数据质量评价子模块14,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24。
初步处理子模块11包括:
信息采集单元,用于收集质量规则管理和数据质量诊断所需要的各种原始信息;
质量规则管理单元,用于管理所有对象在准确性、一致性、完整性、及时性、可获取性这五大质量度量方面所应遵循的质量规则。
优选地,其特征是,初步处理子模块还包括
数据质量诊断单元,用于根据信息采集模块传递的数据、质量规则管理模块的质量规则定义和具体的数据质量诊断任务、定时进行数据质量诊断并生成质量诊断结果;
数据质量报告单元,用于将数据质量诊断的结果信息以不同用户使用的方式传递给所述用户;
数据质量处理单元,用于根据所述数据质量报告模块所列的待处理质量问题清单,按照级别高低处理质量问题。
优选地,所述数据质量诊断包括手工质量诊断和定时自动质量诊断两种方式。
优选地,
(1)数据描述子模块12:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块13:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量评价子模块14:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
本实施例中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/5,提示数据范围增加5%,但是计算量增加了3.7%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
实施例2:
如图1所示的一种大数据质量管理与有用数据挖掘装置,包括数据质量管理模块1和有用数据挖掘模块2,其中质量管理模块1包括初步处理子模块11、数据描述子模块12、数据质量评价子模块13和数据质量评价子模块14,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24。
初步处理子模块11包括:
信息采集单元,用于收集质量规则管理和数据质量诊断所需要的各种原始信息;
质量规则管理单元,用于管理所有对象在准确性、一致性、完整性、及时性、可获取性这五大质量度量方面所应遵循的质量规则。
优选地,其特征是,初步处理子模块还包括
数据质量诊断单元,用于根据信息采集模块传递的数据、质量规则管理模块的质量规则定义和具体的数据质量诊断任务、定时进行数据质量诊断并生成质量诊断结果;
数据质量报告单元,用于将数据质量诊断的结果信息以不同用户使用的方式传递给所述用户;
数据质量处理单元,用于根据所述数据质量报告模块所列的待处理质量问题清单,按照级别高低处理质量问题。
优选地,所述数据质量诊断包括手工质量诊断和定时自动质量诊断两种方式。
优选地,
(1)数据描述子模块12:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块13:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量评价子模块14:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
本实施例中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/6,提示数据范围增加4%,但是计算量增加了3.3%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
实施例3:
如图1所示的一种大数据质量管理与有用数据挖掘装置,包括数据质量管理模块1和有用数据挖掘模块2,其中质量管理模块1包括初步处理子模块11、数据描述子模块12、数据质量评价子模块13和数据质量评价子模块14,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24。
初步处理子模块11包括:
信息采集单元,用于收集质量规则管理和数据质量诊断所需要的各种原始信息;
质量规则管理单元,用于管理所有对象在准确性、一致性、完整性、及时性、可获取性这五大质量度量方面所应遵循的质量规则。
优选地,其特征是,初步处理子模块还包括
数据质量诊断单元,用于根据信息采集模块传递的数据、质量规则管理模块的质量规则定义和具体的数据质量诊断任务、定时进行数据质量诊断并生成质量诊断结果;
数据质量报告单元,用于将数据质量诊断的结果信息以不同用户使用的方式传递给所述用户;
数据质量处理单元,用于根据所述数据质量报告模块所列的待处理质量问题清单,按照级别高低处理质量问题。
优选地,所述数据质量诊断包括手工质量诊断和定时自动质量诊断两种方式。
优选地,
(1)数据描述子模块12:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块13:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量评价子模块14:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
本实施例中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/7,提示数据范围增加3.5%,但是计算量增加了3%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
实施例4:
如图1所示的一种大数据质量管理与有用数据挖掘装置,包括数据质量管理模块1和有用数据挖掘模块2,其中质量管理模块1包括初步处理子模块11、数据描述子模块12、数据质量评价子模块13和数据质量评价子模块14,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24。
初步处理子模块11包括:
信息采集单元,用于收集质量规则管理和数据质量诊断所需要的各种原始信息;
质量规则管理单元,用于管理所有对象在准确性、一致性、完整性、及时性、可获取性这五大质量度量方面所应遵循的质量规则。
优选地,其特征是,初步处理子模块还包括
数据质量诊断单元,用于根据信息采集模块传递的数据、质量规则管理模块的质量规则定义和具体的数据质量诊断任务、定时进行数据质量诊断并生成质量诊断结果;
数据质量报告单元,用于将数据质量诊断的结果信息以不同用户使用的方式传递给所述用户;
数据质量处理单元,用于根据所述数据质量报告模块所列的待处理质量问题清单,按照级别高低处理质量问题。
优选地,所述数据质量诊断包括手工质量诊断和定时自动质量诊断两种方式。
优选地,
(1)数据描述子模块12:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块13:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量评价子模块14:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
本实施例中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/8,提示数据范围增加3%,但是计算量增加了2.7%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
实施例5:
如图1所示的一种大数据质量管理与有用数据挖掘装置,包括数据质量管理模块1和有用数据挖掘模块2,其中质量管理模块1包括初步处理子模块11、数据描述子模块12、数据质量评价子模块13和数据质量评价子模块14,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24。
初步处理子模块11包括:
信息采集单元,用于收集质量规则管理和数据质量诊断所需要的各种原始信息;
质量规则管理单元,用于管理所有对象在准确性、一致性、完整性、及时性、可获取性这五大质量度量方面所应遵循的质量规则。
优选地,其特征是,初步处理子模块还包括
数据质量诊断单元,用于根据信息采集模块传递的数据、质量规则管理模块的质量规则定义和具体的数据质量诊断任务、定时进行数据质量诊断并生成质量诊断结果;
数据质量报告单元,用于将数据质量诊断的结果信息以不同用户使用的方式传递给所述用户;
数据质量处理单元,用于根据所述数据质量报告模块所列的待处理质量问题清单,按照级别高低处理质量问题。
优选地,所述数据质量诊断包括手工质量诊断和定时自动质量诊断两种方式。
优选地,
(1)数据描述子模块12:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块13:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量评价子模块14:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
本实施例中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/9,提示数据范围增加2.7%,但是计算量增加了2.5%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (5)

1.一种大数据质量管理与有用数据挖掘装置,其特征是,包括数据质量管理模块和有用数据挖掘模块,其中质量管理模块包括初步处理子模块、数据描述子模块、数据质量评价子模块和数据质量分级管理子模块,有用数据挖掘模块包括数据预处理子模块、有用数据构建子模块、有用数据修正子模块和有用数据分层挖掘子模块;
初步处理子模块包括:
信息采集单元,用于收集质量规则管理和数据质量诊断所需要的各种原始信息;
质量规则管理单元,用于管理所有对象在准确性、一致性、完整性、及时性、可获取性这五大质量度量方面所应遵循的质量规则。
2.根据权利要求1所述的一种大数据质量管理与有用数据挖掘装置,其特征是,初步处理子模块还包括
数据质量诊断单元,用于根据信息采集模块传递的数据、质量规则管理模块的质量规则定义和具体的数据质量诊断任务、定时进行数据质量诊断并生成质量诊断结果;
数据质量报告单元,用于将数据质量诊断的结果信息以不同用户使用的方式传递给所述用户;
数据质量处理单元,用于根据所述数据质量报告模块所列的待处理质量问题清单,按照级别高低处理质量问题。
3.根据权利要求2所述的一种大数据质量管理与有用数据挖掘装置,所述数据质量诊断包括手工质量诊断和定时自动质量诊断两种方式。
4.根据权利要求1所述的一种大数据质量管理与有用数据挖掘装置,其特征是,
(1)数据描述子模块
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁;
(2)数据质量评价子模块
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级;
(3)数据质量分级管理子模块
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
5.根据权利要求1所述的一种大数据质量管理与有用数据挖掘装置,其特征是,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集;
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
CN201610528597.6A 2016-07-04 2016-07-04 一种大数据质量管理与有用数据挖掘装置 Withdrawn CN105975640A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610528597.6A CN105975640A (zh) 2016-07-04 2016-07-04 一种大数据质量管理与有用数据挖掘装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610528597.6A CN105975640A (zh) 2016-07-04 2016-07-04 一种大数据质量管理与有用数据挖掘装置

Publications (1)

Publication Number Publication Date
CN105975640A true CN105975640A (zh) 2016-09-28

Family

ID=56954717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610528597.6A Withdrawn CN105975640A (zh) 2016-07-04 2016-07-04 一种大数据质量管理与有用数据挖掘装置

Country Status (1)

Country Link
CN (1) CN105975640A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229733A (zh) * 2017-06-12 2017-10-03 上海智臻智能网络科技股份有限公司 扩展问评价方法及装置
CN109460441A (zh) * 2018-09-26 2019-03-12 全球能源互联网研究院有限公司 一种多维电网灾害数据挖掘方法及装置
CN110019154A (zh) * 2017-09-28 2019-07-16 阿里巴巴集团控股有限公司 数据处理、数据质量评估、推荐产品确定方法及相关设备
CN110223104A (zh) * 2019-05-11 2019-09-10 浙江华坤道威数据科技有限公司 一种基于大数据的客户模型构建系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107229733A (zh) * 2017-06-12 2017-10-03 上海智臻智能网络科技股份有限公司 扩展问评价方法及装置
CN107229733B (zh) * 2017-06-12 2020-01-14 上海智臻智能网络科技股份有限公司 扩展问评价方法及装置
CN110019154A (zh) * 2017-09-28 2019-07-16 阿里巴巴集团控股有限公司 数据处理、数据质量评估、推荐产品确定方法及相关设备
CN109460441A (zh) * 2018-09-26 2019-03-12 全球能源互联网研究院有限公司 一种多维电网灾害数据挖掘方法及装置
CN110223104A (zh) * 2019-05-11 2019-09-10 浙江华坤道威数据科技有限公司 一种基于大数据的客户模型构建系统
CN110223104B (zh) * 2019-05-11 2020-06-09 浙江华坤道威数据科技有限公司 一种基于大数据的客户模型构建系统

Similar Documents

Publication Publication Date Title
Yu et al. Prediction of bus travel time using random forests based on near neighbors
CN109255586B (zh) 一种面向电子政务办事的在线个性化推荐方法
CN111222661A (zh) 一种城市规划实施效果分析评估方法
Lee et al. Group decision-making approach for flood vulnerability identification using the fuzzy VIKOR method
CN105975640A (zh) 一种大数据质量管理与有用数据挖掘装置
CN101710304A (zh) 一种软件过程实施质量评测方法
Song et al. An interactive detector for spatial associations
Elaalem et al. Land evaluation techniques comparing fuzzy AHP with TOPSIS methods
CN110232078B (zh) 一种企业集团关系获取方法及系统
Bali et al. Commercial-off-the shelf vendor selection: A multi-criteria decision-making approach using intuitionistic fuzzy sets and TOPSIS
CN102567375B (zh) 数据挖掘方法及设备
CN106126739A (zh) 一种处理业务关联数据的装置
CN105786810B (zh) 类目映射关系的建立方法与装置
Peters et al. A new biogeographic regionalisation for Tasmania
Kučas Location prioritization by means of multicriteria spatial decision‐support systems: a case study of forest fragmentation‐based ranking of forest administrative areas
CN106202347A (zh) 一种用于数据质量管理与有用数据挖掘的装置
CN106202344A (zh) 一种车载数据的质量管理与有用数据挖掘装置
Hatefi A typology scheme for the criteria weighting methods in MADM
CN106156323A (zh) 实现数据分级管理与挖掘的装置
Zheng et al. Tolerance relation based granular space
CN106156322A (zh) 一种大规模数据处理装置
CN106202345A (zh) 一种基于数据挖掘的故障诊断装置
CN106126738A (zh) 一种图像数据管理和选取的装置
Grippa et al. Mapping slums and model population density using earth observation data and open source solutions
Porro et al. Perceptual maps to aggregate information from decision makers

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C04 Withdrawal of patent application after publication (patent law 2001)
WW01 Invention patent application withdrawn after publication

Application publication date: 20160928