CN106156323A - 实现数据分级管理与挖掘的装置 - Google Patents

实现数据分级管理与挖掘的装置 Download PDF

Info

Publication number
CN106156323A
CN106156323A CN201610524287.7A CN201610524287A CN106156323A CN 106156323 A CN106156323 A CN 106156323A CN 201610524287 A CN201610524287 A CN 201610524287A CN 106156323 A CN106156323 A CN 106156323A
Authority
CN
China
Prior art keywords
data
submodule
quality
user
useful
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201610524287.7A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610524287.7A priority Critical patent/CN106156323A/zh
Publication of CN106156323A publication Critical patent/CN106156323A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2282Tablespace storage structures; Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/282Hierarchical databases, e.g. IMS, LDAP data stores or Lotus Notes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Quality & Reliability (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了实现数据分级管理与挖掘的装置,包括数据质量管理模块和有用数据挖掘模块,其中质量管理模块包括初步处理子模块、数据描述子模块、数据质量评价子模块和数据质量分级管理子模块,有用数据挖掘模块包括数据预处理子模块、有用数据构建子模块、有用数据修正子模块和有用数据分层挖掘子模块。

Description

实现数据分级管理与挖掘的装置
技术领域
本发明涉及数据管理领域,具体涉及实现数据分级管理与挖掘的装置。
背景技术
数据就是数值,也就是我们通过观察、实验或计算得出的结果。数据有很多种,最简单的就是数字。数据也可以是文字、图像、声音等。数据可以用于科学研究、设计、查证等。数据背景是接收者针对特定数据的信息准备,即当接收者了解物理符号序列的规律,并知道每个符号和符号组合的指向性目标或含义时,便可以获得一组数据所载荷的信息。数据作为信息的载体,当然要分析数据中包含的主要信息,及分析数据的主要特征。数据是载荷或记录信息的按一定规则排列组合的物理符号。
在现在使用的数据信息中,有很大一部分的数据是由管理者来进行发布,并且根据用户的建议或者管理者自身的需求由管理者来进行修改的,对于这部分的海量信息,如何能够更好地进行质量管理和挖掘,快速有效地从中找到有用的信息,是一个亟需解决的问题。
发明内容
针对上述问题,本发明提供实现数据分级管理与挖掘的装置。
本发明的目的采用以下技术方案来实现:
实现数据分级管理与挖掘的装置,其特征是,包括数据质量管理模块和有用数据挖掘模块,其中质量管理模块包括初步处理子模块、数据描述子模块、数据质量评价子模块和数据质量分级管理子模块,有用数据挖掘模块包括数据预处理子模块、有用数据构建子模块、有用数据修正子模块和有用数据分层挖掘子模块;
初步处理子模块,其特征是,包括第一数据库、第二数据库及分级管理程序,:
该分级管理程序判断该第一数据库中是否有任一数据在经过一预设时间段内未被读取;若是,则将该未被读取的通讯数据由该第一数据库移至该第二数据库。
优选地,其特征是,该分级管理程序可开启或关闭。
优选地,其特征在于,在关闭该分级管理程序之后,让使用者自行选择是否将该第二数据库内的通讯数据移至该第一数据库。
优选地,
(1)数据描述子模块
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁;
(2)数据质量评价子模块
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级;
(3)数据质量分级管理子模块
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理;
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
有益效果为:引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是实现数据分级管理与挖掘的装置的结构框图。
附图标记:质量管理模块-1;有用数据挖掘模块-2;初步处理子模块-11;数据描述子模块-12;数据质量评价子模块-13;数据质量分级管理子模块-14;数据预处理子模块-21;有用数据构建子模块-22;有用数据修正子模块-23;有用数据分层挖掘子模块-24。
具体实施方式
结合以下实施例对本发明作进一步描述。
实施例1:
如图1所示的实现数据分级管理与挖掘的装置,包括数据质量管理模块1和有用数据挖掘模块2,其中质量管理模块1包括初步处理子模块11、数据描述子模块12、数据质量评价子模块13和数据质量评价子模块14,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24。
初步处理子模块11,其特征是,包括第一数据库、第二数据库及分级管理程序,:
该分级管理程序判断该第一数据库中是否有任一数据在经过一预设时间段内未被读取;若是,则将该未被读取的通讯数据由该第一数据库移至该第二数据库。
优选地,其特征是,该分级管理程序可开启或关闭。
优选地,其特征在于,在关闭该分级管理程序之后,让使用者自行选择是否将该第二数据库内的通讯数据移至该第一数据库。
优选地,
(1)数据描述子模块12:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块13:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量评价子模块14:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
本实施例中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/5,提示数据范围增加5%,但是计算量增加了3.7%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
实施例2:
如图1所示的实现数据分级管理与挖掘的装置,包括数据质量管理模块1和有用数据挖掘模块2,其中质量管理模块1包括初步处理子模块11、数据描述子模块12、数据质量评价子模块13和数据质量评价子模块14,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24。
初步处理子模块11,其特征是,包括第一数据库、第二数据库及分级管理程序,:
该分级管理程序判断该第一数据库中是否有任一数据在经过一预设时间段内未被读取;若是,则将该未被读取的通讯数据由该第一数据库移至该第二数据库。
优选地,其特征是,该分级管理程序可开启或关闭。
优选地,其特征在于,在关闭该分级管理程序之后,让使用者自行选择是否将该第二数据库内的通讯数据移至该第一数据库。
优选地,
(1)数据描述子模块12:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块13:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量评价子模块14:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
本实施例中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/6,提示数据范围增加4%,但是计算量增加了3.3%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
实施例3:
如图1所示的实现数据分级管理与挖掘的装置,包括数据质量管理模块1和有用数据挖掘模块2,其中质量管理模块1包括初步处理子模块11、数据描述子模块12、数据质量评价子模块13和数据质量评价子模块14,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24。
初步处理子模块11,其特征是,包括第一数据库、第二数据库及分级管理程序,:
该分级管理程序判断该第一数据库中是否有任一数据在经过一预设时间段内未被读取;若是,则将该未被读取的通讯数据由该第一数据库移至该第二数据库。
优选地,其特征是,该分级管理程序可开启或关闭。
优选地,其特征在于,在关闭该分级管理程序之后,让使用者自行选择是否将该第二数据库内的通讯数据移至该第一数据库。
优选地,
(1)数据描述子模块12:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块13:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量评价子模块14:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
本实施例中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/7,提示数据范围增加3.5%,但是计算量增加了3%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
实施例4:
如图1所示的实现数据分级管理与挖掘的装置,包括数据质量管理模块1和有用数据挖掘模块2,其中质量管理模块1包括初步处理子模块11、数据描述子模块12、数据质量评价子模块13和数据质量评价子模块14,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24。
初步处理子模块11,其特征是,包括第一数据库、第二数据库及分级管理程序,:
该分级管理程序判断该第一数据库中是否有任一数据在经过一预设时间段内未被读取;若是,则将该未被读取的通讯数据由该第一数据库移至该第二数据库。
优选地,其特征是,该分级管理程序可开启或关闭。
优选地,其特征在于,在关闭该分级管理程序之后,让使用者自行选择是否将该第二数据库内的通讯数据移至该第一数据库。
优选地,
(1)数据描述子模块12:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块13:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量评价子模块14:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
本实施例中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/8,提示数据范围增加3%,但是计算量增加了2.7%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
实施例5:
如图1所示的实现数据分级管理与挖掘的装置,包括数据质量管理模块1和有用数据挖掘模块2,其中质量管理模块1包括初步处理子模块11、数据描述子模块12、数据质量评价子模块13和数据质量评价子模块14,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24。
初步处理子模块11,其特征是,包括第一数据库、第二数据库及分级管理程序,:
该分级管理程序判断该第一数据库中是否有任一数据在经过一预设时间段内未被读取;若是,则将该未被读取的通讯数据由该第一数据库移至该第二数据库。
优选地,其特征是,该分级管理程序可开启或关闭。
优选地,其特征在于,在关闭该分级管理程序之后,让使用者自行选择是否将该第二数据库内的通讯数据移至该第一数据库。
优选地,
(1)数据描述子模块12:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块13:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量评价子模块14:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
本实施例中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/9,提示数据范围增加2.7%,但是计算量增加了2.5%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (5)

1.实现数据分级管理与挖掘的装置,其特征是,包括数据质量管理模块和有用数据挖掘模块,其中质量管理模块包括初步处理子模块、数据描述子模块、数据质量评价子模块和数据质量分级管理子模块,有用数据挖掘模块包括数据预处理子模块、有用数据构建子模块、有用数据修正子模块和有用数据分层挖掘子模块;
初步处理子模块,其特征是,包括第一数据库、第二数据库及分级管理程序,:
该分级管理程序判断该第一数据库中是否有任一数据在经过一预设时间段内未被读取;若是,则将该未被读取的通讯数据由该第一数据库移至该第二数据库。
2.根据权利要求1所述的实现数据分级管理与挖掘的装置,其特征是,该分级管理程序可开启或关闭。
3.根据权利要求2所述的实现数据分级管理与挖掘的装置,其特征在于,在关闭该分级管理程序之后,让使用者自行选择是否将该第二数据库内的通讯数据移至该第一数据库。
4.根据权利要求1所述的实现数据分级管理与挖掘的装置,其特征是,
(1)数据描述子模块
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁;
(2)数据质量评价子模块
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级;
(3)数据质量分级管理子模块
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
5.根据权利要求1所述的实现数据分级管理与挖掘的装置,其特征是,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集;
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
CN201610524287.7A 2016-07-04 2016-07-04 实现数据分级管理与挖掘的装置 Withdrawn CN106156323A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610524287.7A CN106156323A (zh) 2016-07-04 2016-07-04 实现数据分级管理与挖掘的装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610524287.7A CN106156323A (zh) 2016-07-04 2016-07-04 实现数据分级管理与挖掘的装置

Publications (1)

Publication Number Publication Date
CN106156323A true CN106156323A (zh) 2016-11-23

Family

ID=58061890

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610524287.7A Withdrawn CN106156323A (zh) 2016-07-04 2016-07-04 实现数据分级管理与挖掘的装置

Country Status (1)

Country Link
CN (1) CN106156323A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597136A (zh) * 2020-05-28 2021-04-02 河北新天科创新能源技术有限公司 一种用于风力发电机的数据清洗方法
CN112801835A (zh) * 2021-03-31 2021-05-14 北京润尼尔网络科技有限公司 一种实验教学数据管理平台

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112597136A (zh) * 2020-05-28 2021-04-02 河北新天科创新能源技术有限公司 一种用于风力发电机的数据清洗方法
CN112801835A (zh) * 2021-03-31 2021-05-14 北京润尼尔网络科技有限公司 一种实验教学数据管理平台

Similar Documents

Publication Publication Date Title
Ardizzone et al. Impact of mapping errors on the reliability of landslide hazard maps
US5546564A (en) Cost estimating system
Wu et al. Modified data-driven framework for housing market segmentation
CN110232078B (zh) 一种企业集团关系获取方法及系统
CN109255586A (zh) 一种面向电子政务办事的在线个性化推荐方法
CN103077604A (zh) 交通传感器管理方法和系统
CN103514235B (zh) 一种增量码库的建立方法和装置
CN104636457B (zh) 一种位置搜索认知的方法及装置
CN110222277A (zh) 一种基于大数据分析的旅游信息推荐方法及装置
CN106326923A (zh) 一种顾及位置重复和密度峰值点的签到位置数据聚类方法
CN105975640A (zh) 一种大数据质量管理与有用数据挖掘装置
CN106202347A (zh) 一种用于数据质量管理与有用数据挖掘的装置
CN106202344A (zh) 一种车载数据的质量管理与有用数据挖掘装置
CN106126739A (zh) 一种处理业务关联数据的装置
CN106156323A (zh) 实现数据分级管理与挖掘的装置
Zhang et al. Clustering with implicit constraints: A novel approach to housing market segmentation
Soltanifard et al. Assessment and ranking of influencing factors in the relationship between spatial patterns of urban green spaces and socioeconomic indices in Mashhad urban districts, Iran
KR20190041439A (ko) 데이터 오류 수정 기능을 갖는 주택 가격 추정을 위한 빅데이터 구축 시스템
Chatterjee et al. A proposed new approach for groundwater resources assessment in India
CN116415199B (zh) 基于审计中间表的业务数据离群分析方法
Al-Deek et al. Computing travel time reliability in transportation networks with multistates and dependent link failures
CN106126738A (zh) 一种图像数据管理和选取的装置
CN106202345A (zh) 一种基于数据挖掘的故障诊断装置
CN106156322A (zh) 一种大规模数据处理装置
CN106156329A (zh) 一种导航数据的质量管理与有用数据挖掘装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C04 Withdrawal of patent application after publication (patent law 2001)
WW01 Invention patent application withdrawn after publication

Application publication date: 20161123