CN106202344A - 一种车载数据的质量管理与有用数据挖掘装置 - Google Patents

一种车载数据的质量管理与有用数据挖掘装置 Download PDF

Info

Publication number
CN106202344A
CN106202344A CN201610524263.1A CN201610524263A CN106202344A CN 106202344 A CN106202344 A CN 106202344A CN 201610524263 A CN201610524263 A CN 201610524263A CN 106202344 A CN106202344 A CN 106202344A
Authority
CN
China
Prior art keywords
data
submodule
quality
useful
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201610524263.1A
Other languages
English (en)
Inventor
不公告发明人
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610524263.1A priority Critical patent/CN106202344A/zh
Publication of CN106202344A publication Critical patent/CN106202344A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种车载数据的质量管理与有用数据挖掘装置,包括数据质量管理模块和有用数据挖掘模块,其中质量管理模块包括初步处理子模块、数据描述子模块、数据质量评价子模块和数据质量分级管理子模块,有用数据挖掘模块包括数据预处理子模块、有用数据构建子模块、有用数据修正子模块和有用数据分层挖掘子模块。

Description

一种车载数据的质量管理与有用数据挖掘装置
技术领域
本发明涉及车载数据领域,具体涉及一种车载数据的质量管理与有用数据挖掘装置。
背景技术
数据就是数值,也就是我们通过观察、实验或计算得出的结果。数据有很多种,最简单的就是数字。数据也可以是文字、图像、声音等。数据可以用于科学研究、设计、查证等。数据背景是接收者针对特定数据的信息准备,即当接收者了解物理符号序列的规律,并知道每个符号和符号组合的指向性目标或含义时,便可以获得一组数据所载荷的信息。数据作为信息的载体,当然要分析数据中包含的主要信息,及分析数据的主要特征。数据是载荷或记录信息的按一定规则排列组合的物理符号。而专用数据在各自领域起着重要作用。
在现在使用的数据信息中,有很大一部分的数据是由管理者来进行发布,并且根据用户的建议或者管理者自身的需求由管理者来进行修改的,对于这部分的海量信息,如何能够更好地进行质量管理和挖掘,快速有效地从中找到有用的信息,是一个亟需解决的问题。
发明内容
针对上述问题,本发明提供一种车载数据的质量管理与有用数据挖掘装置。
本发明的目的采用以下技术方案来实现:
一种车载数据的质量管理与有用数据挖掘装置,其特征是,包括数据质量管理模块和有用数据挖掘模块,其中质量管理模块包括初步处理子模块、数据描述子模块、数据质量评价子模块和数据质量分级管理子模块,有用数据挖掘模块包括数据预处理子模块、有用数据构建子模块、有用数据修正子模块和有用数据分层挖掘子模块;
初步处理子模块,其特征是:
接收车载设备通过总线传输的数据存储请求和待存储的车载数据;
对所述待存储的车载数据进行预处理;
检测车辆状态,判断是否可以存储经过预处理的车载数据;
若是,则将所述经过预处理的车载数据存储到对应的数据存储区,若否,则缓存所述经过预处理的车载数据。
优选地,其特征是,对所述待存储的车载数据进行预处理的步骤包括:
对所述待存储的车载数据进行识别,确定对应的处理算法对车载数据进行分析;
对所述待存储的车载数据进行可用性或时效性验证,若未通过验证,则丢弃所述待存储的车载数据。
优选地,其特征在于,所述检测车辆状态,判断是否可以存储经过预处理的车载数据的步骤,包括:
检测车辆是否处于点火状态,或车辆的通信质量是否较差,或电池电压是否低于预设阀值,如果其中一个或多个判断为是,则判定不可以存储经过预处理的车载数据。
优选地,
(1)数据描述子模块
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁;
(2)数据质量评价子模块
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级;
(3)数据质量分级管理子模块
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理;
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
有益效果为:引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
附图说明
利用附图对本发明作进一步说明,但附图中的实施例不构成对本发明的任何限制,对于本领域的普通技术人员,在不付出创造性劳动的前提下,还可以根据以下附图获得其它的附图。
图1是一种车载数据的质量管理与有用数据挖掘装置的结构框图。
附图标记:质量管理模块-1;有用数据挖掘模块-2;初步处理子模块-11;数据描述子模块-12;数据质量评价子模块-13;数据质量分级管理子模块-14;数据预处理子模块-21;有用数据构建子模块-22;有用数据修正子模块-23;有用数据分层挖掘子模块-24。
具体实施方式
结合以下实施例对本发明作进一步描述。
实施例1:
如图1所示的一种车载数据的质量管理与有用数据挖掘装置,包括数据质量管理模块1和有用数据挖掘模块2,其中质量管理模块1包括初步处理子模块11、数据描述子模块12、数据质量评价子模块13和数据质量评价子模块14,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24。
初步处理子模块11,其特征是:
接收车载设备通过总线传输的数据存储请求和待存储的车载数据;
对所述待存储的车载数据进行预处理;
检测车辆状态,判断是否可以存储经过预处理的车载数据;
若是,则将所述经过预处理的车载数据存储到对应的数据存储区,若否,则缓存所述经过预处理的车载数据。
优选地,其特征是,对所述待存储的车载数据进行预处理的步骤包括:
对所述待存储的车载数据进行识别,确定对应的处理算法对车载数据进行分析;
对所述待存储的车载数据进行可用性或时效性验证,若未通过验证,则丢弃所述待存储的车载数据。
优选地,其特征在于,所述检测车辆状态,判断是否可以存储经过预处理的车载数据的步骤,包括:
检测车辆是否处于点火状态,或车辆的通信质量是否较差,或电池电压是否低于预设阀值,如果其中一个或多个判断为是,则判定不可以存储经过预处理的车载数据。
优选地,
(1)数据描述子模块12:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块13:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量评价子模块14:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
本实施例中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/5,提示数据范围增加5%,但是计算量增加了3.7%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
实施例2:
如图1所示的一种车载数据的质量管理与有用数据挖掘装置,包括数据质量管理模块1和有用数据挖掘模块2,其中质量管理模块1包括初步处理子模块11、数据描述子模块12、数据质量评价子模块13和数据质量评价子模块14,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24。
初步处理子模块11,其特征是:
接收车载设备通过总线传输的数据存储请求和待存储的车载数据;
对所述待存储的车载数据进行预处理;
检测车辆状态,判断是否可以存储经过预处理的车载数据;
若是,则将所述经过预处理的车载数据存储到对应的数据存储区,若否,则缓存所述经过预处理的车载数据。
优选地,其特征是,对所述待存储的车载数据进行预处理的步骤包括:
对所述待存储的车载数据进行识别,确定对应的处理算法对车载数据进行分析;
对所述待存储的车载数据进行可用性或时效性验证,若未通过验证,则丢弃所述待存储的车载数据。
优选地,其特征在于,所述检测车辆状态,判断是否可以存储经过预处理的车载数据的步骤,包括:
检测车辆是否处于点火状态,或车辆的通信质量是否较差,或电池电压是否低于预设阀值,如果其中一个或多个判断为是,则判定不可以存储经过预处理的车载数据。
优选地,
(1)数据描述子模块12:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块13:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量评价子模块14:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
本实施例中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/6,提示数据范围增加4%,但是计算量增加了3.3%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
实施例3:
如图1所示的一种车载数据的质量管理与有用数据挖掘装置,包括数据质量管理模块1和有用数据挖掘模块2,其中质量管理模块1包括初步处理子模块11、数据描述子模块12、数据质量评价子模块13和数据质量评价子模块14,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24。
初步处理子模块11,其特征是:
接收车载设备通过总线传输的数据存储请求和待存储的车载数据;
对所述待存储的车载数据进行预处理;
检测车辆状态,判断是否可以存储经过预处理的车载数据;
若是,则将所述经过预处理的车载数据存储到对应的数据存储区,若否,则缓存所述经过预处理的车载数据。
优选地,其特征是,对所述待存储的车载数据进行预处理的步骤包括:
对所述待存储的车载数据进行识别,确定对应的处理算法对车载数据进行分析;
对所述待存储的车载数据进行可用性或时效性验证,若未通过验证,则丢弃所述待存储的车载数据。
优选地,其特征在于,所述检测车辆状态,判断是否可以存储经过预处理的车载数据的步骤,包括:
检测车辆是否处于点火状态,或车辆的通信质量是否较差,或电池电压是否低于预设阀值,如果其中一个或多个判断为是,则判定不可以存储经过预处理的车载数据。
优选地,
(1)数据描述子模块12:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块13:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量评价子模块14:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
本实施例中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/7,提示数据范围增加3.5%,但是计算量增加了3%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
实施例4:
如图1所示的一种车载数据的质量管理与有用数据挖掘装置,包括数据质量管理模块1和有用数据挖掘模块2,其中质量管理模块1包括初步处理子模块11、数据描述子模块12、数据质量评价子模块13和数据质量评价子模块14,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24。
初步处理子模块11,其特征是:
接收车载设备通过总线传输的数据存储请求和待存储的车载数据;
对所述待存储的车载数据进行预处理;
检测车辆状态,判断是否可以存储经过预处理的车载数据;
若是,则将所述经过预处理的车载数据存储到对应的数据存储区,若否,则缓存所述经过预处理的车载数据。
优选地,其特征是,对所述待存储的车载数据进行预处理的步骤包括:
对所述待存储的车载数据进行识别,确定对应的处理算法对车载数据进行分析;
对所述待存储的车载数据进行可用性或时效性验证,若未通过验证,则丢弃所述待存储的车载数据。
优选地,其特征在于,所述检测车辆状态,判断是否可以存储经过预处理的车载数据的步骤,包括:
检测车辆是否处于点火状态,或车辆的通信质量是否较差,或电池电压是否低于预设阀值,如果其中一个或多个判断为是,则判定不可以存储经过预处理的车载数据。
优选地,
(1)数据描述子模块12:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块13:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量评价子模块14:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
本实施例中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/8,提示数据范围增加3%,但是计算量增加了2.7%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
实施例5:
如图1所示的一种车载数据的质量管理与有用数据挖掘装置,包括数据质量管理模块1和有用数据挖掘模块2,其中质量管理模块1包括初步处理子模块11、数据描述子模块12、数据质量评价子模块13和数据质量评价子模块14,有用数据挖掘模块2包括数据预处理子模块21、有用数据构建子模块22、有用数据修正子模块23和有用数据分层挖掘子模块24。
初步处理子模块11,其特征是:
接收车载设备通过总线传输的数据存储请求和待存储的车载数据;
对所述待存储的车载数据进行预处理;
检测车辆状态,判断是否可以存储经过预处理的车载数据;
若是,则将所述经过预处理的车载数据存储到对应的数据存储区,若否,则缓存所述经过预处理的车载数据。
优选地,其特征是,对所述待存储的车载数据进行预处理的步骤包括:
对所述待存储的车载数据进行识别,确定对应的处理算法对车载数据进行分析;
对所述待存储的车载数据进行可用性或时效性验证,若未通过验证,则丢弃所述待存储的车载数据。
优选地,其特征在于,所述检测车辆状态,判断是否可以存储经过预处理的车载数据的步骤,包括:
检测车辆是否处于点火状态,或车辆的通信质量是否较差,或电池电压是否低于预设阀值,如果其中一个或多个判断为是,则判定不可以存储经过预处理的车载数据。
优选地,
(1)数据描述子模块12:
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁。
(2)数据质量评价子模块13:
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级。
(3)数据质量评价子模块14:
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
优选地,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集。
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
本实施例中,引入网络聚类系数对数据进行描述,综合考虑了数据本身的属性和数据影响者的属性,提高了分类的准确率,同时通过用户修改频率系数的引入来减小人工干预,实现了高效检测数据质量的目标;采用三级评价模型,节约了存储空间,提高了计算效率;采用全新的相似度函数,放大了较大相对误差的作用,使得质量等级更为科学精确;引入数据修正子模块对相关系数进行修正,能够充分克服人为破坏和用户投票对数据的影响,取C=T/9,提示数据范围增加2.7%,但是计算量增加了2.5%;将基于区域划分的关联规则挖掘应用与有用数据的分类相结合,只需要在三级分类后的一个数据表中进行分层挖掘,只有在当前数据表没有符合要求的数据时,才会在下一个数据表中进行挖掘,计算量大幅下降,且该数据的挖掘能关联有用数据分类,挖掘目的性更强。
最后应当说明的是,以上实施例仅用以说明本发明的技术方案,而非对本发明保护范围的限制,尽管参照较佳实施例对本发明作了详细地说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的实质和范围。

Claims (5)

1.一种车载数据的质量管理与有用数据挖掘装置,其特征是,包括数据质量管理模块和有用数据挖掘模块,其中质量管理模块包括初步处理子模块、数据描述子模块、数据质量评价子模块和数据质量分级管理子模块,有用数据挖掘模块包括数据预处理子模块、有用数据构建子模块、有用数据修正子模块和有用数据分层挖掘子模块;
初步处理子模块,其特征是:
接收车载设备通过总线传输的数据存储请求和待存储的车载数据;
对所述待存储的车载数据进行预处理;
检测车辆状态,判断是否可以存储经过预处理的车载数据;
若是,则将所述经过预处理的车载数据存储到对应的数据存储区,若否,则缓存所述经过预处理的车载数据。
2.根据权利要求1所述的一种车载数据的质量管理与有用数据挖掘装置,其特征是,对所述待存储的车载数据进行预处理的步骤包括:
对所述待存储的车载数据进行识别,确定对应的处理算法对车载数据进行分析;
对所述待存储的车载数据进行可用性或时效性验证,若未通过验证,则丢弃所述待存储的车载数据。
3.根据权利要求2所述的一种车载数据的质量管理与有用数据挖掘装置,其特征在于,所述检测车辆状态,判断是否可以存储经过预处理的车载数据的步骤,包括:
检测车辆是否处于点火状态,或车辆的通信质量是否较差,或电池电压是否低于预设阀值,如果其中一个或多个判断为是,则判定不可以存储经过预处理的车载数据。
4.根据权利要求1所述的一种车载数据的质量管理与有用数据挖掘装置,其特征是,
(1)数据描述子模块
通过引入数据本身的属性和数据影响者的属性来描述数据,数据本身的属性用数据大小、创建日期、包含图片数、相关数据量表示,其中,相关数据量为当前数据指向的其它数据和指向当前数据的其它数据的总和;数据影响者的属性用影响者网络聚类系数来表示,由以下方法得到:
构建数据影响者描述网络,对于每一个数据而言,影响者包括多个用户和一个管理者,其每个影响者都代表一个节点,用户可以浏览数据,也可以对数据提出修改的建议,而管理者既可以自行对数据进行修改,也可以根据用户建议进行修改,
则影响者网络聚类系数定义为:
K ‾ = mσ 1 + lσ 2 + n ( δ 1 × σ 3 + δ 2 × σ 4 ) m + l + n × 1 - ( m - l m ) 3
式中,σ1表示用户每浏览一次数据施加的影响因子,m表示用户浏览总次数;σ2表示用户每提出一次修改意见施加的影响因子,l表示用户提出建议总次数;σ3表示管理者每自行修改一次数据施加的影响因子,σ4表示管理者每根据用户建议修改一次数据施加的影响因子,δ1和δ2分别为σ3和σ4权值,n表示管理者修改总次数;为用户修改频率系数,用于表示用户对数据的满意程度,该系数越大表明用户对数据的修改越频繁;
(2)数据质量评价子模块
采用“三级评价模型”对数据质量进行评价,首先根据数据大小将数据分为三类,然后综合数据的除数据大小外的其它全部属性对其数据质量进行评价,具体方法如下:
将样本数据划分为高质量数据、中质量数据和低质量数据,若数据大小大于阈值T1,则该数据属于高质量数据,若数据大小大于阀值T2但是小于阀值T1,则该数据属于中质量数据,若数据大小小于阀值T2,则该数据属于低质量数据,T1>T2且T1、T2的取值范围是[1KB,1MB];进一步将高质量数据和低质量划分为不同等级,选取数据的其它全部属性组成向量,并根据样本数据计算每个等级的各个数据属性的均值,为每个等级建立相应的均值向量,新数据向量用X=(x1,…,xN)表示,某个等级的均值向量用Y=(y1,…,yN)表示,N表示除数据大小外数据的其它全部属性个数,两个向量的相似度用相似度函数R(X,Y)表示:
R ( X , Y ) = Σ i = 1 N | x i - y i x i | 2 + Σ i = 1 N | x i - y i y i | 2
R(X,Y)值越小,则表明相似度越大,反之,则相似度越小,每个数据分别计算与不同等级的均值向量的相似度,从而确认其质量等级;
(3)数据质量分级管理子模块
数据通过数据质量评价子模块后被划分为不同质量等级,根据数据等级不同对数据进行分级管理。
5.根据权利要求1所述的一种车载数据的质量管理与有用数据挖掘装置,其特征是,
(1)数据预处理子模块
将数据划分为不同领域,根据用户需求确定客户所需数据领域,使用上述的三级评价模型对领域中的高质量高等级数据进行筛选,组成一个新的数据表K;
(2)有用数据构建子模块
经过预处理的数据,每个数据领域包含了不同的分类,引入相关系数P筛选有用数据分类:
P = Z s Z - ρ 1 - ρ
式中,Zs表示新数据表K一个分类中数据双向指向的数量,即对于数据A和B,既能从A指向B,也能从B指向A,Z表示数据表K一个分类中的相关数据量,其中N表示一个分类中数据的总数;
(3)有用数据修正子模块
有用数据在使用过程中,会受到人为破坏和用户投票两个方面的影响,根据这两方面修正后的相关系数为P′;同时设定阈值T,T∈(0,0.1],若P′>T,则表明这个分类是有用数据;当从高质量数据无法得到符合条件的有用数据时,依次在中质量数据和低质量数据中进行查找符合条件的有用数据,并且当所有数据查找完毕后,如果最终得到的P′最大值小于T,或者虽然P′的最大值大于T但是其与阀值T的差值的绝对值小于设定值C,表明无法找到有用数据或者虽然可以找到有用数据但是得到的有用数据相关度已经低于预期,则此时自动对管理者发出提示,修改或者增加相关数据;取C=T/5;
(4)有用数据分层挖掘模块
首先扫描数据表K,假设P′的最大值和最小值分别为P′max和P′min,将数据表K分割成个非重叠区域,并行挖掘出局部频繁项集,其中int为取整函数;然后利用先验性质,连接局部频繁项集得全局候选项集;再次扫描K统计出每个候选项集的实际支持度以确定全局频繁项集;
有用数据修正子模块中根据人为破坏和用户投票进行修正的具体修正公式为:
P′=P×(1-Y)×(1+H)
式中,Y表示数据受到人为破坏的概率,H表示投票用户占总人数的比例。
CN201610524263.1A 2016-07-04 2016-07-04 一种车载数据的质量管理与有用数据挖掘装置 Withdrawn CN106202344A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610524263.1A CN106202344A (zh) 2016-07-04 2016-07-04 一种车载数据的质量管理与有用数据挖掘装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610524263.1A CN106202344A (zh) 2016-07-04 2016-07-04 一种车载数据的质量管理与有用数据挖掘装置

Publications (1)

Publication Number Publication Date
CN106202344A true CN106202344A (zh) 2016-12-07

Family

ID=57466187

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610524263.1A Withdrawn CN106202344A (zh) 2016-07-04 2016-07-04 一种车载数据的质量管理与有用数据挖掘装置

Country Status (1)

Country Link
CN (1) CN106202344A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108197977A (zh) * 2017-12-19 2018-06-22 北京中交兴路信息科技有限公司 一种车辆品牌的推荐方法及装置
CN108595562A (zh) * 2018-04-12 2018-09-28 西安邮电大学 基于准确性判定的用户评价数据分析方法
CN112199368A (zh) * 2017-05-26 2021-01-08 中国重汽集团福建海西汽车有限公司 一种白车身质量管理方法及系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112199368A (zh) * 2017-05-26 2021-01-08 中国重汽集团福建海西汽车有限公司 一种白车身质量管理方法及系统
CN112199368B (zh) * 2017-05-26 2022-06-03 中国重汽集团福建海西汽车有限公司 一种白车身质量管理方法及系统
CN108197977A (zh) * 2017-12-19 2018-06-22 北京中交兴路信息科技有限公司 一种车辆品牌的推荐方法及装置
CN108197977B (zh) * 2017-12-19 2020-11-27 北京中交兴路信息科技有限公司 一种车辆品牌的推荐方法及装置
CN108595562A (zh) * 2018-04-12 2018-09-28 西安邮电大学 基于准确性判定的用户评价数据分析方法
CN108595562B (zh) * 2018-04-12 2021-08-31 西安邮电大学 基于准确性判定的用户评价数据分析方法

Similar Documents

Publication Publication Date Title
US5546564A (en) Cost estimating system
CN103077604B (zh) 交通传感器管理方法和系统
CN109255586B (zh) 一种面向电子政务办事的在线个性化推荐方法
Pavlis et al. A modified DBSCAN clustering method to estimate retail center extent
CN110232078B (zh) 一种企业集团关系获取方法及系统
CN106126741B (zh) 一种基于大数据的电网信息安全可信工作系统
CN106202344A (zh) 一种车载数据的质量管理与有用数据挖掘装置
CN110689368B (zh) 一种移动应用内广告点击率预测系统设计方法
Cheng et al. Multi-period two-echelon location routing problem for disaster waste clean-up
CN105975640A (zh) 一种大数据质量管理与有用数据挖掘装置
CN106326923A (zh) 一种顾及位置重复和密度峰值点的签到位置数据聚类方法
CN106126739A (zh) 一种处理业务关联数据的装置
CN106202347A (zh) 一种用于数据质量管理与有用数据挖掘的装置
CN106056577A (zh) 基于mds‑srm混合级联的sar图像变化检测方法
CN115829124A (zh) 充电桩选址方法、装置、设备及存储介质
CN105335363A (zh) 一种对象推送方法及系统
CN110427365A (zh) 提高合单准确性的地址合并方法及系统
CN106156323A (zh) 实现数据分级管理与挖掘的装置
Zhang et al. Clustering with implicit constraints: A novel approach to housing market segmentation
CN106156322A (zh) 一种大规模数据处理装置
CN106202345A (zh) 一种基于数据挖掘的故障诊断装置
CN106126738A (zh) 一种图像数据管理和选取的装置
CN106169085A (zh) 基于信息度量的特征选择方法
CN107424026A (zh) 商家信誉评价方法和装置
CN106156329A (zh) 一种导航数据的质量管理与有用数据挖掘装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C04 Withdrawal of patent application after publication (patent law 2001)
WW01 Invention patent application withdrawn after publication

Application publication date: 20161207