CN106383984A - 基于mmtd的大数据数据质量有效性评价方法 - Google Patents
基于mmtd的大数据数据质量有效性评价方法 Download PDFInfo
- Publication number
- CN106383984A CN106383984A CN201610768506.6A CN201610768506A CN106383984A CN 106383984 A CN106383984 A CN 106383984A CN 201610768506 A CN201610768506 A CN 201610768506A CN 106383984 A CN106383984 A CN 106383984A
- Authority
- CN
- China
- Prior art keywords
- data
- mmtd
- validity
- dimension
- big data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16Z—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
- G16Z99/00—Subject matter not provided for in other main groups of this subclass
Landscapes
- Complex Calculations (AREA)
Abstract
本发明公开了基于MMTD的大数据数据质量有效性评价方法,针对大数据容易造成数据质量问题和日益提高的数据质量的要求,本发明根据大数据的“3V”特性,选取数据的完整性、数据的正确性、数据的相容性作为评价大数据有效性的维度,提出了一种综合评价数据有效性的方法,该方法根据大数据的特点,将数据有效性分为不同的评价维度,使用MMTD方法对各个维度分别进行评级,然后进行综合评价。MMTD方法是一种基于中介逻辑的、自然的且是电子计算机可以理解的定量形式的数值化方法。采用这种方法处理问题,其处理结果取决于问题的本身而不是依赖于人的主观经验,因而更加具有科学性。
Description
技术领域
本发明属于数据评价技术领域,具体涉及于一种基于MMTD的数据有效性的评价方法。
背景技术
当前,大数据得到了广泛应用,对科学和产业产生了巨大影响。关于大数据的准确定义,科学界仍缺乏统一认识,从字面上理解,大数据最本质的特点在于数据量“大”,除此之外,还包括了获取、管理及处理时的复杂性。大数据具有明显的时代特征,习惯上将其总结为3个“V”:规模性(Volume),高速性(Velocity),多样性(Variety)。由于大数据的这些特性使其出现以下问题的可能性很大:如数据不正确,数据不完整、数据矛盾。这些问题对数据质量产生巨大的影响。
影响数据质量的评价维度有很多,如数据的时效性、客观性、可用性、有用性、用户满意性、操作的简便性、可理解性和有效性等维度。数据的质量可以通过这些维度的满足的程度进行评价。其中数据有效性是评价数据质量的一个重要的评价维度。
数据的有效性,即数据是否符合用户或企业的需求,描述数据是否满足用户定义条件或在一定的值域范围之内。提高数据的有效性,能够显著提高企业的运营环境和决策效率。在大数据环境中,由于激增的数据量,快速增长的处理需求,多样化的数据类型,都让数据的有效性面临着巨大的挑战。
20世纪80年代,我国两位学者朱梧槚、肖奚安提出了中介原则,并且以自创的中介逻辑演算系统(medium logic)作为推理工具,建立了以中介公理集合论(mediumaxiomatic set)作为主要内容的中介数学系统。
MMTD(Measuring of Medium Truth Degree,中介真值程度度量)是一种基于中介逻辑的、自然的且是电子计算机可以理解的定量形式的数值化方法。能够在不同领域中的应用,验证了中介真值程度度量方法的有效性和合理性。
目前为止,关于数据的有效性方面研究的科技文献甚少,《数据仓库数据质量评价研究及其应用》著作中提到通过统计可用数据的更新频率来评价数据的有效性;2004年第九期的《数据质量评估方法研究》中公开了在数据集中通过制定规则约束来评价数据的有效性的研究结果。面向不同应用的数据是不同的,其数据有效性的评价方法也不同。在《基于GIS的排水管网数据有效性规则设计与实现》2005年第七期中提出通过静态约束规则、事务约束规则和动态约束规则这3个规则制定相关约束,通过衡量相应规则的满足程度来评价数据的有效性。总之,关于大数据的数据质量的有效性评价还缺乏深入的研究。
发明内容
本发明目的是针对上述关于大数据的数据质量有效性评价的不足提出一种基于MMTD的数据有效性评价方法。该方法首先对数据有效性的各个维度定性分析。而后符合结果的数据使用MMTD进行定量分析。评价数据处于的“好”,“坏”的区间位置。
为此,本发明是采用以下的技术方案来实现的:
基于MMTD的大数据质量有效性评价方法,包含如下步骤:
步骤1:根据大数据的“3V”特性,选取数据的完整性、数据的正确性、数据的相容性作为评价大数据有效性的维度;
步骤2:对上述数据有效性的三个维度建立相应的评价指标和评价方法;
步骤3:采用逻辑的方法,对上述数据有效性的三个维度进行定性分析;
步骤4:定性分析后,使用MMTD方法对数据有效性的三个维度进行定量分析;
步骤5:对数据有效性的三个维度进行加权求和,完成MMTD的数据有效性的综合评价。
进一步,步骤2中,具体包含以下步骤:
2-1:根据具体应用,建立一条数据中属性的评价方法;
2-2:对每个属性赋予相应的权值;
2-3:对其中每个属性计算加权和,得到该条数据的评价数值。
进一步,步骤3具体包含以下步骤:
3-1:通过所述评价方法获得相应的评价数值;
3-2:建立相应的评价区间;
3-3:通过该评价数值所落入的区间,对该维度进行定性分析。
进一步,步骤4具体包含以下步骤:
4-1:对数据有效性各维度划分数值区间;
4-2:建立数据有效性各维度与逻辑真值的对应关系;
4-3:根据数值区间,确立距离比率函数,作为单维度真值程度的度量规则;
4-4:对各维度的评价数值,计算相应的距离比率函数;
4-5:根据距离比率函数值,完成对数据有效性各维度的定量评价,获得相应的逻辑真值。
进一步,步骤5具体包含以下步骤:
5-1:对数据有效性的三个维度赋予权值;
5-2:通过三个维度的加权和,得到数据有效性的综合评价数值;
5-3:建立数据有效性与逻辑真值区间的对应关系,得到最终的评价结果。
本发明的有益效果如下:
1、本发明为数据有效性的评价提供了一种新的实现方法。
2、本发明能够科学有效的评价数据的有效性,并且能够在大数据环境下能够得到很好地应用。
附图说明
图1为数值区域与谓词的对应关系图。
图2为采用逻辑的方法定性分析大数据维度的技术路线图。
图3为完整程度与谓词的对应关系图。
图4是本发明的方法流程图。
具体实施方式
现结合附图对本发明的具体实施方式做进一步详细的说明。
基于MMTD的大数据数据质量评价方法,使用定性方法将数据有效性的各个维度进行定性分析,由于定性的分析缺乏客观性和可重现性,需要定量方法对数据有效性的各个维度进行进一步分析,以获得更加科学,精确的数值。
本发明是采用以下的技术方案来实现的:
步骤1:确立大数据有效性各个维度,为了更加科学的评价数据的有效性,根据大数据的“3V”特性,选取数据的完整性、数据的正确性、数据的相容性作为评价数据有效性的维度,
步骤2:采用逻辑的方法,对数据有效性的各个维度进行定性分析。
步骤3:定性分析后,使用MMTD方法对数据有效性的各个维度进行定量分析。
步骤4:数据有效性的各个维度进行加权和,建立MMTD的数据有效性的综合评价方法。
当前大数据得到了广泛的应用,由于大数据的“3V”特性,使其有更大可能产生数据质量问题。由于大数据的规模性和高速性,数据的来源多,如果没有规范,可能会产生不相容的数据,数据在产生、传输和处理中,也可能会产生很多问题,如数据不正确和数据不完整。这些问题会对同一个对象的描述出现冲突,影响数据的有效使用,对数据质量产生很大的影响。
影响数据有效性的维度有很多,设有效性评级维度为F,其每个维度分别定义为:f1,f2,f3...fp,p>0,且满足:
为了更加科学的评价数据的有效性,本方面选取数据的完整性、数据的正确性、数据的相容性作为评价数据有效性的度:
F(f1,f2,f3)={数据的完整性,数据正确性,数据的相容性}。
(1)下面对数据有效性的各个维度进行定义:
1.数据完整性:目前还没有针对大数据完整性的定义,从具体的应用出发,对大数据的完整性定义如下:
定义1 设某个数据有n个属性,每一个属性都保持着应有的部分,则该数据完整,否则该数据残缺。
定义2 完整性是用来表示数据的完整程度。针对一条数据,可以用Ri来表示,这条数据的属性用Rij表示,t[Rij]表示Rij属性的值,用V(Rij)来表示Rij属性的完整性,根据不同的应用,V(Rij)可以具有不同的形式,例如,如果一条数据中的某一个属性值缺失,则该属性的完整性为0,否则为1。则属性完整性函数V(Rij)可以定义为
一条数据中的每个属性对该条数据的完整性有不同的影响,根据不同的应用,对每个属性赋予不同的权重。设该条数据的每个属性的权重为wi,即w1,w2......wm,其中
根据公式(2)对这条数据的每个属性进行加权和,得到该条数据的完整性B1(Ri)。
2.数据正确性:在大数据中,目前还没有对数据正确性的定义,我们从应用的角度出发,对大数据的完整性定义如下:
定义3 设某个数据有n个属性,当每个属性都符合某种公认的标准或事实时,该数据正确,否则错误。
定义4 正确性是用来表示数据的正确程度。针对一条数据,可以用Ri来表示,这条数据的属性用Rij表示,t[Rij]表示Rij属性的值,若一条数据中属性Rij在某个取值范围内符合事实时,则该属性的正确性为1,否则为0,则属性正确性函数Z(Rij)可以定义为:
其中dom(Rij)表示Rij的取值范围。(5)
为每一属性设立一个权重,即p1,p2,.......pm,其中
根据公式(5)对这条数据的每个属性进行加权和,得到该条数据的正确性B2(Ri)。
3.数据相容性:在大数据中,数据的相容性定义如下:
定义5 在一批同类型数据中,出现描述同一个实体不一致的数据,即为排斥,否则为相容。
通过统计不一致的数据条数,则相容性B3表示为:
B3=1-dt/da (8)
其中dt表示不一致的数据条数,da表示总的数据条数;
(2)MMTD方法介绍
x是非空对象的集合,f是x的一维数值化映射。对于x∈X,分别满足:
及就称T,F分别是对应谓词逻辑P的“真数值区域”和“假数值区域”。
根据超态概念,将一般数值化应用的数值区域划分为对应谓词真值的五个区域,即~P、P、+P。在“真”数据区域T,αT是谓词P的εT标准度;在“假”区域F,αF是的εF标准度。若αF<αT,称谓词P是正谓词;若αT<αF,称谓词P是负谓词。数值区域与谓词的对应关系如图1所示。其中。
在讨论x相对于的真值程度时,采用距离概念,并把与~p对应的数值区域的长度作为参照,这样就可以很自然而使得对象对于Q的真值程度越高,f(x)离对应的数值越远。
(3)定性分析数据有效性的维度
本部分采用逻辑的方法,对大数据的数据有效性各个维度进行定性分析,建立各个维度与逻辑真值区域的对应关系,采取的技术路线如图2所示。
根据数据有效性的分析,将数据有效性分为数据完整性,数据正确性和数据相容性,以下,将以这3个子维度进行分析:
1.以数据完整性为例,在某种具体的应用中,当主要的属性存在时,丢失次要的属性,不影响数据的使用。选取决定本次应用的属性作为主要属性,其他为次要属性,并赋予相应的权值,对这些权值进行从低到高进行排序,即w1≤w2≤w3...≤wm,可分为次要属性的权重w1…wn,主要属性的权重wn+1…wm。当完整性B1(Ri)高于A%时,其完整性高,当完整性B1(Ri)低于B%,其完整性低。B1(Ri)在公式(4)中定义。
关于A和B的取值,在不同的应用中,有不同的取值方法。设某一种方法的主要思想1。
主要思想1,对每个属性进行排序后,从次要属性中找到第k个属性,使的w1到wk的权值之和小于主要属性中最小属性的权值wn+1。
输入:已排序的所有属性的权重w1…wm。wn+1是主要属性中权重最小的属性。
输出:第k个属性。
根据主要思想1,可以得到:
A=1-B
设数据完整性程度评定为x,n1<x<n2,记谓词W表示完整性高,完整性低。并存在过渡~W,建立对应于W与的标准度αT和αF,如图3所示。
选取距离比率函数h(y)作为单维度真值程度的度量规则根据图3可以得出。
2.数据正确性与数据完整性定义类似。
3.数据相容性的定性分析
通过公式(8),当相容度完整度B3高于C%时,其相容性高,当相容度B1低于D%,其相容性低。
1.数据完整性定量分析
选取距离比率函数h(y)作为单维度真值程度的度量规则根据图(3)可以得出:
相对于W的距离比率函数h:f(x)→R,当取y=f(x)时,有
定性分析的基础上,本部分的研究主要包括以下2个方面:
①数据有效性各个维度进行定量分析
通过公式(9),得出数据完整度的距离比率函数数值h(B1(Ri)),用来表示完整性,B1(Ri)表示数据的完整度,在公式(4)中被定义。当h(B1(Ri))的值越大,表明这条数据完整性越高,当h(B1(Ri))越小,表明这条数据完整性越低。
2.数据的正确性和数据相容性定量分析与数据的完整性定量分析类似。可以得到数据正确度的距离比率函数h(B2(Ri)),用来表示正确性,B2表示数据的正确度,在公式(7)中被定义。当h(B2(Ri))的值越大,表明这条数据正确性越高,当h(B2(Ri))越小,表明这条数据正确性越低。
3.数据相容性与数据完整性的定量分析类似,可以得到数据相容性的距离比率函数h(B3),用来表示相容性,B3表示数据的相容度,在公式(9)中被定义。当h(B3)的值越大,表明这批数据相容性越高,当h(B3)越小,表明这批数据相容性越低。
②多维度综合评价方法
数据有效性F={f1,f2,f3...fp}其相应的权值是,E={E1,E2...EP},
设数据完整性,数据正确性,数据相容性的权值分别是E1,E2,E3。
表示每个维度在数据有效性中的影响的程度。
通过公式(10)可以获得一批数据的完整性R,其中h(B1(Ri))表示第i条数据的完整度距离比率函数值。
同样,通过公式(11)可以获得一批数据的正确性T。其中h(B2(Ri))表示第i条数据的正确度距离比率函数值。
通过公式(12)获得一批数据的相容性F,其中h(B3)表示相容度的距离比率函数值。
F=h(B3) (12)
对以上维度进行加权和,可以得出数据有效性的综合评价方法为:
G=E1×R+E2×T+E3×F (13)
根据图(3)和公式(9),建立类似的距离比率函数h(G),当h(G)值也接近1,数据越有效,当值越接近0,表示数据越无效。数据有效性的评价过程如图4所示。
虽然本发明已以较佳实施方式进行公开,但上述具体实施信息并不是用来限定本发明的。在不脱离本发明之精神和范围内,对本发明所做的任何等效变化或润饰,都属于本发明的保护范围。
Claims (5)
1.基于MMTD的大数据质量有效性评价方法,其特征在于,包含如下步骤:
步骤1:根据大数据的“3V”特性,选取数据的完整性、数据的正确性、数据的相容性作为评价大数据有效性的维度;
步骤2:对上述数据有效性的三个维度建立相应的评价指标和评价方法;
步骤3:采用逻辑的方法,对上述数据有效性的三个维度进行定性分析;
步骤4:定性分析后,使用MMTD方法对数据有效性的三个维度进行定量分析;
步骤5:对数据有效性的三个维度进行加权求和,完成MMTD的数据有效性的综合评价。
2.根据权利要求1所述的基于MMTD的大数据质量有效性评价方法,其特征在于步骤2中,具体包含以下步骤:
2-1:根据具体应用,建立一条数据中属性的评价方法;
2-2:对每个属性赋予相应的权值;
2-3:对其中每个属性计算加权和,得到该条数据的评价数值。
3.根据权利要求1或2所述的基于MMTD的大数据质量有效性评价方法,其特征在于步骤3具体包含以下步骤:
3-1:通过所述评价方法获得相应的评价数值;
3-2:建立相应的评价区间;
3-3:通过该评价数值所落入的区间,对该维度进行定性分析。
4.根据权利要求1所述的基于MMTD的大数据质量有效性评价方法,其特征在于步骤4具体包含以下步骤:
4-1:对数据有效性各维度划分数值区间;
4-2:建立数据有效性各维度与逻辑真值的对应关系;
4-3:根据数值区间,确立距离比率函数,作为单维度真值程度的度量规则;
4-4:对各维度的评价数值,计算相应的距离比率函数;
4-5:根据距离比率函数值,完成对数据有效性各维度的定量评价,获得相应的逻辑真值。
5.根据权利要求1所述的基于MMTD的大数据质量有效性评价方法,其特征在于步骤5具体包含以下步骤:
5-1:对数据有效性的三个维度赋予权值;
5-2:通过三个维度的加权和,得到数据有效性的综合评价数值;
5-3:建立数据有效性与逻辑真值区间的对应关系,得到最终的评价结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610768506.6A CN106383984A (zh) | 2016-08-30 | 2016-08-30 | 基于mmtd的大数据数据质量有效性评价方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610768506.6A CN106383984A (zh) | 2016-08-30 | 2016-08-30 | 基于mmtd的大数据数据质量有效性评价方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106383984A true CN106383984A (zh) | 2017-02-08 |
Family
ID=57938305
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610768506.6A Pending CN106383984A (zh) | 2016-08-30 | 2016-08-30 | 基于mmtd的大数据数据质量有效性评价方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106383984A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111026742A (zh) * | 2019-12-05 | 2020-04-17 | 东莞中国科学院云计算产业技术创新与育成中心 | 数据质量评估方法、装置、计算机设备和存储介质 |
WO2020201875A1 (en) * | 2019-04-02 | 2020-10-08 | International Business Machines Corporation | Method for accessing data records of a master data management system |
CN115601772A (zh) * | 2022-12-15 | 2023-01-13 | 南京邮电大学(Cn) | 一种基于多模态学习的美学质量评价模型和方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030187698A1 (en) * | 2001-12-31 | 2003-10-02 | Bonissone Piero Patrone | Process for determining a confidence factor for insurance underwriting suitable for use by an automated system |
CN103544708A (zh) * | 2013-10-31 | 2014-01-29 | 南京邮电大学 | 一种基于mmtd的图像质量客观评价方法 |
CN105741196A (zh) * | 2016-03-01 | 2016-07-06 | 万达信息股份有限公司 | 一种基于四个维度进行数据质量监测及评价方法 |
CN105843829A (zh) * | 2015-09-30 | 2016-08-10 | 华北电力大学(保定) | 一种基于分层模型的大数据可信性度量方法 |
-
2016
- 2016-08-30 CN CN201610768506.6A patent/CN106383984A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20030187698A1 (en) * | 2001-12-31 | 2003-10-02 | Bonissone Piero Patrone | Process for determining a confidence factor for insurance underwriting suitable for use by an automated system |
CN103544708A (zh) * | 2013-10-31 | 2014-01-29 | 南京邮电大学 | 一种基于mmtd的图像质量客观评价方法 |
CN105843829A (zh) * | 2015-09-30 | 2016-08-10 | 华北电力大学(保定) | 一种基于分层模型的大数据可信性度量方法 |
CN105741196A (zh) * | 2016-03-01 | 2016-07-06 | 万达信息股份有限公司 | 一种基于四个维度进行数据质量监测及评价方法 |
Non-Patent Citations (3)
Title |
---|
PAN ZHENG HUA: "An interpretation of infinite valued for medium propositional logic", 《IN:PROCEEDINGS OF THE 2004 INTERNTIONAL CONFERENCE ON MACHINE LEARNING AND CYBERNETICS》 * |
周宁宁等: "基于中介真值程度度量的评价方法", 《计算机技术与发展》 * |
朱俚治: "一种基于MMTD网络异常流量的研究", 《信息安全与技术》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020201875A1 (en) * | 2019-04-02 | 2020-10-08 | International Business Machines Corporation | Method for accessing data records of a master data management system |
GB2596741A (en) * | 2019-04-02 | 2022-01-05 | Ibm | Method for accessing data records of a master data management system |
CN111026742A (zh) * | 2019-12-05 | 2020-04-17 | 东莞中国科学院云计算产业技术创新与育成中心 | 数据质量评估方法、装置、计算机设备和存储介质 |
CN115601772A (zh) * | 2022-12-15 | 2023-01-13 | 南京邮电大学(Cn) | 一种基于多模态学习的美学质量评价模型和方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107273490A (zh) | 一种基于知识图谱的组合错题推荐方法 | |
Reckhow et al. | Statistical evaluation of mechanistic water-quality models | |
Kovács et al. | Classification into homogeneous groups using combined cluster and discriminant analysis | |
Lamm et al. | Scale development and validation: Methodology and recommendations | |
Ceballos et al. | On the estimation of the Hurst exponent using adjusted rescaled range analysis, detrended fluctuation analysis and variance time plot: A case of exponential distribution | |
CN103226595B (zh) | 基于贝叶斯混合公共因子分析器的高维数据的聚类方法 | |
CN106384119A (zh) | 一种利用方差分析确定k值的k‑均值聚类改进算法 | |
CN106383984A (zh) | 基于mmtd的大数据数据质量有效性评价方法 | |
Mestre et al. | Functional time series model identification and diagnosis by means of auto-and partial autocorrelation analysis | |
Hariani et al. | The effect of fiscal stress, original local government revenue and capital expenditures on efficiency ratio of government independence performance | |
Kadir | Bayesian inference of autoregressive models | |
Ivanov et al. | Investigation of the market efficiency of emerging stock markets in the East-European region | |
CN106327392A (zh) | 一种基于大数据的考试录取智能预测方法 | |
Stringer | Implementing approximate Bayesian inference using adaptive quadrature: The AGHQ package | |
Böhme et al. | On metrics and measurements | |
CN117150232A (zh) | 一种大模型非时序训练数据质量评价方法 | |
Hassanpour et al. | A goal programming approach to fuzzy linear regression with non-fuzzy input and fuzzy output data | |
Širca et al. | The JLS model with ARMA/GARCH errors | |
Tran et al. | Data reformation–A novel data processing technique enhancing machine learning applicability for predicting streamflow extremes | |
CN115687854A (zh) | 高精度土样参数测量方法及其系统 | |
Bayat et al. | Nested augmentation of rainfall monitoring network: proposing a hybrid implementation of block kriging and entropy theory | |
CN109886288A (zh) | 一种用于电力变压器的状态评价方法及装置 | |
CN115374570A (zh) | 一种用于穿越工程隧道变形预测的多源加权训练集构建方法 | |
CN104376064A (zh) | 一种挖掘用户年龄样本的方法和装置 | |
Bardsiri et al. | Statistical analysis of the most popular software service effort estimation datasets |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination |