CN106383984A

CN106383984A - 基于mmtd的大数据数据质量有效性评价方法

Info

Publication number: CN106383984A
Application number: CN201610768506.6A
Authority: CN
Inventors: 周宁宁; 仲苏阳
Original assignee: Nanjing Post and Telecommunication University
Current assignee: Nanjing Post and Telecommunication University; Nanjing University of Posts and Telecommunications
Priority date: 2016-08-30
Filing date: 2016-08-30
Publication date: 2017-02-08

Abstract

本发明公开了基于MMTD的大数据数据质量有效性评价方法，针对大数据容易造成数据质量问题和日益提高的数据质量的要求，本发明根据大数据的“3V”特性，选取数据的完整性、数据的正确性、数据的相容性作为评价大数据有效性的维度，提出了一种综合评价数据有效性的方法，该方法根据大数据的特点，将数据有效性分为不同的评价维度，使用MMTD方法对各个维度分别进行评级，然后进行综合评价。MMTD方法是一种基于中介逻辑的、自然的且是电子计算机可以理解的定量形式的数值化方法。采用这种方法处理问题，其处理结果取决于问题的本身而不是依赖于人的主观经验，因而更加具有科学性。

Description

基于MMTD的大数据数据质量有效性评价方法

技术领域

本发明属于数据评价技术领域，具体涉及于一种基于MMTD的数据有效性的评价方法。

背景技术

当前，大数据得到了广泛应用，对科学和产业产生了巨大影响。关于大数据的准确定义，科学界仍缺乏统一认识，从字面上理解，大数据最本质的特点在于数据量“大”，除此之外，还包括了获取、管理及处理时的复杂性。大数据具有明显的时代特征，习惯上将其总结为3个“V”:规模性(Volume)，高速性(Velocity)，多样性(Variety)。由于大数据的这些特性使其出现以下问题的可能性很大：如数据不正确，数据不完整、数据矛盾。这些问题对数据质量产生巨大的影响。

影响数据质量的评价维度有很多，如数据的时效性、客观性、可用性、有用性、用户满意性、操作的简便性、可理解性和有效性等维度。数据的质量可以通过这些维度的满足的程度进行评价。其中数据有效性是评价数据质量的一个重要的评价维度。

数据的有效性，即数据是否符合用户或企业的需求，描述数据是否满足用户定义条件或在一定的值域范围之内。提高数据的有效性，能够显著提高企业的运营环境和决策效率。在大数据环境中，由于激增的数据量，快速增长的处理需求，多样化的数据类型，都让数据的有效性面临着巨大的挑战。

20世纪80年代，我国两位学者朱梧槚、肖奚安提出了中介原则，并且以自创的中介逻辑演算系统(medium logic)作为推理工具，建立了以中介公理集合论(mediumaxiomatic set)作为主要内容的中介数学系统。

MMTD(Measuring of Medium Truth Degree，中介真值程度度量)是一种基于中介逻辑的、自然的且是电子计算机可以理解的定量形式的数值化方法。能够在不同领域中的应用，验证了中介真值程度度量方法的有效性和合理性。

目前为止，关于数据的有效性方面研究的科技文献甚少，《数据仓库数据质量评价研究及其应用》著作中提到通过统计可用数据的更新频率来评价数据的有效性；2004年第九期的《数据质量评估方法研究》中公开了在数据集中通过制定规则约束来评价数据的有效性的研究结果。面向不同应用的数据是不同的，其数据有效性的评价方法也不同。在《基于GIS的排水管网数据有效性规则设计与实现》2005年第七期中提出通过静态约束规则、事务约束规则和动态约束规则这3个规则制定相关约束，通过衡量相应规则的满足程度来评价数据的有效性。总之，关于大数据的数据质量的有效性评价还缺乏深入的研究。

发明内容

本发明目的是针对上述关于大数据的数据质量有效性评价的不足提出一种基于MMTD的数据有效性评价方法。该方法首先对数据有效性的各个维度定性分析。而后符合结果的数据使用MMTD进行定量分析。评价数据处于的“好”，“坏”的区间位置。

为此，本发明是采用以下的技术方案来实现的：

基于MMTD的大数据质量有效性评价方法，包含如下步骤：

步骤1：根据大数据的“3V”特性，选取数据的完整性、数据的正确性、数据的相容性作为评价大数据有效性的维度；

步骤2：对上述数据有效性的三个维度建立相应的评价指标和评价方法；

步骤3：采用逻辑的方法，对上述数据有效性的三个维度进行定性分析；

步骤4：定性分析后，使用MMTD方法对数据有效性的三个维度进行定量分析；

步骤5：对数据有效性的三个维度进行加权求和，完成MMTD的数据有效性的综合评价。

进一步，步骤2中，具体包含以下步骤：

2-1：根据具体应用，建立一条数据中属性的评价方法；

2-2：对每个属性赋予相应的权值；

2-3：对其中每个属性计算加权和，得到该条数据的评价数值。

进一步，步骤3具体包含以下步骤：

3-1：通过所述评价方法获得相应的评价数值；

3-2：建立相应的评价区间；

3-3：通过该评价数值所落入的区间，对该维度进行定性分析。

进一步，步骤4具体包含以下步骤：

4-1：对数据有效性各维度划分数值区间；

4-2：建立数据有效性各维度与逻辑真值的对应关系；

4-3：根据数值区间，确立距离比率函数，作为单维度真值程度的度量规则；

4-4：对各维度的评价数值，计算相应的距离比率函数；

4-5：根据距离比率函数值，完成对数据有效性各维度的定量评价，获得相应的逻辑真值。

进一步，步骤5具体包含以下步骤：

5-1：对数据有效性的三个维度赋予权值；

5-2：通过三个维度的加权和，得到数据有效性的综合评价数值；

5-3：建立数据有效性与逻辑真值区间的对应关系，得到最终的评价结果。

本发明的有益效果如下：

1、本发明为数据有效性的评价提供了一种新的实现方法。

2、本发明能够科学有效的评价数据的有效性，并且能够在大数据环境下能够得到很好地应用。

附图说明

图1为数值区域与谓词的对应关系图。

图2为采用逻辑的方法定性分析大数据维度的技术路线图。

图3为完整程度与谓词的对应关系图。

图4是本发明的方法流程图。

具体实施方式

现结合附图对本发明的具体实施方式做进一步详细的说明。

基于MMTD的大数据数据质量评价方法，使用定性方法将数据有效性的各个维度进行定性分析，由于定性的分析缺乏客观性和可重现性，需要定量方法对数据有效性的各个维度进行进一步分析，以获得更加科学，精确的数值。

本发明是采用以下的技术方案来实现的：

步骤1：确立大数据有效性各个维度，为了更加科学的评价数据的有效性，根据大数据的“3V”特性，选取数据的完整性、数据的正确性、数据的相容性作为评价数据有效性的维度，

步骤2：采用逻辑的方法，对数据有效性的各个维度进行定性分析。

步骤3：定性分析后，使用MMTD方法对数据有效性的各个维度进行定量分析。

步骤4：数据有效性的各个维度进行加权和，建立MMTD的数据有效性的综合评价方法。

当前大数据得到了广泛的应用，由于大数据的“3V”特性，使其有更大可能产生数据质量问题。由于大数据的规模性和高速性，数据的来源多，如果没有规范，可能会产生不相容的数据，数据在产生、传输和处理中，也可能会产生很多问题，如数据不正确和数据不完整。这些问题会对同一个对象的描述出现冲突，影响数据的有效使用，对数据质量产生很大的影响。

影响数据有效性的维度有很多，设有效性评级维度为F，其每个维度分别定义为:f₁,f₂,f₃...f_p，p＞0,且满足：

为了更加科学的评价数据的有效性，本方面选取数据的完整性、数据的正确性、数据的相容性作为评价数据有效性的度：

F(f₁,f₂,f₃)＝{数据的完整性，数据正确性，数据的相容性}。

(1)下面对数据有效性的各个维度进行定义：

1.数据完整性：目前还没有针对大数据完整性的定义，从具体的应用出发，对大数据的完整性定义如下：

定义1 设某个数据有n个属性，每一个属性都保持着应有的部分，则该数据完整，否则该数据残缺。

定义2 完整性是用来表示数据的完整程度。针对一条数据，可以用R_i来表示，这条数据的属性用R_ij表示，t[R_ij]表示R_ij属性的值，用V(R_ij)来表示R_ij属性的完整性，根据不同的应用，V(R_ij)可以具有不同的形式，例如，如果一条数据中的某一个属性值缺失，则该属性的完整性为0，否则为1。则属性完整性函数V(R_ij)可以定义为

一条数据中的每个属性对该条数据的完整性有不同的影响，根据不同的应用，对每个属性赋予不同的权重。设该条数据的每个属性的权重为w_i，即w₁,w₂......w_m，其中

Σ_{i = 1}^{m} w_{i} = 1 - - - (3)

根据公式(2)对这条数据的每个属性进行加权和，得到该条数据的完整性B₁(R_i)。

B_{1} (R_{i}) = Σ_{i = 1}^{m} w_{i} \times V (V (R_{i j})) - - - (4)

2.数据正确性：在大数据中，目前还没有对数据正确性的定义，我们从应用的角度出发，对大数据的完整性定义如下：

定义3 设某个数据有n个属性，当每个属性都符合某种公认的标准或事实时，该数据正确，否则错误。

定义4 正确性是用来表示数据的正确程度。针对一条数据，可以用R_i来表示，这条数据的属性用R_ij表示，t[R_ij]表示R_ij属性的值，若一条数据中属性R_ij在某个取值范围内符合事实时，则该属性的正确性为1，否则为0，则属性正确性函数Z(R_ij)可以定义为：

其中dom(R_ij)表示R_ij的取值范围。(5)

为每一属性设立一个权重，即p1,p2,.......pm，其中

Σ_{i = 1}^{m} p_{i} = 1 - - - (6)

根据公式(5)对这条数据的每个属性进行加权和，得到该条数据的正确性B₂(R_i)。

B_{2} (R_{i}) = Σ_{i = 1}^{m} P_{i} \times Z (R_{i j}) - - - (7)

3.数据相容性：在大数据中，数据的相容性定义如下：

定义5 在一批同类型数据中，出现描述同一个实体不一致的数据，即为排斥，否则为相容。

通过统计不一致的数据条数，则相容性B₃表示为：

B₃＝1-d_t/d_a (8)

其中d_t表示不一致的数据条数，d_a表示总的数据条数；

(2)MMTD方法介绍

x是非空对象的集合，f是x的一维数值化映射。对于x∈X，分别满足：

及就称T，F分别是对应谓词逻辑P的“真数值区域”和“假数值区域”。

根据超态概念，将一般数值化应用的数值区域划分为对应谓词真值的五个区域，即～P、P、+P。在“真”数据区域T，α_T是谓词P的ε_T标准度；在“假”区域F，α_F是的ε_F标准度。若α_F＜α_T，称谓词P是正谓词；若α_T＜α_F，称谓词P是负谓词。数值区域与谓词的对应关系如图1所示。其中。

在讨论x相对于的真值程度时，采用距离概念，并把与～p对应的数值区域的长度作为参照，这样就可以很自然而使得对象对于Q的真值程度越高，f(x)离对应的数值越远。

(3)定性分析数据有效性的维度

本部分采用逻辑的方法，对大数据的数据有效性各个维度进行定性分析，建立各个维度与逻辑真值区域的对应关系，采取的技术路线如图2所示。

根据数据有效性的分析，将数据有效性分为数据完整性，数据正确性和数据相容性，以下，将以这3个子维度进行分析：

1.以数据完整性为例，在某种具体的应用中,当主要的属性存在时，丢失次要的属性，不影响数据的使用。选取决定本次应用的属性作为主要属性，其他为次要属性，并赋予相应的权值，对这些权值进行从低到高进行排序，即w₁≤w₂≤w₃...≤w_m，可分为次要属性的权重w₁…w_n，主要属性的权重w_n+1…w_m。当完整性B₁(R_i)高于A％时，其完整性高，当完整性B₁(R_i)低于B％,其完整性低。B₁(R_i)在公式(4)中定义。

关于A和B的取值，在不同的应用中，有不同的取值方法。设某一种方法的主要思想1。

主要思想1,对每个属性进行排序后，从次要属性中找到第k个属性，使的w₁到w_k的权值之和小于主要属性中最小属性的权值w_n+1。

输入：已排序的所有属性的权重w₁…w_m。w_n+1是主要属性中权重最小的属性。

输出：第k个属性。

根据主要思想1，可以得到：

B = Σ_{g = 1}^{k} w_{g}

A＝1-B

设数据完整性程度评定为x，n1＜x＜n2，记谓词W表示完整性高，完整性低。并存在过渡～W，建立对应于W与的标准度α_T和α_F，如图3所示。

选取距离比率函数h(y)作为单维度真值程度的度量规则根据图3可以得出。

2.数据正确性与数据完整性定义类似。

3.数据相容性的定性分析

通过公式(8)，当相容度完整度B₃高于C％时，其相容性高，当相容度B₁低于D％,其相容性低。

1.数据完整性定量分析

选取距离比率函数h(y)作为单维度真值程度的度量规则根据图(3)可以得出：

相对于W的距离比率函数h:f(x)→R，当取y＝f(x)时，有

h (y) = \{\begin{matrix} 0, & n 1 \leq y < B % \\ \frac{y - B %}{A % - B %}, & B % \leq y < A % \\ 1, & A % \leq y < n 2 \end{matrix} - - - (9)

定性分析的基础上，本部分的研究主要包括以下2个方面：

①数据有效性各个维度进行定量分析

通过公式(9)，得出数据完整度的距离比率函数数值h(B₁(R_i))，用来表示完整性，B₁(R_i)表示数据的完整度，在公式(4)中被定义。当h(B₁(R_i))的值越大，表明这条数据完整性越高，当h(B₁(R_i))越小，表明这条数据完整性越低。

2.数据的正确性和数据相容性定量分析与数据的完整性定量分析类似。可以得到数据正确度的距离比率函数h(B₂(R_i))，用来表示正确性，B₂表示数据的正确度，在公式(7)中被定义。当h(B₂(R_i))的值越大，表明这条数据正确性越高，当h(B₂(R_i))越小，表明这条数据正确性越低。

3.数据相容性与数据完整性的定量分析类似，可以得到数据相容性的距离比率函数h(B₃)，用来表示相容性，B₃表示数据的相容度，在公式(9)中被定义。当h(B₃)的值越大，表明这批数据相容性越高，当h(B₃)越小，表明这批数据相容性越低。

②多维度综合评价方法

数据有效性F＝{f₁,f₂,f₃...f_p}其相应的权值是，E＝{E₁,E₂...E_P},

设数据完整性，数据正确性，数据相容性的权值分别是E₁，E₂，E₃。

Σ_{i = 1}^{3} E_{i} = 1

表示每个维度在数据有效性中的影响的程度。

通过公式(10)可以获得一批数据的完整性R，其中h(B₁(R_i))表示第i条数据的完整度距离比率函数值。

R = Σ_{i = 1}^{n} h (B_{1} (R_{i})) / n - - - (10)

同样,通过公式(11)可以获得一批数据的正确性T。其中h(B₂(R_i))表示第i条数据的正确度距离比率函数值。

T = Σ_{i = 1}^{n} h (B_{2} (R_{i})) / n - - - (11)

通过公式(12)获得一批数据的相容性F，其中h(B₃)表示相容度的距离比率函数值。

F＝h(B₃) (12)

对以上维度进行加权和，可以得出数据有效性的综合评价方法为：

G＝E₁×R+E₂×T+E₃×F (13)

根据图(3)和公式(9)，建立类似的距离比率函数h(G),当h(G)值也接近1，数据越有效，当值越接近0，表示数据越无效。数据有效性的评价过程如图4所示。

虽然本发明已以较佳实施方式进行公开，但上述具体实施信息并不是用来限定本发明的。在不脱离本发明之精神和范围内，对本发明所做的任何等效变化或润饰，都属于本发明的保护范围。

Claims

1.基于MMTD的大数据质量有效性评价方法，其特征在于，包含如下步骤：

2.根据权利要求1所述的基于MMTD的大数据质量有效性评价方法，其特征在于步骤2中，具体包含以下步骤：