CN105843829B

CN105843829B - 一种基于分层模型的大数据可信性度量方法

Info

Publication number: CN105843829B
Application number: CN201510632818.XA
Authority: CN
Inventors: 程晓荣; 李天琦; 赵惠兰
Original assignee: North China Electric Power University
Current assignee: North China Electric Power University
Priority date: 2015-09-30
Filing date: 2015-09-30
Publication date: 2019-04-26
Anticipated expiration: 2035-09-30
Also published as: CN105843829A

Abstract

本发明属于面向大数据的数据信任评估的领域，具体涉及一种基于分层模型的大数据可信性度量方法。该发明在传统数据可信分析理论的基础上，通过增加时间因子与惩罚因子等权重参数，计算数据源之间的可信度、数据源的可信度、数据的可信度，动态地构建了层次化的大数据可信分析网络。本发明与现有模型相比，克服了传统数据可信分析方法对于大数据可信计算的不适用性，从更加综合的层面上分析了影响大数据可信度计算的因素，同时，在数据源提供的数据量越多的情况下，越能对所提供数据的可信性度量进行准确分析，较好地满足了大数据的可信需求。

Description

一种基于分层模型的大数据可信性度量方法

技术领域

本发明属于面向大数据的数据信任评估的领域，具体涉及一种基于分层模型的大数据可信性度量方法。

背景技术

近年来，随着物联网、云计算等技术的迅猛发展，“人-机-物”三元世界高度融合，并且造成数据规模的爆炸式增长和数据模式的高度复杂化，促使当前的信息社会步入大数据(Big Data)时代。大数据的产生，为信息科学及控制与决策领域提供了丰富的数据源基础，但数据的真实性在信息融合、智能决策等方面具有重要的作用。

目前，针对数据的可信度量与信任管理，已有一些研究方法和经典算法，主要分为两大类，一类是客观信任分析，这类信任分析是基于证据的，严格的定义信任关系，精确地描述、验证。另一类是主观信任分析，这类信任分析是基于信念的，具有模糊性、不确定性，无法精确地描述、验证。具体包括基于证据和概率统计理论、基于模糊集合理论、基于信息熵的理论、基于多属性决策理论等。虽然这些算法对于普通数据的可信度量问题做出了一定的贡献，但是在大数据时代，数据具有典型的“4V”特征(即海量的数据规模(Volume)、快速的数据流转(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value))和典型“HDC”属性(即数据的异构性(Heterogeneous)、动态的数据体系(Dynamic)、数据的复杂性(Complexity))，这就决定了大数据具有多源分布性、异构性、时空关联性、社会性及高噪声等特点，使得传统的数据可信分析方法无法满足大数据的需求。对于大数据而言，人们对其可信性的需求更加迫切，需要研究新形势下大数据的可信度量与评估方法，若能对原始数据进行可信度的评估，那么就会有效降低风险，提高数据的可信性。

发明内容

本发明目的是：提出基于大数据可信网络的构建方法、基于分层模型的大数据可信性度量方法，从而提高数据可信度计算可靠性。

本发明的技术方案是在传统数据可信分析理论的基础上，本发明通过增加时间因子与惩罚因子等权重参数，构建了层次化的动态大数据可信分析网络模型，该模型将大数据的可信性分析问题归结为数据源、数据源之间及数据传播网络路径的组合问题，即通过计算数据源之间的可信度、数据源的可信度、数据的可信度，动态地构建大数据的可信性分析网络，最后通过所构建的可信性分析网络计算出数据的可信度。

本发明主要分三部分：数据源之间的可信度量模型、数据源可信度量模型、数据可信度量模型。数据源之间的可信度受数据源的可信度制约，数据源的可信度受数据可信度和数据源之间的可信度双重制约，数据的可信度受数据源可信度和数据源之间的可信度的双重制约，它们之间相互关联、相互制约，构成一个完整的整体。

本发明由层次化的可信网络结构组成。在初始时刻，该分析网络由分散的数据源或专家经验预先得到的数据源构成，且网络拓扑结构是动态变化的；然后，在计算数据源之间的关联可信度时，构建了该模型的可信性分析网络；最后，基于该可信性网络分析模型，进行大数据的可信性度量，具体过程如下文所述。

步骤1：对于采集到的数据利用Hadoop技术进行预处理，提取关键属性。

步骤2：计算数据源之间的本地可信度，动态构建由数据源构成的可信网络。当t＝0时，可信度的初始值一般是随机数或者0；当任意t时刻时，若数据源之间没有上下文交互，就对其t-1时刻的可信度值进行时间惩罚，以作为t时刻的本地可信度值，若存在上下文交互时，t时刻的可信度就由数据源之间直接进行上下文交互的可信度与两个数据源之间的相似度组合而成，但当计算的t时刻的可信度值小于t-1时刻的可信度值，那么就需要对其加以系数惩罚。当计算本地可信度超过预先规定的阀值时，它们之间就会建立了一条有向链路，这样就能逐渐地构建可信网络。计算本地可信度的方法如公式1所示：

公式(1)

说明：

a)初始值为一个随机数或0，表示数据源A对数据源B有一些信任或没有信任。

b)μ(t)表示在t时刻时，时间衰减系数。当数据源A对数据源B在t时刻与t-1时刻时，若本地可信度值相同，则就对它加以时间衰减惩罚。其中，0≤μ(t)＜1。

其中Δt是指两次计算时间的差值，t₀是指当前计算的起始时间，t为当前时刻。

c)ΔContext(A，B，t)表示在t时刻时，数据源A和数据源B之间是否有新增的上下文直接交互。

ΔContext(A，B，t)＝Context(A，B，t)-Context(A，B，t-1)。

d)DirTrust(A，B，Context(A，B，t)，t)表示在t时刻时，数据源A对数据源B在上下文交互条件Context(A，B，t)下的可信值。

e)Accept(A，B，t)表示在t时刻时，数据源A对数据源B的相似程度的认可度。

其中，Data(A)为数据源A提供的所有数据集合，data_a表示数据集合中的任何一条数据，Sim(data_a，data_b)是指数据data_a与data_b的相似程度。Data(A)∩Data(B)是指数据源A所提供的数据集合与数据源B所提供的数据集合有相同的主题的数据的个数。

f)λ(t)表示在t时刻时，本模型对本地可信度的惩罚系数。

其中，ΔLocalTrust_A(B，t)表示在t时刻时，数据源A对目的数据源B本地可信度是否发生了变化。ΔLocalTrust_A(B，t)＝LocalTrust_A(B，t)-LocalTrust_A(B，t-1)。

g)α+β＝1，这里的α与β的值和上面的不同。

步骤3：计算数据源之间的全局可信度。这里的可信度值是目标数据源的可信度，所以全局可信度受数据源可信度的限制。计算方法如公式2所示：

GlobalTrust_A(B，t)＝Trust(B，t) 公式(2)

步骤4：计算数据源之间的可信度。它是由数据源之间的本地可信度与全局可信度组合而成。数据源之间的可信度的计算公式，即数据源A对数据源B的可信度计算方法，如公式3所示：

Trust_A(B，t)＝α·LocalTrust_A(B，t)+β·GlobalTrust_A(B，t) 公式(3)

其中，α+β＝1。

步骤5：计算数据源的可信度。当t＝0时，可信度的初始值一般是随机数或者0；当t时刻时，若数据源的信任值在t与t-1时刻的差值是等于0，就对其t-1时刻的可信度值进行时间惩罚，以作为t时刻的数据源可信度值，若数据源的信任值在t与t-1时刻的差值是大于或小于0，数据源的可信度为数据源提供的所有历史数据的可信度期望值与整个可信网络中各层对数据源的推荐可信度的综合可信度，但当计算的t时刻的可信度值小于t-1时刻的可信度值，那么就需要对其加以系数惩罚。数据源的可信度计算公式，即对数据源A的可信度的计算方法，如公式4所示：

公式(4)

说明：

a)初始值为一个随机数或0，表示数据源A有一些信任或没有信任。

b)μ(t)表示在t时刻时，时间衰减系数。当对于数据源A在t时刻与t-1时刻时，若可信度相同，则就对它加以时间衰减惩罚。取值范围0≤μ(t)＜1。

c)λ(t)表示在t时刻时，本模型对数据源的可信度的惩罚系数。

d)ΔTrust(A，t)表示在t时刻时，对于数据源A的信任值在t与t-1时刻的差值。ΔTrust(A，t)＝Trust(A，t)-Trust(A，t-1)。

e)Trust(data_a，t)表示在t时刻时，对数据data_a的信任度。

f)Sum(Data(A))表示求数据源A提供数据的总数量。

g)γ_n表示在可信网络中，以所求信任值的数据源为圆心，每一层对目标数据源(圆心数据源)信任权重。它是一个1*n维向量，第一个元素的值为第一层对圆心数据源的信任权重，以此类推，每个向量元素为所对应层次的信任权重，且权重值是个常数，根据专家设定，由内向外逐层递减，取值范围[0，1]之间。

h)Recommend_n(A，t)表示在t时刻时，每层数据源对目标数据源(圆心数据源)A的推荐可信度，其中它是一个n×1维向量，第一个元素的值为第一层所有数据源对目标数据源(圆心数据源)A的推荐可信度期望值，以此类推，每个向量元素为所对应层次的推荐可信度期望值。一般层数是根据精确度和需求设置的，层数越大，计算量越大，相应的得到的数据就越准确。

i.第i层的某个数据源对目标数据源(圆心数据源)A的推荐可信度计算公式，如公式5所示：

公式(5)

其中，X_i表示第i层数据源X，Neighbor^max(X_l-＞A)表示朝向A的方向上，第i-1层上与X_i相邻的可信度最大的数据源。

ii.第i层的所有数据源对目标数据源(圆心数据源)A的推荐可信度期望值为

其中，Circle_l(A)表示在可信网络中，以A为圆心的第i层上的所有数据源，Sum(Circle_l(A))表示第i层上的所有数据源的数量。

步骤6：计算直接可信度。数据源对所提供的数据的直接可信度值就是数据源在整个可信网络中自身的可信度值，如公式6所示：

DirTrust(A，data，t)＝Trust(A，t) 公式(6)

步骤7：计算间接可信度。计算与数据源相邻接有限的n个可信度高的数据源组合成这条数据真实的推荐可信度，即数据源A对数据data的间接可信度计算，如公式7所示：

公式(7)

其中，Neighbor_n(A)与A相邻的可信度高的n个数据源。

步骤8：计算数据源对数据的可信度。一个数据源对所提供的某条数据真实的可信度计算公式，即数据源A对数据data的可信度计算，如公式8所示：

Trust(A，data，t)＝α·DirTrust(A，data，t)+β·InDirTrust(A，data，t) 公式(8)

其中，α+β＝1。

步骤9：计算数据的可信度。计算方法是求所有的直接提供这条数据的数据源或有直接关系的数据源在历史记录中都提供不可靠数据的对立事件的概率，即对数据data的可信度计算，如公式9所示：

公式(9)

本发明步骤1-9是在不断反复迭代计算的，如果需要查看某一时刻数据的可信度状态，可以采用数据快照的方式查看。

附图说明

图1数据源间、数据源及数据的可信度定义关联关系图

图2可信度量方法的程序流程图

具体实施方式

参考图1，本发明针对大数据“4V”特征和“HDC”属性，给出了一种动态构建大数据可信性度量的模型。该模型主要分三部分：数据源之间的可信度量模型、数据源可信度量模型、数据可信度量模型。数据源之间的可信度受数据源的可信度制约，数据源的可信度受数据的可信度和数据源之间的可信度双重制约，数据的可信度受数据源的可信度和数据源之间的可信度双重制约，它们之间相互关联、相互制约，构成一个整体。

给出本发明所提方法的相关定义，来阐述大数据可信性分析方面的基本问题。

数据源：是指在大数据环境下，数据的提供者。

可信网络：是指由数据源实体以及它们之间的有向链路组成的网络。

定义1数据源间的可信度：由数据源之间的本地可信度与全局可信度组合而成。其符号记作：Trust_A(B，t)，表示在t时刻时，本地数据源A对目的数据源B的综合可信度。

定义2本地可信度(LocalTrust)：当数据源之间有直接的上下文交互时，或者两个数据源之间所提供的数据或行为的相似度超过一定的阀值时，称此时的数据源之间具有本地可信度。它是由数据源之间直接进行上下文交互的可信度与两个数据源之间的相似度(相似度也可以指相互的认可度)组合而成。符号记作：LocalTrust_A(B，t)，表示在t时刻时，本地数据源A对目的数据源B的本地可信度。

定义3全局可信度(GlobalTrust)：它是指目的数据源在整个可信网络中的可信度，即数据源的可信度。符号记作：GlobalTrust_A(B，t)，表示在t时刻时，本地数据源A对目的数据源B的全局可信度。

定义4数据源的可信度：它是指数据源提供的所有历史数据的可信度期望值与整个可信网络中各层对数据源的推荐可信度的综合可信度。符号记作：Trust(A，t)，表示在t时刻，数据源A的可信度。

定义5推荐可信度(Recommend)：它是指本数据源从最佳路径到目的数据源，对目的数据源的可信度。符号记作：Recommend(A，B，t)，表示在t时刻时，数据源A对数据源B以最佳路径得到推荐可信度。

定义6数据源所提供的某条数据的真实可信度：是指由数据源对所有提供数据的直接可信度与间接可信度的综合得到的。符号记作：Trust(A，data，t)，表示在t时刻时，数据源A对所提供的数据data的真实的可信度。

定义7某数据源所提供数据的直接可信度(DirTrust)：是指数据源在整个可信网络中的可信度，符号记作：DirTrust(A，data，t)，表示在t时刻时，数据源A对所提供的数据data的真实可信度。

定义8某数据源所提供数据的间接可信度(InDirTrust)：一般选出有限的n个邻接可信度高的数据源组合成这条数据真实的推荐可信度，符号记作：InDirTrust(A，data，t)，表示在t时刻，与数据源A邻接的数据源对这条数据的真实推荐可信度。

由此可以得到，

定义9数据的可信度：它是指对于这条数据，所有的直接提供这条数据的数据源或有直接关系的数据源在历史记录中都提供不可靠数据的对立事件的概率。符号记作：Trust(data，t)，表示在t时刻时，对数据data的可信度。

由上面的定义可得数据源间、数据源及数据的可信度定义之间关联关系。

参考图2，本发明在进行大数据可信度计算方法步骤为：

数据源是指可信网络中某一个实体，记作entity；数据是指对应的实体(数据源)关于某个主题提供的数据，记作data；主题是指数据的附属主体，记作theme。一个数据源的行为可以认为是在一定的时间内，针对一个主题提供的数据，则存在这条数据属于数据源，记作data∈entity，这条数据附属对应的主题，记作data∈theme，这个主题属于数据源，记作theme∈entity。一个数据源提供的所有的数据集合记作Data(entity)＝{data|data∈entity}，一个数据源与所有有联系的主题集合记作Theme(entity)＝{theme|theme∈entity}，一个主题所包含的数据集合记作Data(theme)＝{data|data∈theme}。

首先从公式(1)计算数据源间的可信度开始，计算任意一个entity对其他entities的可信度，其中，需要根据公式(2)和公式(3)计算两方面的内容，一方面，需要对其他的entities计算本地可信度，如果数据源之间有上下文交互(条件1)或出现新的行为(条件2)，那么需要更新本地可信度，如果没有新的行为，那么就按时间惩罚因子对其进行时间惩罚。其中，如果满足上述条件1任意两个数据源之间有联系，或者满足上述条件2在对数据源间本地可信度计算中，如果任意两个数据源对于同一主题提供的数据相似度超过系统设定的阀值μ，那么他们之间就建立了一条有向链路，其中链路上的权值就是数据源间可信度的值。另一方面，需要对这个entity计算全局可信度。

再次，利用公式(4)计算entity可信度，其中，如果entity提供的所有历史数据的可信度期望值或在整个可信网络中各层对entity的推荐可信度发生变化，那么就更新entity可信度，如果可信度没有发生变化，同样也要对其进行时间惩罚。

最后，根据公式(6)利用对立事件概率来计算某个entity对一个theme提供data的可信度，其中，公式(7)给出了entity对提供的data的真实的可信度，公式(8)和公式(9)分别给出entity对data的直接可信度和相邻entities对data的间接可信度。在实验验证中，如果某个entity提供了某种恶意的、不真实的data时，本模型会对其进行严厉惩罚，使其在可信网络中可信值瞬间变的很低，但如果在后期行为正常情况下，可信度也会随着自己信用的提升而缓慢提升。

Claims

1.基于分层模型的大数据可信性度量方法，其特征在于：包括以下步骤：

步骤1：对于采集到的数据利用Hadoop技术进行预处理，提取关键属性；

步骤2：计算数据源之间的本地可信度，动态构建由数据源构成的可信网络，当t＝0时，可信度的初始值是随机数或者0；当任意t时刻时，若数据源之间没有上下文交互，就对其t-1时刻的可信度值进行时间惩罚，以作为t时刻的本地可信度值，若存在上下文交互时，t时刻的可信度就由数据源之间直接进行上下文交互的可信度与两个数据源之间的相似度组合而成，但当计算的t时刻的可信度值小于t-1时刻的可信度值，那么就需要对其加以系数惩罚，当计算本地可信度超过预先规定的阀值时，它们之间就会建立了一条有向链路，这样就能逐渐地构建可信网络，计算本地可信度的方法如公式1所示：

说明：

a)初始值为一个随机数或0，表示数据源A对数据源B有一些信任或没有信任；

b)μ(t)表示在t时刻时，时间衰减系数，当数据源A对数据源B在t时刻与t-1时刻时，若本地可信度值相同，则就对它加以时间衰减惩罚，其中，0≤μ(t)＜1；

其中Δt是指两次计算时间的差值，t₀是指当前计算的起始时间，t为当前时刻；

c)ΔContext(A，B，t)表示在t时刻时，数据源A和数据源B之间是否有新增的上下文直接交互；

ΔContext(A，B，t)＝Context(A，B，t)-Context(A，B，t-1)；

d)DirTrust(A，B，Context(A，B，t)，t)表示在t时刻时，数据源A对数据源B在上下文交互条件Context(A，B，t)下的可信值；

e)Accept(A，B，t)表示在t时刻时，数据源A对数据源B的相似程度的认可度；

其中，Data(A)为数据源A提供的所有数据集合，data_a表示数据集合中的任何一条数据，Sim(data_a，data_b)是指数据data_a与data_b的相似程度，Data(A)∩Data(B)是指数据源A所提供的数据集合与数据源B所提供的数据集合有相同的主题的数据的个数；

f)λ(t)表示在t时刻时，本模型对本地可信度的惩罚系数；

其中，ΔLocalTrust_A(B，t)表示在t时刻时，数据源A对目的数据源B本地可信度是否发生了变化，ΔLocalTrust_A(B，t)＝LocalTrust_A(B，t)-LocalTrust_A(B，t-1)；

步骤3：计算数据源之间的全局可信度，这里的可信度值是目标数据源的可信度，所以全局可信度受数据源可信度的限制，计算方法如公式2所示：

GlobalTrust_A(B，t)＝Trust(B，t) 公式(2)

步骤4：计算数据源之间的可信度，它是由数据源之间的本地可信度与全局可信度组合而成，数据源之间的可信度的计算公式，即数据源A对数据源B的可信度计算方法，如公式3所示：

Trust_A(B，t)＝α·LocalTrust_A(B，t)+β·GlobalTrust_A(B，t) 公式(3)

其中，α+β＝1；

步骤5：计算数据源的可信度，当t＝0时，可信度的初始值一般是随机数或者0；当t时刻时，若数据源的信任值在t与t-1时刻的差值是等于0，就对其t-1时刻的可信度值进行时间惩罚，以作为t时刻的数据源可信度值，若数据源的信任值在t与t-1时刻的差值是大于或小于0，数据源的可信度为数据源提供的所有历史数据的可信度期望值与整个可信网络中各层对数据源的推荐可信度的综合可信度，但当计算的t时刻的可信度值小于t-1时刻的可信度值，那么就需要对其加以系数惩罚，数据源的可信度计算公式，即对数据源A的可信度的计算方法，如公式4所示：

说明：

a)初始值为一个随机数或0，表示数据源A有一些信任或没有信任；

b)u(t)表示在t时刻时，时间衰减系数，当对于数据源A在t时刻与t-1时刻时，若可信度相同，则就对它加以时间衰减惩罚，取值范围0≤μ(t)＜1；

c)λ(t)表示在t时刻时，本模型对数据源的可信度的惩罚系数；

d)ΔTrust(A，t)表示在t时刻时，对于数据源A的信任值在t与t-1时刻的差值；

ΔTrust(A，t)＝Trust(A，t)-Trust(A，t-1)；

e)Trust(data_a，t)表示在t时刻时，对数据data_a的信任度；

f)Sum(Data(A))表示求数据源A提供数据的总数量；

g)γ_n表示在可信网络中，以所求信任值的数据源为圆心，每一层对目标数据源信任权重，它是一个1*n维向量，第一个元素的值为第一层对圆心数据源的信任权重，以此类推，每个向量元素为所对应层次的信任权重，且权重值是个常数，根据专家设定，由内向外逐层递减，取值范围[0，1]之间；

h)Recommend_n(A，t)表示在t时刻时，每层数据源对目标数据源A的推荐可信度，其中它是一个n×1维向量，第一个元素的值为第一层所有数据源对目标数据源A的推荐可信度期望值，以此类推，每个向量元素为所对应层次的推荐可信度期望值，一般层数是根据精确度和需求设置的，层数越大，计算量越大，相应的得到的数据就越准确；

i.第i层的某个数据源对目标数据源A的推荐可信度计算公式，如公式5所示：

其中，X_i表示第i层数据源X，Neighbor^max(X_i-＞A)表示朝向A的方向上，第i-1层上与X_i相邻的可信度最大的数据源；

ii.第i层的所有数据源对目标数据源A的推荐可信度期望值为

其中，Circle_i(A)表示在可信网络中，以A为圆心的第i层上的所有数据源，Sum(Circle_i(A))表示第i层上的所有数据源的数量；

步骤6：计算直接可信度，数据源对所提供的数据的直接可信度值就是数据源在整个可信网络中自身的可信度值，如公式6所示：

DirTrust(A，data，t)＝Trust(A，t) 公式(6)

步骤7：计算间接可信度，计算与数据源相邻接有限的n个可信度高的数据源组合成这条数据真实的推荐可信度，即数据源A对数据data的间接可信度计算，如公式7所示：

其中，Neighbor_n(A)与A相邻的可信度高的n个数据源；

步骤8：计算数据源对数据的可信度，一个数据源对所提供的某条数据真实的可信度计算公式，即数据源A对数据data的可信度计算，如公式8所示：

其中，α+β＝1；

步骤9：计算数据的可信度，计算方法是求所有的直接提供这条数据的数据源或有直接关系的数据源在历史记录中都提供不可靠数据的对立事件的概率，即对数据data的可信度计算，如公式9所示：

步骤1-9是在不断反复迭代计算的，如果需要查看某一时刻数据的可信度状态，可以采用数据快照的方式查看。