CN105760649A - 一种面向大数据的可信度量方法 - Google Patents

一种面向大数据的可信度量方法 Download PDF

Info

Publication number
CN105760649A
CN105760649A CN201510883959.9A CN201510883959A CN105760649A CN 105760649 A CN105760649 A CN 105760649A CN 201510883959 A CN201510883959 A CN 201510883959A CN 105760649 A CN105760649 A CN 105760649A
Authority
CN
China
Prior art keywords
data
data source
credibility
trust
source
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510883959.9A
Other languages
English (en)
Other versions
CN105760649B (zh
Inventor
李刚
程晓荣
李天琦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tangshan express Polytron Technologies Inc
Original Assignee
North China Electric Power University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by North China Electric Power University filed Critical North China Electric Power University
Priority to CN201510883959.9A priority Critical patent/CN105760649B/zh
Publication of CN105760649A publication Critical patent/CN105760649A/zh
Application granted granted Critical
Publication of CN105760649B publication Critical patent/CN105760649B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass

Landscapes

  • Complex Calculations (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种面向大数据的可信度量方法,用于对大数据的可信性进行准确分析,其技术方案是,通过计算数据源之间的可信度、数据源的可信度、数据的可信度,动态地构建含有时间因子和惩罚因子权重参数的层次化的大数据可信性分析网络,最后利用所构建的可信性分析网络计算出数据的可信度。本发明在传统数据可信分析理论的基础上,通过增加时间因子与惩罚因子等权重参数,构建了层次化的动态大数据可信分析网络模型,将大数据的可信性分析问题归结为数据源、数据源之间及数据传播网络路径的组合问题,仿真实验证明,数据源提供的数据量越多,该模型越能对数据的可信性进行准确分析,很好地满足了大数据的可信需求。

Description

一种面向大数据的可信度量方法
技术领域
本发明涉及一种基于分层模型的大数据可信性度量方法,属于数据处理技术领域。
背景技术
近年来,随着物联网、云计算等技术的迅猛发展,“人-机-物”三元世界高度融合,并且造成数据规模的爆炸式增长和数据模式的高度复杂化,促使当前的信息社会步入大数据(BigData)时代。大数据的产生,为信息科学及控制与决策领域提供了丰富的数据源基础,但数据的真实性在信息融合、智能决策等方面具有重要的作用。
目前,针对数据的可信度量与信任管理,已有一些研究方法和经典处理,主要分为两大类,一类是客观信任分析,这类信任分析是基于证据的,严格的定义信任关系,能够精确地描述、验证。另一类是主观信任分析,这类信任分析是基于信念的,具有模糊性、不确定性,无法精确地描述、验证。具体包括基于证据和概率统计理论、基于模糊集合理论、基于信息熵的理论及基于多属性决策理论等算法。虽然这些算法对于普通数据的可信度量做出了一定的贡献,但是其可信计算模型一般只考虑一部分决策属性,并不全面。在计算综合信任度时只考虑直接信任与间接信任的简单的加权平均,而忽略了环境上下文影响,导致模型不能很好地刻画信任关系的复杂性和不确定性。在基于概率统计建模过程中,由于建模前做了一部分假设,带有较大的主观性,致使预测结果的准确性和可信决策的科学性受到影响。一部分模型虽然考虑了实体之间的动态交互性和随机性,但并没有考虑时效性及恶意推荐所带来的影响,而且缺少灵活性,一旦权值确定,系统很难动态地去调整它,致使预测模型缺少自适应性。而在大数据时代,数据具有典型的“4V”特征(即海量的数据规模(Volume)、快速的数据流转(Velocity)、多样的数据类型(Variety)、巨大的数据价值(Value))和典型“HDC”属性(即数据的异构性(Heterogeneous)、动态的数据体系(Dynamic)、数据的复杂性(Complexity)),这就决定了大数据具有多源分布性、异构性、时空关联性、社会性及高噪声等特点。因此传统的数据可信分析方法无法满足大数据的可信度量需求,有必要研究新形势下大数据的可信度量与评估方法,以有效降低风险,提高数据的可信性,满足人们对大数据可信性的迫切需求。
发明内容
本发明的目的在于针对现有技术之弊端,提供一种面向大数据的可信度量方法,以便对数据的可信性进行准确分析,满足人们对大数据可信性的迫切需求。
本发明所述问题是以下述技术方案解决的:
一种面向大数据的可信度量方法,所述方法通过计算数据源之间的可信度、数据源的可信度、数据的可信度,动态地构建含有时间因子和惩罚因子权重参数的层次化的大数据可信性分析网络,最后利用所构建的可信性分析网络计算出数据的可信度,所述方法包括以下步骤:
a.利用Hadoop技术对采集到的数据进行预处理,提取关键属性;
b.计算数据源之间的本地可信度,动态构建由数据源构成的可信网络:
本地可信度的计算公式为:
其中,
ΔContext(A,B,t)=Context(A,B,t)-Context(A,B,t-1),
ΔLocalTrustA(B,t)=LocalTrustA(B,t)-LocalTrustA(B,t-1),
式中,LocalTrustA(B,t)表示在t时刻时,本地数据源A对目的数据源B的本地可信度;ΔLocalTrustA(B,t)表示在t时刻时,数据源A对目的数据源B本地可信度是否发生了变化;Random()为随机数;μL(t)为t时刻本地可信度的时间衰减系数;Δt是指两次计算时间的差值;t0是指当前计算的起始时间;t为当前时刻;Context(A,B,t)表示在t时刻时,数据源A对数据源B的上下文交互条件;ΔContext(A,B,t)表示在t时刻时,数据源A和数据源B之间是否有新增的上下文直接交互;DirTrust(A,B,Context(A,B,t),t)表示在t时刻时,数据源A对数据源B在上下文交互条件Context(A,B,t)下的可信值;Accept(A,B,t)表示在t时刻时,数据源A对数据源B的相似程度的认可度;Data(A)为数据源A提供的所有数据集合;dataa表示数据集合中的任何一条数据;Sim(dataa,datab)是指数据dataa与datab的相似程度;Data(A)∩Data(B)是指数据源A所提供的数据集合与数据源B所提供的数据集合有相同的主题的数据的个数;λL(t)表示在t时刻,本模型对本地可信度的惩罚系数:α22=1;
c.计算数据源之间的全局可信度:
GlobalTrustA(B,t)=Trust(B,t)
式中,GlobalTrustA(B,t)表示在t时刻时,本地数据源A对目的数据源B的全局可信度;Trust(B,t)表示在t时刻时,对数据B的可信度;
d.计算数据源之间的可信度:
TrustA(B,t)=α1·LocalTrustA(B,t)+β1·GlobalTrustA(B,t),
式中,TrustA(B,t)表示在t时刻时,本地数据源A对目的数据源B的综合可信度;α11=1;
e.计算数据源的可信度:
ΔTrust(A,t)=Trust(A,t)-Trust(A,t-1)
式中,λS(t)表示在t时刻,本模型对数据源的可信度的惩罚系数;Trust(A,t)表示在t时刻,数据源A的可信度;ΔTrust(A,t)表示在t时刻时,对于数据源A的信任值在t与t-1时刻的差值;Trust(dataa,t)表示在t时刻时,对数据dataa的信任度;Sum(Data(A))表示求数据源A提供数据的总数量;γn表示在可信网络中,以所求信任值的数据源为圆心,每一层对目标数据源(圆心数据源)信任权重;Recommendn(A,t)表示在t时刻时,每层数据源对目标数据源(圆心数据源)A的推荐可信度;
f.计算直接可信度:
在t时刻时,数据源A对所提供的数据data的直接可信度值DirTrust(A,data,t)的计算公式为:
DirTrust(A,data,t)=Trust(A,t);
g.计算间接可信度:
在t时刻时,数据源A对数据data的间接可信度InDirTrust(A,data,t)的计算公式为:
式中,Neighborn(A)为与A相邻的可信度高的n个数据源;Trust(A,X,t)表示在t时刻时,数据源A对所提供的数据X的真实的可信度;
Trust(X,data,t)表示在t时刻时,数据源X对所提供的数据data的真实的可信度;
h.计算数据源对数据的可信度:
在t时刻时,数据源A对数据data的可信度Trust(A,data,t)的计算公式为:
Trust(A,data,t)=α4·DirTrust(A,data,t)+β4·InDirTrust(A,data,t),
其中,α44=1;
i.计算数据的可信度:
在t时刻时,数据data的可信度Trust(data,t)的计算公式为:
j.步骤a~i反复迭代计算,某一时刻数据的可信度状态采用数据快照的方式查看。
上述面向大数据的可信度量方法,在t时刻时,每层数据源对目标数据源(圆心数据源)A的推荐可信度Recommendn(A,t)为n×1维向量,其第i个元素的值为第i层所有数据源对目标数据源(圆心数据源)A的推荐可信度期望值,每个向量元素为所对应层次的推荐可信度期望值;
第i层的某个数据源对目标数据源(圆心数据源)A的推荐可信度Recommend(Xi,A,t)的计算公式为:
其中,Xi表示第i层数据源X;Neighbormax(Xi->A)表示朝向A的方向上,第i-1层上与Xi相邻的可信度最大的数据源;
第i层的所有数据源对目标数据源(圆心数据源)A的推荐可信度期望值Recommend(A,t)(i)为:
其中,Circlei(A)表示在可信网络中,以A为圆心的第i层上的所有数据源,Sum(Circlei(A))表示第i层上的所有数据源的数量。
本发明在传统数据可信分析理论的基础上,通过增加时间因子与惩罚因子等权重参数,构建了层次化的动态大数据可信分析网络模型,将大数据的可信性分析问题归结为数据源、数据源之间及数据传播网络路径的组合问题,仿真实验证明,数据源提供的数据量越多,该模型越能对数据的可信性进行准确分析,很好地满足了大数据的可信需求。
附图说明
下面结合附图对本发明作进一步详述。
图1为数据源间、数据、数据源的可信度模型关联关系;
图2为数据源间、数据源及数据的可信度定义关联关系;
图3为本发明整个处理的程序流程图;
图4为某顾客的可信值随时间变化趋势;
图5为某时刻可信网络部分拓扑图,其中(a)为分层数据源可信网络拓扑示意图;(b)为多层的数据源可信传递模拟示意图。
文中各符号清单为:LocalTrustA(B,t)表示在t时刻时,本地数据源A对目的数据源B的本地可信度;ΔLocalTrustA(B,t)表示在t时刻时,数据源A对目的数据源B本地可信度是否发生了变化;Random()为随机数;μL(t)表示在t时刻时,本地可信度的时间衰减系数;μS(t)表示在t时刻时,数据源可信度的时间衰减系数;Δt是指两次计算时间的差值;t0是指当前计算的起始时间;t为当前时刻;Context(A,B,t)表示在t时刻时,数据源A对数据源B的上下文交互条件;ΔContext(A,B,t)表示在t时刻时,数据源A和数据源B之间是否有新增的上下文直接交互;DirTrust(A,B,Context(A,B,t),t)表示在t时刻时,数据源A对数据源B在上下文交互条件Context(A,B,t)下的可信值;Accept(A,B,t)表示在t时刻时,数据源A对数据源B的相似程度的认可度;Data(A)为数据源A提供的所有数据集合;dataa表示数据集合中的任何一条数据;Sim(dataa,datab)是指数据dataa与datab的相似程度;Data(A)∩Data(B)是指数据源A所提供的数据集合与数据源B所提供的数据集合有相同的主题的数据的个数;λL(t)表示在t时刻时,本模型对本地可信度的惩罚系数;λS(t)表示在t时刻时,本模型对数据源可信度的惩罚系数;η表示数据或行为的相似度阀值,Δt表示两次计算时间的差值;α1表示本地信任度权重系数、β1表示全局信任度权重系数;α2表示本地信任度直接可信度权重系数、β2表示本地信任度相似程度的认可度权重系数;α3表示历史数据的可信度期望值权重系数、β3表示推荐可信度权重系数;α4表示直接可信度权重系数,β4表示间接可信度权重系数;其中,α+β=1。GlobalTrustA(B,t)表示在t时刻时,本地数据源A对目的数据源B的全局可信度;TrustA(B,t)表示在t时刻时,本地数据源A对目的数据源B的综合可信度;TrustA(B,t)表示在t时刻时,本地数据源A对目的数据源B的综合可信度;Trust(A,t)表示在t时刻,数据源A的可信度;ΔTrust(A,t)表示在t时刻时,对于数据源A的信任值在t与t-1时刻的差值;Trust(dataa,t)表示在t时刻时,对数据dataa的信任度;Sum(Data(A))表示求数据源A提供数据的总数量;γn表示在可信网络中,以所求信任值的数据源为圆心,每一层对目标数据源(圆心数据源)信任权重;Recommendn(A,t)表示在t时刻时,每层数据源对目标数据源(圆心数据源)A的推荐可信度;DirTrust(A,data,t)表示在t时刻时,数据源A对所提供的数据data的直接可信度值;InDirTrust(A,data,t)表示在t时刻时,数据源A对数据data的间接可信度;Neighborn(A)为与A相邻的可信度高的n个数据源;Trust(A,X,t)表示在t时刻时,数据源A对所提供的数据X的真实的可信度;Trust(X,data,t)表示在t时刻时,数据源X对所提供的数据data的真实的可信度;Trust(A,data,t)表示在t时刻时,数据源A对数据data的可信度;Trust(data,t)表示数据data的可信度;Recommend(Xi,A,t)表示第i层的某个数据源对目标数据源(圆心数据源)A的推荐可信度;Xi表示第i层数据源X;Neighbormax(Xi->A)表示朝向A的方向上,第i-1层上与Xi相邻的可信度最大的数据源;Recommend(A,t)(i)表示第i层的所有数据源对目标数据源(圆心数据源)A的推荐可信度期望值;Circlei(A)表示在可信网络中,以A为圆心的第i层上的所有数据源,Sum(Circlei(A))表示第i层上的所有数据源的数量。
具体实施方式
在传统数据可信分析理论的基础上,本发明通过增加时间因子与惩罚因子等权重参数,构建了层次化的动态大数据可信分析网络模型,该模型将大数据的可信性分析问题归结为数据源、数据源之间及数据传播网络路径的组合问题,即通过计算数据源之间的可信度、数据源的可信度、数据的可信度,动态地构建大数据的可信性分析网络,最后通过所构建的可信性分析网络计算出数据的可信度。
本发明的可信分析网络模型主要分三部分:数据源之间的可信度量模型、数据源可信度量模型、数据可信度量模型。数据源之间的可信度受数据源的可信度制约,数据源的可信度受数据可信度和数据源之间的可信度双重制约,数据的可信度受数据源可信度和数据源之间的可信度的双重制约,它们之间相互关联、相互制约,构成一个整体。三个模型之间的关联关系如图1所示。
由定义1-9(见文后)可得数据源间、数据源及数据的可信度定义之间关联关系,如图2所示。
本发明构建了层次化的可信网络结构。在初始时刻,该分析网络由分散的数据源或专家经验预先得到的数据源构成,且网络拓扑结构是动态变化的;然后,通过计算数据源之间的关联可信度,构建了该模型的可信性分析网络;最后,基于该可信性网络分析模型,进行大数据的可信性度量,具体过程如下文所述。
步骤1:对于采集到的数据利用Hadoop技术进行预处理,提取关键属性。
步骤2:计算数据源之间的本地可信度,动态构建由数据源构成的可信网络。当t=0时,可信度的初始值一般是随机数或者0;当任意t时刻时,若数据源之间没有上下文交互,就对其t-1时刻的可信度值进行时间惩罚,以作为t时刻的本地可信度值,若存在上下文交互时,t时刻的可信度就由数据源之间直接进行上下文交互的可信度与两个数据源之间的相似度组合而成,但当计算的t时刻的可信度值小于t-1时刻的可信度值时,就需要对其加以系数惩罚。当计算的本地可信度超过预先规定的阀值η时,它们之间就会建立了一条有向链路,这样就能逐渐地构建可信网络。计算本地可信度的方法如公式(1)所示:
说明:
a)初始值为一个随机数或0,表示数据源A对数据源B有一些信任或没有信任。
b)μL(t)表示在t时刻时,本地可信度的时间衰减系数。当数据源A对数据源B在t时刻与t-1时刻时,若本地可信度值相同,则就对它加以时间衰减惩罚。其中,
其中Δt是指两次计算时间的差值,t0是指当前计算的起始时间,t为当前时刻。
c)ΔContext(A,B,t)表示在t时刻时,数据源A和数据源B之间是否有新增的上下文直接交互。
ΔContext(A,B,t)=Context(A,B,t)-Context(A,B,t-1)。
d)DirTrust(A,B,Context(A,B,t),t)表示在t时刻时,数据源A对数据源B在上下文交互条件Context(A,B,t)下的可信值。
e)Accept(A,B,t)表示在t时刻时,数据源A对数据源B的相似程度的认可度。
其中,Data(A)为数据源A提供的所有数据集合,dataa表示数据集合中的任何一条数据,Sim(dataa,datab)是指数据dataa与datab的相似程度。Data(A)∩Data(B)是指数据源A所提供的数据集合与数据源B所提供的数据集合有相同的主题的数据的个数。
f)λL(t)表示在t时刻时,本模型对本地可信度的惩罚系数。
其中,ΔLocalTrustA(B,t)表示在t时刻时,数据源A对目的数据源B本地可信度是否发生了变化。
ΔLocalTrustA(B,t)=LocalTrustA(B,t)-LocalTrustA(B,t-1)。
g)α22=1;
步骤3:计算数据源之间的全局可信度。这里的可信度值是目标数据源的可信度,所以全局可信度受数据源可信度的限制。计算方法
如公式(2)所示:
GlobalTrustA(B,t)=Trust(B,t)(2)
步骤4:计算数据源之间的可信度。它是由数据源之间的本地可信度与全局可信度组合而成。数据源之间的可信度的计算公式,即数据源A对数据源B的可信度计算方法,如公式(3)所示:
TrustA(B,t)=α1·LocalTrustA(B,t)+β1·GlobalTrustA(B,t)(3)
其中,α11=1。
步骤5:计算数据源的可信度。当t=0时,可信度的初始值一般是随机数或者0;当t时刻时,若数据源的信任值在t与t-1时刻的差值是等于0,就对其t-1时刻的可信度值进行时间惩罚,以作为t时刻的数据源可信度值,若数据源的信任值在t与t-1时刻的差值是大于或小于0,数据源的可信度为数据源提供的所有历史数据的可信度期望值与整个可信网络中各层对数据源的推荐可信度的综合可信度,但当计算的t时刻的可信度值小于t-1时刻的可信度值时,就需要对其加以系数惩罚。数据源的可信度计算公式,即对数据源A的可信度的计算方法,如公式(4)所示
说明:
a)初始值为一个随机数或0,表示数据源A有一些信任或没有信任。
b)μS(t)表示在t时刻时,时间衰减系数。当对于数据源A在t时刻与t-1时刻时,如果可信度相同,则就对它加以时间衰减惩罚;取值范围为
c)λS(t)表示在t时刻时,本模型对数据源的可信度的惩罚系数。
式中,ΔTrust(A,t)表示在t时刻时,对于数据源A的信任值在t与t-1时刻的差值。ΔTrust(A,t)=Trust(A,t)-Trust(A,t-1)。
d)Trust(dataa,t)表示在t时刻时,对数据dataa的信任度。
e)Sum(Data(A))表示求数据源A提供数据的总数量。
f)γn表示在可信网络中,以所求信任值的数据源为圆心,每一层对目标数据源(圆心数据源)信任权重。它是一个1*n维向量,第一个元素的值为第一层对圆心数据源的信任权重,以此类推,每个向量元素为所对应层次的信任权重,且权重值是个常数,根据专家设定,由内向外逐层递减,取值范围[0,1]之间。
g)Recommendn(A,t)表示在t时刻时,每层数据源对目标数据源(圆心数据源)A的推荐可信度,其中它是一个n×1维向量,第一个元素的值为第一层所有数据源对目标数据源(圆心数据源)A的推荐可信度期望值,以此类推,每个向量元素为所对应层次的推荐可信度期望值。一般层数是根据精确度和需求设置的,层数越大,计算量越大,相应的得到的数据就越准确。
i.第i层的某个数据源对目标数据源(圆心数据源)A的推荐可信度计算公式,如公式(5)所示:
其中,Xi表示第i层数据源X,Neighbormax(Xi->A)表示朝向A的方向上,第i-1层上与Xi相邻的可信度最大的数据源。
ii.第i层的所有数据源对目标数据源(圆心数据源)A的推荐可信度期望值为
其中,Circlei(A)表示在可信网络中,以A为圆心的第i层上的所有数据源,Sum(Circlei(A))表示第i层上的所有数据源的数量。
步骤6:计算直接可信度。数据源对所提供的数据的直接可信度值就是数据源在整个可信网络中自身的可信度值,如公式(6)所示:
DirTrust(A,data,t)=Trust(A,t)(6)
步骤7:计算间接可信度。数据源A对数据data的间接可信度计算,如公式(7)所示:
其中,Neighborn(A)与A相邻的可信度高的n个数据源。
步骤8:计算数据源对数据的可信度。数据源A对数据data的可信度计算,如公式(8)所示:
Trust(A,data,t)=α4·DirTrust(A,data,t)+β4·InDirTrust(A,data,t)(8)
其中,α44=1。
步骤9:计算数据的可信度。计算方法是求所有的直接提供这条数据的数据源或有直接关系的数据源在历史记录中都提供不可靠数据的对立事件的概率,即对数据data的可信度计算,如公式(9)所示:
本发明步骤1-9是在不断反复迭代计算的,如果需要查看某一时刻数据的可信度状态,可以采用数据快照的方式查看。
整个处理的程序流程图如图3所示。
本发明选取的对象是社交网络中的大数据。通过网络爬虫技术对当前的电子商务平台商业网站的商品信息进行采集,特别是对商品信息的评价信息的采集,并对部分样品数据进行了人为标注。数据集包括八大类商品,不同品牌的商品数据,从中,随机抽取商品数量79723件,数据涉及的用户数量可达30多万人,评价信息多达上千万条。其中本处理应用于用户评价参数的可信度分析。本试验中,一个主题(theme)是指某一件商品,实体(entity)是指顾客,数据(data)是指用户对某件商品做出评价的信息。
然后将所采集的数据分成两部分,其中一部分是作为前期的可信网络建立,对网络进行样品反复训练,同时调整更新参数的值以适应环境的变化,另一部分数据则是验证本模型的稳定性、准确性的。各参数的设置情况如下表。
表1大数据可信评估中默认值参数列表
按本发明的处理过程,将上面采集到的数据导入模型中进行验证。在验证过程中,预先设定一名顾客的数据,利用公式(4)、公式(5)、公式(9)计算这名顾客的可信值,观察其可信度值随时间变化情况,如图4所示:
从图4中可以看这位顾客在T0-T30,顾客的可信度呈现一种上升趋势,其中在T12-T18时间段内,顾客的可信度呈缓慢下降趋势,这主要是由于没有新的行为,其可信度要施加时间惩罚,在T31时,由于顾客做出了一种不可信的行为,本系统对其施加了惩罚,导致其可信度下降到0.1以下,在T32以后,由于顾客的行为正常,恢复原先上升的趋势,但趋势比较缓慢。
在某一时刻,分层数据源组成的可信网络部分拓扑示意图以及多层数据源对某条数据的可信传递模拟示意图如下图5所示:
其中,按步骤2,利用公式(1)计算数据源间的本地可信度时,可构建数据源间可信网络,如图5(a)所示给出部分分层数据源网络拓扑图,如图5(b)所示则是给出针对某条数据的可信网络示意图,从中我们可以得出,任何一条数据不仅与其提供者有直接联系,而且也有很多与之有直接或间接联系的数据源包围,形成了一个小型可信网络,这样就能大大提高对一条数据可信性评价的准确性。
为便于理解,下面给出本文所提方法的相关定义:
数据源:是指在大数据环境下,数据的提供者。
数据:是指由多个属性特征构成,符号记作:data={d1,d2,d3,…,dn},其中,di是指数据的第i个属性。
可信网络:是指由数据源实体以及它们之间的有向链路组成的网络。
以下给出本发明中使用的几个定义:
定义1本地可信度(LocalTrust):当数据源之间有直接的上下文交互时,或者两个数据源之间所提供的数据或行为的相似度超过一定的阀值时,称此时的数据源之间具有本地可信度。它是由数据源之间直接进行上下文交互的可信度与两个数据源之间的相似度(相似度也可以指相互的认可度)组合而成。符号记作:LocalTrustA(B,t),表示在t时刻时,本地数据源A对目的数据源B的本地可信度。
定义2全局可信度(GlobalTrust):它是指目的数据源在整个可信网络中的可信度,即数据源的可信度。符号记作:GlobalTrustA(B,t),表示在t时刻时,本地数据源A对目的数据源B的全局可信度。
定义3数据源间的可信度:由数据源之间的本地可信度与全局可信度组合而成。其符号记作:TrustA(B,t),表示在t时刻时,本地数据源A对目的数据源B的综合可信度。
定义4数据源的可信度:它是指数据源提供的所有历史数据的可信度期望值与整个可信网络中各层对数据源的推荐可信度的综合可信度。符号记作:Trust(A,t),表示在t时刻,数据源A的可信度。
定义5推荐可信度:它是指本数据源通过最佳路径到目的数据源,对目的数据源的可信度。符号记作:Recommend(A,B,t),表示在t时刻时,数据源A对数据源B以最佳路径得到推荐可信度。
定义6某数据源所提供数据的直接可信度:是指数据源在整个可信网络中的自身可信度,符号记作:DirTrust(A,data,t),表示在t时刻时,数据源A对所提供的数据data的真实可信度。
定义7某数据源所提供数据的间接可信度:一般选出有限的n个邻接可信度高的数据源组合成这条数据的真实推荐可信度,符号记作:InDirTrust(A,data,t),表示在t时刻,与数据源A邻接的数据源对这条数据的真实推荐可信度。
定义8数据源所提供的某条数据的真实可信度:是指由数据源对所有提供数据的直接可信度与间接可信度的综合得到的。符号记作:Trust(A,data,t),表示在t时刻时,数据源A对所提供的数据data的真实的可信度。
定义9数据的可信度:它是指对于这条数据,所有的直接提供这条数据的数据源或有直接关系的数据源在历史记录中都提供不可靠数据的对立事件的概率。符号记作:Trust(data,t),表示在t时刻时,对数据data的可信度。

Claims (2)

1.一种面向大数据的可信度量方法,其特征是,所述方法通过计算数据源之间的可信度、数据源的可信度、数据的可信度,动态地构建含有时间因子和惩罚因子权重参数的层次化的大数据可信性分析网络,最后利用所构建的可信性分析网络计算出数据的可信度,所述方法包括以下步骤:
a.利用Hadoop技术对采集到的数据进行预处理,提取关键属性;
b.计算数据源之间的本地可信度,动态构建由数据源构成的可信网络:
本地可信度的计算公式为:
式中,0≤μL(t)≤1,ΔContext(A,B,t)=Context(A,B,t)-Context(A,B,t-1),
ΔLocalTrustA(B,t)=LocalTrustA(B,t)-LocalTrustA(B,t-1),
式中,LocalTrustA(B,t)表示在t时刻时,本地数据源A对目的数据源B的本地可信度;ΔLocalTrustA(B,t)表示在t时刻时,数据源A对目的数据源B本地可信度是否发生了变化;Random()为随机数;μL(t)为t时刻本地可信度的时间衰减系数;Δt是指两次计算时间的差值;t0是指当前计算的起始时间;t为当前时刻;Context(A,B,t)表示在t时刻时,数据源A对数据源B的上下文交互条件;ΔContext(A,B,t)表示在t时刻时,数据源A和数据源B之间是否有新增的上下文直接交互;DirTrust(A,B,Context(A,B,t),t)表示在t时刻时,数据源A对数据源B在上下文交互条件Context(A,B,t)下的可信值;Accept(A,B,t)表示在t时刻时,数据源A对数据源B的相似程度的认可度;Data(A)为数据源A提供的所有数据集合;dataa表示数据集合中的任何一条数据;Sim(dataa,datab)是指数据dataa与datab的相似程度;Data(A)∩Data(B)是指数据源A所提供的数据集合与数据源B所提供的数据集合有相同的主题的数据的个数;λL(t)表示在t时刻,本模型对本地可信度的惩罚系数;α22=1;
c.计算数据源之间的全局可信度:
GlobalTrustA(B,t)=Trust(B,t)
式中,GlobalTrustA(B,t)表示在t时刻时,本地数据源A对目的数据源B的全局可信度;Trust(B,t)表示在t时刻时,对数据B的可信度;
d.计算数据源之间的可信度:
TrustA(B,t)=α1·LocalTrustA(B,t)+β1·GlobalTrustA(B,t)
式中,TrustA(B,t)表示在t时刻时,本地数据源A对目的数据源B的综合可信度;
α11=1;
e.计算数据源的可信度:
ΔTrust(A,t)=Trust(A,t)-Trust(A,t-1)
式中,λS(t)表示在t时刻时,本模型对数据源的可信度的惩罚系数;Trust(A,t)表示在t时刻,数据源A的可信度;ΔTrust(A,t)表示在t时刻时,对于数据源A的信任值在t与t-1时刻的差值;Trust(dataa,t)表示在t时刻时,对数据dataa的信任度;Sum(Data(A))表示求数据源A提供数据的总数量;γn表示在可信网络中,以所求信任值的数据源为圆心,每一层对目标数据源(圆心数据源)信任权重;Recommendn(A,t)表示在t时刻时,每层数据源对目标数据源(圆心数据源)A的推荐可信度;
f.计算直接可信度:
在t时刻时,数据源A对所提供的数据data的直接可信度值DirTrust(A,data,t)的计算公式为:
DirTrust(A,data,t)=Trust(A,t);
g.计算间接可信度:
在t时刻时,数据源A对数据data的间接可信度InDirTrust(A,data,t)的计算公式为:
式中,Neighborn(A)为与A相邻的可信度高的n个数据源;Trust(A,X,t)表示在t时刻时,数据源A对所提供的数据X的真实的可信度;Trust(X,data,t)表示在t时刻时,数据源X对所提供的数据data的真实的可信度;
h.计算数据源对数据的可信度:
在t时刻时,数据源A对数据data的可信度Trust(A,data,t)的计算公式为:Trust(A,data,t)=α4·DirTrust(A,data,t)+β4·InDirTrust(A,data,t),
其中,α44=1;
i.计算数据的可信度:
在t时刻时,数据data的可信度Trust(data,t)的计算公式为:
j.步骤a~i反复迭代计算,某一时刻数据的可信度状态采用数据快照的方式查看。
2.根据权利要求1所述的面向大数据的可信度量方法,其特征是,在t时刻时,每层数据源对目标数据源(圆心数据源)A的推荐可信度Recommendn(A,t)为n×1维向量,其第i个元素的值为第i层所有数据源对目标数据源(圆心数据源)A的推荐可信度期望值,每个向量元素为所对应层次的推荐可信度期望值;
第i层的某个数据源对目标数据源(圆心数据源)A的推荐可信度Recommend(Xi,A,t)的计算公式为:
其中,Xi表示第i层数据源X;Neighbormax(Xi->A)表示朝向A的方向上,第i-1层上与Xi相邻的可信度最大的数据源;
第i层的所有数据源对目标数据源(圆心数据源)A的推荐可信度期望值Recommend(A,t)(i)为:
其中,Circlei(A)表示在可信网络中,以A为圆心的第i层上的所有数据源,Sum(Circlei(A))表示第i层上的所有数据源的数量。
CN201510883959.9A 2015-12-04 2015-12-04 一种面向大数据的可信度量方法 Active CN105760649B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510883959.9A CN105760649B (zh) 2015-12-04 2015-12-04 一种面向大数据的可信度量方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510883959.9A CN105760649B (zh) 2015-12-04 2015-12-04 一种面向大数据的可信度量方法

Publications (2)

Publication Number Publication Date
CN105760649A true CN105760649A (zh) 2016-07-13
CN105760649B CN105760649B (zh) 2018-09-04

Family

ID=56342041

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510883959.9A Active CN105760649B (zh) 2015-12-04 2015-12-04 一种面向大数据的可信度量方法

Country Status (1)

Country Link
CN (1) CN105760649B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203629A (zh) * 2016-07-21 2016-12-07 中国电力科学研究院 一种配电网采集信息低可信性问题的处理方法
CN107506411A (zh) * 2017-08-10 2017-12-22 熊英 一种安全可信的知识服务方法与系统
CN108521405A (zh) * 2018-03-20 2018-09-11 咪咕文化科技有限公司 一种风险管控方法、装置及存储介质
CN109547271A (zh) * 2019-01-06 2019-03-29 广州泳泳信息科技有限公司 一种基于大数据的网络状态实时监控警报系统
CN110086840A (zh) * 2018-01-26 2019-08-02 浙江宇视科技有限公司 图像数据存储方法、装置及计算机可读存储介质
CN111368315A (zh) * 2020-03-02 2020-07-03 广东财经大学 基于分布式协同信任管理框架的大数据信任管理系统
CN111383076A (zh) * 2020-03-02 2020-07-07 广东财经大学 一种大数据信任评估方法
CN113204682A (zh) * 2021-05-13 2021-08-03 武汉理工大学 一种基于知识联盟链的知识查询交易系统和方法
CN113836106A (zh) * 2021-09-29 2021-12-24 北京创安恒宇科技有限公司 一种多元异构数据共享行为的可信度动态度量的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011003199A1 (en) * 2009-07-10 2011-01-13 Certicom Corp. System and method for managing electronic assets
CN103903430A (zh) * 2014-04-14 2014-07-02 东南大学 一种采用多源同构数据的行程时间动态融合预测方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011003199A1 (en) * 2009-07-10 2011-01-13 Certicom Corp. System and method for managing electronic assets
CN103903430A (zh) * 2014-04-14 2014-07-02 东南大学 一种采用多源同构数据的行程时间动态融合预测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
余祖坤 等: "《基于信任的真实数据判定方法》", 《系统工程理论与实践》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106203629A (zh) * 2016-07-21 2016-12-07 中国电力科学研究院 一种配电网采集信息低可信性问题的处理方法
CN106203629B (zh) * 2016-07-21 2022-04-05 中国电力科学研究院 一种配电网采集信息低可信性问题的处理方法
CN107506411A (zh) * 2017-08-10 2017-12-22 熊英 一种安全可信的知识服务方法与系统
CN110086840A (zh) * 2018-01-26 2019-08-02 浙江宇视科技有限公司 图像数据存储方法、装置及计算机可读存储介质
CN108521405B (zh) * 2018-03-20 2020-12-11 咪咕文化科技有限公司 一种风险管控方法、装置及存储介质
CN108521405A (zh) * 2018-03-20 2018-09-11 咪咕文化科技有限公司 一种风险管控方法、装置及存储介质
CN109547271A (zh) * 2019-01-06 2019-03-29 广州泳泳信息科技有限公司 一种基于大数据的网络状态实时监控警报系统
CN109547271B (zh) * 2019-01-06 2020-01-03 广州泳泳信息科技有限公司 一种基于大数据的网络状态实时监控警报系统
CN111383076A (zh) * 2020-03-02 2020-07-07 广东财经大学 一种大数据信任评估方法
CN111383076B (zh) * 2020-03-02 2020-12-11 广东财经大学 一种大数据信任评估方法
CN111368315A (zh) * 2020-03-02 2020-07-03 广东财经大学 基于分布式协同信任管理框架的大数据信任管理系统
CN111368315B (zh) * 2020-03-02 2021-05-04 广东财经大学 基于分布式协同信任管理框架的大数据信任管理系统
CN113204682A (zh) * 2021-05-13 2021-08-03 武汉理工大学 一种基于知识联盟链的知识查询交易系统和方法
CN113836106A (zh) * 2021-09-29 2021-12-24 北京创安恒宇科技有限公司 一种多元异构数据共享行为的可信度动态度量的方法

Also Published As

Publication number Publication date
CN105760649B (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
Yang et al. A network traffic forecasting method based on SA optimized ARIMA–BP neural network
CN105760649A (zh) 一种面向大数据的可信度量方法
US20190104197A1 (en) Discovering signature of electronic social networks
CN105843829B (zh) 一种基于分层模型的大数据可信性度量方法
Jalalkamali Using of hybrid fuzzy models to predict spatiotemporal groundwater quality parameters
Ouyang et al. Debiasing crowdsourced quantitative characteristics in local businesses and services
CN110990718B (zh) 一种公司形象提升系统的社会网络模型构建模块
CN109242250A (zh) 一种基于模糊熵权法与云模型的用户行为可信度检测方法
CN112580902B (zh) 对象数据处理方法、装置、计算机设备和存储介质
CN105678590A (zh) 一种面向社交网络基于云模型的topN推荐方法
CN115221396A (zh) 基于人工智能的信息推荐方法、装置及电子设备
Sha et al. Towards the design of complex evolving networks with high robustness and resilience
CN108491719A (zh) 一种改进朴素贝叶斯算法的安卓恶意程序检测方法
CN103345513A (zh) 一种社交网络中的基于朋友关系传播的朋友推荐方法
CN111475744A (zh) 一种基于集成学习的个性化位置推荐方法
Zhou et al. HID: Hierarchical multiscale representation learning for information diffusion
Yang et al. Gated graph convolutional network based on spatio-temporal semi-variogram for link prediction in dynamic complex network
CN117271899A (zh) 一种基于时空感知的兴趣点推荐方法
Wei et al. LBSNSim: Analyzing and modeling location-based social networks
CN116110232A (zh) 一种基于分层动态残差图卷积网络的交通流量预测方法
Hao et al. Multi-stage dynamic disinformation detection with graph entropy guidance
Lofdahl et al. Extending generative models of large scale networks
Bond et al. An unsupervised machine learning approach for ground‐motion spectra clustering and selection
CN114124580A (zh) 一种基于Slater社会选择理论的网络入侵检测方法
CN106650972A (zh) 一种面向社交网络基于云模型的推荐系统评分预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Li Gang

Inventor after: Cheng Xiaorong

Inventor after: Zhong Liang

Inventor after: Li Kun

Inventor after: Lu Xiangyu

Inventor after: Li Tianqi

Inventor after: Zhang Haotian

Inventor before: Li Gang

Inventor before: Cheng Xiaorong

Inventor before: Li Tianqi

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180803

Address after: 063000 floor three, new building, Xichang Road, Tangshan City Development Zone, Hebei.

Applicant after: Tangshan express Polytron Technologies Inc

Address before: No. 619, Yonghua North Street, Baoding, Hebei Province, 071003

Applicant before: North China Electric Power University (Baoding)

GR01 Patent grant
GR01 Patent grant