CN111383076B - 一种大数据信任评估方法 - Google Patents

一种大数据信任评估方法 Download PDF

Info

Publication number
CN111383076B
CN111383076B CN202010135840.4A CN202010135840A CN111383076B CN 111383076 B CN111383076 B CN 111383076B CN 202010135840 A CN202010135840 A CN 202010135840A CN 111383076 B CN111383076 B CN 111383076B
Authority
CN
China
Prior art keywords
data source
trust
evaluation
credibility
direct
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010135840.4A
Other languages
English (en)
Other versions
CN111383076A (zh
Inventor
郑伟发
苏礼楷
谢少群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Business Studies
Original Assignee
Guangdong University of Business Studies
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Business Studies filed Critical Guangdong University of Business Studies
Priority to CN202010135840.4A priority Critical patent/CN111383076B/zh
Publication of CN111383076A publication Critical patent/CN111383076A/zh
Application granted granted Critical
Publication of CN111383076B publication Critical patent/CN111383076B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0609Buyer or seller confidence or verification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/06Buying, selling or leasing transactions
    • G06Q30/0601Electronic shopping [e-shopping]
    • G06Q30/0613Third-party assisted
    • G06Q30/0617Representative agent

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Data Mining & Analysis (AREA)
  • Marketing (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

一种大数据信任评估方法,涉及大数据评估管理领域,所述方法包括:通过信任收集器收集大数据提供商下的数据源的可信度并存储在信任值数据库;获取查询请求;基于可信度查询请求查询信任值数据库是否存储有对特定数据源的可信度;在信任值数据库未存储有待查询的特定数据源的可信度的情况下,对邻居信任处理代理发送查询请求;接收由邻居信任代理反馈的可信度;在信任值数据库存储有待查询的特定数据源的可信度的情况下,直接获取对特定数据源的可信度;将获取到的可信度发布至大数据需求商的信任评估代理。解决了大数据环境下对大数据节点的信任评估存在的多维属性和不确定性的技术问题。

Description

一种大数据信任评估方法
技术领域
本发明涉及大数据评估管理领域,更具体地,涉及一种大数据信任评估方法。
背景技术
在大数据资源技术被普及的运用的环境下,大数据节点之间的信息交互十分频繁,而大数据交易市场上的大数据数据质量参差不齐,可信程度各不一样,用户在选购大数据数据源的时候,如果能够通过大数据可信计算技术对各种数据源的可信程度(可信包括服务质量、数据真实程度)进行定量评估,评估结果将能成为大数据需求方选购大数据的客观依据,但在数据源的选择过程中,大数据用户往往无法直接获取到目标信息源的可信度,这就导致了用户与数据源之间的传输存在较大的不确定性,尤其是在去中心化的场景下。为使数据节点之间的信任度有一个较为准确的参照,人们在数据传输框架中加入了信任代理这一重要角色,用户可以通过信任代理及其相关的模块对信号源的可信度进行评估或验证,这在一定程度上解决了节点之间不确定性的问题。但同时,由于信用代理的判断是机械性的,这便导致存在恶意的数据源能够有机可乘,而信用代理之间的环境更是存在实际性的差异,对于数据源的评价更是无法统一,这便导致了大数据环境下对大数据节点的信任评估存在的多维属性和不确定性的问题。
发明内容
本发明旨在克服上述现有技术问题,提供一种大数据信任评估方法,解决了大数据环境下对大数据节点的信任评估存在的多维属性和不确定性的技术问题。
一种大数据信任评估方法,所述方法包括:
通过信任收集器收集大数据提供商下的数据源的可信度并存储在信任值数据库;
获取大数据需求商通过信任评估代理发送的对特定数据源的可信度查询请求;
基于可信度查询请求查询信任值数据库是否存储有对特定数据源的可信度;
在信任值数据库未存储有待查询的特定数据源的可信度的情况下,对邻居信任处理代理发送查询请求;
接收由邻居信任代理反馈的可信度;
在信任值数据库存储有待查询的特定数据源的可信度的情况下,直接获取对特定数据源的可信度;
将获取到的可信度发布至大数据需求商的信任评估代理;
其中,所述邻居信任处理代理表示可信任的信任处理代理,信任处理代理之间通过生产消费关系建立邻居关系。
信任处理代理是一个用于查询可信度的中介,对于信任评估中存在的多维属性和不确定性有这重要的意义。由于大数据提供商及大数据需求商之间的生产消费关系在大数据网络中往往是灵活多变的,对于大数据提供商所提供的数据源,大数据需求商基本上是无法直接确定其安全性的,因此通过权威有效的途径去确认大数据提供商所提供的数据源的可信度是从业者在本领域所研究的一个重要方向。信任处理代理是一个中立且公正的可信度判断中介,大数据需求商可以通过其对大数据提供商的可信度进行确认,同时,由于单个的信任处理代理存在局限性,因此,信任处理代理还能通过生成消费关系建立信任传播网络,当信任处理代理之间存在生产消费关系时,消费的一方可以将生产的一方标记为邻居信任处理代理,同时这种标记是单向的,即信任处理代理A是信任处理代理B的邻居信任处理代理,但不表示信任处理代理B是信任处理代理A的邻居信任处理代理。通过信任处理代理,大数据需求商便可以解决大数据环境下对大数据节点的信任评估存在的多维属性和不确定性的技术问题。
优选的,所述通过信任收集器收集大数据提供商下的数据源的可信度并存储在信任值数据库包括:
在t时刻接收到的新的对直接管理数据源的可信评价;
将在t时刻接收到的新的对直接管理数据源的可信评价按直接管理数据源对应的评价属性存储至信任值数据库后,读取信任值数据库存储的直接管理数据源的评价属性及评价属性对应的可信评价;
基于在信任值数据库读取的直接管理数据源的评价属性及评价属性对应的可信评价对直接管理数据源的直接可信度进行计算;
删除原存储在信任值数据库的对直接管理数据源的直接可信度后将所述计算结果作为直接管理数据源的直接可信度替代存储至信任值数据库。
对于数据源的可信度评估而言,如何去确定其可参考数值是一个重要的问题,如果由大数据需求商直接对数据源的可信度进行判定,则容易由于数据源的多属性和不确定性而遇到判定效果不准确的问题。在本发明中,数据源由信任处理代理进行管理,大数据需求商可以通过信任处理代理对数据源的可信度进行判定,因此信任处理代理如何去获取可供大数据需求商进行参考的可信度便是解决所述技术问题的主要核心之一。在本发明中,信任处理代理通过对其所直接管理的数据源的直接可信度进行计算,所述直接可信度可以体现直接管理数据源对于其所属的信任处理代理而言是否是可以信任的,而基于数据源的直接可信度,信任处理代理可以将是否可信的结果返回给大数据需求商,以此完成对数据源的可信度评估。信任处理代理用于处理其所管理的数据源的可信度,相对于直接由大数据需求商进行处理,信任处理代理能够综合大数据网络中的信息对其所管理的数据源的直接可信度进行判定,因此所述判定结果所能考虑的因素更多,且在大数据环境中,信任处理代理能够降低评估所产生的风险,避免了有害数据源对大数据需求商造成的直接危害,解决了大数据环境下对大数据节点的信任评估存在的多维属性和不确定性的技术问题。其中,一个信任处理代理能够管理多个数据源,一个数据源也能被多个信任处理代理所管理,评价属性包括数据规范性、数据项空值频率、数据到达率,主观评价具体为大数据需求商对评价属性的评价值,并发送给信任处理代理,而客观属性则为数据源性能,可以是通过大数据数据源的代理获得并发送给信任处理代理。
优选的,所述基于在信任值数据库读取的直接管理数据源的评价属性及评价属性对应的可信评价对直接管理数据源的直接可信度进行计算包括;
基于在信任值数据库读取的对直接管理数据源的可信评价及对直接管理数据源的可信评价的评价属性获取对直接管理数据源的可信评价的评价属性对应的mass函数;
基于对直接管理数据源的可信评价的评价属性和对直接管理数据源的可信评价的评价属性对应的mass函数对所述mass函数进行调整;
通过对调整后的mass函数进行证据合成并基于证据合成的结果对直接管理数据源的直接可信度进行计算;
其中,所述mass函数为直接管理数据源对应的基于D-S证据理论的识别框架的焦元的基础概率函数,所述评价属性用于确定所述直接管理数据源是否可信并具体包括数据规范性、数据项空值频率、数据到达率、数据源性能,所述对直接管理数据源的评价具体为对直接数据源的评价属性的评价,所述信任值数据库存储有至少四个评价属性及每个评价属性对应的至少两个mass函数;
其中,所述对直接管理数据源的可信评价包括数据源的客观属性及大数据需求商对数据源的主观评价。
本发明使用了D-S证据理论的理论框架,
优选的,所述基于对直接管理数据源的可信评价的评价属性和对直接管理数据源的可信评价的评价属性对应的mass函数对所述mass函数进行调整包括:
基于对直接管理数据源的可信评价的评价属性和对直接管理数据源的可信评价的评价属性对应的mass函数获取每个评价属性的信息熵;
根据信息熵计算每个评价属性的指标权重;
通过每个评价属性的指标权重对直接管理数据源对应的mass函数进行调整。
信任处理代理对数据源的可信度判定实际上都是基于数据源对应的mass函数进行判定的,因此数据源对应的mass函数的准确性对可信度的影响是最大的。本发明所需解决的技术问题是信任评估存在的多维属性和不确定性问题,基于上述理论,如何获取准确有效的基础概率函数便是解决问题的关键所在。本发明通过对评价数据的综合判定来对基础概率函数即mass函数对应的焦元即评价属性的权重进行调整,来获取更为有效的基础概率函数,进而使得所述直接可信度更能体现数据源是否可信。
优选的,设Hj为第j个评价属性的信息熵,则所述信息熵为
Figure GDA0002463870580000041
Figure GDA0002463870580000042
Figure GDA0002463870580000043
其中,p为信任值数据库存储的所述直接管理数据源的被评价次数,aij为信任值数据库存储的对所述直接管理数据源的第i次评价中对第j个评价属性的评价值,vcpu为第i次评价时CPU利用率,vram为第i次评价时数据源所在服务器的内存总量,vuram为第i次评价时数据源所在服务器的内存使用量,vio为第i次评价时磁盘吞吐率,vnet为第i次评价时数据源所在服务器的网络带宽,vunet为第i次评价时数据源所在服务器已使用的网络带宽,n表示有n个用户参与评价,sl为第i次评价时第l个用户对第j个属性的主观评分,且sl∈[0,100],在fij=0时,令fijlnfij=0。
对于评价数据的综合考量,本发明采用计算信息熵的方式来确定评价属性的权重,其中,评价属性的信息熵用于体现对应的评价属性j的可确定性。对于接收到的对直接管理数据源的可信评价,通过计算信息熵来对单个评价属性的可确定性进行计算。其中,fij是计算属性j信息熵过程的中间变量,aij第i次评价时第j个属性在第j个属性所有评价的比重就是fij。经典D-S证据理论中的合成规则应用存在一些缺陷和局限性,当证据间没有冲突或低冲突时,证据的推理基本正常,但当证据之间严重冲突时,组合结果往往与实际情况不相符合,即组合规则无法处理冲突。对于发明中的客观属性数据源性能属性值可以直接从数据源进行采集,而对于数据源数据规范性、数据项空值频率、数据到达率这样的主观评价则是从数据源用户处采集到的。熵理论认为信息熵越小,信息的效用值越大,指标的权重越大。本发明根据熵理论,动态计算证据的信息熵大小,形成修正系数,利用修正系数修正基本概率分配(BPA),以改进Dempster合成规则,降低证据的冲突程度。
优选的,设ωt(j)为评价属性的指标权重,则所述评价属性的指标权重为
Figure GDA0002463870580000051
其中,所述q为信任值数据库存储的所述直接管理数据源的被评价的评价属性的个数。
为了能够有效调整评价属性对应的mass函数,本发明通过计算评价属性的指标权重对mass函数进行调整。在对信息熵进行计算的基础上计算指标权重,评价属性对应mass函数能够通过指标权重进行有效调整,进而使得基于所述mass函数进行计算的直接可信度的可参考价值更高。
优选的,设mj(A)为未调整过的mass函数,m′j(A)为mj(A)调整后的mass函数,则所述通过每个评价属性的指标权重对直接管理数据源对应的mass函数进行调整具体为:
Figure GDA0002463870580000052
U(mj)=ωt(j);
其中,Θ为D-S证据理论中的识别框架,A为所述识别框架中的焦元,所述mj(A)为焦元A对应未调整的mass函数,所述m′j(A)为调整后的焦元A对应的mass函数,B为包含至少一个焦元的集合,在所述mj(A)由于不止一次的评价而导致mj(A)的取值无法确定的情况下,仅将最新的一个评价数据作为mj(A)来计算m′j(A),且:
Figure GDA0002463870580000061
所述m’ij、m”ij、m”’ij分别表示第i次评价的第j个评价属性为识别框架中焦元A对应的可信任/不可信/不确定的基础概率函数。
在获得的有效的指标权重后,信任处理代理便能够基于D-S证据理论的识别框架对其中的焦元对应的mass函数进行调整。根据权重修正基础概率分配函数后,Dempster合成规则可以对评价属性的重要性进行区分,从而有效地缓解证据合成时由于重要性不同而引起的冲突。
优选的,所述通过对调整后的mass函数进行证据合成计算后输出直接管理数据源的直接可信度包括:
基于对调整后的mass函数获取归一化所需的K值;
基于所述K值、识别框架中的焦元及调整后的mass函数,计算每个评价属性的用于评价可信度的信任函数和似然函数;
基于信任函数和似然函数计算直接管理数据源的直接可信度;
其中,设Bel(A)为信任函数,Pl(A)为似然函数,对于信任函数和似然函数的定义为:
在识别框架Θ上基于mass函数的信任函数定义为:
Figure GDA0002463870580000062
所述在识别框架Θ上基于mass函数的似然函数定义为:
Figure GDA0002463870580000063
其中,所述识别框架Θ上的mass函数满足2Θ→[0,1]且
Figure GDA0002463870580000064
证据合成公式可以通过多个mass函数得到有效的信任函数Bel(A)和似然函数Pl(A),其目的在于使数据源的可信度得到有效体现。
优选的,所述方法还包括:
接收大数据需求商对特定数据源的综合可信度的获取请求;
基于对特定数据源的获取请求,计算特定数据源的推荐可信度并在信任数据库中查询结果;
在信任数据库未存储有大数据需求商所请求获取的特定数据源的直接可信度时,通过邻居信任处理代理的链接信息对信任传播网络内的其他信任处理代理进行遍历以获取遍历结果;
根据遍历结果计算特定数据源的间接可信度并根据特定数据源的间接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度;
在信任数据库存储有大数据需求商所请求获取的特定数据源的直接可信度时,根据特定数据源的直接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度;
其中,所述邻居信任处理代理表示可信任的信任处理代理,所述间接可信度是通过遍历获取的其他数据源所存储的直接可信度进行计算的,所述推荐可信度则表示特定数据源所处的大数据网络对特定数据源的评价,所述信任传播网络由相互之间存在邻居关系的至少两个信任处理代理组成。
本发明提出了一种通过分布式的信任处理代理的收集、存储和计算大数据数据源DS的直接可信度、间接可信度、推荐可信度和综合可信度来验证数据源可信度的方法。直接可信度表示对应数据源最直观可信度;间接可信度表示信任处理代理由间接方式获取到的对应数据源的可信度;推荐可信度代表数据源所处的大数据信任网络对该数据源的可信度。分布式的信任处理代理的所包括的信任值数据库不仅存储和管理着其所对应的信任处理代理直接管理的所有数据源的直接信任值,还存储着邻居信任处理代理的链接信息,直接信任度可以供其他的信任处理代理查询。在大数据需求商使用信任处理代理对特定数据源进行可信度查询时,信任处理代理首先对其对应的信任值数据库进行查询,在能够查到的情况下,信任处理代理计算直接可信度;在未能查到的情况下,信任处理代理则通过信任收集器和邻居信任处理代理的链接信息来对信任传播网络内的信任处理代理进行遍历查询,信任处理代理基于查询的结果和获取结果的路径计算间接可信度;同时,信任处理代理对特定数据源的推荐可信度进行查询;最后,信任处理代理的信任计算器使用推荐可信度结合直接可信度或间接可信度来计算出综合可信度,并通过信任值发布器进行输出,其中,所述信任处理代理能够代理多个数据源,而一个数据源同样能够被多个信任处理代理所代理,所述邻居信任处理代理指的是相对于特定信任处理代理而言是可信任的其他信任处理代理。
优选的,所述根据遍历结果计算特定数据源的间接可信度并根据特定数据源的间接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度包括;
根据遍历结果确认从其他信任处理代理处获取到的特定数据源的直接可信度及特定数据源的直接可信度的获取路径并根据特定数据源的直接可信度及特定数据源的直接可信度的获取路径计算特定数据源的间接可信度;
根据特定数据源的间接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度。
假设信任网络中存在多条信任传递路径,这时进行信任计算,往往需要综合考虑不同路径的信任值,进而就产生了不同路劲的可信度聚合问题。以下将信任处理代理简写为TPB,例如TPBC可通过TPBC到TPBB到TPBA这条路径与TPBA建立信任关系,也可通过TPBC到TPBD到TPBE到TPBA这条路径与TPBA建立关系,因此计算TPBC与TPBA的信任值的时候我们需要对这两条路径进行聚合计算。通过聚合计算的方式,本发明可以将不同路径获取到的数据进行有效聚合,并结合了路径中信任处理代理之间可信度传递导致的信任衰减进行计算,在将可信度数据进行聚合的同时还使计算结果更为准确。
优选的,设在t时刻,所述所述综合可信度为T,直接可信度为Td(t),间接可信度为Ti(t),推荐可信度为Tr(t),则
所述综合可信度为:
Figure GDA0002463870580000081
其中,
Figure GDA0002463870580000082
所述t表示在信任计算器计算综合可信度T的时刻;
所述直接可信度通过可能性计算公式进行计算,具体为:
Figure GDA0002463870580000083
对于直接可信度Td(t)而言,命题A应为框架内的信任焦元{T},综上所述,直接可信度Td(t)的计算方式为:
Figure GDA0002463870580000084
其中,|{T}|=1,|{T,-T}|=2,|A|表示焦元A所包含的元素数量,|Θ|表示识别框架Θ所包含的元素数量,所述识别框架Θ包括信任{T}、不信任{-T}、不确定{T,-T}这3个焦元,{-T}表示特定数据源为不可信任的,{T}表示特定数据源为可信任的,{T,-T}表示特定数据源为不确定是否可信任的;
所述间接可信度为:
Figure GDA0002463870580000091
Figure GDA0002463870580000092
其中,Px(t)表示信任收集器获取到特定数据源的直接可信度的第x条路径的衰减可信度,Txy表示第x条路径上第y个信任处理代理的信用传递的衰减程度,Txy(t)=axy,axy表示第x条路径上第y个信任处理代理的衰减系数,⊕表示信任的聚合算法或表示算术平均,
Figure GDA0002463870580000093
表示信任处理代理之间的直接可信度的传递;
所述推荐可信度为:
Figure GDA0002463870580000094
其中,设F表示待验证的特定数据源,PRF(t)表示t时刻数据源F在大数据生产消费关系网络中的排名值PR,Tr(t)是大数据数据源F的推荐值,且是数据源F排名值PRF(t)的归一化结果。PRmax(t)和PRmin(t)分别代表t时刻大数据生产消费关系网络中的最大排名值和最小排名值。
当大数据需求商需要查询的数据源的直接可信度能够被信任处理代理直接查询到时,获得直接信任度并根据直接可信度和推荐可信度计算数据源的综合可信度;当大数据需求商需要查询的数据源的直接可信度无法被信任处理代理直接查询到时,则信任处理代理间接通过信任传播网络内的其他信任处理代理获取目标数据源的间接可信度,进而使用间接可信度结合推荐可信度计算数据源的综合可信值。在大数据生产环境中,信任处理代理有时会被数据源通过数据伪造等进行欺骗,为了提高计算框架的抗攻击能力,不管计算综合可信度时是使用直接可信度还是间接可信度,均需结合推荐信任进行计算,而由于综合可信度是数据源是否可信的最直观体现,因此在计算综合可信度时,若只考虑直接可信度或间接可信度,亦会使综合可信度在不同的状况下会存在较大的偏差,因此本发明设置了推荐可信度使得不同场景的偏差降低,同时降低了系统的不确定性。
与现有技术相比,本发明的有益效果为:通过对识别框架对应的mass函数进行调整以使信任处理代理对大数据数据源的可信度有更好的判定;在评估对象不同的情况下,对数据源进行了多属性、多维度的考量,使得信任处理代理的可信度评估能够适应于不同的环境;在信任处理代理未存储有特定数据源的可信度的情况下,本发明在遍历邻居信任处理代理计算间接可信度时,还通过考虑了获取可信度的路径进而提升了间接可信度的有效性;基于改进D-S证据理论算法的直接可信度能够对数据源的状态有更好的判定;设置并使用推荐信用度降低了信任处理代理在计算综合可信度时的数据偏离。
附图说明
图1为本发明所述一种大数据信任评估方法的流程图。
图2为本发明所述一种大数据信任评估方法的又一流程图。
图3为本发明所述一种大数据信任评估方法的交互示意图。
图4为本发明所述一种大数据信任评估系统的框架图。
图5为本发明所述一种大数据信任评估方法的又一交互示意图。
图6为本发明所述一种大数据信任评估方法的又一交互示意图。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例1
如图1、2所示,本实施例公开了一种大数据信任评估方法,所述方法包括:
S1:通过信任收集器收集大数据提供商下的数据源的可信度并存储在信任值数据库;
S2:获取大数据需求商通过信任评估代理发送的对特定数据源的可信度查询请求;
S3:基于可信度查询请求查询信任值数据库是否存储有对特定数据源的可信度;
S41:在信任值数据库未存储有待查询的特定数据源的可信度的情况下,对邻居信任处理代理发送查询请求;
S42:接收由邻居信任代理反馈的可信度;
S43:在信任值数据库存储有待查询的特定数据源的可信度的情况下,直接获取对特定数据源的可信度;
S5:将获取到的可信度发布至大数据需求商的信任评估代理;
其中,所述邻居信任处理代理表示可信任的信任处理代理,信任处理代理之间通过生产消费关系建立邻居关系。
信任处理代理是一个用于查询可信度的中介,对于信任评估中存在的多维属性和不确定性有这重要的意义。由于大数据提供商及大数据需求商之间的生产消费关系在大数据网络中往往是灵活多变的,对于大数据提供商所提供的数据源,大数据需求商基本上是无法直接确定其安全性的,因此通过权威有效的途径去确认大数据提供商所提供的数据源的可信度是从业者在本领域所研究的一个重要方向。信任处理代理是一个中立且公正的可信度判断中介,大数据需求商可以通过其对大数据提供商的可信度进行确认,同时,由于单个的信任处理代理存在局限性,因此,信任处理代理还能通过生成消费关系建立信任传播网络,当信任处理代理之间存在生产消费关系时,消费的一方可以将生产的一方标记为邻居信任处理代理,同时这种标记是单向的,即信任处理代理A是信任处理代理B的邻居信任处理代理,但不表示信任处理代理B是信任处理代理A的邻居信任处理代理。通过信任处理代理,大数据需求商便可以解决大数据环境下对大数据节点的信任评估存在的多维属性和不确定性的技术问题。
在一种可选的实施方式中,所述通过信任收集器收集大数据提供商下的数据源的可信度并存储在信任值数据库包括:
S100:在t时刻接收到的新的对直接管理数据源的可信评价;
S200:将在t时刻接收到的新的对直接管理数据源的可信评价按直接管理数据源对应的评价属性存储至信任值数据库后,读取信任值数据库存储的直接管理数据源的评价属性及评价属性对应的可信评价;
S300:基于在信任值数据库读取的直接管理数据源的评价属性及评价属性对应的可信评价对直接管理数据源的直接可信度进行计算;
S400:删除原存储在信任值数据库的对直接管理数据源的直接可信度后将所述计算结果作为直接管理数据源的直接可信度替代存储至信任值数据库。
对于数据源的可信度评估而言,如何去确定其可参考数值是一个重要的问题,如果由大数据需求商直接对数据源的可信度进行判定,则容易由于数据源的多属性和不确定性而遇到判定效果不准确的问题。在本发明中,数据源由信任处理代理进行管理,大数据需求商可以通过信任处理代理对数据源的可信度进行判定,因此信任处理代理如何去获取可供大数据需求商进行参考的可信度便是解决所述技术问题的主要核心之一。在本发明中,信任处理代理通过对其所直接管理的数据源的直接可信度进行计算,所述直接可信度可以体现直接管理数据源对于其所属的信任处理代理而言是否是可以信任的,而基于数据源的直接可信度,信任处理代理可以将是否可信的结果返回给大数据需求商,以此完成对数据源的可信度评估。信任处理代理用于处理其所管理的数据源的可信度,相对于直接由大数据需求商进行处理,信任处理代理能够综合大数据网络中的信息对其所管理的数据源的直接可信度进行判定,因此所述判定结果所能考虑的因素更多,且在大数据环境中,信任处理代理能够降低评估所产生的风险,避免了有害数据源对大数据需求商造成的直接危害,解决了大数据环境下对大数据节点的信任评估存在的多维属性和不确定性的技术问题。其中,一个信任处理代理能够管理多个数据源,一个数据源也能被多个信任处理代理所管理,评价属性包括数据规范性、数据项空值频率、数据到达率,主观评价具体为大数据需求商对评价属性的评价值,并发送给信任处理代理,而客观属性则为数据源性能,可以是通过大数据数据源的代理获得并发送给信任处理代理。
在一种可选的实施方式中,所述基于在信任值数据库读取的对直接管理数据源的评价属性及评价属性对应的可信评价对直接管理数据源的直接可信度进行计算的步骤具体包括;
S310:基于在信任值数据库读取的对直接管理数据源的可信评价及对直接管理数据源的可信评价的评价属性获取对直接管理数据源的可信评价的评价属性对应的mass函数;
S320:基于对直接管理数据源的可信评价的评价属性和对直接管理数据源的可信评价的评价属性对应的mass函数对所述mass函数进行调整;
S330:通过对调整后的mass函数进行证据合成并基于证据合成的结果对直接管理数据源的直接可信度进行计算;
其中,所述mass函数为直接管理数据源对应的基于D-S证据理论的识别框架的焦元的基础概率函数,所述评价属性用于确定所述直接管理数据源是否可信并具体包括数据规范性、数据项空值频率、数据到达率、数据源性能,所述对直接管理数据源的评价具体为对直接数据源的评价属性的评价,所述信任值数据库存储有至少两个评价属性及每个评价属性对应的至少四个mass函数;
其中,所述对直接管理数据源的可信评价包括数据源的客观属性及大数据需求商对数据源的主观评价。
本发明使用了D-S证据理论的理论框架,
在一种可选的实施方式中,所述基于对直接管理数据源的可信评价的评价属性和对直接管理数据源的可信评价的评价属性对应的mass函数对所述mass函数进行调整的步骤具体包括:
S321:基于对直接管理数据源的可信评价的评价属性和对直接管理数据源的可信评价的评价属性对应的mass函数获取每个评价属性的信息熵;
S322:根据信息熵计算每个评价属性的指标权重;
S323:通过每个评价属性的指标权重对直接管理数据源对应的mass函数进行调整。
信任处理代理对数据源的可信度判定实际上都是基于数据源对应的mass函数进行判定的,因此数据源对应的mass函数的准确性对可信度的影响是最大的。本发明所需解决的技术问题是信任评估存在的多维属性和不确定性问题,基于上述理论,如何获取准确有效的基础概率函数便是解决问题的关键所在。本发明通过对评价数据的综合判定来对基础概率函数即mass函数对应的焦元即评价属性的权重进行调整,来获取更为有效的基础概率函数,进而使得所述直接可信度更能体现数据源是否可信。
在一种可选的实施方式中,设Hj为第j个评价属性的信息熵,则所述信息熵为
Figure GDA0002463870580000131
Figure GDA0002463870580000132
Figure GDA0002463870580000133
其中,p为信任值数据库存储的所述直接管理数据源的被评价次数,aij为信任值数据库存储的对所述直接管理数据源的第i次评价中对第j个评价属性的评价值,vcpu为第i次评价时CPU利用率,vram为第i次评价时数据源所在服务器的内存总量,vuram为第i次评价时数据源所在服务器的内存使用量,vio为第i次评价时磁盘吞吐率,vnet为第i次评价时数据源所在服务器的网络带宽,vunet为第i次评价时数据源所在服务器已使用的网络带宽,n表示有n个用户参与评价,sl为第i次评价时第l个用户对第j个属性的主观评分,且sl∈[0,100],在fij=0时,令fijlnfij=0。
对于评价数据的综合考量,本发明采用计算信息熵的方式来确定评价属性的权重,其中,评价属性的信息熵用于体现对应的评价属性j的可确定性。对于接收到的对直接管理数据源的可信评价,通过计算信息熵来对单个评价属性的可确定性进行计算。其中,fij是计算属性j信息熵过程的中间变量,aij第i次评价时第j个属性在第j个属性所有评价的比重就是fij。经典D-S证据理论中的合成规则应用存在一些缺陷和局限性,当证据间没有冲突或低冲突时,证据的推理基本正常,但当证据之间严重冲突时,组合结果往往与实际情况不相符合,即组合规则无法处理冲突。对于发明中的客观属性数据源性能属性值可以直接从数据源进行采集,而对于数据源数据规范性、数据项空值频率、数据到达率这样的主观评价则是从数据源用户处采集到的。熵理论认为信息熵越小,信息的效用值越大,指标的权重越大。本发明根据熵理论,动态计算证据的信息熵大小,形成修正系数,利用修正系数修正基本概率分配(BPA),以改进Dempster合成规则,降低证据的冲突程度。
其中,在客观数据和主观评价都是由机器自动获取的情况下,客观数据的采集频率往往高于主观评价的采集频率,若存在采集频率不一致的情况时,以高频率为准,对低采集频率的数据或评价进行插值以保证主观评价和客观属性的采集频率保持一致,例如客观属性E1每周采集一次,主观评价属性E2、E3及E4每月采集一次,则计算的时候按每月采集四次(即每周一次)计算,在一个月的数据采集范围内,p=4,a11、a21、a31、a41为ai1每周采集后直接计算得到的数据,a12、a13、a14为第一周采集后计算得到的数据,均为实际采集获得的数据。但当i=2,3,4时,即每月的第二、三、四周时,ai2、ai3、ai4,没有采集主观数据,则用第一周a12、a13、a14的值进行插值,即令ai2=a12,ai3=a13,ai4=a14
在一种可选的实施方式中,设ωt(j)为评价属性的指标权重,则所述评价属性的指标权重为
Figure GDA0002463870580000141
其中,所述q为信任值数据库存储的所述直接管理数据源的被评价的评价属性的个数。
为了能够有效调整评价属性对应的mass函数,本发明通过计算评价属性的指标权重对mass函数进行调整。在对信息熵进行计算的基础上计算指标权重,评价属性对应mass函数能够通过指标权重进行有效调整,进而使得基于所述mass函数进行计算的直接可信度的可参考价值更高。
在一种可选的实施方式中,设mj(A)为未调整过的mass函数,m′j(A)为mj(A)调整后的mass函数,则所述通过每个评价属性的指标权重对直接管理数据源对应的mass函数进行调整具体为:
Figure GDA0002463870580000142
U(mj)=ωt(j);
其中,Θ为D-S证据理论中的识别框架,A为所述识别框架中的焦元,所述mj(A)为焦元A对应未调整的mass函数,所述m′j(A)为调整后的焦元A对应的mass函数,B为包含至少一个焦元的集合,在所述mj(A)由于不止一次的评价而导致mj(A)的取值无法确定的情况下,仅将最新的一个评价数据作为mj(A)来计算m′j(A),且:
Figure GDA0002463870580000151
所述m’ij、m”ij、m”’ij分别表示第i次评价的第j个评价属性为识别框架中焦元A对应的可信任/不可信/不确定的基础概率函数。
在获得的有效的指标权重后,信任处理代理便能够基于D-S证据理论的识别框架对其中的焦元对应的mass函数进行调整。根据权重修正基础概率分配函数后,Dempster合成规则可以对评价属性的重要性进行区分,从而有效地缓解证据合成时由于重要性不同而引起的冲突。
而对于mj(A)而言,若存在多个评价数据,例如存在按评价时间顺序由最早至最晚排序的多个评价数据m1j(A)、m2j(A)…mpj(A),那么mj(A)仅选择最晚即最接近计算时的时间的数据mpj(A)做为mj(A)所对应的函数。
在一种可选的实施方式中,所述通过对调整后的mass函数进行证据合成计算后输出直接管理数据源的直接可信度包括:
基于对调整后的mass函数获取归一化所需的K值;
基于所述K值、识别框架中的焦元及调整后的mass函数,计算每个评价属性的用于评价可信度的信任函数和似然函数;
基于信任函数和似然函数计算直接管理数据源的直接可信度;
其中,设Bel(A)为信任函数,Pl(A)为似然函数,对于信任函数和似然函数的定义为:
在识别框架Θ上基于mass函数的信任函数定义为:
Figure GDA0002463870580000152
所述在识别框架Θ上基于mass函数的似然函数定义为:
Figure GDA0002463870580000153
其中,所述识别框架Θ上的mass函数满足2Θ→[0,1]且
Figure GDA0002463870580000154
证据合成公式可以通过多个mass函数得到有效的信任函数Bel(A)和似然函数Pl(A),其目的在于使数据源的可信度得到有效体现。
在一种可选的实施方式中,所述方法还包括:
S500:接收大数据需求商对特定数据源的综合可信度的获取请求;
S600:基于对特定数据源的获取请求,计算特定数据源的推荐可信度并在信任数据库中查询结果;
S700:在信任数据库未存储有大数据需求商所请求获取的特定数据源的直接可信度时,通过邻居信任处理代理的链接信息对信任传播网络内的其他信任处理代理进行遍历以获取遍历结果;
S800:根据遍历结果计算特定数据源的间接可信度并根据特定数据源的间接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度;
S900:在信任数据库存储有大数据需求商所请求获取的特定数据源的直接可信度时,根据特定数据源的直接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度;
其中,所述邻居信任处理代理表示可信任的信任处理代理,所述间接可信度是通过遍历获取的其他数据源所存储的直接可信度进行计算的,所述推荐可信度则表示特定数据源所处的大数据网络对特定数据源的评价,所述信任传播网络由相互之间存在邻居关系的至少两个信任处理代理组成。
本发明提出了一种通过分布式的信任处理代理的收集、存储和计算大数据数据源DS的直接可信度、间接可信度、推荐可信度和综合可信度来验证数据源可信度的方法。直接可信度表示对应数据源最直观可信度;间接可信度表示信任处理代理由间接方式获取到的对应数据源的可信度;推荐可信度代表数据源所处的大数据信任网络对该数据源的可信度。分布式的信任处理代理的所包括的信任值数据库不仅存储和管理着其所对应的信任处理代理直接管理的所有数据源的直接信任值,还存储着邻居信任处理代理的链接信息,直接信任度可以供其他的信任处理代理查询。在大数据需求商使用信任处理代理对特定数据源进行可信度查询时,信任处理代理首先对其对应的信任值数据库进行查询,在能够查到的情况下,信任处理代理计算直接可信度;在未能查到的情况下,信任处理代理则通过信任收集器和邻居信任处理代理的链接信息来对信任传播网络内的信任处理代理进行遍历查询,信任处理代理基于查询的结果和获取结果的路径计算间接可信度;同时,信任处理代理对特定数据源的推荐可信度进行查询;最后,信任处理代理的信任计算器使用推荐可信度结合直接可信度或间接可信度来计算出综合可信度,并通过信任值发布器进行输出,其中,所述信任处理代理能够代理多个数据源,而一个数据源同样能够被多个信任处理代理所代理,所述邻居信任处理代理指的是相对于特定信任处理代理而言是可信任的其他信任处理代理。
在一种可选的实施方式中,所述根据遍历结果计算特定数据源的间接可信度并根据特定数据源的间接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度的步骤具体包括;
S810:根据遍历结果确认从其他信任处理代理处获取到的特定数据源的直接可信度及特定数据源的直接可信度的获取路径并根据特定数据源的直接可信度及特定数据源的直接可信度的获取路径计算特定数据源的间接可信度;
S820:根据特定数据源的间接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度。
如图3所示,假设信任网络中存在多条信任传递路径,这时进行信任计算,往往需要综合考虑不同路径的信任值,进而就产生了不同路劲的可信度聚合问题。以下将信任处理代理简写为TPB,例如TPBC可通过TPBC到TPBB到TPBA这条路径与TPBA建立信任关系,也可通过TPBC到TPBD到TPBE到TPBA这条路径与TPBA建立关系,因此计算TPBC与TPBA的信任值的时候我们需要对这两条路径进行聚合计算。通过聚合计算的方式,本发明可以将不同路径获取到的数据进行有效聚合,并结合了路径中信任处理代理之间可信度传递导致的信任衰减进行计算,在将可信度数据进行聚合的同时还使计算结果更为准确。
在一种可选的实施方式中,设在t时刻,所述所述综合可信度为T,直接可信度为Td(t),间接可信度为Ti(t),推荐可信度为Tr(t),则
所述综合可信度通过可能性计算公式进行计算,具体为:
Figure GDA0002463870580000171
对于直接可信度Td(t)而言,命题A应为框架内的信任焦元{T},综上所述,直接可信度Td(t)的计算方式为:
Figure GDA0002463870580000172
其中,|{T}|=1,|{T,-T}|=2,|A|表示焦元A所包含的元素数量,|Θ|表示识别框架Θ所包含的元素数量,所述识别框架Θ包括T和-T这两个元素,所以所述识别框架Θ包括信任{T}、不信任{-T}、不确定{T,-T}这3个焦元,{-T}表示特定数据源为不可信任的,{T}表示特定数据源为可信任的,{T,-T}表示特定数据源为不确定是否可信任的;
所述间接可信度为:
Figure GDA0002463870580000181
Figure GDA0002463870580000182
其中,Px(t)表示信任收集器获取到特定数据源的直接可信度的第x条路径的衰减可信度,Txy表示第x条路径上第y个信任处理代理的信用传递的衰减程度,Txy(t)=axy,axy表示第x条路径上第y个信任处理代理的衰减系数,⊕表示信任的聚合算法或表示算术平均,
Figure GDA0002463870580000183
表示信任处理代理之间的直接可信度的传递;
所述推荐可信度为:
Figure GDA0002463870580000184
其中,设F表示待验证的特定数据源,PRF(t)表示t时刻数据源F在大数据生产消费关系网络中的排名值PR,Tr(t)是大数据数据源F的推荐值,且是数据源F排名值PRF(t)的归一化结果。PRmax(t)和PRmin(t)分别代表t时刻大数据生产消费关系网络中的最大排名值和最小排名值。
当大数据需求商需要查询的数据源的直接可信度能够被信任处理代理直接查询到时,获得直接信任度并根据直接可信度和推荐可信度计算数据源的综合可信度;当大数据需求商需要查询的数据源的直接可信度无法被信任处理代理直接查询到时,则信任处理代理间接通过信任传播网络内的其他信任处理代理获取目标数据源的间接可信度,进而使用间接可信度结合推荐可信度计算数据源的综合可信值。在大数据生产环境中,信任处理代理有时会被数据源通过数据伪造等进行欺骗,为了提高计算框架的抗攻击能力,不管计算综合可信度时是使用直接可信度还是间接可信度,均需结合推荐信任进行计算,而由于综合可信度是数据源是否可信的最直观体现,因此在计算综合可信度时,若只考虑直接可信度或间接可信度,亦会使综合可信度在不同的状况下会存在较大的偏差,因此本发明设置了推荐可信度使得不同场景的偏差降低,同时降低了系统的不确定性。
对于本发明而言,在计算直接可信度时,焦元A实际可以确定为{T},因此所述直接可信度的计算实际可以转化为:
Figure GDA0002463870580000185
Figure GDA0002463870580000186
实施例2
如图3和图4所示,本实施例提供了一种大数据信任评估系统,所述系统包括:
信任处理代理,用于对直接管理数据源的直接可信度进行计算并存储;
大数据需求商,用于向信任处理代理发送对特定数据源的综合可信度的获取请求;
所述信任处理代理,还用于基于对特定数据源的获取请求,在所述信任处理代理所存储的直接可信度中查询结果,根据查询结果计算特定数据源的综合可信度并输出所述综合可信度至大数据需求商。
由于数据节点之间存在多维属性和不确定性的问题,本发明在现有大数据生产体系上,提出一种通过在大数据供应商服务器安装信任代理的系统,可以收集、存储和计算大数据数据源的可信属性值,需求商在使用大数据数据源的过程中也不断对数据源进行评价,通过直接可信度、间接可信度、推荐可信度的综合计算,任何大数据需求商在采购大数据的时候都可以得到该数据的综合可信度。通过分布式协同信任管理框架,设置信任处理代理用以专门处理大数据网络的数据交互节点之间的信任问题,当大数据需求商存在对数据源可信度的查询需求时,大数据需求商可以通过信任处理代理对数据源的可信度进行查询,信任处理代理对数据源的可信度进行计算以得到综合可信度。以综合可信度为参考标准,大数据客户可以更直接有效地对数据源的可信度进行判断,解决了大数据环境下对大数据节点的信任评估存在的多维属性和不确定性的问题。
在一种可选的实施方式中,所诉信任处理代理包括:
信任数据库,用于存储数据源的直接可信度和邻居信任处理代理的链接信息;
信任收集器,用于在所属信任处理代理未存储有大数据需求商所请求获取的特定数据源的直接可信度时,通过所属信任处理代理的邻居信任处理代理的链接信息对信任传播网络内的其他信任处理代理进行遍历以获取遍历结果;
信任计算器,用于计算所属信任处理代理直接管理数据源的直接可信度、计算特定数据源的推荐可信度,以及根据信任收集器的遍历结果计算间接可信度、根据间接可信度/直接可信度和推荐可信度计算综合可信度;
信任值发布器,用于输出综合可信度至大数据需求商;
其中,所述邻居信任处理代理表示对于所述信任收集器所属的信任处理代理来说是可信任的信任处理代理,所述间接可信度是遍历获取的其他信任处理代理所存储的直接可信度进行计算的,所述推荐可信度则表示特定数据源所处的大数据网络对特定数据源的评价。本发明提出了一种通过分布式的信任处理代理的收集、存储和计算大数据数据源DS的直接可信度、间接可信度、推荐可信度和综合可信度来验证数据源可信度的系统。直接可信度表示对应数据源最直观可信度;间接可信度表示信任处理代理由间接方式获取到的对应数据源的可信度;推荐可信度代表数据源所处的大数据信任网络对对应数据源的可信度。在具体实施过程中,在可以直接获得/计算直接可信度的情况下,可以直接将直接可信度作为综合可信度输出,还可以根据直接可信度/间接可信度结合推荐可信度来计算综合可信度。
分布式的信任处理代理的所包括的信任值数据库不仅存储和管理着其所对应的信任处理代理直接管理的所有数据源的直接信任值,还存储着邻居信任处理代理的链接信息,供其他的信任处理代理查询。在大数据需求商使用信任处理代理对特定数据源进行可信度查询时,信任处理代理首先对其对应的信任值数据库进行查询,在能够查到的情况下,信任处理代理获取直接可信度;在未能查到的情况下,信任处理代理则通过信任收集器和邻居信任处理代理的链接信息来对信任传播网络内其他的信任处理代理进行遍历查询,信任处理代理基于查询的结果和获取结果的路径计算间接可信度;同时,信任处理代理的信任计算器对特定数据源的推荐可信度进行查询;最后,信任处理代理的信任计算器使用推荐可信度结合直接可信度或间接可信度来计算出综合可信度,并通过信任值发布器进行输出,其中,所述信任处理代理能够代理多个数据源,而一个数据源同样能够被多个信任处理代理所代理,所述邻居信任处理代理指的是相对于特定信任处理代理而言是可信任的其他信任处理代理。
在一种可选的实施方式中,其中,
所述信任收集器,还用于根据所属信任处理代理与其它信任处理代理之间产生的生产和消费关系建立其它信任处理代理对于所属信任处理代理的单向信任关系;
所述信任值数据库,还用于根据其它信任处理代理对于所属信任处理代理的单向信任关系,存储所述的其它信任处理代理的链接信息为所属信任处理代理的邻居信任处理代理。在本发明中,信任处理代理之间通过大数据生产和消费关系建立信任,通过信任处理代理与其邻居信任处理代理之间的信任关系形成信任传播网络。信任处理代理通过信任传播网络能够从其他信任处理代理上得到关于某个数据源的可信度。如果大数据需求商需要查询的数据源的直接可信度不在大数据需求商所对应的信任处理代理的存储或管理范围内,则信任处理代理需要根据查询请求在信任传播网络内进行查询,直到查询完所述大数据需求商对应的信任处理代理可查询到的所有其他信任处理代理。因此对于信任传播网络而言,信任处理代理对应的存储的数据源可信度都能通过邻居信任处理代理之间的信任关系在信用传播网络内互相共享,这不仅提升了大数据数据源的可信度查询成功率,更使得可信度的来源更安全且有迹可循,进一步地提升了本发明所述系统对可信度数据的处理能力的同时,还提升了可信度的有效性。
获取直接管理数据源的信用评价并将所述信用评价按D-S证据的识别框架和直接管理数据源的评价属性进行分类;
根据直接管理数据源的评价属性的分类结果确认直接管理数据源对应的基本概率分配函数并对所述基本概率分配函数进行证据合成以获取直接管理数据源对应的信任函数及似然函数;
根据直接管理数据源对应的信任函数及似然函数计算直接可信度。
本发明选择基于D-S证据的改进算法对数据进行处理,在本发明中信任处理代理对于从信任传播网络获取到的对数据源的评价值获取是基于数据源的评价属性确定的,所述评价属性为最能够判定数据源可信度的识别框架内的焦元。对于基于D-S证据理论的识别框架而言,其焦元是用于区分最终结果选项的主要因素,对于可信度的焦元优先选择“可信”、“不可信”及“不确定”(在考虑到Zadeh悖论的情况下不一定),而对于多次的数据评价,本发明可以通过识别框架对其进行切割,然后通过证据合成规则得到用于计算数据源可信度的信任函数及似然函数。
在一种可选的实施方式中,所述综合可信度T的计算方式为:
Figure GDA0002463870580000211
其中,Td(t)表示t时刻的直接可信度,Ti(t)表示t时刻的间接可信度,Tr(t)表示t时刻的推荐可信度,且
Figure GDA0002463870580000212
所述t表示在信任计算器计算综合可信度T的时刻。
当大数据需求商需要查询的数据源的直接可信度能够被信任处理代理直接查询到时,获得直接信任度并根据直接可信度和推荐可信度计算数据源的综合可信度;当大数据需求商需要查询的数据源的直接可信度无法被信任处理代理直接查询到时,则信任处理代理间接通过信任传播网络内的其他信任处理代理获取目标数据源的间接可信度,进而使用间接可信度结合推荐可信度计算数据源的综合可信值。在大数据生产环境中,信任处理代理有时会被数据源通过数据伪造等进行欺骗,为了提高计算框架的抗攻击能力,不管计算综合可信度时是使用直接可信度还是间接可信度,均需结合推荐信任进行计算,而由于综合可信度是数据源是否可信的最直观体现,因此在计算综合可信度时,若只考虑直接可信度或间接可信度,亦会使综合可信度在不同的状况下会存在较大的偏差,因此本发明设置了推荐可信度使得不同场景的偏差降低,同时降低了系统的不确定性。
在一种可选的实施方式中,对于焦元A而言,可能性计算公式为:
Figure GDA0002463870580000221
对于直接可信度Td(t)而言,命题A应为框架内的信任焦元{T},综上所述,直接可信度Td(t)的计算方式为:
Figure GDA0002463870580000222
其中,|A|和|Θ|分别代表焦元A和识别框架Θ所包含的元素数量,|{T}|=1,|{T,-T}|=2,所述Pl(A)为D-S证据理论中的似然函数,所述Bel(A)为D-S证据理论中的信任函数,所述Pl(A)和Bel(A)用于组成信度区间[Bel(A),Pl(A)]以表示对A的确认程度,A表示识别框架Θ的焦元,{T}表示信任计算器所属的信任处理代理与特定数据源之间的关系为信任,{T,-T}表示信任计算器所属的信任处理代理与特定数据源之间的关系为不确定,在验证直接可信度时,所述识别框架包括T和-T两个元素,因此所述识别框架Θ包括信任{T}、不信任{-T}、不确定{T,-T}这3个焦元,{-T}表示信任计算器所属的信任处理代理与特定数据源之间的关系为不可信。
在数据的可信度评估方面,本发明通过D-S证据理论来对大数据数据源的可信度进行客观的评估,基于改进D-S证据理论可以有效处理数据源可信度评估中的评价数据,其中,由数据源可信度的识别因素所衍生的识别框架存在{T}、{-T}、{T,-T}三个焦元,同时根据数据源的可信度特征,选取数据源性能E1、数据源数据规范性E2、数据项空值频率E3、数据到达率E4作为证据属性,其中数据源性能由信任处理代理通过大数据平台的CPU、内存、磁盘I/O、负载等客观数据技术获得,数据源数据规范性、数据项空值频率、数据到达率通过数据源的主观评价获得,所述焦元分别对应着数据源最直观的三种状态信任{T}、不信任{-T}、不确定{T,-T},所述识别框架用于评价数据源的证据属性,而本发明基于所述识别框架的信度区间的构成方式设定的可信度判断方式可以将多次评价的不同数据进行综合考量,进而使得本发明能够输出可靠的可信度。
在一种可选的实施方式中,其中,
所述信任计算器用于根据信任收集器的遍历结果计算间接可信度,具体为:根据信任收集器的遍历结果确认所属信任处理代理从其他信任处理代理处获取到的特定数据源的直接可信度及特定数据源的直接可信度的获取路径,并根据特定数据源的直接可信度及特定数据源的直接可信度的获取路径计算特定数据源的间接可信度。
如图2所示,假设信任网络中存在多条信任传递路径,这时进行信任计算,往往需要综合考虑不同路径的信任值,进而就产生了不同路劲的可信度聚合问题。以下将信任处理代理简写为TPB,例如TPBC可通过TPBC到TPBB到TPBA这条路径与TPBA建立信任关系,也可通过TPBC到TPBD到TPBE到TPBA这条路径与TPBA建立关系,因此计算TPBC与TPBA的信任值的时候我们需要对这两条路径进行聚合计算。通过聚合计算的方式,本发明可以将不同路径获取到的数据进行有效聚合,并结合了路径中信任处理代理之间可信度传递导致的信任衰减进行计算,在将可信度数据进行聚合的同时还使计算结果更为准确。
本发明认为信任具有以下几个特征:可传递性、可聚合性、非对称性,具体为:可传递性,如果TPBC信任TPBB,而且TPBB信任TPBA,那么TPBC信任TPBA,即:
Figure GDA0002463870580000238
Figure GDA0002463870580000239
可聚合性,假设信任网络中存在多条信任传递路径,这时进行信任计算,往往需要综合考虑不同路径的信任值,这时就产生了信任聚合问题,例如TPBC可通过TPBC→TPBB→TPBA这条路径与TPBA建立信任关系,也可通过TPBC→TPBD→TPBE→TPBA这条路径与TPBA建立关系,因此计算TPBc与TPBA的信任值的时候我们需要对这两条路径进行聚合计算,即:
Figure GDA0002463870580000231
Figure GDA0002463870580000232
其中,
Figure GDA0002463870580000233
表示信任的聚合算法,本计算框架采用算术平均进行计算;非对称性,大数据的信任关系是通过生产和消费建立的,TPBB信任TPBA的数据,并不代表TPBA就信任TPBB的数据,因此在本发明中信任并不具有对称性。
在一种可选的实施方式中,所述间接可信度Ti(t)的计算方式为:
Figure GDA0002463870580000234
Figure GDA0002463870580000235
其中,Px(t)表示信任收集器获取到特定数据源的直接可信度的第x条路径的衰减可信度,Txy表示第x条路径上第y个信任处理代理的信用传递的衰减程度,Txy(t)=axy,axy表示第x条路径上第y个信任处理代理的衰减系数,
Figure GDA0002463870580000236
表示信任的聚合算法或表示算术平均,
Figure GDA0002463870580000237
表示信任处理代理之间的直接可信度的传递。
由于在信任传播网络中,信任度的衰减是普遍存在且各不相同的,而路径越长信任度衰减越厉害,因此在信任处理代理的信任收集器通过遍历以获取数据源的可信度时,本发明通过设置了基于获取路径的可信度聚合算法以获得间接可信度,因此本发明所述的间接可信度实际上是通过信任传播网络上的多个传播路径聚合计算得出。由于可信度的获取路线可能不唯一,这就导致大数据服务商对应的信任处理代理如何通过其他信任处理代理去评价特定数据源的可信度成为了一个难题,通过随机的单一路径对特定数据源进行评价则容易使得判断的结果不够全面,而本发明对于多个路径聚合计算的可信度是基于获取路径上信任处理代理的可信度衰减进行聚合计算获得的,这使得本发明所述的间接可信度是一个全面的可信度计算结果,避免了间接获取可信度计算中考虑不够全面的问题。
在一种可选的实施方式中,所述推荐可信度Tr(t)为:
Figure GDA0002463870580000241
其中,设F表示待验证的特定数据源,PRF(t)表示t时刻数据源F在大数据生产消费关系网络中的排名值PR,Tr(t)是大数据数据源F的推荐值,且是数据源F排名值PRF(t)的归一化结果。PRmax(t)和PRmin(t)分别代表t时刻大数据生产消费关系网络中的最大排名值和最小排名值。
定义邻接矩阵为G,若数据源r生产数据给数据源s使用,则grs=1,否则grs=0,设t时刻大数据生产消费关系网络中有L个数据源,则邻接矩阵G为L×L的01矩阵,r≤L,s≤L。
设邻接矩阵G的列求和cs、行求和di分别为:
cs=∑rgrs
dr=∑sgrs
cs给出了数据源s的使用其他数据源的数量,dr给出了数据源r的提供给其他数据源使用的数量。用户选择数据源的过程是一个有限状态、离散时间的随机过程。定义转移概率矩阵为M=(drs),则:
Figure GDA0002463870580000242
r,s=1、2…L
Figure GDA0002463870580000243
设推荐向量
Figure GDA0002463870580000251
xL为用户选用数据源L的概率,数据源对应的使用概率越高,越应用户选择的可能性越大,因此
Figure GDA0002463870580000252
也是数据源的推荐向量。因此可得,当数据源F为大数据生产消费关系网络中的一个数据源时,PRF=xF,xF用于表示数据源F的排名PR值,设对于
Figure GDA0002463870580000253
而言,数据源排名值PRr的初始值为
Figure GDA0002463870580000254
则L个数据源组成的推荐向量初始值设为
Figure GDA0002463870580000255
而对于推荐向量
Figure GDA0002463870580000256
而言,
Figure GDA0002463870580000257
则表示经过n次遍历后用户选择数据源时,用户使用每个数据源的概率分布,对
Figure GDA0002463870580000258
进行历遍更新的过程具体为:
Figure GDA0002463870580000259
e表示用户选择当前数据源的概率,1-e表示用户选择其他数据源的概率,计算时将e默认设定为0.85。当n→∞时,
Figure GDA00024638705800002510
最终收敛,并保持在一个稳定值附近,此时再使用户选择
Figure GDA00024638705800002511
作为参考,计算数据源F对应的排名值PRF
信任处理代理根据大数据生产消费关系网络提供的对数据源的评价而做出的信任判断称为推荐信任。任意t时刻通过计算大数据生产消费关系网络中L个数据源的转移概率矩阵M,初始的推荐向量经过多次迭代,最后收敛于最终推荐向量。对最终推荐向量值进行归一化处理后,得到数据源的推荐可信度。推荐可信度需要根据整个大数据生产消费关系网络进行计算,本发明通过数据源之间的生成和消费关系及数据源的评价来计算推荐信任。所有数据源都可以以e为经验值,经验值在这里表示用户选择当前数据源的概率,也就是特定数据源以一定概率生产数据给其他数据源使用的经验值,用于避免算法出现沉淀现象。最终通过结合推荐可信度进行综合可信度的计算以解决可信度考虑的因素不够全面的问题。在实际应用时,直接可信度或间接可信度其实都可以作为直接依据判断数据源是否可信,但通过结合推荐可信度所计算的综合可信度可以进一步地避免数据可信度被修改。
在一种可选的实施方式中,所述证据合成计算为:
设对特定数据源的h个mass函数进行证据合成计算,则所述证据合成公式为:
Figure GDA00024638705800002512
所述K为归一化常数,具体为:
Figure GDA00024638705800002513
其中,
Figure GDA00024638705800002514
为正交和运算,An表示识别框架Θ的子集,所述Bel(A)及Pl(A)需基于证据合成的计算结果中的信任多元组{m(A1),m(A2)…m(An)}进行计算,所述信任多元组中的m(An)表示集合An的基础概率函数。
证据合成公式可以通过多个mass函数得到有效的信任函数Bel(A)和似然函数Pl(A),其目的在于使数据源的可信度得到有效体现。
信任处理代理在会收到它所管理的数据源的4个属性的评价值,即属性E1、E2、E3、E4的评价值,因此需要根据评价值计算基本概率分配函数。设信任处理代理收到某数据源的评价,属性E1、E2、E3、E4的评价值分别为a1,a2,a3,a4,可得:
Figure GDA0002463870580000261
识别框架Θ下的4个评价属性E1,E2,E3,E4,对应的基本概率分配函数分别为m1,m2,m3,m4。根据公式可以得出基本概率分配如表1所示:
信任结果 E1 E2 E3 E4
{T} m<sub>11</sub> m<sub>21</sub> m<sub>31</sub> m<sub>41</sub>
{-T} m<sub>12</sub> m<sub>22</sub> m<sub>32</sub> m<sub>42</sub>
{T,-T} m<sub>13</sub> m<sub>23</sub> m<sub>33</sub> m<sub>43</sub>
表1-基本概率分配表
实施例3
如图5和6所示,以某大数据交易平台X为例,该交易平台提供快递查询、信用评估、身份核验等40多类API数据源进行交易,每类数据下面又有多个供应商提供的数据,应用基于本发明所述的系统及方法,在大数据提供商安装部署有信任处理代理(TPB)、数据需求商安装有信任评估代理(TEA),通过信任处理代理的协调工作,从而为在平台上交易的大数据数据源建立可信网络,对每个数据源的可信程度进行评估,为大数据需求商提供决策依据。
如图5所示,设大数据交易平台X有A、B、C共3个大数据提供商(DP),每个大数据提供商可提供一种或多种数据,A、B、C购买数据进行加工后再对外销售,因此A、B、C既是大数提供商,也是大数据需求商(DS),而D不进行二次销售,因此D仅是大数据需求商。
在本实施例中,P1、P2、P3、P4分别代表不同类型大数据的数据源。P1为全国交通违章查询的大数据数据源;P2为车辆出险记录的大数据数据源;P3为车辆信息查询的大数据数据源;P4为车辆维修保养记录的大数据数据源。大数据提供商A能提供P1和P2对应的两种数据,大数据提供商B能提供P3对应的数据,大数据提供商C能提供P4对应的数据。
大数据提供商A在生产P2的车辆出险记录大数据时使用了P1的全国交通违章查询大数据,在生产P1的全国交通违章查询大数据时使用了P3的车辆信息查询大数据;大数据提供商C在生产车辆维修保养记录大数据P4时使用了P1、P2和P3的数据。
如图5所示,P1、P2、P3、P4之间通过数据交互建立了信任关系,其所在的大数据提供商之间形成了信任网络。在图5中箭头指向被信任的数据源,即指向被使用的数据源。数据生产消费关系如图6所示。在生产消费关系图中,箭头指向被使用的数据及其数据源。
大数据提供商A可以通过TPB收集P1和P2可信属性值,这里仅选用数据源P1为例。aij表示在TPB上存储的对数据源P1的第i次评价第j个属性的评价值,i≤p,j≤q且0≤aj≤1,其中E1为数据源性能,数据源上的agent收集数据源P1的CPU、内存、磁盘I/O、负载等客观数据后,把收集的数据发送给TPB进行计算,得到ai1。而数据源数据规范性E2、数据项空值频率E3、数据到达率E4的评价值则通过DU的主观评分获得,大数据用户通过信任评估代理(TEA)分别填写对数据源的主观评价属性E2、E3、E4的评分ai2、ai3、ai4
设ai1为数据源性能(E1)的属性评价值,则
Figure GDA0002463870580000271
Figure GDA0002463870580000272
其中vcpu为第i次评价时CPU利用率,利用率越高,属性值越低,vram为为第i次评价时数据源所在服务器的内存总量,vuram为第i次评价时数据源所在服务器的内存使用量,vio为第i次评价时磁盘吞吐率,vnet为第i次评价时数据源所在服务器的网络带宽,vunet为为第i次评价时数据源所在服务器已使用的网络带宽。上述数据均可通过操作系统直接采集。所述的四个客观数值在判定数据源性能上都具备较为优秀的代表性,所述客观属性的计算公式在于通过这四个客观数值之间的联系对其进行在评价值计算上的归一化处理,使得信任处理代理能够基于数据源的客观数值来获取数据源所对应的有效可信评价。
设ai2为数据源性能属性值(E2),
Figure GDA0002463870580000273
有n个用户参与评价,sl为第i次评价时第l个用户的主观评分。ai2最小值为0,最大值为1。
设ai3为数据项空值频率属性值(E3),
Figure GDA0002463870580000274
有n个用户参与评价,sl为第i次评价时第l个用户的主观评分。ai3最小值为0,最大值为1。
设ai4为数据到达率属性值(E4),
Figure GDA0002463870580000275
有n个用户参与评价,sl为第i次评价时第l个用户的主观评分。ai4最小值为0,最大值为1。
对于数据源的主观评价是评价其可信度的重要组成部分,在本实施例中给出了主观评价的通用计算方式
Figure GDA0002463870580000281
其中j为评价的客观属性。
按照上述采集规则,在P1数据源上采集了100次数据,选取其中10个,属性值如下表所示:
NO E1 E2 E3 E4
1 0.663129 0.859265 0.081984 0.841304
10 0.417062 0.857341 0.233543 0.644856
20 0.408808 0.418374 0.575281 0.746519
30 0.522385 0.449965 0.98078 0.686109
40 0.162653 0.000035 0.281981 0.429486
50 0.140264 0.835764 0.040188 0.751572
60 0.102623 0.202286 0.926286 0.721349
70 0.778067 0.190966 0.946165 0.430466
80 0.213307 0.656729 0.764507 0.277893
90 0.407463 0.627678 0.694872 0.607308
100 0.728248 0.609082 0.803933 0.239434
表2数据源P1的评价属性的可信度评价值表
设大数据需求商计划购买全国交通违章查询大数据P1,因此大数据需求商需要通过本发明所述的方法及系统对数据源P1的可信情况进行评估,具体为:
(1)直接可信度的计算
首先,确定基本概率分配函数,Θ为D-S证据理论中的识别框架,A为所述识别框架中的焦元,所述mj(A)为焦元A对应的未调整的mass函数,在所述mj(A)由于不止一次的评价而导致mj(A)的取值无法确定的情况下,仅将最新的一个评价数据作为mj(A)来计算m′j(A),且:
Figure GDA0002463870580000282
所述m’、m”、m”’分别表示第i次评价的第j个评价属性为识别框架中焦元A对应的基础概率函数。根据表2中数据源P1的评价属性的可信度评价值表的评价值,计算可得焦元{T},{-T},{T,-T}对应的基础概率分配,计算结果见表3。
m<sub>1</sub> m<sub>2</sub> m<sub>3</sub> m<sub>4</sub>
{T} 0.728248 0.195459 0.803933 0.380283
{-T} 0.135876 0.609082 0.098033 0.239434
{T,-T} 0.135876 0.195459 0.098033 0.380283
表3基础概率分配表
然后,计算可信属性权重,为了能够有效减少证据冲突,本发明通过计算评价属性的指标权重对mass函数进行调整。在对信息熵进行计算的基础上计算指标权重,评价属性对应mass函数能够通过指标权重进行有效调整,进而使得基于所述mass函数进行计算的直接可信度的可参考价值更高。
具体地,设Hj为第j个评价属性的信息熵,则所述信息熵为
Figure GDA0002463870580000291
Figure GDA0002463870580000292
其中,p为信任值数据库存储的所述直接管理数据源的被评价次数,aij为信任值数据库存储的对所述直接管理数据源的第i次评价中对第j个评价属性的评价值,在fij=0时,令fijlnfij=0。
设ωt(j)为评价属性的指标权重,则所述评价属性的指标权重为
Figure GDA0002463870580000293
对表2数据源P1可信属性值100次评价结果进行计算,可得各权重指标变权重,计算结果见表4。
E1 E2 E3 E4
0.23893 0.31238 0.260956 0.187734
表4各权重指标变权重表
接着,根据变权重表调整基本概率分配函数,设mj(A)为未调整过的mass函数,m′j(A)为mj(A)调整后的mass函数,则所述通过每个评价属性的指标权重对直接管理数据源对应的mass函数进行调整具体为:
Figure GDA0002463870580000294
U()=ω(j);
调整后焦元的基本概率分配见表5。
m<sub>1</sub> m<sub>2</sub> m<sub>3</sub> m<sub>4</sub>
{T} 0.174 0.061057 0.209791 0.071392
{-T} 0.032465 0.190265 0.025582 0.04495
{T,-T} 0.793535 0.748677 0.764627 0.883658
表5修正后基本概率分配函数表
最后,根据证据合成规则计算数据源的可信值,证据合成公式为:
Figure GDA0002463870580000301
所述K为归一化常数,具体为:
Figure GDA0002463870580000302
根据证据合成公式,采用表5计算结果,全国交通违章查询大数据P1在第100次评价时关于{T}、{-T}、{T,-T}的mass值
Figure GDA0002463870580000303
Figure GDA0002463870580000304
Figure GDA0002463870580000305
Figure GDA0002463870580000306
Figure GDA0002463870580000307
Figure GDA0002463870580000308
Figure GDA0002463870580000309
Figure GDA00024638705800003010
作为信任的非精确性度量,根据数据源可信和不可信事件发生的概率拆分不确定事件的信度空间,并分配给可信和不可信两种事件。|{T}|=1,|{T,-T}|=2数据源的直接可信性度为:
Figure GDA00024638705800003011
Figure GDA00024638705800003012
Figure GDA0002463870580000311
本专利直接信任值计算综合考虑了数据源信任关系可信的确定部分和不确定部分。该方法可以准确地评估TPB_A对其所管理的数据源P1的直接信任关系,更直观,更贴近信任的真实性。TPB_A对数据源P1的直接信任度存储在TPB_A的信任值数据库中。
(2)间接可信度计算
在本实例中,根据图5的信任关系DU到P1的只有1条信任路径,即:
DU—>TBP_X—>TBP_A
间接可信度为:
Figure GDA0002463870580000312
Figure GDA0002463870580000313
其中,Px(t)表示信任收集器获取到特定数据源的直接可信度的第x条路径的衰减可信度,Txy表示第x条路径上第y个信任处理代理的信用传递的衰减程度,Txy(t)=axy,axy表示第x条路径上第y个信任处理代理的衰减系数,
Figure GDA0002463870580000314
表示信任的聚合算法或表示算术平均,
Figure GDA0002463870580000315
表示信任处理代理之间的直接可信度的传递。
在本例中,由于只有一个传播路径,且Td=0.5267625,则设axy=0.99,t时刻的间接可信度为:
Ti=P1=Td*axy=0.5267625*0.99=0.5214949
(3)推荐可信度计算
推荐可信度计算公式为:
Figure GDA0002463870580000316
其中,设F表示大数据生产消费关系网络中信任网络中的任一数据源,PRF(t)表示t时刻数据源F在大数据生产消费关系网络中的排名值PR。Tr(t)是大数据数据源F的推荐值,它是数据源F排名值PRF(t)的归一化结果。PRmax(t)和PRmin(t)分别代表t时刻大数据生产消费关系网络中的最大排名值和最小排名值。
定义邻接矩阵为G,若数据源i生产数据给数据源j使用,则grs=1,否则grs=0,t时刻大数据生产消费关系网络中有L个数据源,则邻接矩阵G为L×L的0、1方阵。
设邻接矩阵为G的列求和、行求和分别为:
cs=∑r grs
dr=∑s grs
cs给出了数据源s的使用其他数据源的数量,dr给出了数据源r的提供给其他数据源使用的数量。用户选择数据源的过程是一个有限状态、离散时间的随机过程。定义转移概率矩阵为M=(drs)
Figure GDA0002463870580000321
r,s=1、2…L
Figure GDA0002463870580000322
设推荐向量
Figure GDA0002463870580000323
xL为用户选用数据源L的概率,数据源对应的使用概率越高,越应用户选择的可能性越大,因此
Figure GDA0002463870580000324
也是数据源的推荐向量。因此可得,当数据源F为大数据生产消费关系网络中的一个数据源时,PRF=xF,xF用于表示数据源F的排名PR值,设对于
Figure GDA0002463870580000325
而言,数据源排名值PRr的初始值为
Figure GDA0002463870580000326
则L个数据源组成的推荐向量初始值设为
Figure GDA0002463870580000327
而对于推荐向量
Figure GDA0002463870580000328
而言,
Figure GDA0002463870580000329
则表示经过n次遍历后用户选择数据源时,用户使用每个数据源的概率分布,对
Figure GDA00024638705800003210
进行历遍更新的过程具体为:
Figure GDA00024638705800003211
e表示用户选择当前数据源的概率,1-e表示用户选择其他数据源的概率,计算时将e设定为0.85。当n→∞时,
Figure GDA00024638705800003212
最终收敛,保持在一个稳定值附近,此时
Figure GDA00024638705800003213
值就是数据源的推荐向量,排名越高用户选择的概率就越高。任意t时刻通过计算大数据生产消费关系网络中L个数据源的转移概率矩阵M,初始推荐向量经过多次迭代,最后收敛于最终推荐向量。对最终推荐向量值进行归一化处理,便可到数据源的推荐可信度。
在本例中根据图2,数据源P1(生产者)的用户(消费者)分别是P2、P3、P4;然后我们考察数据源P2,数据源P2的消费者有2个,分别为P1和P3;同样的数据源P3的消费者是P1、P2、P4,数据源P4没有消费者。求得邻接矩阵G为:
Figure GDA00024638705800003214
求得转移概率矩阵M为
Figure GDA0002463870580000331
推荐向量计算公式为:
Figure GDA0002463870580000332
Figure GDA0002463870580000333
经过14次迭代,最后收敛在
Figure GDA0002463870580000334
PRP1=x1=0.076647,PRmin=0.0375,PRmax=0.076647数据源P1的推荐可信值为:
Figure GDA0002463870580000335
由此可得,t时刻,有4个大数据数据源,其中数据源P1在t时刻的推荐可信度为1。
(4)综合可信度计算
Figure GDA0002463870580000336
其中,
Figure GDA0002463870580000337
所述t表示在信任计算器计算综合可信度T的时刻;
在本例中DU所要查询的P1数据源不在其所属的TBP_X,需要通过TBP_A才能查询,因此综合可信度由间接可信度和推荐可信度两部分组成,
T=βTi(t)+γTr(t)
Ti=0.5214949,Tr=0.5214949,取β=0.5,γ=0.5
T=βTi+γTr=0.5×0.5214949+0.5×1=0.760747
综上可得,大数据需求商DU在TPB_X上查询到的P1可信度数值就为0.760747,大数据需求商设定为对0.7可信度以上的数据源进行信任,所以数据源P1对所述大数据需求商而言是可信的。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (6)

1.一种大数据信任评估方法,其特征在于,所述方法包括:
通过信任收集器收集大数据提供商下的数据源的可信度并存储在信任值数据库;
获取大数据需求商通过信任评估代理发送的对特定数据源的可信度查询请求;
基于可信度查询请求查询信任值数据库是否存储有对特定数据源的可信度;
在信任值数据库未存储有待查询的特定数据源的可信度的情况下,对邻居信任处理代理发送查询请求;
接收由邻居信任代理反馈的可信度;
在信任值数据库存储有待查询的特定数据源的可信度的情况下,直接获取对特定数据源的可信度;
将获取到的可信度发布至大数据需求商的信任评估代理;
其中,所述邻居信任处理代理表示可信任的信任处理代理,信任处理代理之间通过生产消费关系建立邻居关系;
所述方法还包括:
接收大数据需求商对特定数据源的综合可信度的获取请求;
基于对特定数据源的获取请求,计算特定数据源的推荐可信度并在信任数据库中查询结果;
其中,间接可信度是通过遍历获取的其他数据源所存储的直接可信度进行计算的,所述推荐可信度则表示特定数据源所处的大数据网络对特定数据源的评价,所述信任传播网络由相互之间存在邻居关系的至少两个信任处理代理组成;
根据遍历结果计算特定数据源的间接可信度并根据特定数据源的间接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度包括:
根据遍历结果确认从其他信任处理代理处获取到的特定数据源的直接可信度及特定数据源的直接可信度的获取路径并根据特定数据源的直接可信度及特定数据源的直接可信度的获取路径计算特定数据源的间接可信度;
根据特定数据源的间接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度;
其中,设在t时刻,所述综合可信度为T,直接可信度为Td(t),间接可信度为Ti(t),推荐可信度为Tr(t),则其计算方式为:
所述综合可信度为:
Figure FDA0002756366530000021
其中,
Figure FDA0002756366530000022
所述t表示在信任计算器计算综合可信度T的时刻;
所述直接可信度通过可能性计算公式进行计算,具体为:
Figure FDA0002756366530000023
对于直接可信度Td(t)而言,命题A应为框架内的信任焦元{T},综上所述,直接可信度Td(t)的计算方式为:
Figure FDA0002756366530000024
其中,|{T}|=1,|{T,-T}|=2,|A|表示焦元A所包含的元素数量,|Θ|表示识别框架Θ所包含的元素数量,所述识别框架Θ包括信任{T}、不信任{-T}、不确定{T,-T}这3个焦元,{-T}表示特定数据源为不可信任的,{T}表示特定数据源为可信任的,{T,-T}表示特定数据源为不确定是否可信任的;
所述间接可信度为:
Figure FDA0002756366530000025
Figure FDA0002756366530000026
其中,Px(t)表示信任收集器获取到特定数据源的直接可信度的第x条路径的衰减可信度,Txy表示第x条路径上第y个信任处理代理的信用传递的衰减程度,Txy(t)=axy,axy表示第x条路径上第y个信任处理代理的衰减系数,⊕表示信任的聚合算法或表示算术平均,
Figure FDA0002756366530000027
表示信任处理代理之间的直接可信度的传递;
所述推荐可信度为:
Figure FDA0002756366530000028
其中,设F表示待验证的特定数据源,PRF(t)表示t时刻数据源F在大数据生产消费关系网络中的排名值PR,Tr(t)是大数据数据源F的推荐值,且是数据源F排名值PRF(t)的归一化结果;PRmax(t)和PRmin(t)分别代表t时刻大数据生产消费关系网络中的最大排名值和最小排名值。
2.如权利要求1所述的一种大数据信任评估方法,其特征在于,所述通过信任收集器收集大数据提供商下的数据源的可信度并存储在信任值数据库包括:
在t时刻接收到的新的对直接管理数据源的可信评价;
将在t时刻接收到的新的对直接管理数据源的可信评价按直接管理数据源对应的评价属性存储至信任值数据库后,读取信任值数据库存储的直接管理数据源的评价属性及评价属性对应的可信评价;
基于在信任值数据库读取的直接管理数据源的评价属性及评价属性对应的可信评价对直接管理数据源的直接可信度进行计算;
删除原存储在信任值数据库的对直接管理数据源的直接可信度后将所述计算结果作为直接管理数据源的直接可信度替代存储至信任值数据库。
3.如权利要求2所述的一种大数据信任评估方法,其特征在于,所述基于在信任值数据库读取的直接管理数据源的评价属性及评价属性对应的可信评价对直接管理数据源的直接可信度进行计算包括;
基于在信任值数据库读取的对直接管理数据源的可信评价及对直接管理数据源的可信评价的评价属性获取对直接管理数据源的可信评价的评价属性对应的mass函数;
基于对直接管理数据源的可信评价的评价属性、对直接管理数据源的可信评价的评价属性对应的mass函数及对直接管理数据源的可信评价的评价属性对应的评价值对所述mass函数进行调整;
通过对调整后的mass函数进行证据合成并基于证据合成的结果对直接管理数据源的直接可信度进行计算;
其中,所述mass函数为直接管理数据源对应的基于D-S证据理论的识别框架的焦元的基础概率函数,所述评价属性用于确定所述直接管理数据源是否可信并具体包括数据规范性、数据项空值频率、数据到达率、数据源性能,所述对直接管理数据源的评价具体为对直接数据源的评价属性的评价,所述信任值数据库存储有至少四个评价属性及每个评价属性对应的至少两个mass函数;
其中,所述对直接管理数据源的可信评价包括数据源的客观属性及大数据需求商对数据源的主观评价。
4.如权利要求3所述的一种大数据信任评估方法,其特征在于,所述基于对直接管理数据源的可信评价的评价属性、对直接管理数据源的可信评价的评价属性对应的mass函数及对直接管理数据源的可信评价的评价属性对应的评价值对所述mass函数进行调整包括:
基于对直接管理数据源的可信评价的评价属性和对直接管理数据源的可信评价的评价属性对应的评价值获取每个评价属性的信息熵;
根据信息熵计算每个评价属性的指标权重;
通过每个评价属性的指标权重对直接管理数据源对应的mass函数进行调整。
5.如权利要求4所述的一种大数据信任评估方法,其特征在于,设Hj为第j个评价属性的信息熵,则所述信息熵为
Figure FDA0002756366530000041
Figure FDA0002756366530000042
Figure FDA0002756366530000043
其中,p为信任值数据库存储的所述直接管理数据源的被评价次数,aij为信任值数据库存储的对所述直接管理数据源的第i次评价中对第j个评价属性的评价值,vcpu为第i次评价时CPU利用率,vram为第i次评价时数据源所在服务器的内存总量,vuram为第i次评价时数据源所在服务器的内存使用量,vio为第i次评价时磁盘吞吐率,vnet为第i次评价时数据源所在服务器的网络带宽,vunet为第i次评价时数据源所在服务器已使用的网络带宽,n表示有n个用户参与评价,sl为第i次评价时第l个用户对第j个属性的主观评分,且sl∈[0,100],在fij=0时,令fijlnfij=0。
6.如权利要求5所述的一种大数据信任评估方法,其特征在于,设ωt(j)为评价属性的指标权重,则所述评价属性的指标权重为
Figure FDA0002756366530000044
其中,所述q为信任值数据库存储的所述直接管理数据源的被评价的评价属性的个数。
CN202010135840.4A 2020-03-02 2020-03-02 一种大数据信任评估方法 Active CN111383076B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010135840.4A CN111383076B (zh) 2020-03-02 2020-03-02 一种大数据信任评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010135840.4A CN111383076B (zh) 2020-03-02 2020-03-02 一种大数据信任评估方法

Publications (2)

Publication Number Publication Date
CN111383076A CN111383076A (zh) 2020-07-07
CN111383076B true CN111383076B (zh) 2020-12-11

Family

ID=71218736

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010135840.4A Active CN111383076B (zh) 2020-03-02 2020-03-02 一种大数据信任评估方法

Country Status (1)

Country Link
CN (1) CN111383076B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113034159B (zh) * 2021-03-23 2022-11-04 上海万向区块链股份公司 一种基于区块链预言机技术的企业可信信评系统及方法
CN114357455B (zh) * 2021-12-16 2023-12-26 国网河北省电力有限公司信息通信分公司 一种基于多维属性信任评估的信任方法
CN117688136B (zh) * 2024-01-30 2024-04-30 广州敏行数字科技有限公司 一种基于人工智能的组合检索优化方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550927A (zh) * 2015-11-30 2016-05-04 吉林大学 一种银行信贷系统风险评估方法及装置
CN105760649A (zh) * 2015-12-04 2016-07-13 华北电力大学(保定) 一种面向大数据的可信度量方法
US20190304578A1 (en) * 2018-03-23 2019-10-03 LunaPBC Omic data aggregation with data quality valuation
US20190354723A1 (en) * 2018-05-16 2019-11-21 Ebay, Inc. Weighted source data secured on blockchains

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8583562B1 (en) * 2008-10-01 2013-11-12 RealAgile, Inc. Predicting real estate and other transactions
CN102333307B (zh) * 2011-09-28 2013-01-09 北京航空航天大学 一种基于主观信念的无线传感器网络信任评估方法
CN103124262B (zh) * 2013-01-11 2016-10-05 中国传媒大学 一种新的基于多路径传播的信任值推荐方法
CN108924825A (zh) * 2018-07-13 2018-11-30 山东大学 一种面向SDWSNs的高能效信任管理与可信路由方法
CN110300094B (zh) * 2019-05-08 2021-08-03 中国人民解放军战略支援部队航天工程大学 一种数据节点可信评估方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105550927A (zh) * 2015-11-30 2016-05-04 吉林大学 一种银行信贷系统风险评估方法及装置
CN105760649A (zh) * 2015-12-04 2016-07-13 华北电力大学(保定) 一种面向大数据的可信度量方法
US20190304578A1 (en) * 2018-03-23 2019-10-03 LunaPBC Omic data aggregation with data quality valuation
US20190354723A1 (en) * 2018-05-16 2019-11-21 Ebay, Inc. Weighted source data secured on blockchains

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Quality of Information as an indicator of Trust in the Internet of Things";Hamza Baqa.etc;《2018 17th IEEE International Conference On Trust, Security And Privacy In Computing And Communications/ 12th IEEE International Conference On Big Data Science And Engineering (TrustCom/BigDataSE)》;20180906;第204-211页 *

Also Published As

Publication number Publication date
CN111383076A (zh) 2020-07-07

Similar Documents

Publication Publication Date Title
CN111383076B (zh) 一种大数据信任评估方法
CN111368315B (zh) 基于分布式协同信任管理框架的大数据信任管理系统
US10997142B2 (en) Cognitive blockchain automation and management
US10650455B2 (en) Methods, software, and systems for over-the-counter trading
Huynh et al. An integrated trust and reputation model for open multi-agent systems
US11017329B2 (en) Dampening token allocations based on non-organic subscriber behaviors
US20180255125A1 (en) Providing virtual markers based upon network connectivity
US9569499B2 (en) Method and apparatus for recommending content on the internet by evaluating users having similar preference tendencies
US20160284020A1 (en) System And Method for a Peer to Peer Exchange of Consumer Information
WO2022020772A1 (en) Non-fungible, cryptographic tokens for tracking trees
CN109685635A (zh) 金融业务的风险评估方法、风控服务端及存储介质
US10462107B2 (en) Computer-implemented system and method for analyzing data quality
CN111274495A (zh) 用户关系强度的数据处理方法、装置、计算机设备及存储介质
Ciardiello et al. A comparison between TOPSIS and SAW methods
Cai et al. Towards privacy-preserving data trading for web browsing history
CN110866698A (zh) 用于评定服务提供方的服务分值的装置
US20200265514A1 (en) Recording medium recording communication program and communication apparatus
CN111524001A (zh) 用户授信额度的预测方法、装置和相关设备
Meralli Privacy-preserving analytics for the securitization market: a zero-knowledge distributed ledger technology application
Wang et al. On pricing approximate queries
Zhang et al. The approaches to contextual transaction trust computation in e‐Commerce environments
An et al. A two-stage multiple-factor aware method for travel product recommendation
JPH10275177A (ja) 投資信託のパフォーマンス評価装置およびその評価方法
CN111798246A (zh) 一种金融风险等级评估方法和装置
CN115640305B (zh) 一种基于区块链的公平可信联邦学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant