CN111383076A - 一种大数据信任评估方法 - Google Patents
一种大数据信任评估方法 Download PDFInfo
- Publication number
- CN111383076A CN111383076A CN202010135840.4A CN202010135840A CN111383076A CN 111383076 A CN111383076 A CN 111383076A CN 202010135840 A CN202010135840 A CN 202010135840A CN 111383076 A CN111383076 A CN 111383076A
- Authority
- CN
- China
- Prior art keywords
- data source
- trust
- evaluation
- credibility
- direct
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 349
- 238000012545 processing Methods 0.000 claims abstract description 251
- 230000006870 function Effects 0.000 claims description 152
- 238000004364 calculation method Methods 0.000 claims description 54
- 238000004519 manufacturing process Methods 0.000 claims description 34
- 238000000034 method Methods 0.000 claims description 32
- 238000003786 synthesis reaction Methods 0.000 claims description 32
- 230000015572 biosynthetic process Effects 0.000 claims description 31
- 238000010606 normalization Methods 0.000 claims description 17
- 230000002776 aggregation Effects 0.000 claims description 16
- 238000004220 aggregation Methods 0.000 claims description 16
- 238000012546 transfer Methods 0.000 claims description 15
- 238000011157 data evaluation Methods 0.000 abstract description 3
- 239000003795 chemical substances by application Substances 0.000 description 252
- 239000013598 vector Substances 0.000 description 16
- 239000011159 matrix material Substances 0.000 description 14
- 230000008569 process Effects 0.000 description 12
- 238000009826 distribution Methods 0.000 description 9
- 238000005315 distribution function Methods 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 6
- 230000003993 interaction Effects 0.000 description 6
- 239000008186 active pharmaceutical agent Substances 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000012937 correction Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 239000002131 composite material Substances 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000004931 aggregating effect Effects 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 230000007935 neutral effect Effects 0.000 description 2
- 239000004745 nonwoven fabric Substances 0.000 description 2
- BYACLYDBJDQHHY-RMKNXTFCSA-N 3-methylbutyl 5-[2-hydroxy-3-[4-[(e)-3-(3,4,5-trimethoxyphenyl)prop-2-enoyl]piperazin-1-yl]propoxy]-2,3-dihydro-1,4-benzodioxine-8-carboxylate Chemical compound COC1=C(OC)C(OC)=CC(\C=C\C(=O)N2CCN(CC(O)COC=3C=4OCCOC=4C(C(=O)OCCC(C)C)=CC=3)CC2)=C1 BYACLYDBJDQHHY-RMKNXTFCSA-N 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0609—Buyer or seller confidence or verification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/06—Buying, selling or leasing transactions
- G06Q30/0601—Electronic shopping [e-shopping]
- G06Q30/0613—Third-party assisted
- G06Q30/0617—Representative agent
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- General Business, Economics & Management (AREA)
- Mathematical Analysis (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Mathematical Physics (AREA)
- Pure & Applied Mathematics (AREA)
- Economics (AREA)
- Computational Mathematics (AREA)
- Development Economics (AREA)
- Mathematical Optimization (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Algebra (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
一种大数据信任评估方法,涉及大数据评估管理领域,所述方法包括:通过信任收集器收集大数据提供商下的数据源的可信度并存储在信任值数据库;获取查询请求;基于可信度查询请求查询信任值数据库是否存储有对特定数据源的可信度;在信任值数据库未存储有待查询的特定数据源的可信度的情况下,对邻居信任处理代理发送查询请求;接收由邻居信任代理反馈的可信度;在信任值数据库存储有待查询的特定数据源的可信度的情况下,直接获取对特定数据源的可信度;将获取到的可信度发布至大数据需求商的信任评估代理。解决了大数据环境下对大数据节点的信任评估存在的多维属性和不确定性的技术问题。
Description
技术领域
本发明涉及大数据评估管理领域,更具体地,涉及一种大数据信任评估方法。
背景技术
在大数据资源技术被普及的运用的环境下,大数据节点之间的信息交互十分频繁,而大数据交易市场上的大数据数据质量参差不齐,可信程度各不一样,用户在选购大数据数据源的时候,如果能够通过大数据可信计算技术对各种数据源的可信程度(可信包括服务质量、数据真实程度)进行定量评估,评估结果将能成为大数据需求方选购大数据的客观依据,但在数据源的选择过程中,大数据用户往往无法直接获取到目标信息源的可信度,这就导致了用户与数据源之间的传输存在较大的不确定性,尤其是在去中心化的场景下。为使数据节点之间的信任度有一个较为准确的参照,人们在数据传输框架中加入了信任代理这一重要角色,用户可以通过信任代理及其相关的模块对信号源的可信度进行评估或验证,这在一定程度上解决了节点之间不确定性的问题。但同时,由于信用代理的判断是机械性的,这便导致存在恶意的数据源能够有机可乘,而信用代理之间的环境更是存在实际性的差异,对于数据源的评价更是无法统一,这便导致了大数据环境下对大数据节点的信任评估存在的多维属性和不确定性的问题。
发明内容
本发明旨在克服上述现有技术问题,提供一种大数据信任评估方法,解决了大数据环境下对大数据节点的信任评估存在的多维属性和不确定性的技术问题。
一种大数据信任评估方法,所述方法包括:
通过信任收集器收集大数据提供商下的数据源的可信度并存储在信任值数据库;
获取大数据需求商通过信任评估代理发送的对特定数据源的可信度查询请求;
基于可信度查询请求查询信任值数据库是否存储有对特定数据源的可信度;
在信任值数据库未存储有待查询的特定数据源的可信度的情况下,对邻居信任处理代理发送查询请求;
接收由邻居信任代理反馈的可信度;
在信任值数据库存储有待查询的特定数据源的可信度的情况下,直接获取对特定数据源的可信度;
将获取到的可信度发布至大数据需求商的信任评估代理;
其中,所述邻居信任处理代理表示可信任的信任处理代理,信任处理代理之间通过生产消费关系建立邻居关系。
信任处理代理是一个用于查询可信度的中介,对于信任评估中存在的多维属性和不确定性有这重要的意义。由于大数据提供商及大数据需求商之间的生产消费关系在大数据网络中往往是灵活多变的,对于大数据提供商所提供的数据源,大数据需求商基本上是无法直接确定其安全性的,因此通过权威有效的途径去确认大数据提供商所提供的数据源的可信度是从业者在本领域所研究的一个重要方向。信任处理代理是一个中立且公正的可信度判断中介,大数据需求商可以通过其对大数据提供商的可信度进行确认,同时,由于单个的信任处理代理存在局限性,因此,信任处理代理还能通过生成消费关系建立信任传播网络,当信任处理代理之间存在生产消费关系时,消费的一方可以将生产的一方标记为邻居信任处理代理,同时这种标记是单向的,即信任处理代理A是信任处理代理B的邻居信任处理代理,但不表示信任处理代理B是信任处理代理A的邻居信任处理代理。通过信任处理代理,大数据需求商便可以解决大数据环境下对大数据节点的信任评估存在的多维属性和不确定性的技术问题。
优选的,所述通过信任收集器收集大数据提供商下的数据源的可信度并存储在信任值数据库包括:
在t时刻接收到的新的对直接管理数据源的可信评价;
将在t时刻接收到的新的对直接管理数据源的可信评价按直接管理数据源对应的评价属性存储至信任值数据库后,读取信任值数据库存储的直接管理数据源的评价属性及评价属性对应的可信评价;
基于在信任值数据库读取的直接管理数据源的评价属性及评价属性对应的可信评价对直接管理数据源的直接可信度进行计算;
删除原存储在信任值数据库的对直接管理数据源的直接可信度后将所述计算结果作为直接管理数据源的直接可信度替代存储至信任值数据库。
对于数据源的可信度评估而言,如何去确定其可参考数值是一个重要的问题,如果由大数据需求商直接对数据源的可信度进行判定,则容易由于数据源的多属性和不确定性而遇到判定效果不准确的问题。在本发明中,数据源由信任处理代理进行管理,大数据需求商可以通过信任处理代理对数据源的可信度进行判定,因此信任处理代理如何去获取可供大数据需求商进行参考的可信度便是解决所述技术问题的主要核心之一。在本发明中,信任处理代理通过对其所直接管理的数据源的直接可信度进行计算,所述直接可信度可以体现直接管理数据源对于其所属的信任处理代理而言是否是可以信任的,而基于数据源的直接可信度,信任处理代理可以将是否可信的结果返回给大数据需求商,以此完成对数据源的可信度评估。信任处理代理用于处理其所管理的数据源的可信度,相对于直接由大数据需求商进行处理,信任处理代理能够综合大数据网络中的信息对其所管理的数据源的直接可信度进行判定,因此所述判定结果所能考虑的因素更多,且在大数据环境中,信任处理代理能够降低评估所产生的风险,避免了有害数据源对大数据需求商造成的直接危害,解决了大数据环境下对大数据节点的信任评估存在的多维属性和不确定性的技术问题。其中,一个信任处理代理能够管理多个数据源,一个数据源也能被多个信任处理代理所管理,评价属性包括数据规范性、数据项空值频率、数据到达率,主观评价具体为大数据需求商对评价属性的评价值,并发送给信任处理代理,而客观属性则为数据源性能,可以是通过大数据数据源的代理获得并发送给信任处理代理。
优选的,所述基于在信任值数据库读取的直接管理数据源的评价属性及评价属性对应的可信评价对直接管理数据源的直接可信度进行计算包括;
基于在信任值数据库读取的对直接管理数据源的可信评价及对直接管理数据源的可信评价的评价属性获取对直接管理数据源的可信评价的评价属性对应的mass函数;
基于对直接管理数据源的可信评价的评价属性和对直接管理数据源的可信评价的评价属性对应的mass函数对所述mass函数进行调整;
通过对调整后的mass函数进行证据合成并基于证据合成的结果对直接管理数据源的直接可信度进行计算;
其中,所述mass函数为直接管理数据源对应的基于D-S证据理论的识别框架的焦元的基础概率函数,所述评价属性用于确定所述直接管理数据源是否可信并具体包括数据规范性、数据项空值频率、数据到达率、数据源性能,所述对直接管理数据源的评价具体为对直接数据源的评价属性的评价,所述信任值数据库存储有至少四个评价属性及每个评价属性对应的至少两个mass函数;
其中,所述对直接管理数据源的可信评价包括数据源的客观属性及大数据需求商对数据源的主观评价。
本发明使用了D-S证据理论的理论框架,
优选的,所述基于对直接管理数据源的可信评价的评价属性和对直接管理数据源的可信评价的评价属性对应的mass函数对所述mass函数进行调整包括:
基于对直接管理数据源的可信评价的评价属性和对直接管理数据源的可信评价的评价属性对应的mass函数获取每个评价属性的信息熵;
根据信息熵计算每个评价属性的指标权重;
通过每个评价属性的指标权重对直接管理数据源对应的mass函数进行调整。
信任处理代理对数据源的可信度判定实际上都是基于数据源对应的mass函数进行判定的,因此数据源对应的mass函数的准确性对可信度的影响是最大的。本发明所需解决的技术问题是信任评估存在的多维属性和不确定性问题,基于上述理论,如何获取准确有效的基础概率函数便是解决问题的关键所在。本发明通过对评价数据的综合判定来对基础概率函数即mass函数对应的焦元即评价属性的权重进行调整,来获取更为有效的基础概率函数,进而使得所述直接可信度更能体现数据源是否可信。
优选的,设Hj为第j个评价属性的信息熵,则所述信息熵为
其中,p为信任值数据库存储的所述直接管理数据源的被评价次数,aij为信任值数据库存储的对所述直接管理数据源的第i次评价中对第j个评价属性的评价值,vcpu为第i次评价时CPU利用率,vram为第i次评价时数据源所在服务器的内存总量,vuram为第i次评价时数据源所在服务器的内存使用量,vio为第i次评价时磁盘吞吐率,vnet为第i次评价时数据源所在服务器的网络带宽,vunet为第i次评价时数据源所在服务器已使用的网络带宽,n表示有n个用户参与评价,sl为第i次评价时第l个用户对第j个属性的主观评分,且sl∈[0,100],在 fij=0时,令fijlnfij=0。
对于评价数据的综合考量,本发明采用计算信息熵的方式来确定评价属性的权重,其中,评价属性的信息熵用于体现对应的评价属性j的可确定性。对于接收到的对直接管理数据源的可信评价,通过计算信息熵来对单个评价属性的可确定性进行计算。其中,fij是计算属性j信息熵过程的中间变量,aij第i次评价时第j个属性在第j个属性所有评价的比重就是 fij。经典D-S证据理论中的合成规则应用存在一些缺陷和局限性,当证据间没有冲突或低冲突时,证据的推理基本正常,但当证据之间严重冲突时,组合结果往往与实际情况不相符合,即组合规则无法处理冲突。对于发明中的客观属性数据源性能属性值可以直接从数据源进行采集,而对于数据源数据规范性、数据项空值频率、数据到达率这样的主观评价则是从数据源用户处采集到的。熵理论认为信息熵越小,信息的效用值越大,指标的权重越大。本发明根据熵理论,动态计算证据的信息熵大小,形成修正系数,利用修正系数修正基本概率分配 (BPA),以改进Dempster合成规则,降低证据的冲突程度。
优选的,设ωt(j)为评价属性的指标权重,则所述评价属性的指标权重为
其中,所述q为信任值数据库存储的所述直接管理数据源的被评价的评价属性的个数。
为了能够有效调整评价属性对应的mass函数,本发明通过计算评价属性的指标权重对 mass函数进行调整。在对信息熵进行计算的基础上计算指标权重,评价属性对应mass函数能够通过指标权重进行有效调整,进而使得基于所述mass函数进行计算的直接可信度的可参考价值更高。
优选的,设mj(A)为未调整过的mass函数,m′j(A)为mj(A)调整后的mass函数,则所述通过每个评价属性的指标权重对直接管理数据源对应的mass函数进行调整具体为:
U(mj)=ωt(j);
其中,Θ为D-S证据理论中的识别框架,A为所述识别框架中的焦元,所述mj(A)为焦元A对应未调整的mass函数,所述m′j(A)为调整后的焦元A对应的mass函数,B为包含至少一个焦元的集合,在所述mj(A)由于不止一次的评价而导致mj(A)的取值无法确定的情况下,仅将最新的一个评价数据作为mj(A)来计算m′j(A),且:
所述m′ij、m″ij、m″′ij分别表示第i次评价的第j个评价属性为识别框架中焦元A对应的可信任/不可信/不确定的基础概率函数。
在获得的有效的指标权重后,信任处理代理便能够基于D-S证据理论的识别框架对其中的焦元对应的mass函数进行调整。根据权重修正基础概率分配函数后,Dempster合成规则可以对评价属性的重要性进行区分,从而有效地缓解证据合成时由于重要性不同而引起的冲突。
优选的,所述通过对调整后的mass函数进行证据合成计算后输出直接管理数据源的直接可信度包括:
基于对调整后的mass函数获取归一化所需的K值;
基于所述K值、识别框架中的焦元及调整后的mass函数,计算每个评价属性的用于评价可信度的信任函数和似然函数;
基于信任函数和似然函数计算直接管理数据源的直接可信度;
其中,设Bel(A)为信任函数,Pl(A)为似然函数,对于信任函数和似然函数的定义为:
在识别框架Θ上基于mass函数的信任函数定义为:
所述在识别框架Θ上基于mass函数的似然函数定义为:
证据合成公式可以通过多个mass函数得到有效的信任函数Bel(A)和似然函数Pl(A),其目的在于使数据源的可信度得到有效体现。
优选的,所述方法还包括:
接收大数据需求商对特定数据源的综合可信度的获取请求;
基于对特定数据源的获取请求,计算特定数据源的推荐可信度并在信任数据库中查询结果;
在信任数据库未存储有大数据需求商所请求获取的特定数据源的直接可信度时,通过邻居信任处理代理的链接信息对信任传播网络内的其他信任处理代理进行遍历以获取遍历结果;
根据遍历结果计算特定数据源的间接可信度并根据特定数据源的间接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度;
在信任数据库存储有大数据需求商所请求获取的特定数据源的直接可信度时,根据特定数据源的直接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度;
其中,所述邻居信任处理代理表示可信任的信任处理代理,所述间接可信度是通过遍历获取的其他数据源所存储的直接可信度进行计算的,所述推荐可信度则表示特定数据源所处的大数据网络对特定数据源的评价,所述信任传播网络由相互之间存在邻居关系的至少两个信任处理代理组成。
本发明提出了一种通过分布式的信任处理代理的收集、存储和计算大数据数据源DS 的直接可信度、间接可信度、推荐可信度和综合可信度来验证数据源可信度的方法。直接可信度表示对应数据源最直观可信度;间接可信度表示信任处理代理由间接方式获取到的对应数据源的可信度;推荐可信度代表数据源所处的大数据信任网络对该数据源的可信度。分布式的信任处理代理的所包括的信任值数据库不仅存储和管理着其所对应的信任处理代理直接管理的所有数据源的直接信任值,还存储着邻居信任处理代理的链接信息,直接信任度可以供其他的信任处理代理查询。在大数据需求商使用信任处理代理对特定数据源进行可信度查询时,信任处理代理首先对其对应的信任值数据库进行查询,在能够查到的情况下,信任处理代理计算直接可信度;在未能查到的情况下,信任处理代理则通过信任收集器和邻居信任处理代理的链接信息来对信任传播网络内的信任处理代理进行遍历查询,信任处理代理基于查询的结果和获取结果的路径计算间接可信度;同时,信任处理代理对特定数据源的推荐可信度进行查询;最后,信任处理代理的信任计算器使用推荐可信度结合直接可信度或间接可信度来计算出综合可信度,并通过信任值发布器进行输出,其中,所述信任处理代理能够代理多个数据源,而一个数据源同样能够被多个信任处理代理所代理,所述邻居信任处理代理指的是相对于特定信任处理代理而言是可信任的其他信任处理代理。
优选的,所述根据遍历结果计算特定数据源的间接可信度并根据特定数据源的间接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度包括;
根据遍历结果确认从其他信任处理代理处获取到的特定数据源的直接可信度及特定数据源的直接可信度的获取路径并根据特定数据源的直接可信度及特定数据源的直接可信度的获取路径计算特定数据源的间接可信度;
根据特定数据源的间接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度。
假设信任网络中存在多条信任传递路径,这时进行信任计算,往往需要综合考虑不同路径的信任值,进而就产生了不同路劲的可信度聚合问题。以下将信任处理代理简写为TPB,例如TPBC可通过TPBC到TPBB到TPBA这条路径与TPBA建立信任关系,也可通过TPBC到TPBD到TPBE到TPBA这条路径与TPBA建立关系,因此计算TPBC与TPBA的信任值的时候我们需要对这两条路径进行聚合计算。通过聚合计算的方式,本发明可以将不同路径获取到的数据进行有效聚合,并结合了路径中信任处理代理之间可信度传递导致的信任衰减进行计算,在将可信度数据进行聚合的同时还使计算结果更为准确。
优选的,设在t时刻,所述所述综合可信度为T,直接可信度为Td(t),间接可信度为Ti(t),推荐可信度为Tr(t),则
所述综合可信度为:
所述直接可信度通过可能性计算公式进行计算,具体为:
对于直接可信度Td(t)而言,命题A应为框架内的信任焦元{T},综上所述,直接可信度Td(t)的计算方式为:
其中,|{T}|=1,|{T,-T}|=2,|A|表示焦元A所包含的元素数量,|Θ|表示识别框架Θ所包含的元素数量,所述识别框架Θ包括信任{T}、不信任{-T}、不确定{T,-T}这3个焦元,{-T}表示特定数据源为不可信任的,{T}表示特定数据源为可信任的,{T,-T}表示特定数据源为不确定是否可信任的;
所述间接可信度为:
其中,Px(t)表示信任收集器获取到特定数据源的直接可信度的第x条路径的衰减可信度,Txy表示第x条路径上第y个信任处理代理的信用传递的衰减程度,Txy(t)=axy,axy表示第x条路径上第y个信任处理代理的衰减系数,表示信任的聚合算法或表示算术平均,表示信任处理代理之间的直接可信度的传递;
所述推荐可信度为:
其中,设F表示待验证的特定数据源,PRF(t)表示t时刻数据源F在大数据生产消费关系网络中的排名值PR,Tr(t)是大数据数据源F的推荐值,且是数据源F排名值PRF(t)的归一化结果。PRmax(t)和PRmin(t)分别代表t时刻大数据生产消费关系网络中的最大排名值和最小排名值。
当大数据需求商需要查询的数据源的直接可信度能够被信任处理代理直接查询到时,获得直接信任度并根据直接可信度和推荐可信度计算数据源的综合可信度;当大数据需求商需要查询的数据源的直接可信度无法被信任处理代理直接查询到时,则信任处理代理间接通过信任传播网络内的其他信任处理代理获取目标数据源的间接可信度,进而使用间接可信度结合推荐可信度计算数据源的综合可信值。在大数据生产环境中,信任处理代理有时会被数据源通过数据伪造等进行欺骗,为了提高计算框架的抗攻击能力,不管计算综合可信度时是使用直接可信度还是间接可信度,均需结合推荐信任进行计算,而由于综合可信度是数据源是否可信的最直观体现,因此在计算综合可信度时,若只考虑直接可信度或间接可信度,亦会使综合可信度在不同的状况下会存在较大的偏差,因此本发明设置了推荐可信度使得不同场景的偏差降低,同时降低了系统的不确定性。
与现有技术相比,本发明的有益效果为:通过对识别框架对应的mass函数进行调整以使信任处理代理对大数据数据源的可信度有更好的判定;在评估对象不同的情况下,对数据源进行了多属性、多维度的考量,使得信任处理代理的可信度评估能够适应于不同的环境;在信任处理代理未存储有特定数据源的可信度的情况下,本发明在遍历邻居信任处理代理计算间接可信度时,还通过考虑了获取可信度的路径进而提升了间接可信度的有效性;基于改进D-S证据理论算法的直接可信度能够对数据源的状态有更好的判定;设置并使用推荐信用度降低了信任处理代理在计算综合可信度时的数据偏离。
附图说明
图1为本发明所述一种大数据信任评估方法的流程图。
图2为本发明所述一种大数据信任评估方法的又一流程图。
图3为本发明所述一种大数据信任评估方法的交互示意图。
图4为本发明所述一种大数据信任评估系统的框架图。
图5为本发明所述一种大数据信任评估方法的又一交互示意图。
图6为本发明所述一种大数据信任评估方法的又一交互示意图。
具体实施方式
本发明附图仅用于示例性说明,不能理解为对本发明的限制。为了更好说明以下实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
实施例1
如图1、2所示,本实施例公开了一种大数据信任评估方法,所述方法包括:
S1:通过信任收集器收集大数据提供商下的数据源的可信度并存储在信任值数据库;
S2:获取大数据需求商通过信任评估代理发送的对特定数据源的可信度查询请求;
S3:基于可信度查询请求查询信任值数据库是否存储有对特定数据源的可信度;
S41:在信任值数据库未存储有待查询的特定数据源的可信度的情况下,对邻居信任处理代理发送查询请求;
S42:接收由邻居信任代理反馈的可信度;
S43:在信任值数据库存储有待查询的特定数据源的可信度的情况下,直接获取对特定数据源的可信度;
S5:将获取到的可信度发布至大数据需求商的信任评估代理;
其中,所述邻居信任处理代理表示可信任的信任处理代理,信任处理代理之间通过生产消费关系建立邻居关系。
信任处理代理是一个用于查询可信度的中介,对于信任评估中存在的多维属性和不确定性有这重要的意义。由于大数据提供商及大数据需求商之间的生产消费关系在大数据网络中往往是灵活多变的,对于大数据提供商所提供的数据源,大数据需求商基本上是无法直接确定其安全性的,因此通过权威有效的途径去确认大数据提供商所提供的数据源的可信度是从业者在本领域所研究的一个重要方向。信任处理代理是一个中立且公正的可信度判断中介,大数据需求商可以通过其对大数据提供商的可信度进行确认,同时,由于单个的信任处理代理存在局限性,因此,信任处理代理还能通过生成消费关系建立信任传播网络,当信任处理代理之间存在生产消费关系时,消费的一方可以将生产的一方标记为邻居信任处理代理,同时这种标记是单向的,即信任处理代理A是信任处理代理B的邻居信任处理代理,但不表示信任处理代理B是信任处理代理A的邻居信任处理代理。通过信任处理代理,大数据需求商便可以解决大数据环境下对大数据节点的信任评估存在的多维属性和不确定性的技术问题。
在一种可选的实施方式中,所述通过信任收集器收集大数据提供商下的数据源的可信度并存储在信任值数据库包括:
S100:在t时刻接收到的新的对直接管理数据源的可信评价;
S200:将在t时刻接收到的新的对直接管理数据源的可信评价按直接管理数据源对应的评价属性存储至信任值数据库后,读取信任值数据库存储的直接管理数据源的评价属性及评价属性对应的可信评价;
S300:基于在信任值数据库读取的直接管理数据源的评价属性及评价属性对应的可信评价对直接管理数据源的直接可信度进行计算;
S400:删除原存储在信任值数据库的对直接管理数据源的直接可信度后将所述计算结果作为直接管理数据源的直接可信度替代存储至信任值数据库。
对于数据源的可信度评估而言,如何去确定其可参考数值是一个重要的问题,如果由大数据需求商直接对数据源的可信度进行判定,则容易由于数据源的多属性和不确定性而遇到判定效果不准确的问题。在本发明中,数据源由信任处理代理进行管理,大数据需求商可以通过信任处理代理对数据源的可信度进行判定,因此信任处理代理如何去获取可供大数据需求商进行参考的可信度便是解决所述技术问题的主要核心之一。在本发明中,信任处理代理通过对其所直接管理的数据源的直接可信度进行计算,所述直接可信度可以体现直接管理数据源对于其所属的信任处理代理而言是否是可以信任的,而基于数据源的直接可信度,信任处理代理可以将是否可信的结果返回给大数据需求商,以此完成对数据源的可信度评估。信任处理代理用于处理其所管理的数据源的可信度,相对于直接由大数据需求商进行处理,信任处理代理能够综合大数据网络中的信息对其所管理的数据源的直接可信度进行判定,因此所述判定结果所能考虑的因素更多,且在大数据环境中,信任处理代理能够降低评估所产生的风险,避免了有害数据源对大数据需求商造成的直接危害,解决了大数据环境下对大数据节点的信任评估存在的多维属性和不确定性的技术问题。其中,一个信任处理代理能够管理多个数据源,一个数据源也能被多个信任处理代理所管理,评价属性包括数据规范性、数据项空值频率、数据到达率,主观评价具体为大数据需求商对评价属性的评价值,并发送给信任处理代理,而客观属性则为数据源性能,可以是通过大数据数据源的代理获得并发送给信任处理代理。
在一种可选的实施方式中,所述基于在信任值数据库读取的对直接管理数据源的评价属性及评价属性对应的可信评价对直接管理数据源的直接可信度进行计算的步骤具体包括;
S310:基于在信任值数据库读取的对直接管理数据源的可信评价及对直接管理数据源的可信评价的评价属性获取对直接管理数据源的可信评价的评价属性对应的mass函数;
S320:基于对直接管理数据源的可信评价的评价属性和对直接管理数据源的可信评价的评价属性对应的mass函数对所述mass函数进行调整;
S330:通过对调整后的mass函数进行证据合成并基于证据合成的结果对直接管理数据源的直接可信度进行计算;
其中,所述mass函数为直接管理数据源对应的基于D-S证据理论的识别框架的焦元的基础概率函数,所述评价属性用于确定所述直接管理数据源是否可信并具体包括数据规范性、数据项空值频率、数据到达率、数据源性能,所述对直接管理数据源的评价具体为对直接数据源的评价属性的评价,所述信任值数据库存储有至少两个评价属性及每个评价属性对应的至少四个mass函数;
其中,所述对直接管理数据源的可信评价包括数据源的客观属性及大数据需求商对数据源的主观评价。
本发明使用了D-S证据理论的理论框架,
在一种可选的实施方式中,所述基于对直接管理数据源的可信评价的评价属性和对直接管理数据源的可信评价的评价属性对应的mass函数对所述mass函数进行调整的步骤具体包括:
S321:基于对直接管理数据源的可信评价的评价属性和对直接管理数据源的可信评价的评价属性对应的mass函数获取每个评价属性的信息熵;
S322:根据信息熵计算每个评价属性的指标权重;
S323:通过每个评价属性的指标权重对直接管理数据源对应的mass函数进行调整。
信任处理代理对数据源的可信度判定实际上都是基于数据源对应的mass函数进行判定的,因此数据源对应的mass函数的准确性对可信度的影响是最大的。本发明所需解决的技术问题是信任评估存在的多维属性和不确定性问题,基于上述理论,如何获取准确有效的基础概率函数便是解决问题的关键所在。本发明通过对评价数据的综合判定来对基础概率函数即mass函数对应的焦元即评价属性的权重进行调整,来获取更为有效的基础概率函数,进而使得所述直接可信度更能体现数据源是否可信。
在一种可选的实施方式中,设Hj为第j个评价属性的信息熵,则所述信息熵为
其中,p为信任值数据库存储的所述直接管理数据源的被评价次数,aij为信任值数据库存储的对所述直接管理数据源的第i次评价中对第j个评价属性的评价值,vcpu为第i次评价时CPU利用率,vram为第i次评价时数据源所在服务器的内存总量,vuram为第i次评价时数据源所在服务器的内存使用量,vio为第i次评价时磁盘吞吐率,vnet为第i次评价时数据源所在服务器的网络带宽,vunet为第i次评价时数据源所在服务器已使用的网络带宽,n表示有n个用户参与评价,sl为第i次评价时第l个用户对第j个属性的主观评分,且sl∈[0,100],在 fij=0时,令fijlnfij=0。
对于评价数据的综合考量,本发明采用计算信息熵的方式来确定评价属性的权重,其中,评价属性的信息熵用于体现对应的评价属性j的可确定性。对于接收到的对直接管理数据源的可信评价,通过计算信息熵来对单个评价属性的可确定性进行计算。其中,fij是计算属性j信息熵过程的中间变量,aij第i次评价时第j个属性在第j个属性所有评价的比重就是 fij。经典D-S证据理论中的合成规则应用存在一些缺陷和局限性,当证据间没有冲突或低冲突时,证据的推理基本正常,但当证据之间严重冲突时,组合结果往往与实际情况不相符合,即组合规则无法处理冲突。对于发明中的客观属性数据源性能属性值可以直接从数据源进行采集,而对于数据源数据规范性、数据项空值频率、数据到达率这样的主观评价则是从数据源用户处采集到的。熵理论认为信息熵越小,信息的效用值越大,指标的权重越大。本发明根据熵理论,动态计算证据的信息熵大小,形成修正系数,利用修正系数修正基本概率分配 (BPA),以改进Dempster合成规则,降低证据的冲突程度。
其中,在客观数据和主观评价都是由机器自动获取的情况下,客观数据的采集频率往往高于主观评价的采集频率,若存在采集频率不一致的情况时,以高频率为准,对低采集频率的数据或评价进行插值以保证主观评价和客观属性的采集频率保持一致,例如客观属性E1 每周采集一次,主观评价属性E2、E3及E4每月采集一次,则计算的时候按每月采集四次(即每周一次)计算,在一个月的数据采集范围内,p=4,a11、a21、a31、a41为ai1每周采集后直接计算得到的数据,a12、a13、a14为第一周采集后计算得到的数据,均为实际采集获得的数据。但当i=2,3,4时,即每月的第二、三、四周时,ai2、ai3、ai4,没有采集主观数据,则用第一周a12、a13、a14的值进行插值,即令ai2=a12,ai3=a13,ai4=a14。
在一种可选的实施方式中,设ωt(j)为评价属性的指标权重,则所述评价属性的指标权重为
其中,所述q为信任值数据库存储的所述直接管理数据源的被评价的评价属性的个数。
为了能够有效调整评价属性对应的mass函数,本发明通过计算评价属性的指标权重对 mass函数进行调整。在对信息熵进行计算的基础上计算指标权重,评价属性对应mass函数能够通过指标权重进行有效调整,进而使得基于所述mass函数进行计算的直接可信度的可参考价值更高。
在一种可选的实施方式中,设mj(A)为未调整过的mass函数,m′j(A)为mj(A)调整后的mass函数,则所述通过每个评价属性的指标权重对直接管理数据源对应的mass函数进行调整具体为:
U(mj)=ωt(j);
其中,Θ为D-S证据理论中的识别框架,A为所述识别框架中的焦元,所述mj(A)为焦元A对应未调整的mass函数,所述m′j(A)为调整后的焦元A对应的mass函数,B为包含至少一个焦元的集合,在所述mj(A)由于不止一次的评价而导致mj(A)的取值无法确定的情况下,仅将最新的一个评价数据作为mj(A)来计算m′j(A),且:
所述m′ij、m″ij、m″′ij分别表示第i次评价的第j个评价属性为识别框架中焦元A对应的可信任/不可信/不确定的基础概率函数。
在获得的有效的指标权重后,信任处理代理便能够基于D-S证据理论的识别框架对其中的焦元对应的mass函数进行调整。根据权重修正基础概率分配函数后,Dempster合成规则可以对评价属性的重要性进行区分,从而有效地缓解证据合成时由于重要性不同而引起的冲突。
而对于mj(A)而言,若存在多个评价数据,例如存在按评价时间顺序由最早至最晚排序的多个评价数据m1j(A)、m2j(A)…mpj(A),那么mj(A)仅选择最晚即最接近计算时的时间的数据mpj(A)做为mj(A)所对应的函数。
在一种可选的实施方式中,所述通过对调整后的mass函数进行证据合成计算后输出直接管理数据源的直接可信度包括:
基于对调整后的mass函数获取归一化所需的K值;
基于所述K值、识别框架中的焦元及调整后的mass函数,计算每个评价属性的用于评价可信度的信任函数和似然函数;
基于信任函数和似然函数计算直接管理数据源的直接可信度;
其中,设Bel(A)为信任函数,Pl(A)为似然函数,对于信任函数和似然函数的定义为:
在识别框架Θ上基于mass函数的信任函数定义为:
所述在识别框架Θ上基于mass函数的似然函数定义为:
证据合成公式可以通过多个mass函数得到有效的信任函数Bel(A)和似然函数Pl(A),其目的在于使数据源的可信度得到有效体现。
在一种可选的实施方式中,所述方法还包括:
S500:接收大数据需求商对特定数据源的综合可信度的获取请求;
S600:基于对特定数据源的获取请求,计算特定数据源的推荐可信度并在信任数据库中查询结果;
S700:在信任数据库未存储有大数据需求商所请求获取的特定数据源的直接可信度时,通过邻居信任处理代理的链接信息对信任传播网络内的其他信任处理代理进行遍历以获取遍历结果;
S800:根据遍历结果计算特定数据源的间接可信度并根据特定数据源的间接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度;
S900:在信任数据库存储有大数据需求商所请求获取的特定数据源的直接可信度时,根据特定数据源的直接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度;
其中,所述邻居信任处理代理表示可信任的信任处理代理,所述间接可信度是通过遍历获取的其他数据源所存储的直接可信度进行计算的,所述推荐可信度则表示特定数据源所处的大数据网络对特定数据源的评价,所述信任传播网络由相互之间存在邻居关系的至少两个信任处理代理组成。
本发明提出了一种通过分布式的信任处理代理的收集、存储和计算大数据数据源DS 的直接可信度、间接可信度、推荐可信度和综合可信度来验证数据源可信度的方法。直接可信度表示对应数据源最直观可信度;间接可信度表示信任处理代理由间接方式获取到的对应数据源的可信度;推荐可信度代表数据源所处的大数据信任网络对该数据源的可信度。分布式的信任处理代理的所包括的信任值数据库不仅存储和管理着其所对应的信任处理代理直接管理的所有数据源的直接信任值,还存储着邻居信任处理代理的链接信息,直接信任度可以供其他的信任处理代理查询。在大数据需求商使用信任处理代理对特定数据源进行可信度查询时,信任处理代理首先对其对应的信任值数据库进行查询,在能够查到的情况下,信任处理代理计算直接可信度;在未能查到的情况下,信任处理代理则通过信任收集器和邻居信任处理代理的链接信息来对信任传播网络内的信任处理代理进行遍历查询,信任处理代理基于查询的结果和获取结果的路径计算间接可信度;同时,信任处理代理对特定数据源的推荐可信度进行查询;最后,信任处理代理的信任计算器使用推荐可信度结合直接可信度或间接可信度来计算出综合可信度,并通过信任值发布器进行输出,其中,所述信任处理代理能够代理多个数据源,而一个数据源同样能够被多个信任处理代理所代理,所述邻居信任处理代理指的是相对于特定信任处理代理而言是可信任的其他信任处理代理。
在一种可选的实施方式中,所述根据遍历结果计算特定数据源的间接可信度并根据特定数据源的间接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度的步骤具体包括;
S810:根据遍历结果确认从其他信任处理代理处获取到的特定数据源的直接可信度及特定数据源的直接可信度的获取路径并根据特定数据源的直接可信度及特定数据源的直接可信度的获取路径计算特定数据源的间接可信度;
S820:根据特定数据源的间接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度。
如图3所示,假设信任网络中存在多条信任传递路径,这时进行信任计算,往往需要综合考虑不同路径的信任值,进而就产生了不同路劲的可信度聚合问题。以下将信任处理代理简写为TPB,例如TPBC可通过TPBC到TPBB到TPBA这条路径与TPBA建立信任关系,也可通过TPBC到TPBD到TPBE到TPBA这条路径与TPBA建立关系,因此计算TPBC与TPBA的信任值的时候我们需要对这两条路径进行聚合计算。通过聚合计算的方式,本发明可以将不同路径获取到的数据进行有效聚合,并结合了路径中信任处理代理之间可信度传递导致的信任衰减进行计算,在将可信度数据进行聚合的同时还使计算结果更为准确。
在一种可选的实施方式中,设在t时刻,所述所述综合可信度为T,直接可信度为Td(t),间接可信度为Ti(t),推荐可信度为Tr(t),则
所述综合可信度通过可能性计算公式进行计算,具体为:
对于直接可信度Td(t)而言,命题A应为框架内的信任焦元{T},综上所述,直接可信度Td(t)的计算方式为:
其中,|{T}|=1,|{T,-T}|=2,|A|表示焦元A所包含的元素数量,|Θ|表示识别框架Θ所包含的元素数量,所述识别框架Θ包括T和-T这两个元素,所以所述识别框架Θ包括信任{T}、不信任{-T}、不确定{T,-T}这3个焦元,{-T}表示特定数据源为不可信任的,{T}表示特定数据源为可信任的,{T,-T}表示特定数据源为不确定是否可信任的;
所述间接可信度为:
其中,Px(t)表示信任收集器获取到特定数据源的直接可信度的第x条路径的衰减可信度,Txy表示第x条路径上第y个信任处理代理的信用传递的衰减程度,Txy(t)=axy,axy表示第x条路径上第y个信任处理代理的衰减系数,表示信任的聚合算法或表示算术平均,表示信任处理代理之间的直接可信度的传递;
所述推荐可信度为:
其中,设F表示待验证的特定数据源,PRF(t)表示t时刻数据源F在大数据生产消费关系网络中的排名值PR,Tr(t)是大数据数据源F的推荐值,且是数据源F排名值PRF(t)的归一化结果。PRmax(t)和PRmin(t)分别代表t时刻大数据生产消费关系网络中的最大排名值和最小排名值。
当大数据需求商需要查询的数据源的直接可信度能够被信任处理代理直接查询到时,获得直接信任度并根据直接可信度和推荐可信度计算数据源的综合可信度;当大数据需求商需要查询的数据源的直接可信度无法被信任处理代理直接查询到时,则信任处理代理间接通过信任传播网络内的其他信任处理代理获取目标数据源的间接可信度,进而使用间接可信度结合推荐可信度计算数据源的综合可信值。在大数据生产环境中,信任处理代理有时会被数据源通过数据伪造等进行欺骗,为了提高计算框架的抗攻击能力,不管计算综合可信度时是使用直接可信度还是间接可信度,均需结合推荐信任进行计算,而由于综合可信度是数据源是否可信的最直观体现,因此在计算综合可信度时,若只考虑直接可信度或间接可信度,亦会使综合可信度在不同的状况下会存在较大的偏差,因此本发明设置了推荐可信度使得不同场景的偏差降低,同时降低了系统的不确定性。
实施例2
如图3和图4所示,本实施例提供了一种大数据信任评估系统,所述系统包括:
信任处理代理,用于对直接管理数据源的直接可信度进行计算并存储;
大数据需求商,用于向信任处理代理发送对特定数据源的综合可信度的获取请求;
所述信任处理代理,还用于基于对特定数据源的获取请求,在所述信任处理代理所存储的直接可信度中查询结果,根据查询结果计算特定数据源的综合可信度并输出所述综合可信度至大数据需求商。
由于数据节点之间存在多维属性和不确定性的问题,本发明在现有大数据生产体系上,提出一种通过在大数据供应商服务器安装信任代理的系统,可以收集、存储和计算大数据数据源的可信属性值,需求商在使用大数据数据源的过程中也不断对数据源进行评价,通过直接可信度、间接可信度、推荐可信度的综合计算,任何大数据需求商在采购大数据的时候都可以得到该数据的综合可信度。通过分布式协同信任管理框架,设置信任处理代理用以专门处理大数据网络的数据交互节点之间的信任问题,当大数据需求商存在对数据源可信度的查询需求时,大数据需求商可以通过信任处理代理对数据源的可信度进行查询,信任处理代理对数据源的可信度进行计算以得到综合可信度。以综合可信度为参考标准,大数据客户可以更直接有效地对数据源的可信度进行判断,解决了大数据环境下对大数据节点的信任评估存在的多维属性和不确定性的问题。
在一种可选的实施方式中,所诉信任处理代理包括:
信任数据库,用于存储数据源的直接可信度和邻居信任处理代理的链接信息;
信任收集器,用于在所属信任处理代理未存储有大数据需求商所请求获取的特定数据源的直接可信度时,通过所属信任处理代理的邻居信任处理代理的链接信息对信任传播网络内的其他信任处理代理进行遍历以获取遍历结果;
信任计算器,用于计算所属信任处理代理直接管理数据源的直接可信度、计算特定数据源的推荐可信度,以及根据信任收集器的遍历结果计算间接可信度、根据间接可信度/直接可信度和推荐可信度计算综合可信度;
信任值发布器,用于输出综合可信度至大数据需求商;
其中,所述邻居信任处理代理表示对于所述信任收集器所属的信任处理代理来说是可信任的信任处理代理,所述间接可信度是遍历获取的其他信任处理代理所存储的直接可信度进行计算的,所述推荐可信度则表示特定数据源所处的大数据网络对特定数据源的评价。本发明提出了一种通过分布式的信任处理代理的收集、存储和计算大数据数据源DS的直接可信度、间接可信度、推荐可信度和综合可信度来验证数据源可信度的系统。直接可信度表示对应数据源最直观可信度;间接可信度表示信任处理代理由间接方式获取到的对应数据源的可信度;推荐可信度代表数据源所处的大数据信任网络对对应数据源的可信度。在具体实施过程中,在可以直接获得/计算直接可信度的情况下,可以直接将直接可信度作为综合可信度输出,还可以根据直接可信度/间接可信度结合推荐可信度来计算综合可信度。
分布式的信任处理代理的所包括的信任值数据库不仅存储和管理着其所对应的信任处理代理直接管理的所有数据源的直接信任值,还存储着邻居信任处理代理的链接信息,供其他的信任处理代理查询。在大数据需求商使用信任处理代理对特定数据源进行可信度查询时,信任处理代理首先对其对应的信任值数据库进行查询,在能够查到的情况下,信任处理代理获取直接可信度;在未能查到的情况下,信任处理代理则通过信任收集器和邻居信任处理代理的链接信息来对信任传播网络内其他的信任处理代理进行遍历查询,信任处理代理基于查询的结果和获取结果的路径计算间接可信度;同时,信任处理代理的信任计算器对特定数据源的推荐可信度进行查询;最后,信任处理代理的信任计算器使用推荐可信度结合直接可信度或间接可信度来计算出综合可信度,并通过信任值发布器进行输出,其中,所述信任处理代理能够代理多个数据源,而一个数据源同样能够被多个信任处理代理所代理,所述邻居信任处理代理指的是相对于特定信任处理代理而言是可信任的其他信任处理代理。
在一种可选的实施方式中,其中,
所述信任收集器,还用于根据所属信任处理代理与其它信任处理代理之间产生的生产和消费关系建立其它信任处理代理对于所属信任处理代理的单向信任关系;
所述信任值数据库,还用于根据其它信任处理代理对于所属信任处理代理的单向信任关系,存储所述的其它信任处理代理的链接信息为所属信任处理代理的邻居信任处理代理。在本发明中,信任处理代理之间通过大数据生产和消费关系建立信任,通过信任处理代理与其邻居信任处理代理之间的信任关系形成信任传播网络。信任处理代理通过信任传播网络能够从其他信任处理代理上得到关于某个数据源的可信度。如果大数据需求商需要查询的数据源的直接可信度不在大数据需求商所对应的信任处理代理的存储或管理范围内,则信任处理代理需要根据查询请求在信任传播网络内进行查询,直到查询完所述大数据需求商对应的信任处理代理可查询到的所有其他信任处理代理。因此对于信任传播网络而言,信任处理代理对应的存储的数据源可信度都能通过邻居信任处理代理之间的信任关系在信用传播网络内互相共享,这不仅提升了大数据数据源的可信度查询成功率,更使得可信度的来源更安全且有迹可循,进一步地提升了本发明所述系统对可信度数据的处理能力的同时,还提升了可信度的有效性。
获取直接管理数据源的信用评价并将所述信用评价按D-S证据的识别框架和直接管理数据源的评价属性进行分类;
根据直接管理数据源的评价属性的分类结果确认直接管理数据源对应的基本概率分配函数并对所述基本概率分配函数进行证据合成以获取直接管理数据源对应的信任函数及似然函数;
根据直接管理数据源对应的信任函数及似然函数计算直接可信度。
本发明选择基于D-S证据的改进算法对数据进行处理,在本发明中信任处理代理对于从信任传播网络获取到的对数据源的评价值获取是基于数据源的评价属性确定的,所述评价属性为最能够判定数据源可信度的识别框架内的焦元。对于基于D-S证据理论的识别框架而言,其焦元是用于区分最终结果选项的主要因素,对于可信度的焦元优先选择“可信”、“不可信”及“不确定”(在考虑到Zadeh悖论的情况下不一定),而对于多次的数据评价,本发明可以通过识别框架对其进行切割,然后通过证据合成规则得到用于计算数据源可信度的信任函数及似然函数。
在一种可选的实施方式中,所述综合可信度T的计算方式为:
当大数据需求商需要查询的数据源的直接可信度能够被信任处理代理直接查询到时,获得直接信任度并根据直接可信度和推荐可信度计算数据源的综合可信度;当大数据需求商需要查询的数据源的直接可信度无法被信任处理代理直接查询到时,则信任处理代理间接通过信任传播网络内的其他信任处理代理获取目标数据源的间接可信度,进而使用间接可信度结合推荐可信度计算数据源的综合可信值。在大数据生产环境中,信任处理代理有时会被数据源通过数据伪造等进行欺骗,为了提高计算框架的抗攻击能力,不管计算综合可信度时是使用直接可信度还是间接可信度,均需结合推荐信任进行计算,而由于综合可信度是数据源是否可信的最直观体现,因此在计算综合可信度时,若只考虑直接可信度或间接可信度,亦会使综合可信度在不同的状况下会存在较大的偏差,因此本发明设置了推荐可信度使得不同场景的偏差降低,同时降低了系统的不确定性。
在一种可选的实施方式中,对于焦元A而言,可能性计算公式为:
对于直接可信度Td(t)而言,命题A应为框架内的信任焦元{T},综上所述,直接可信度Td(t)的计算方式为:
其中,|A|和|Θ|分别代表焦元A和识别框架Θ所包含的元素数量,|{T}|=1, |{T,-T}|=2,所述Pl(A)为D-S证据理论中的似然函数,所述Bel(A)为D-S证据理论中的信任函数,所述Pl(A)和Bel(A)用于组成信度区间[Bel(A),Pl(A)]以表示对A的确认程度,A表示识别框架Θ的焦元,{T}表示信任计算器所属的信任处理代理与特定数据源之间的关系为信任,{T,-T}表示信任计算器所属的信任处理代理与特定数据源之间的关系为不确定,在验证直接可信度时,所述识别框架包括T和-T两个元素,因此所述识别框架Θ包括信任{T}、不信任{-T}、不确定{T,-T}这3个焦元,{-T}表示信任计算器所属的信任处理代理与特定数据源之间的关系为不可信。
在数据的可信度评估方面,本发明通过D-S证据理论来对大数据数据源的可信度进行客观的评估,基于改进D-S证据理论可以有效处理数据源可信度评估中的评价数据,其中,由数据源可信度的识别因素所衍生的识别框架存在{T}、{-T}、{T,-T}三个焦元,同时根据数据源的可信度特征,选取数据源性能E1、数据源数据规范性E2、数据项空值频率E3、数据到达率E4作为证据属性,其中数据源性能由信任处理代理通过大数据平台的CPU、内存、磁盘I/O、负载等客观数据技术获得,数据源数据规范性、数据项空值频率、数据到达率通过数据源的主观评价获得,所述焦元分别对应着数据源最直观的三种状态信任{T}、不信任{-T}、不确定{T,-T},所述识别框架用于评价数据源的证据属性,而本发明基于所述识别框架的信度区间的构成方式设定的可信度判断方式可以将多次评价的不同数据进行综合考量,进而使得本发明能够输出可靠的可信度。
在一种可选的实施方式中,其中,
所述信任计算器用于根据信任收集器的遍历结果计算间接可信度,具体为:根据信任收集器的遍历结果确认所属信任处理代理从其他信任处理代理处获取到的特定数据源的直接可信度及特定数据源的直接可信度的获取路径,并根据特定数据源的直接可信度及特定数据源的直接可信度的获取路径计算特定数据源的间接可信度。
如图2所示,假设信任网络中存在多条信任传递路径,这时进行信任计算,往往需要综合考虑不同路径的信任值,进而就产生了不同路劲的可信度聚合问题。以下将信任处理代理简写为TPB,例如TPBC可通过TPBC到TPBB到TPBA这条路径与TPBA建立信任关系,也可通过TPBC到TPBD到TPBE到TPBA这条路径与TPBA建立关系,因此计算TPBC与TPBA的信任值的时候我们需要对这两条路径进行聚合计算。通过聚合计算的方式,本发明可以将不同路径获取到的数据进行有效聚合,并结合了路径中信任处理代理之间可信度传递导致的信任衰减进行计算,在将可信度数据进行聚合的同时还使计算结果更为准确。
本发明认为信任具有以下几个特征:可传递性、可聚合性、非对称性,具体为:可传递性,如果TPBC信任TPBB,而且TPBB信任TPBA,那么TPBC信任TPBA,即: 可聚合性,假设信任网络中存在多条信任传递路径,这时进行信任计算,往往需要综合考虑不同路径的信任值,这时就产生了信任聚合问题,例如TPBC可通过TPBC→TPBB→TPBA这条路径与TPBA建立信任关系,也可通过TPBC→TPBD→TPBE→TPBA这条路径与TPBA建立关系,因此计算TPBc与TPBA的信任值的时候我们需要对这两条路径进行聚合计算,即: 其中,表示信任的聚合算法,本计算框架采用算术平均进行计算;非对称性,大数据的信任关系是通过生产和消费建立的,TPBB信任TPBA的数据,并不代表TPBA就信任TPBB的数据,因此在本发明中信任并不具有对称性。
在一种可选的实施方式中,所述间接可信度Ti(t)的计算方式为:
其中,Px(t)表示信任收集器获取到特定数据源的直接可信度的第x条路径的衰减可信度,Txy表示第x条路径上第y个信任处理代理的信用传递的衰减程度,Txy(t)=axy,axy表示第x条路径上第y个信任处理代理的衰减系数,表示信任的聚合算法或表示算术平均,表示信任处理代理之间的直接可信度的传递。
由于在信任传播网络中,信任度的衰减是普遍存在且各不相同的,而路径越长信任度衰减越厉害,因此在信任处理代理的信任收集器通过遍历以获取数据源的可信度时,本发明通过设置了基于获取路径的可信度聚合算法以获得间接可信度,因此本发明所述的间接可信度实际上是通过信任传播网络上的多个传播路径聚合计算得出。由于可信度的获取路线可能不唯一,这就导致大数据服务商对应的信任处理代理如何通过其他信任处理代理去评价特定数据源的可信度成为了一个难题,通过随机的单一路径对特定数据源进行评价则容易使得判断的结果不够全面,而本发明对于多个路径聚合计算的可信度是基于获取路径上信任处理代理的可信度衰减进行聚合计算获得的,这使得本发明所述的间接可信度是一个全面的可信度计算结果,避免了间接获取可信度计算中考虑不够全面的问题。
在一种可选的实施方式中,所述推荐可信度Tr(t)为:
其中,设F表示待验证的特定数据源,PRF(t)表示t时刻数据源F在大数据生产消费关系网络中的排名值PR,Tr(t)是大数据数据源F的推荐值,且是数据源F排名值PRF(t)的归一化结果。PRmax(t)和PRmin(t)分别代表t时刻大数据生产消费关系网络中的最大排名值和最小排名值。
定义邻接矩阵为G,若数据源r生产数据给数据源s使用,则grs=1,否则grs=0,设t时刻大数据生产消费关系网络中有L个数据源,则邻接矩阵G为L×L的01矩阵, r≤L,s≤L。
设邻接矩阵G的列求和cs、行求和di分别为:
cs=∑rgrs
dr=∑sgrs
cs给出了数据源s的使用其他数据源的数量,dr给出了数据源r的提供给其他数据源使用的数量。用户选择数据源的过程是一个有限状态、离散时间的随机过程。定义转移概率矩阵为M=(drs),则:
r,s=1、2…L
设推荐向量xL为用户选用数据源L的概率,数据源对应的使用概率越高,越应用户选择的可能性越大,因此也是数据源的推荐向量。因此可得,当数据源F为大数据生产消费关系网络中的一个数据源时,PRF=xF,xF用于表示数据源F的排名PR值,设对于而言,数据源排名值PRr的初始值为xr=1/L,则L个数据源组成的推荐向量初始值设为而对于推荐向量而言,则表示经过n次遍历后用户选择数据源时,用户使用每个数据源的概率分布,对进行历遍更新的过程具体为:
e表示用户选择当前数据源的概率,1-e表示用户选择其他数据源的概率,计算时将e 默认设定为0.85。当n→∞时,最终收敛,并保持在一个稳定值附近,此时再使用户选择作为参考,计算数据源F对应的排名值PRF。
信任处理代理根据大数据生产消费关系网络提供的对数据源的评价而做出的信任判断称为推荐信任。任意t时刻通过计算大数据生产消费关系网络中L个数据源的转移概率矩阵 M,初始的推荐向量经过多次迭代,最后收敛于最终推荐向量。对最终推荐向量值进行归一化处理后,得到数据源的推荐可信度。推荐可信度需要根据整个大数据生产消费关系网络进行计算,本发明通过数据源之间的生成和消费关系及数据源的评价来计算推荐信任。所有数据源都可以以e为经验值,经验值在这里表示用户选择当前数据源的概率,也就是特定数据源以一定概率生产数据给其他数据源使用的经验值,用于避免算法出现沉淀现象。最终通过结合推荐可信度进行综合可信度的计算以解决可信度考虑的因素不够全面的问题。在实际应用时,直接可信度或间接可信度其实都可以作为直接依据判断数据源是否可信,但通过结合推荐可信度所计算的综合可信度可以进一步地避免数据可信度被修改。
在一种可选的实施方式中,所述证据合成计算为:
设对特定数据源的h个mass函数进行证据合成计算,则所述证据合成公式为:
所述K为归一化常数,具体为:
其中,为正交和运算,An表示识别框架Θ的子集,所述Bel(A)及Pl(A)需基于证据合成的计算结果中的信任多元组{m(A1),m(A2)…m(An)}进行计算,所述信任多元组中的m(An)表示集合An的基础概率函数。
证据合成公式可以通过多个mass函数得到有效的信任函数Bel(A)和似然函数Pl(A),其目的在于使数据源的可信度得到有效体现。
信任处理代理在会收到它所管理的数据源的4个属性的评价值,即属性E1、E2、E3、E4的评价值,因此需要根据评价值计算基本概率分配函数。设信任处理代理收到某数据源的评价,属性E1、E2、E3、E4的评价值分别为a1,a2,a3,a4,可得:
识别框架Θ下的4个评价属性E1,E2,E3,E4,对应的基本概率分配函数分别为m1,
m2, m3,m4。根据公式可以得出基本概率分配如表1所示:
信任结果 | E1 | E2 | E3 | E4 |
{T} | m<sub>11</sub> | m<sub>21</sub> | m<sub>31</sub> | m<sub>41</sub> |
{-T} | m<sub>12</sub> | m<sub>22</sub> | m<sub>32</sub> | m<sub>42</sub> |
{T,-T} | m<sub>13</sub> | m<sub>23</sub> | m<sub>33</sub> | m<sub>43</sub> |
表1-基本概率分配表
实施例3
如图5和6所示,以某大数据交易平台X为例,该交易平台提供快递查询、信用评估、身份核验等40多类API数据源进行交易,每类数据下面又有多个供应商提供的数据,应用基于本发明所述的系统及方法,在大数据提供商安装部署有信任处理代理(TPB)、数据需求商安装有信任评估代理(TEA),通过信任处理代理的协调工作,从而为在平台上交易的大数据数据源建立可信网络,对每个数据源的可信程度进行评估,为大数据需求商提供决策依据。
如图5所示,设大数据交易平台X有A、B、C共3个大数据提供商(DP),每个大数据提供商可提供一种或多种数据,A、B、C购买数据进行加工后再对外销售,因此A、B、C 既是大数提供商,也是大数据需求商(DS),而D不进行二次销售,因此D仅是大数据需求商。
在本实施例中,P1、P2、P3、P4分别代表不同类型大数据的数据源。P1为全国交通违章查询的大数据数据源;P2为车辆出险记录的大数据数据源;P3为车辆信息查询的大数据数据源;P4为车辆维修保养记录的大数据数据源。大数据提供商A能提供P1和P2对应的两种数据,大数据提供商B能提供P3对应的数据,大数据提供商C能提供P4对应的数据。
大数据提供商A在生产P2的车辆出险记录大数据时使用了P1的全国交通违章查询大数据,在生产P1的全国交通违章查询大数据时使用了P3的车辆信息查询大数据;大数据提供商C在生产车辆维修保养记录大数据P4时使用了P1、P2和P3的数据。
如图5所示,P1、P2、P3、P4之间通过数据交互建立了信任关系,其所在的大数据提供商之间形成了信任网络。在图5中箭头指向被信任的数据源,即指向被使用的数据源。数据生产消费关系如图6所示。在生产消费关系图中,箭头指向被使用的数据及其数据源。
大数据提供商A可以通过TPB收集P1和P2可信属性值,这里仅选用数据源P1为例。aij表示在TPB上存储的对数据源P1的第i次评价第j个属性的评价值,i≤p,j≤q且0≤ aj≤1,其中E1为数据源性能,数据源上的agent收集数据源P1的CPU、内存、磁盘I/O、负载等客观数据后,把收集的数据发送给TPB进行计算,得到ai1。而数据源数据规范性E2、数据项空值频率E3、数据到达率E4的评价值则通过DU的主观评分获得,大数据用户通过信任评估代理(TEA)分别填写对数据源的主观评价属性E2、E3、E4的评分ai2、ai3、ai4。
设ai1为数据源性能(E1)的属性评价值,则 其中vcpu为第i次评价时CPU利用率,利用率越高,属性值越低,vram为为第i次评价时数据源所在服务器的内存总量,vuram为第i次评价时数据源所在服务器的内存使用量,vio为第i次评价时磁盘吞吐率,vnet为第i次评价时数据源所在服务器的网络带宽,vunet为为第i次评价时数据源所在服务器已使用的网络带宽。上述数据均可通过操作系统直接采集。所述的四个客观数值在判定数据源性能上都具备较为优秀的代表性,所述客观属性的计算公式在于通过这四个客观数值之间的联系对其进行在评价值计算上的归一化处理,使得信任处理代理能够基于数据源的客观数值来获取数据源所对应的有效可信评价。
按照上述采集规则,在P1数据源上采集了100次数据,选取其中10个,属性值如下
表所示:
NO | E1 | E2 | E3 | E4 |
1 | 0.663129 | 0.859265 | 0.081984 | 0.841304 |
10 | 0.417062 | 0.857341 | 0.233543 | 0.644856 |
20 | 0.408808 | 0.418374 | 0.575281 | 0.746519 |
30 | 0.522385 | 0.449965 | 0.98078 | 0.686109 |
40 | 0.162653 | 0.000035 | 0.281981 | 0.429486 |
50 | 0.140264 | 0.835764 | 0.040188 | 0.751572 |
60 | 0.102623 | 0.202286 | 0.926286 | 0.721349 |
70 | 0.778067 | 0.190966 | 0.946165 | 0.430466 |
80 | 0.213307 | 0.656729 | 0.764507 | 0.277893 |
90 | 0.407463 | 0.627678 | 0.694872 | 0.607308 |
100 | 0.728248 | 0.609082 | 0.803933 | 0.239434 |
表2数据源P1的评价属性的可信度评价值表
设大数据需求商计划购买全国交通违章查询大数据P1,因此大数据需求商需要通过本发明所述的方法及系统对数据源P1的可信情况进行评估,具体为:
(1)直接可信度的计算
首先,确定基本概率分配函数,Θ为D-S证据理论中的识别框架,A为所述识别框架中的焦元,所述mj(A)为焦元A对应的未调整的mass函数,在所述mj(A)由于不止一次的评价而导致mj(A)的取值无法确定的情况下,仅将最新的一个评价数据作为mj(A)来计算m′j(A),且:
所述m′ij、m″ij、m″′ij分别表示第i次评价的第j个评价属性为识别框架中焦元A对
应的基础概率函数。根据表2中数据源P1的评价属性的可信度评价值表的评价值,计算可得
焦元 {T},{-T},{T,-T}对应的基础概率分配,计算结果见表3。
m<sub>1</sub> | m<sub>2</sub> | m<sub>3</sub> | m<sub>4</sub> | |
{T} | 0.728248 | 0.195459 | 0.803933 | 0.380283 |
{-T} | 0.135876 | 0.609082 | 0.098033 | 0.239434 |
{T,-T} | 0.135876 | 0.195459 | 0.098033 | 0.380283 |
表3基础概率分配表
然后,计算可信属性权重,为了能够有效减少证据冲突,本发明通过计算评价属性的指标权重对mass函数进行调整。在对信息熵进行计算的基础上计算指标权重,评价属性对应 mass函数能够通过指标权重进行有效调整,进而使得基于所述mass函数进行计算的直接可信度的可参考价值更高。
具体地,设Hj为第j个评价属性的信息熵,则所述信息熵为
其中,p为信任值数据库存储的所述直接管理数据源的被评价次数,aij为信任值数据库存储的对所述直接管理数据源的第i次评价中对第j个评价属性的评价值,在fij=0时,令fijlnfij=0。
设ωt(j)为评价属性的指标权重,则所述评价属性的指标权重为
对表2数据源P1可信属性值100次评价结果进行计算,可得各权重指标变权重,计
算结果见表4。
E1 | E2 | E3 | E4 |
0.23893 | 0.31238 | 0.260956 | 0.187734 |
表4各权重指标变权重表
接着,根据变权重表调整基本概率分配函数,设mj(A)为未调整过的mass函数,m′j(A) 为mj(A)调整后的mass函数,则所述通过每个评价属性的指标权重对直接管理数据源对应的 mass函数进行调整具体为:
U(mj)=ωt(j);
调整后焦元的基本概率分配见表5。
m<sub>1</sub> | m<sub>2</sub> | m<sub>3</sub> | m<sub>4</sub> | |
{T} | 0.174 | 0.061057 | 0.209791 | 0.071392 |
{-T} | 0.032465 | 0.190265 | 0.025582 | 0.04495 |
{T,-T} | 0.793535 | 0.748677 | 0.764627 | 0.883658 |
表5修正后基本概率分配函数表
最后,根据证据合成规则计算数据源的可信值,证据合成公式为:
所述K为归一化常数,具体为:
根据证据合成公式,采用表5计算结果,全国交通违章查询大数据P1在第100次评价时关于{T}、{-T}、{T,-T}的mass值
作为信任的非精确性度量,根据数据源可信和不可信事件发生的概率拆分不确定事件的信度空间,并分配给可信和不可信两种事件。|{T}|=1,|{T,-T}|=2数据源的直接可信性度为:
本专利直接信任值计算综合考虑了数据源信任关系可信的确定部分和不确定部分。该方法可以准确地评估TPB_A对其所管理的数据源P1的直接信任关系,更直观,更贴近信任的真实性。TPB_A对数据源P1的直接信任度存储在TPB_A的信任值数据库中。
(2)间接可信度计算
在本实例中,根据图5的信任关系DU到P1的只有1条信任路径,即:
DU—>TBP_X—>TBP_A
间接可信度为:
其中,Px(t)表示信任收集器获取到特定数据源的直接可信度的第x条路径的衰减可信度,Txy表示第x条路径上第y个信任处理代理的信用传递的衰减程度,Txy(t)=axy,axy表示第x条路径上第y个信任处理代理的衰减系数,表示信任的聚合算法或表示算术平均,表示信任处理代理之间的直接可信度的传递。
在本例中,由于只有一个传播路径,且Td=0.5267625,则设axy=0.99,t时刻的间接可信度为:
Ti=P1=Td*axy=0.5267625*0.99=0.5214949
(3)推荐可信度计算
推荐可信度计算公式为:
其中,设F表示大数据生产消费关系网络中信任网络中的任一数据源,PRF(t)表示t时刻数据源F在大数据生产消费关系网络中的排名值PR。Tr(t)是大数据数据源F的推荐值,它是数据源F排名值PRF(t)的归一化结果。PRmax(t)和PRmin(t)分别代表t时刻大数据生产消费关系网络中的最大排名值和最小排名值。
定义邻接矩阵为G,若数据源i生产数据给数据源j使用,则grs=1,否则grs=0,t时刻大数据生产消费关系网络中有L个数据源,则邻接矩阵G为L×L的0、1方阵。
设邻接矩阵为G的列求和、行求和分别为:
cs=∑rgrs
dr=∑sgrs
cs给出了数据源s的使用其他数据源的数量,dr给出了数据源r的提供给其他数据源使用的数量。用户选择数据源的过程是一个有限状态、离散时间的随机过程。定义转移概率矩阵为M=(drs)
r,s=1、2…L
设推荐向量xL为用户选用数据源L的概率,数据源对应的使用概率越高,越应用户选择的可能性越大,因此也是数据源的推荐向量。因此可得,当数据源F为大数据生产消费关系网络中的一个数据源时,PRF=xF,xF用于表示数据源F的排名PR值,设对于而言,数据源排名值PRr的初始值为xr=1/L,则L个数据源组成的推荐向量初始值设为而对于推荐向量而言,则表示经过n次遍历后用户选择数据源时,用户使用每个数据源的概率分布,对进行历遍更新的过程具体为:
e表示用户选择当前数据源的概率,1-e表示用户选择其他数据源的概率,计算时将 e设定为0.85。当n→∞时,最终收敛,保持在一个稳定值附近,此时值就是数据源的推荐向量,排名越高用户选择的概率就越高。任意t时刻通过计算大数据生产消费关系网络中L个数据源的转移概率矩阵M,初始推荐向量经过多次迭代,最后收敛于最终推荐向量。对最终推荐向量值进行归一化处理,便可到数据源的推荐可信度。
在本例中根据图2,数据源P1(生产者)的用户(消费者)分别是P2、P3、P4;然后我们考察数据源P2,数据源P2的消费者有2个,分别为P1和P3;同样的数据源P3的消费者是P1、P2、P4,数据源P4没有消费者。求得邻接矩阵G为:
求得转移概率矩阵M为
推荐向量计算公式为:
PRP1=x1=0.076647,PRmin=0.0375,PRmax=0.076647数据源P1的推荐可信值为:
由此可得,t时刻,有4个大数据数据源,其中数据源P1在t时刻的推荐可信度为1。
(4)综合可信度计算
在本例中DU所要查询的P1数据源不在其所属的TBP_X,需要通过TBP_A才能查询,因此综合可信度由间接可信度和推荐可信度两部分组成,
T=βTi(t)+γTr(t)
Ti=0.5214949,Tr=0.5214949,取β=0.5,γ=0.5
T=βTi+γTr=0.5×0.5214949+0.5×1=0.760747
综上可得,大数据需求商DU在TPB_X上查询到的P1可信度数值就为0.760747,大数据需求商设定为对0.7可信度以上的数据源进行信任,所以数据源P1对所述大数据需求商而言是可信的。
显然,本发明的上述实施例仅仅是为清楚地说明本发明技术方案所作的举例,而并非是对本发明的具体实施方式的限定。凡在本发明权利要求书的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (10)
1.一种大数据信任评估方法,其特征在于,所述方法包括:
通过信任收集器收集大数据提供商下的数据源的可信度并存储在信任值数据库;
获取大数据需求商通过信任评估代理发送的对特定数据源的可信度查询请求;
基于可信度查询请求查询信任值数据库是否存储有对特定数据源的可信度;
在信任值数据库未存储有待查询的特定数据源的可信度的情况下,对邻居信任处理代理发送查询请求;
接收由邻居信任代理反馈的可信度;
在信任值数据库存储有待查询的特定数据源的可信度的情况下,直接获取对特定数据源的可信度;
将获取到的可信度发布至大数据需求商的信任评估代理;
其中,所述邻居信任处理代理表示可信任的信任处理代理,信任处理代理之间通过生产消费关系建立邻居关系。
2.如权利要求1所述的一种大数据信任评估方法,其特征在于,所述通过信任收集器收集大数据提供商下的数据源的可信度并存储在信任值数据库包括:
在t时刻接收到的新的对直接管理数据源的可信评价;
将在t时刻接收到的新的对直接管理数据源的可信评价按直接管理数据源对应的评价属性存储至信任值数据库后,读取信任值数据库存储的直接管理数据源的评价属性及评价属性对应的可信评价;
基于在信任值数据库读取的直接管理数据源的评价属性及评价属性对应的可信评价对直接管理数据源的直接可信度进行计算;
删除原存储在信任值数据库的对直接管理数据源的直接可信度后将所述计算结果作为直接管理数据源的直接可信度替代存储至信任值数据库。
3.如权利要求2所述的一种大数据信任评估方法,其特征在于,所述基于在信任值数据库读取的直接管理数据源的评价属性及评价属性对应的可信评价对直接管理数据源的直接可信度进行计算包括;
基于在信任值数据库读取的对直接管理数据源的可信评价及对直接管理数据源的可信评价的评价属性获取对直接管理数据源的可信评价的评价属性对应的mass函数;
基于对直接管理数据源的可信评价的评价属性、对直接管理数据源的可信评价的评价属性对应的mass函数及对直接管理数据源的可信评价的评价属性对应的评价值对所述mass函数进行调整;
通过对调整后的mass函数进行证据合成并基于证据合成的结果对直接管理数据源的直接可信度进行计算;
其中,所述mass函数为直接管理数据源对应的基于D-S证据理论的识别框架的焦元的基础概率函数,所述评价属性用于确定所述直接管理数据源是否可信并具体包括数据规范性、数据项空值频率、数据到达率、数据源性能,所述对直接管理数据源的评价具体为对直接数据源的评价属性的评价,所述信任值数据库存储有至少四个评价属性及每个评价属性对应的至少两个mass函数;
其中,所述对直接管理数据源的可信评价包括数据源的客观属性及大数据需求商对数据源的主观评价。
4.如权利要求3所述的一种大数据信任评估方法,其特征在于,所述基于对直接管理数据源的可信评价的评价属性、对直接管理数据源的可信评价的评价属性对应的mass函数及对直接管理数据源的可信评价的评价属性对应的评价值对所述mass函数进行调整包括:
基于对直接管理数据源的可信评价的评价属性和对直接管理数据源的可信评价的评价属性对应的评价值获取每个评价属性的信息熵;
根据信息熵计算每个评价属性的指标权重;
通过每个评价属性的指标权重对直接管理数据源对应的mass函数进行调整。
5.如权利要求4所述的一种大数据信任评估方法,其特征在于,设Hj为第j个评价属性的信息熵,则所述信息熵为
其中,p为信任值数据库存储的所述直接管理数据源的被评价次数,aij为信任值数据库存储的对所述直接管理数据源的第i次评价中对第j个评价属性的评价值,vcpu为第i次评价时CPU利用率,vram为第i次评价时数据源所在服务器的内存总量,vuram为第i次评价时数据源所在服务器的内存使用量,vio为第i次评价时磁盘吞吐率,vnet为第i次评价时数据源所在服务器的网络带宽,vunet为第i次评价时数据源所在服务器已使用的网络带宽,n表示有n个用户参与评价,sl为第i次评价时第l个用户对第j个属性的主观评分,且sl∈[0,100],在fij=0时,令fijlnfij=0。
7.如权利要求6所述的一种大数据信任评估方法,其特征在于,设mj(A)为未调整过的mass函数,m′j(A)为mj(A)调整后的mass函数,则所述通过每个评价属性的指标权重对直接管理数据源对应的mass函数进行调整具体为:
U(mj)=ωt(j);
其中,Θ为D-S证据理论中的识别框架,A为所述识别框架中的焦元,所述mj(A)为焦元A对应的未调整的mass函数,所述m′j(A)为调整后的焦元A对应的mass函数,B为包含至少一个焦元的集合,在所述mj(A)由于不止一次的评价而导致mj(A)的取值无法确定的情况下,仅将最新的一个评价数据作为mj(A)来计算m′j(A),且:
所述m’ij、m”ij、m”’ij分别表示第i次评价的第j个评价属性为识别框架中焦元A对应的可信任/不可信/不确定的基础概率函数。
8.如权利要求7所述的一种大数据信任评估方法,其特征在于,所述通过对调整后的mass函数进行证据合成计算后输出直接管理数据源的直接可信度包括:
基于对调整后的mass函数获取归一化所需的K值;
基于所述K值、识别框架中的焦元及调整后的mass函数,计算每个评价属性的用于评价可信度的信任函数和似然函数;
基于信任函数和似然函数计算直接管理数据源的直接可信度;
其中,设Bel(A)为信任函数,Pl(A)为似然函数,对于信任函数和似然函数的定义为:
在识别框架Θ上基于mass函数的信任函数定义为:
所述在识别框架Θ上基于mass函数的似然函数定义为:
9.如权利要求8所述的一种大数据信任评估方法,其特征在于,所述方法还包括:
接收大数据需求商对特定数据源的综合可信度的获取请求;
基于对特定数据源的获取请求,计算特定数据源的推荐可信度并在信任数据库中查询结果;
在信任数据库未存储有大数据需求商所请求获取的特定数据源的直接可信度时,通过邻居信任处理代理的链接信息对信任传播网络内的其他信任处理代理进行遍历以获取遍历结果;
根据遍历结果计算特定数据源的间接可信度并根据特定数据源的间接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度;
在信任数据库存储有大数据需求商所请求获取的特定数据源的直接可信度时,根据特定数据源的直接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度;
其中,所述间接可信度是通过遍历获取的其他数据源所存储的直接可信度进行计算的,所述推荐可信度则表示特定数据源所处的大数据网络对特定数据源的评价,所述信任传播网络由相互之间存在邻居关系的至少两个信任处理代理组成。
10.如权利要求9所述的一种大数据信任评估方法,其特征在于,所述根据遍历结果计算特定数据源的间接可信度并根据特定数据源的间接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度包括;
根据遍历结果确认从其他信任处理代理处获取到的特定数据源的直接可信度及特定数据源的直接可信度的获取路径并根据特定数据源的直接可信度及特定数据源的直接可信度的获取路径计算特定数据源的间接可信度;
根据特定数据源的间接可信度和特定数据源的推荐可信度计算特定数据源的综合可信度;
其中,设在t时刻,所述所述综合可信度为T,直接可信度为Td(t),间接可信度为Ti(t),推荐可信度为Tr(t),则其计算方式为:
所述综合可信度为:
所述直接可信度通过可能性计算公式进行计算,具体为:
对于直接可信度Td(t)而言,命题A应为框架内的信任焦元{T},综上所述,直接可信度Td(t)的计算方式为:
其中,|{T}|=1,|{T,-T}|=2,|A|表示焦元A所包含的元素数量,|Θ|表示识别框架Θ所包含的元素数量,,所述识别框架Θ包括信任{T}、不信任{-T}、不确定{T,-T}这3个焦元,{-T}表示特定数据源为不可信任的,{T}表示特定数据源为可信任的,{T,-T}表示特定数据源为不确定是否可信任的;
所述间接可信度为:
其中,Px(t)表示信任收集器获取到特定数据源的直接可信度的第x条路径的衰减可信度,Txy表示第x条路径上第y个信任处理代理的信用传递的衰减程度,Txy(t)=axy,axy表示第x条路径上第y个信任处理代理的衰减系数,表示信任的聚合算法或表示算术平均,表示信任处理代理之间的直接可信度的传递;
所述推荐可信度为:
其中,设F表示待验证的特定数据源,PRF(t)表示t时刻数据源F在大数据生产消费关系网络中的排名值PR,Tr(t)是大数据数据源F的推荐值,且是数据源F排名值PRF(t)的归一化结果。PRmax(t)和PRmin(t)分别代表t时刻大数据生产消费关系网络中的最大排名值和最小排名值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010135840.4A CN111383076B (zh) | 2020-03-02 | 2020-03-02 | 一种大数据信任评估方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010135840.4A CN111383076B (zh) | 2020-03-02 | 2020-03-02 | 一种大数据信任评估方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111383076A true CN111383076A (zh) | 2020-07-07 |
CN111383076B CN111383076B (zh) | 2020-12-11 |
Family
ID=71218736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010135840.4A Active CN111383076B (zh) | 2020-03-02 | 2020-03-02 | 一种大数据信任评估方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111383076B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113034159A (zh) * | 2021-03-23 | 2021-06-25 | 上海万向区块链股份公司 | 一种基于区块链预言机技术的企业可信信评系统及方法 |
CN114357455A (zh) * | 2021-12-16 | 2022-04-15 | 国网河北省电力有限公司信息通信分公司 | 一种基于多维属性信任评估的信任方法 |
CN117688136A (zh) * | 2024-01-30 | 2024-03-12 | 广州敏行数字科技有限公司 | 一种基于人工智能的组合检索优化方法及系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102333307A (zh) * | 2011-09-28 | 2012-01-25 | 北京航空航天大学 | 一种基于主观信念的无线传感器网络信任评估方法 |
CN103124262A (zh) * | 2013-01-11 | 2013-05-29 | 中国传媒大学 | 一种新的基于多路径传播的信任值推荐方法 |
US20140058961A1 (en) * | 2008-10-01 | 2014-02-27 | RealAgile, Inc. | Predicting real estate and other transactions |
CN105550927A (zh) * | 2015-11-30 | 2016-05-04 | 吉林大学 | 一种银行信贷系统风险评估方法及装置 |
CN105760649A (zh) * | 2015-12-04 | 2016-07-13 | 华北电力大学(保定) | 一种面向大数据的可信度量方法 |
CN108924825A (zh) * | 2018-07-13 | 2018-11-30 | 山东大学 | 一种面向SDWSNs的高能效信任管理与可信路由方法 |
CN110300094A (zh) * | 2019-05-08 | 2019-10-01 | 中国人民解放军战略支援部队航天工程大学 | 一种数据节点可信评估方法、装置、设备及存储介质 |
US20190304578A1 (en) * | 2018-03-23 | 2019-10-03 | LunaPBC | Omic data aggregation with data quality valuation |
US20190354723A1 (en) * | 2018-05-16 | 2019-11-21 | Ebay, Inc. | Weighted source data secured on blockchains |
-
2020
- 2020-03-02 CN CN202010135840.4A patent/CN111383076B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140058961A1 (en) * | 2008-10-01 | 2014-02-27 | RealAgile, Inc. | Predicting real estate and other transactions |
CN102333307A (zh) * | 2011-09-28 | 2012-01-25 | 北京航空航天大学 | 一种基于主观信念的无线传感器网络信任评估方法 |
CN103124262A (zh) * | 2013-01-11 | 2013-05-29 | 中国传媒大学 | 一种新的基于多路径传播的信任值推荐方法 |
CN105550927A (zh) * | 2015-11-30 | 2016-05-04 | 吉林大学 | 一种银行信贷系统风险评估方法及装置 |
CN105760649A (zh) * | 2015-12-04 | 2016-07-13 | 华北电力大学(保定) | 一种面向大数据的可信度量方法 |
US20190304578A1 (en) * | 2018-03-23 | 2019-10-03 | LunaPBC | Omic data aggregation with data quality valuation |
US20190354723A1 (en) * | 2018-05-16 | 2019-11-21 | Ebay, Inc. | Weighted source data secured on blockchains |
CN108924825A (zh) * | 2018-07-13 | 2018-11-30 | 山东大学 | 一种面向SDWSNs的高能效信任管理与可信路由方法 |
CN110300094A (zh) * | 2019-05-08 | 2019-10-01 | 中国人民解放军战略支援部队航天工程大学 | 一种数据节点可信评估方法、装置、设备及存储介质 |
Non-Patent Citations (6)
Title |
---|
HAMZA BAQA.ETC: ""Quality of Information as an indicator of Trust in the Internet of Things"", 《2018 17TH IEEE INTERNATIONAL CONFERENCE ON TRUST, SECURITY AND PRIVACY IN COMPUTING AND COMMUNICATIONS/ 12TH IEEE INTERNATIONAL CONFERENCE ON BIG DATA SCIENCE AND ENGINEERING (TRUSTCOM/BIGDATASE)》 * |
于胜军: ""基于CPS应用环境下信任网络的构建与研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
刘飞: ""面向个性化云服务的用户行为信任模型研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
吴旭等: "" 基于D-S证据理论的多维度信任评估方法"", 《计算机与数字工程》 * |
李俊瑶: ""无线网络中基于信任的分布式协作态势感知研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
陈书全: ""数字权利传播中的小世界网络信任评估方法研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113034159A (zh) * | 2021-03-23 | 2021-06-25 | 上海万向区块链股份公司 | 一种基于区块链预言机技术的企业可信信评系统及方法 |
CN114357455A (zh) * | 2021-12-16 | 2022-04-15 | 国网河北省电力有限公司信息通信分公司 | 一种基于多维属性信任评估的信任方法 |
CN114357455B (zh) * | 2021-12-16 | 2023-12-26 | 国网河北省电力有限公司信息通信分公司 | 一种基于多维属性信任评估的信任方法 |
CN117688136A (zh) * | 2024-01-30 | 2024-03-12 | 广州敏行数字科技有限公司 | 一种基于人工智能的组合检索优化方法及系统 |
CN117688136B (zh) * | 2024-01-30 | 2024-04-30 | 广州敏行数字科技有限公司 | 一种基于人工智能的组合检索优化方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111383076B (zh) | 2020-12-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111368315B (zh) | 基于分布式协同信任管理框架的大数据信任管理系统 | |
CN111383076B (zh) | 一种大数据信任评估方法 | |
US10997142B2 (en) | Cognitive blockchain automation and management | |
US20240223357A1 (en) | Separation of accounting node subnetwork and service node subnetwork | |
US10650455B2 (en) | Methods, software, and systems for over-the-counter trading | |
US11017329B2 (en) | Dampening token allocations based on non-organic subscriber behaviors | |
Huynh et al. | An integrated trust and reputation model for open multi-agent systems | |
WO2022020772A1 (en) | Non-fungible, cryptographic tokens for tracking trees | |
CN113508412A (zh) | 基于铸造和销毁区块链的反馈通信协议 | |
US20160284020A1 (en) | System And Method for a Peer to Peer Exchange of Consumer Information | |
Ciardiello et al. | A comparison between TOPSIS and SAW methods | |
US9413760B2 (en) | System and method for data quality analysis between untrusted parties | |
US20200265514A1 (en) | Recording medium recording communication program and communication apparatus | |
WO2002052382A2 (en) | Method and system for sharing investor information over an electronic network | |
JP2023524618A (ja) | スマートコントラクト | |
CN111524001B (zh) | 用户授信额度的预测方法、装置和相关设备 | |
US20230118380A1 (en) | Systems And Methods For Monitoring, Analyzing and Regulating Blockchain Transactions | |
Khokhar et al. | Enabling secure trustworthiness assessment and privacy protection in integrating data for trading person-specific information | |
Meralli | Privacy-preserving analytics for the securitization market: a zero-knowledge distributed ledger technology application | |
CN116414875A (zh) | 数据处理装置和数据处理方法 | |
Stahl et al. | Name your own price on data marketplaces | |
US11334925B1 (en) | Normalization and secure storage of asset valuation information | |
Shu et al. | Enhancing trust transfer in supply chain finance: a blockchain-based transitive trust model | |
WO2022072626A1 (en) | Dampening token allocations based on non-organic subscriber behaviors | |
Westenbroek et al. | Statistical estimation with strategic data sources in competitive settings |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |