CN113159866A - 一种大数据环境下网络用户信任度评估模型构建方法 - Google Patents
一种大数据环境下网络用户信任度评估模型构建方法 Download PDFInfo
- Publication number
- CN113159866A CN113159866A CN202110521368.2A CN202110521368A CN113159866A CN 113159866 A CN113159866 A CN 113159866A CN 202110521368 A CN202110521368 A CN 202110521368A CN 113159866 A CN113159866 A CN 113159866A
- Authority
- CN
- China
- Prior art keywords
- evidence
- network
- trust
- evidences
- transaction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000013210 evaluation model Methods 0.000 title claims abstract description 21
- 230000000694 effects Effects 0.000 claims abstract description 21
- 238000011156 evaluation Methods 0.000 claims abstract description 21
- 238000005315 distribution function Methods 0.000 claims description 68
- 230000006870 function Effects 0.000 claims description 47
- 238000004422 calculation algorithm Methods 0.000 claims description 29
- 238000007781 pre-processing Methods 0.000 claims description 29
- 230000015572 biosynthetic process Effects 0.000 claims description 15
- 238000003786 synthesis reaction Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000012550 audit Methods 0.000 claims description 10
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000010606 normalization Methods 0.000 claims description 6
- 238000005516 engineering process Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 4
- 230000009471 action Effects 0.000 claims description 3
- 238000010276 construction Methods 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000013507 mapping Methods 0.000 claims description 3
- 239000000126 substance Substances 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 2
- 230000006399 behavior Effects 0.000 description 37
- 238000007726 management method Methods 0.000 description 7
- 238000013461 design Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000013475 authorization Methods 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000001308 synthesis method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/18—File system types
- G06F16/182—Distributed file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Marketing (AREA)
- Economics (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- General Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Computing Systems (AREA)
- Game Theory and Decision Science (AREA)
- Computer And Data Communications (AREA)
Abstract
本发明涉及一种大数据环境下网络用户信任度评估模型构建方法,涉及信息安全技术领域。本发明基于Hadoop并行计算平台构建信任度评估模型,能够有效应对大规模网络数据;将电子商务交易数据、网络社区活动数据和网络操作行为数据作为证据来源,扩展了证据源,突破了传统信任度评估模型只依据交易反馈证据进行信任度评估造成证据不完备的缺陷;将改进的D‑S证据理论与Hadoop并行计算平台相结合,很好地解决了网络证据间冲突问题,能够快速计算网络用户信任度。
Description
技术领域
本发明涉及信息安全技术领域,具体涉及一种大数据环境下网络用户信任度评估模型构建方法。
背景技术
目前,基于开放互联网络环境下的电子商务、云计算、普适计算、移动计算、物联网等新型网络应用逐渐成为一种主流应用模式。网络用户的数量也急剧增加,同一用户享受多个网络服务提供商提供服务的情况已成为常态。在这种新型网络模式中,网络服务提供商所处的地域、管理模式、安全管控要求、安全策略可能完全不同。传统安全管控手段和用户准入机制,例如(ACL)访问控制列表,或者PKI公钥、密钥方式,在面对数量庞大的网络用户时显得力不从心,暴露出许多问题,不能同时满足不同区域、不同管理体系下网络服务提供商的差异需求。因此,如何在开放的互联网中建立和维护网络用户与众多服务提供商之间的信任关系,并以此实现它们之间的访问授权,是当前各种新型网络应用所面临的共同问题。
“信任管理”和“信任协商”等思想的出现,为开放网络环境下信任度评估和用户准入问题,提供了新的解决思路。网络用户信任度评估是网络信任管理中最基础的内容,也是最重要的内容。能否寻找到一种安全,快捷,普适性强的网络用户信任度评估方法,建立网络用户与不同管理域、不同体系中服务提供商的信任关系是解决开放网络环境下信任问题的重点。近年来,国内外许多学者对网络用户信任度评估问题做出了研究,也提出了不少信任度评估模型,当纵观这些评价模型方法,这些模型中存在以下三点不足:
(1)目前的网络用户信任度评估模型中仅将网络用户的交易数据和交易反馈信息作为评估证据,证据来源单一,忽视了其他证据来源。事实上,网络主体可能为了自身利益,在网络交易进行前、中、后实施一些网络操作行为,而这些操作行为可能会危害网络安全或者破坏电子商务交易的公平性,是不可信行为,而这种不可信行为在交易反馈信息中无法体现。其次,目前信任评估模型没能实际解决共谋及恶意评价等行为造成的证据不可靠问题,共谋及恶意评价等行为的存在,可能直接导致信任评估结果的错误。
(2)网络证据间冲突性在网络用户信任度评估中普遍存在,当前信任度评估模型在面对冲突证据时处理方法不够合理,许多模型存在回避冲突证据的现象,有些模型虽然提出了一些方法来应对冲突证据,但是依然存在不足,比如有些模型不能明确阐述相关参数的物理意义、有些模型对评估所用数据有很苛刻的要求等等。
(3)现有信任度评估模型面对大规模网络证据数据时的伸缩性不够理想。现有评估模型在设计时未考虑面对大规模网络证据的情况,随着互联网规模的扩大和业务的发展,用户数量和产品种类越来越多,网络证据规模也爆炸式地增长,现有单机式架构的信任评估模型处理能力有限,存在计算效率低的问题。
发明内容
(一)要解决的技术问题
本发明要解决的技术问题是:如何设计一种大数据环境下网络用户信任度评估模型构建方法。
(二)技术方案
为了解决上述技术问题,本发明提供了一种大数据环境下网络用户信任度评估模型构建方法,包括以下步骤:
步骤一、将网络中采集到的网络日志上传至Hadoop平台;
步骤二、通过Hadoop集群中的HDFS存储框架将日志文件分段后发送给各个计算节点;
步骤三、各计算节点通过HADOOP架构中的MAP函数,选取日志中的用户信息及特定用户行为信息,包括网络交易信息、网络社区活动信息和网络攻击信息,组成<key,value>键值对,作为网络证据;
步骤四、通过调用Hadoop平台中的Shuffing函数整理网络证据,按照用户名将网络证据归类后发送到Hadoop平台中Reduce端;
步骤五、Reduce端收到map函数信息后,基于设计的网络证据归一化处理算法将网络证据转化为带权值的基本信任分配函数,然后基于改进D-S证据理论算法计算网络用户信任度;
步骤六、将网络用户信任度计算结果存储在HDFS上。
优选地,所述网络证据的定义包括:
电子商务交易证据的定义:
电子商务交易证据是将网络主体参与在线交易所产生的交易记录作为证据,网络主体包括商品买家和卖家,将电子商务交易证据的结构定义为:
电子商务交易证据(证据类型、交易时间、交易金额、交易结果、交易评价);
网络社区活动类证据的定义:
网络社区活动也是一种网络行为,网络主体在网络社区中的表现,直接体现其信任度,网络社区活动包括论坛发帖、微博互动、在线问答、参与公众号;将网络社区活动证据的结构定义如下:
网络社区证据(证据类型、时间、精华、点击量、回复量、禁言、删帖)对
一条网络社区活动证据的产生,首先要分辨网络主体的身份,若为发帖者,当帖子被设为精华、点击量超过一个阈值、回复量超过一个阈值、删帖、禁言时、分别产生一条正面或附件的证据,当网络主体身份为浏览者时,仅仅在禁言时,产生一条负面证据,负面证据的权值根据所在帖子点击量和回复量进行相应的配置;
网络攻击行为证据的定义:
网络攻击行为是指在网络技术层面上对网站或其他网络主体进行入侵或破坏的行为;基于安全审计技术来分析和发现网络攻击行为证据,将安全审计结果中网络主体的入侵或攻击数据作为网络攻击证据,将网络攻击行为证据的结构定义如下:
网络攻击证据(证据类型、时间)。
优选地,步骤五中设计的改进D-S证据理论算法内容包括:
定义识别框架:
定义,假定现有一个命题需要判定,对于该命题判定结果的所有可能答案的完备集合用Θ表示,且Θ中的所有元素都是两两互斥的,其值是数值或非数值,且命题的答案只能取Θ中的一个元素,则称Θ为该问题的识别框架,识别框架Θ表示为:
Θ={θ1,θ2,θ3,...,θi,...,θn}
其中,θi是Θ中的一个元素,n是Θ中元素的个数,i∈[1,n],由集合Θ所有子集组成的集合称为Θ的幂集,记作2Θ,表示为:
定义基本信任分配函数:
定义,如果函数m满足下列条件的映射:
则称m是2Θ上的基本信任分配函数;
设A、B为不同的命题,当有证据支持一命题A时,证据对命题A赋予的基本信任分配函数m(A)>0,此时称A为焦元,如果焦元A中只有一个元素,A为单元焦元,如果焦元A中包含F个元素,则称A为F元焦元,A中包含元素的个数,称为焦元的基,若A为多元焦元,基本信任分配函数的取值与焦元中元素的个数无关,即基本信任分配函数m(A,B)与m(A)或m(B)没有任何大小关系,m(A)可能大于m(A,B),如果焦元A=Θ.则m(A)表示对全集的信任程度,但不能表示对Θ中任何一子集的信任程度;
定义信任函数:
定义,信任函数Bel(A)满足:
如果m(A)>0,则称A为信任函数Bel的焦元,表示全部证据对A发生的信任值;
定义似然函数
定义,如果对识别框架Θ的任一子集A有:
则Pl(A)定义为A的似然函数,似然函数也被称为下限函数,表示所有证据对命题A为真的怀疑值,似然函数有如下关系:
A的不确定性由u(A)=Pl(A)-Bel(A)决定;
定义D-S证据合成规则:
定义,假设m1,m2分别是识别框架Θ下两个证据E1,E2的基本信任分配函数,焦元分别为Ai,Aj,则D-S证据合成规则为:
公式(1)中:
由公式(1)知道,D-S证据合成规则实质上是对基本信任分配函数做正交运算,记为m=m1⊕m2,如果K<1不成立,此时基本信任分配函数中存在冲突,那么D-S证据理论失效;
设计改进D-S证据理论算法:
基于曼哈顿算法计算证据间相似度,处理证据间冲突,设计一种适用于网络证据融合的改进冲突处理算法:
定义,平面空间中两点i,j坐标分别为(X1,Y1),(X2,Y2),则i,j两点间的曼哈顿距离为:
dij=|X1-X2|+|Y1-Y2|
多维空间中两向量的曼哈顿距离表示为:
基于曼哈顿距离定义网络证据间相似度:
假定识别框架Θ下的两个网络证据E1,E2其相应的基本信任分配函数为m1,m2,焦元分别为Ai,Bj,则证据E1,E2间的相似系数表示为:
d12表示证据E1,E2的相似程度,d12=1表示两证据完全相同,d12=0时表示证据完全冲突,d12∈(0,1),由于基本信任分配函数m1,m2∈(0,1),比较证据中两两证据的相似度,如果一条证据和其他证据的相似度均低于预设阈值,则这条证据为冲突证据,将被设置低于预设阈值的权重;
则改进的D-S证据理论算法包括以下步骤:
按照每条证据的权重crdi对所有证据进行加权平均,得到修正后的证据ma;
对修正后的证据ma进行n-1次D-S证据理论计算,得到网络用户信任度。
优选地,步骤五中设计的网络证据归一化处理算法包括以下步骤:
首先对网络证据进行预处理;
其次,基于预处理后的网络证据进行基本信任分配函数的构造和权值分配。
优选地,对网络证据进行预处理包括对电子商务交易证据的预处理:
对于任意一条电子商务交易证据进行预处理后的数据结构为
Evi(Cla,Ide,T,Val,Res,Ase),并且规定:证据类型变量Cla=1;网络主体身份变量Ide;时间变量T在线交易发生的时间;交易价值变量Val;交易结果变量,成功,失败;交易评价变量Ase,记录交易评价。
优选地,对网络证据进行预处理包括对网络社区类业务反馈证据的预处理:
对于任意一条网络社区类业务反馈证据进行预处理后的数据结构为:Evi(Cla,Eve,T,No,Pos),并且规定:证据类型变量Cla=2;事件变量{1,2,3,4,5},1表明当前证据指向的网络主体的主页被浏览,2表明原发贴被浏览,3表明被管理员删帖,4表明被管理员禁止发帖,5设置精华帖;时间变量T;No变量表示主页或发帖被浏览的次数;Pos变量表示帖子回复的数量。
优选地,对网络证据进行预处理包括对网络攻击行为证据的预处理:
对于任意一条网络攻击行为证据进行预处理后的数据结构为
Evi(Cla,T),并且规定:证据类型变量Cla=3;时间变量T,行为发生的时间。
优选地,进行基本信任分配函数的构造和权值分配包含以下步骤:
首先构造基本形式的基本信任分配函数:
对于一个网络用户用存在“信任”和“不信任”两种评价,“信任”使用t表示,“不信任”使用d表示,则网络用户信用情况的识别框架定义为:
Θ={信任,不信任},简写为Θ={t,d}
识别框架为:2Θ={φ,{t},{d},Θ}
对于一条网络证据,由基本信任分配函数的定义知道m{φ}=0;m{t}表达了本条网络证据对该用户判定为信任的支持程度;m{d}表达了本条网络证据对该用户判定为不信任的支持程度;m{Θ}表达了本条网络证据对无法判定该用户可信度的支持程度;
因此,构造基本信任分配函数的基本形式为:
m{T,D,Θ},其中,T={t},D={d},T+D+Θ=1
其次针对不同网络证据设计带权重基本信任分配函数。
优选地,针对不同网络证据设计带权重基本信任分配函数如下:
表1电子商务类证据带权基本信任分配函数
表2网络社区类证据带权基本信任分配函数
网络攻击行为证据的带权重基本信任分配函数为:m(0,1,0)。
本发明还提供了一种所述方法在信息安全技术领域中的应用。
(三)有益效果
本发明基于Hadoop并行计算平台构建信任度评估模型,能够有效应对大规模网络数据;将电子商务交易数据、网络社区活动数据和网络操作行为数据作为证据来源,扩展了证据源,突破了传统信任度评估模型只依据交易反馈证据进行信任度评估造成证据不完备的缺陷;将改进的D-S证据理论与Hadoop并行计算平台相结合,很好地解决了网络证据间冲突问题,能够快速计算网络用户信任度。
附图说明
图1为本发明的基于HADOOP的网络用户信任度计算模型结构图。
具体实施方式
为使本发明的目的、内容、和优点更加清楚,下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。
本发明提供的一种大数据环境下网络用户信任度评估模型构建方法流程为:
步骤1、定义与拓展网络证据,内容包括:
1.1电子商务交易证据的定义:
电子商务交易反馈证据是将网络主体参与在线交易所产生的交易记录作为证据。网络主体包括商品买家和卖家。电子商务交易反馈证据是最普遍的一种网络证据,目前大多数信任度评估模型都基于该类证据。究其原因,电子商务交易在网络活动中所占的比重较大;电子商务交易反馈证据可以较直接地反应网络主体的信任度,而且易于获取。
本发明将电子商务交易证据的结构定义为:
电子商务交易证据(证据类型、交易时间、交易金额、交易结果、交易评价)
1.2网络社区活动类证据的定义:
网络社区活动也是一种重要的网络行为,网络主体在网络社区中的表现,可以直接体现其信任度。现阶段网络社区活动主要包括,论坛发帖、微博互动、在线问答、参与公众号等等。本发明将网络社区活动证据的结构定义如下:
网络社区证据(证据类型、时间、精华、点击量、回复量、禁言、删帖)对
一条网络社区活动证据的产生,首先要分辨网络主体的身份,若为发帖者,当帖子被设为精华、点击量超过一个阈值、回复量超过一个阈值、删帖、禁言时、分别产生一条正面或附件的证据。当网络主体身份为浏览者时,仅仅在禁言时,产生一条负面证据,负面证据的权值根据所在帖子点击量和回复量进行相应的配置。
1.3网络攻击行为证据的定义:
网络攻击行为是指在网络技术层面上对网站或其他网络主体进行入侵或破坏的行为。诸如sniffer嗅探攻击、0day漏洞、ARP欺骗、DNS欺骗等。本发明关注于网络主体过去的行为,而不像防火墙、入侵检测系统那样对网络进行实时保护,所以本发明基于安全审计技术来分析和发现网络攻击行为证据。安全审计系统可以对网络中各种设备和系统进行集中的审计,发现入侵行为及安全隐患。本发明将安全审计结果中网络主体的入侵或攻击数据作为网络攻击证据。本发明将网络攻击行为证据的结构定义如下:
网络攻击证据(证据类型、时间)
网络攻击行为是一种严重的不诚信行为,不论网络主体出于何种目的进行攻击都应该大幅降低其信任度。一旦在安全审计数据中发现网络主体存在入侵或攻击行为,便产生一条网络攻击证据。
步骤2、设计改进D-S证据理论算法用于处理网络证据冲突,内容包括:
2.1D-S证据理论:
D-S证据理论中使用识别框架、基本信任分配函数、焦元、众信度函数、似然函数等概念来描述不确定性,将证据转化为基本信任分配函数,并通过合成规则对基本信任分配函数进行融合,实现对命题的判定。
2.1.1识别框架
定义,假定现有一个命题需要判定,对于该命题判定结果的所有可能答案的完备集合用Θ表示,且Θ中的所有元素都是两两互斥的,其值可以是数值也可以是非数值,且命题的答案只能取Θ中的某一个元素,则称Θ为该问题的识别框架,识别框架Θ可表示为:
Θ={θ1,θ2,θ3,...,θi,...,θn}
其中,θi是Θ中的一个元素,n是Θ中元素的个数,i∈[1,n],由集合Θ所有子集组成的集合称为Θ的幂集,记作2Θ,表示为:
2.1.2基本信任分配函数
定义,如果函数m满足下列条件的映射:
则称m是2Θ上的基本信任分配函数;
设A、B为不同的命题,当有证据支持某一命题A时,证据对命题A赋予的基本信任分配函数m(A)>0,此时称A为焦元,如果焦元A中只有一个元素,A为单元焦元,如果焦元A中包含F个元素,则称A为F元焦元,A中包含元素的个数,称为焦元的基,若A为多元焦元,基本信任分配函数的取值与焦元中元素的个数无关,即基本信任分配函数m(A,B)与m(A)或m(B)没有任何大小关系,m(A)可能大于m(A,B),如果焦元A=Θ.则m(A)表示对全集的信任程度,但不能表示对Θ中任何一子集的信任程度;
2.1.3信任函数
定义,信任函数Bel(A)满足:
如果m(A)>0,则称A为信任函数Bel的焦元,表示全部证据对A发生的信任值。
2.1.4似然函数
定义,如果对识别框架Θ的任一子集A有:
则Pl(A)定义为A的似然函数,似然函数也被称为下限函数,表示所有证据对命题A为真的怀疑值,似然函数有如下关系:
A的不确定性由:
u(A)=Pl(A)-Bel(A)决定;
2.1.5D-S证据合成规则
在D-S证据理论中使用信任函数表示对命题的信任程度,使用似然函数表示对命题的怀疑程度,信任函数和似然函数都是通过基本信任分配函数定义的,由此看出基本信任分配函数是命题判断所依据的基础。在命题判定过程中,首先将证据转化为相应的基本信任分配函数,由于证据间存在差异,转化得到的基本信任分配函数也不完全相同,为了对命题进行判定,需要将两个或多个不同的基本信任分配函数融合成新的信任函数或似然函数,因此学者Dempster提出了一种基于正交和运算的合成方法,该方法被称为Dempster-Shafer证据合成规则,简称为D-S证据合成规则。
两个证据的合成:
定义,假设m1,m2分别是识别框架Θ下两个证据E1,E2的基本信任分配函数,焦元分别为Ai,Aj,则D-S证据合成规则为:
公式(1)中:
2.2改进D-S证据理论算法:
由于证据间冲突的存在,D-S证据理论在处理高冲突证据时会失效。此时D-S证据理论中的冲突系数K→1,得到的信任度融合结果往往与实际情况相悖。针对D-S证据理论在面对冲突证据时出现的问题,本发明基于曼哈顿算法计算证据间相似度,处理证据间冲突,设计一套适用于网络证据融合的改进冲突处理算法。由于网络用户数量巨大,本发明改进的D-S证据理论算法在保证准确性的前提下尽可能降低算法的时间复杂度以保证高效计算。
定义,平面空间中两点i,j坐标分别为(X1,Y1),(X2,Y2),则i,j两点间的曼哈顿距离为:
dij=|X1-X2|+|Y1-Y2|
多维空间中两向量的曼哈顿距离可表示为:
基于曼哈顿距离定义网络证据间相似度:
假定识别框架Θ下的两个网络证据E1,E2其相应的基本信任分配函数为m1,m2,焦元分别为Ai,Bj,则证据E1,E2间的相似系数可以表示为:
d12表示证据E1,E2的相似程度,d12=1表示两证据完全相同,d12=0时表示证据完全冲突,d12∈(0,1).由于基本信任分配函数m1,m2∈(0,1),从公式中可以看出m1(Ai)-m2(Aj)越小,证据间的相似度d12越大,比较证据中两两证据的相似度,如果一条证据和其他证据的相似度均低于预设阈值,则这条证据为冲突证据,将被设置低于预设阈值的权重;
改进的D-S证据理论算法步骤如下:
3.按照每条证据的权重crdi对所有证据进行加权平均,得到修正后的证据ma;
4.对修正后的证据ma进行n-1次D-S证据理论计算(利用上述的D-S证据合成规则公式(1)计算),得到网络用户信任度。
本发明改进的D-S证据合成规则基于曼哈顿距离实现,能够有效处理K值冲突,算法中去除了复杂的乘方和开方运算,使用减法运算证据间距离,降低了算法的时间复杂度低。算法最后使用D-S证据理论计算,所以满足极化性,在处理网络证据时能够保证用户信任度增长的一致性。
步骤3、设计网络证据归一化处理算法,内容包括:
3.1网络证据的预处理
从不同证据源获得的证据存在不同的表达方式,电子商务证据为网站日志,网络社区证据为自然语言和网络日志相结合的数据结构,网络操作行为证据数据多为审计日志文件。对证据进行预处理就是将不同结构的证据转变为用数学语言表达的可以直接参与计算的形式。
3.1.1电子商务交易证据的预处理
对于任意一条电子商务交易证据进行预处理后的数据结构为
Evi(Cla,Ide,T,Val,Res,Ase),并且规定:证据类型变量Cla=1;网络主体身份变量Ide;时间变量T在线交易发生的时间;交易价值变量Val;交易结果变量,成功,失败;交易评价变量Ase,记录交易评价。
3.1.2网络社区类业务反馈证据的预处理
对于任意一条网络社区类业务反馈证据进行预处理后的数据结构为:Evi(Cla,Eve,T,No,Pos),并且规定:证据类型变量Cla=2;事件变量{1,2,3,4,5},1表明当前证据指向的网络主体的主页被浏览,2表明原发贴被浏览,3表明被管理员删帖,4表明被管理员禁止发帖,5设置精华帖;时间变量T;No变量表示主页或发帖被浏览的次数;Pos变量表示帖子回复的数量。
3.1.3网络攻击行为证据的预处理
对于任意一条网络攻击行为证据进行预处理后的数据结构为
Evi(Cla,T),并且规定:证据类型变量Cla=3;时间变量T,行为发生的时间。
3.2基本信任分配函数的构造和权值分配
3.2.1基本信任分配函数的构造
原始证据进行预处理后得到统一格式的网络证据,再将网络证据对应转化为基本信任分配函数后进行计算,对于一个网络用户用存在“信任”和“不信任”两种评价。“信任”使用t表示,“不信任”使用d表示,则网络用户信用情况的识别框架可以定义为:
Θ={信任,不信任},简写为Θ={t,d}
识别框架为:2Θ={φ,{t},{d},Θ}
对于一条网络证据,由基本信任分配函数的定义可知m{φ}=0;m{t}表达了本条证据对该用户判定为信任的支持程度;m{d}表达了本条证据对该用户判定为不信任的支持程度;m{Θ}表达了本条证据对无法判定该用户可信度的支持程度。
因此,本发明构造的基本信任分配函数的基本形式为:
m{T,D,Θ},其中,T={t},D={d},T+D+Θ=1
3.2.2构造带权重的基本信任分配函数
不同类型的网络证据和同一类型不同属性的网络证据对网络用户的信任度影响程度不同,应根据网络证据的不同类型和不同属性为其赋予一个合理的权重。合理的权重能够使信用度评价更准确,获得更高的用户区分度,证据权重的设计应该根据用户数量,网络安全的侧重点加以区别;本发明针对网络证据的带权重基本信任分配函数设计如下:
电子商务交易证据的带权重基本信任分配函数:
表1电子商务类证据带权基本信任分配函数网络社区活动类证据的带权重基本信任分配函数:
表2网络社区类证据带权基本信任分配函数
网络攻击行为证据的带权重基本信任分配函数:本发明只记录具有危害性的网络攻击行为,所以网络攻击行为证据的带权重基本信任分配函数为:m(0,1,0)。
步骤4、构建基于HADOOP平台的网络用户信用度评价模型,内容如下:
Hadoop是目前成熟的并行计算平台,其存储框架被命名为HDFS,计算框架被命名为Map Reduce。本发明获取的网络证据是通过采集网络日志获得,随着网络规模的扩大,服务的增加,用户的增长,网络日志文件非常庞大。日志文件甚至会达到TB级别的。基于传统的单机关系数据库在归一化处理这些日志文件时显得力不从心,运算时间长,难以满足要求。为了提高效率,本发明将改进的D-S证据理论算法与HADOOP并行计算平台相结合,快速处理海量日志文件,并计算网络用户信用度。计算模型如图1所示,构建模型的步骤包括:
步骤一、将网络中采集到的网络日志上传至Hadoop平台;
步骤二、通过Hadoop集群中的HDFS存储框架将日志文件分段后发送给各个计算节点;
步骤三、各计算节点通过HADOOP架构中的MAP函数,选取日志中的用户信息及特定用户行为信息,包括网络交易信息、网络社区活动信息和网络攻击信息,组成<key,value>键值对,作为网络证据;
步骤四、通过调用Hadoop平台中的Shuffing函数整理网络证据,按照用户名将网络证据归类后发送到Hadoop平台中Reduce端;
步骤五、Reduce端收到map函数信息后,基于步骤3设计的网络证据归一化处理算法将网络证据转化为带权值的基本信任分配函数,然后基于步骤2设计的改进D-S证据理论计算网络用户信任度;
步骤六、将网络用户信任度计算结果存储在HDFS上。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
Claims (10)
1.一种大数据环境下网络用户信任度评估模型构建方法,其特征在于,包括以下步骤:
步骤一、将网络中采集到的网络日志上传至Hadoop平台;
步骤二、通过Hadoop集群中的HDFS存储框架将日志文件分段后发送给各个计算节点;
步骤三、各计算节点通过HADOOP架构中的MAP函数,选取日志中的用户信息及特定用户行为信息,包括网络交易信息、网络社区活动信息和网络攻击信息,组成<key,value>键值对,作为网络证据;
步骤四、通过调用Hadoop平台中的Shuffing函数整理网络证据,按照用户名将网络证据归类后发送到Hadoop平台中Reduce端;
步骤五、Reduce端收到map函数信息后,基于设计的网络证据归一化处理算法将网络证据转化为带权值的基本信任分配函数,然后基于改进D-S证据理论算法计算网络用户信任度;
步骤六、将网络用户信任度计算结果存储在HDFS上。
2.如权利要求1所述的方法,其特征在于,所述网络证据的定义包括:
电子商务交易证据的定义:
电子商务交易证据是将网络主体参与在线交易所产生的交易记录作为证据,网络主体包括商品买家和卖家,将电子商务交易证据的结构定义为:
电子商务交易证据(证据类型、交易时间、交易金额、交易结果、交易评价);
网络社区活动类证据的定义:
网络社区活动也是一种网络行为,网络主体在网络社区中的表现,直接体现其信任度,网络社区活动包括论坛发帖、微博互动、在线问答、参与公众号;将网络社区活动证据的结构定义如下:
网络社区证据(证据类型、时间、精华、点击量、回复量、禁言、删帖)对
一条网络社区活动证据的产生,首先要分辨网络主体的身份,若为发帖者,当帖子被设为精华、点击量超过一个阈值、回复量超过一个阈值、删帖、禁言时、分别产生一条正面或附件的证据,当网络主体身份为浏览者时,仅仅在禁言时,产生一条负面证据,负面证据的权值根据所在帖子点击量和回复量进行相应的配置;
网络攻击行为证据的定义:
网络攻击行为是指在网络技术层面上对网站或其他网络主体进行入侵或破坏的行为;基于安全审计技术来分析和发现网络攻击行为证据,将安全审计结果中网络主体的入侵或攻击数据作为网络攻击证据,将网络攻击行为证据的结构定义如下:
网络攻击证据(证据类型、时间)。
3.如权利要求2所述的方法,其特征在于,步骤五中设计的改进D-S证据理论算法内容包括:
定义识别框架:
定义,假定现有一个命题需要判定,对于该命题判定结果的所有可能答案的完备集合用Θ表示,且Θ中的所有元素都是两两互斥的,其值是数值或非数值,且命题的答案只能取Θ中的一个元素,则称Θ为该问题的识别框架,识别框架Θ表示为:
Θ={θ1,θ2,θ3,...,θi,...,θn}
其中,θi是Θ中的一个元素,n是Θ中元素的个数,i∈[1,n],由集合Θ所有子集组成的集合称为Θ的幂集,记作2Θ,表示为:
定义基本信任分配函数:
定义,如果函数m满足下列条件的映射:
则称m是2Θ上的基本信任分配函数;
设A、B为不同的命题,当有证据支持一命题A时,证据对命题A赋予的基本信任分配函数m(A)>0,此时称A为焦元,如果焦元A中只有一个元素,A为单元焦元,如果焦元A中包含F个元素,则称A为F元焦元,A中包含元素的个数,称为焦元的基,若A为多元焦元,基本信任分配函数的取值与焦元中元素的个数无关,即基本信任分配函数m(A,B)与m(A)或m(B)没有任何大小关系,m(A)可能大于m(A,B),如果焦元A=Θ.则m(A)表示对全集的信任程度,但不能表示对Θ中任何一子集的信任程度;
定义信任函数:
定义,信任函数Bel(A)满足:
如果m(A)>0,则称A为信任函数Bel的焦元,表示全部证据对A发生的信任值;
定义似然函数
定义,如果对识别框架Θ的任一子集A有:
则Pl(A)定义为A的似然函数,似然函数也被称为下限函数,表示所有证据对命题A为真的怀疑值,似然函数有如下关系:
A的不确定性由u(A)=Pl(A)-Bel(A)决定;
定义D-S证据合成规则:
定义,假设m1,m2分别是识别框架Θ下两个证据E1,E2的基本信任分配函数,焦元分别为Ai,Aj,则D-S证据合成规则为:
公式(1)中:
设计改进D-S证据理论算法:
基于曼哈顿算法计算证据间相似度,处理证据间冲突,设计一种适用于网络证据融合的改进冲突处理算法:
定义,平面空间中两点i,j坐标分别为(X1,Y1),(X2,Y2),则i,j两点间的曼哈顿距离为:
dij=|X1-X2|+|Y1-Y2|
多维空间中两向量的曼哈顿距离表示为:
基于曼哈顿距离定义网络证据间相似度:
假定识别框架Θ下的两个网络证据E1,E2其相应的基本信任分配函数为m1,m2,焦元分别为Ai,Bj,则证据E1,E2间的相似系数表示为:
d12表示证据E1,E2的相似程度,d12=1表示两证据完全相同,d12=0时表示证据完全冲突,d12∈(0,1),由于基本信任分配函数m1,m2∈(0,1),比较证据中两两证据的相似度,如果一条证据和其他证据的相似度均低于预设阈值,则这条证据为冲突证据,将被设置低于预设阈值的权重;
则改进的D-S证据理论算法包括以下步骤:
按照每条证据的权重crdi对所有证据进行加权平均,得到修正后的证据ma;
对修正后的证据ma进行n-1次D-S证据理论计算,得到网络用户信任度。
4.如权利要求3所述的方法,其特征在于,步骤五中设计的网络证据归一化处理算法包括以下步骤:
首先对网络证据进行预处理;
其次,基于预处理后的网络证据进行基本信任分配函数的构造和权值分配。
5.如权利要求4所述的方法,其特征在于,对网络证据进行预处理包括对电子商务交易证据的预处理:
对于任意一条电子商务交易证据进行预处理后的数据结构为
Evi(Cla,Ide,T,Val,Res,Ase),并且规定:证据类型变量Cla=1;网络主体身份变量Ide;时间变量T在线交易发生的时间;交易价值变量Val;交易结果变量,成功,失败;交易评价变量Ase,记录交易评价。
6.如权利要求4所述的方法,其特征在于,对网络证据进行预处理包括对网络社区类业务反馈证据的预处理:
对于任意一条网络社区类业务反馈证据进行预处理后的数据结构为:Evi(Cla,Eve,T,No,Pos),并且规定:证据类型变量Cla=2;事件变量{1,2,3,4,5},1表明当前证据指向的网络主体的主页被浏览,2表明原发贴被浏览,3表明被管理员删帖,4表明被管理员禁止发帖,5设置精华帖;时间变量T;No变量表示主页或发帖被浏览的次数;Pos变量表示帖子回复的数量。
7.如权利要求4所述的方法,其特征在于,对网络证据进行预处理包括对网络攻击行为证据的预处理:
对于任意一条网络攻击行为证据进行预处理后的数据结构为
Evi(Cla,T),并且规定:证据类型变量Cla=3;时间变量T,行为发生的时间。
8.如权利要求4所述的方法,其特征在于,进行基本信任分配函数的构造和权值分配包含以下步骤:
首先构造基本形式的基本信任分配函数:
对于一个网络用户用存在“信任”和“不信任”两种评价,“信任”使用t表示,“不信任”使用d表示,则网络用户信用情况的识别框架定义为:
Θ={信任,不信任},简写为Θ={t,d}
识别框架为:2Θ={φ,{t},{d},Θ}
对于一条网络证据,由基本信任分配函数的定义知道m{φ}=0;m{t}表达了本条网络证据对该用户判定为信任的支持程度;m{d}表达了本条网络证据对该用户判定为不信任的支持程度;m{Θ}表达了本条网络证据对无法判定该用户可信度的支持程度;
因此,构造基本信任分配函数的基本形式为:
m{T,D,Θ},其中,T={t},D={d},T+D+Θ=1
其次针对不同网络证据设计带权重基本信任分配函数。
10.一种如权利要求1至9中任一项所述方法在信息安全技术领域中的应用。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110521368.2A CN113159866A (zh) | 2021-05-13 | 2021-05-13 | 一种大数据环境下网络用户信任度评估模型构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110521368.2A CN113159866A (zh) | 2021-05-13 | 2021-05-13 | 一种大数据环境下网络用户信任度评估模型构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113159866A true CN113159866A (zh) | 2021-07-23 |
Family
ID=76874764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110521368.2A Pending CN113159866A (zh) | 2021-05-13 | 2021-05-13 | 一种大数据环境下网络用户信任度评估模型构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113159866A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114650184A (zh) * | 2022-04-15 | 2022-06-21 | 四川中电启明星信息技术有限公司 | 一种基于信任度的Docker进程安全访问控制方法 |
CN115587374A (zh) * | 2022-09-26 | 2023-01-10 | 广东德尔智慧工厂科技有限公司 | 一种基于信任值的动态访问控制方法及其控制系统 |
CN116094992A (zh) * | 2022-12-23 | 2023-05-09 | 中电信数智科技有限公司 | 一种基于工单场景的报文转发方法、存储介质及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101835158A (zh) * | 2010-04-12 | 2010-09-15 | 北京航空航天大学 | 基于节点行为与d-s证据理论的传感器网络信任评估方法 |
CN111047173A (zh) * | 2019-12-05 | 2020-04-21 | 国网河南省电力公司 | 基于改进d-s证据理论的社团可信度评估方法 |
CN111460155A (zh) * | 2020-03-31 | 2020-07-28 | 北京邮电大学 | 一种基于知识图谱的信息可信度评估方法及装置 |
CN112733915A (zh) * | 2020-12-31 | 2021-04-30 | 大连大学 | 基于改进d-s证据理论的态势估算方法 |
-
2021
- 2021-05-13 CN CN202110521368.2A patent/CN113159866A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101835158A (zh) * | 2010-04-12 | 2010-09-15 | 北京航空航天大学 | 基于节点行为与d-s证据理论的传感器网络信任评估方法 |
CN111047173A (zh) * | 2019-12-05 | 2020-04-21 | 国网河南省电力公司 | 基于改进d-s证据理论的社团可信度评估方法 |
CN111460155A (zh) * | 2020-03-31 | 2020-07-28 | 北京邮电大学 | 一种基于知识图谱的信息可信度评估方法及装置 |
CN112733915A (zh) * | 2020-12-31 | 2021-04-30 | 大连大学 | 基于改进d-s证据理论的态势估算方法 |
Non-Patent Citations (3)
Title |
---|
刘晓悦 等: "基于D-S证据理论的多传感器火灾报警方法", 《华北理工大学学报(自然科学版)》, vol. 39, no. 3, 31 July 2017 (2017-07-31), pages 74 - 81 * |
吴梅梅: "《机器学习算法及其应用》", 31 May 2020, 机械工业出版社, pages: 97 - 98 * |
杨亦松 等: "基于HADOOP的网络用户信用度评估模型研究", 《北京信息科技大学学报(自然科学版)》, vol. 32, no. 5, 31 October 2017 (2017-10-31), pages 77 - 83 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114650184A (zh) * | 2022-04-15 | 2022-06-21 | 四川中电启明星信息技术有限公司 | 一种基于信任度的Docker进程安全访问控制方法 |
CN114650184B (zh) * | 2022-04-15 | 2023-05-26 | 四川中电启明星信息技术有限公司 | 一种基于信任度的Docker进程安全访问控制方法 |
CN115587374A (zh) * | 2022-09-26 | 2023-01-10 | 广东德尔智慧工厂科技有限公司 | 一种基于信任值的动态访问控制方法及其控制系统 |
CN115587374B (zh) * | 2022-09-26 | 2023-12-08 | 广东德尔智慧科技股份有限公司 | 一种基于信任值的动态访问控制方法及其控制系统 |
CN116094992A (zh) * | 2022-12-23 | 2023-05-09 | 中电信数智科技有限公司 | 一种基于工单场景的报文转发方法、存储介质及设备 |
CN116094992B (zh) * | 2022-12-23 | 2024-04-16 | 中电信数智科技有限公司 | 一种基于工单场景的报文转发方法、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Pourhabibi et al. | Fraud detection: A systematic literature review of graph-based anomaly detection approaches | |
Li et al. | RETRACTED ARTICLE: Information security model of block chain based on intrusion sensing in the IoT environment | |
US20240086930A1 (en) | Blockchain transaction safety | |
CN113159866A (zh) | 一种大数据环境下网络用户信任度评估模型构建方法 | |
Moreno-Sanchez et al. | Listening to whispers of ripple: Linking wallets and deanonymizing transactions in the ripple network | |
Du et al. | Distributed data privacy preservation in IoT applications | |
CN108681936A (zh) | 一种基于模块度和平衡标签传播的欺诈团伙识别方法 | |
CN109831459B (zh) | 安全访问的方法、装置、存储介质和终端设备 | |
US11968184B2 (en) | Digital identity network alerts | |
He et al. | Bitcoin address clustering method based on multiple heuristic conditions | |
Salau et al. | Data cooperatives for neighborhood watch | |
Han et al. | Data valuation for vertical federated learning: An information-theoretic approach | |
Dawabsheh et al. | An enhanced phishing detection tool using deep learning from URL | |
Jin et al. | Detecting arbitrage on ethereum through feature fusion and positive-unlabeled learning | |
CN113886817A (zh) | 主机入侵检测方法及装置、电子设备、存储介质 | |
Kou et al. | Trust‐Based Missing Link Prediction in Signed Social Networks with Privacy Preservation | |
CN109962882B (zh) | 一种网络身份管理服务可信等级评估方法与系统 | |
Pei et al. | Research on anomaly detection of wireless data acquisition in power system based on spark | |
CN115599345A (zh) | 一种基于知识图谱的应用安全需求分析推荐方法 | |
US11348115B2 (en) | Method and apparatus for identifying risky vertices | |
Liu et al. | Fishing for Fraudsters: Uncovering Ethereum Phishing Gangs with Blockchain Data | |
Zhang et al. | Information leakage tracking algorithms in online social networks | |
Yin et al. | A Feature Selection Algorithm towards Efficient Intrusion Detection | |
Xiuguo | A security-aware data replica placement strategy based on fuzzy evaluation in the cloud | |
US20230376962A1 (en) | System and Method for Automated Feature Generation and Usage in Identity Decision Making |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |