CN108322344A - 大数据场景下面向群组的服务可靠性预测方法 - Google Patents
大数据场景下面向群组的服务可靠性预测方法 Download PDFInfo
- Publication number
- CN108322344A CN108322344A CN201810112975.1A CN201810112975A CN108322344A CN 108322344 A CN108322344 A CN 108322344A CN 201810112975 A CN201810112975 A CN 201810112975A CN 108322344 A CN108322344 A CN 108322344A
- Authority
- CN
- China
- Prior art keywords
- user
- service
- similarity
- reliability
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 70
- 239000011159 matrix material Substances 0.000 claims abstract description 40
- 238000004364 calculation method Methods 0.000 claims abstract description 29
- 230000008569 process Effects 0.000 claims abstract description 8
- 230000004044 response Effects 0.000 claims abstract description 8
- 238000012549 training Methods 0.000 claims description 10
- 238000004458 analytical method Methods 0.000 claims description 7
- 230000005484 gravity Effects 0.000 claims description 7
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 238000009826 distribution Methods 0.000 abstract 1
- 238000002790 cross-validation Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000004576 sand Substances 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 239000013598 vector Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/145—Network analysis or design involving simulating, designing, planning or modelling of a network
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/02—Protocols based on web technology, e.g. hypertext transfer protocol [HTTP]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种大数据场景下面向群组的服务可靠性预测方法,该方法主要包括提出固有群组中用户相似度求解,动态计算相似度阈值,低成本计算服务相似度可靠性矩阵方法,离线计算可靠性矩阵模型,并通过CDN分发计算后的可靠性矩阵,基于地理位置处理用户的请求,以保证用户请求可以得到快速响应。本发明不仅能够计算用户群组个体之间的相似度,并利用协同理论来预测群组中用户在使用服务过程中的可靠性。
Description
技术领域
本发明涉及一种服务可靠性预测方法,特别是一种大数据场景下面向群组的服务可靠性预测方法,属于预测系统技术领域。
背景技术
近年来,随着互联网技术广泛普及,一些类似在线购物、网上订票、网络实时新闻等基于web的服务也随之流行。然而,由于网络服务的发布相对传统服务更加便捷以及管控相对放松,不可靠的服务在互联网中日益增多,而这一现象严重降低了用户的体验质量,这也影响了这些服务的发展。这些web服务的可靠性预测已经受到越来越多的关注。
目前,对单一服务的可靠性预测研究比较少,多数研究都是在假设单个服务的可靠性已知的基础上研究组合服务的可靠性。由于服务是由服务提供商提供,所以对于用户来说,这些服务的内部结构是不可见的,因此研究服务可靠性预测的工作主要关注如何通过历史服务反馈记录来预测服务可靠性。
以历史服务数据为基础,传统的服务可靠性预测方法主要关注的是服务本身的静态结构信息和服务执行的动态信息,而忽视了服务用户所处环境以及用户自身行为对服务可靠性造成的影响。对于同一个服务,在自身的静态结构信息与类似服务器负载,网络吞吐等执行的动态信息不改变的基础上,不同的用户在使用这个服务的时候可能会因为网络波动、所选服务商不同等原因而造成服务可靠性不同的情况,例如在用户跨域访问的时候,不能够及时获取服务返回信息或者根本不能获取到信息的情况下,从服务自身属性衡量服务的可靠性是不准确的。因此,从服务使用者的角度对服务可靠性进行度量是提高服务可靠性预测精确度的一种有效方法。
通过对现有相关工作进行调研与分析,已有的服务可靠性预测方法主要存在以下两点问题:
1)较少从服务使用者角度考虑服务可靠性,忽视了用户环境及行为对服务可靠性产生的影响,往往导致预测出的服务可靠性精确度较低;
2)在进行服务可靠性预测的时候,忽视了相似度较高用户在调用同一个服务的时候,服务的可靠性基本不发生波动这种情况,从而增加了预测方法的消耗。总之,现有的服务可靠性预测方法消耗较大,在实时的大数据场景下难以应用。
发明内容
本发明的目的在于:针对现有技术存在的缺陷,提出一种大数据场景下面向群组的服务可靠性预测方法,利用协同预测的方法,并通过CDN分发网络实现较好的用户体验。
为了达到以上目的,本发明提供了一种大数据场景下面向群组的服务可靠性预测方法,包括以下步骤:
第一步、收集用户的服务信息—建立面向群组的服务可靠性预测应用模型,在模型中搭建信息收集系统,信息收集系统内嵌信息收集功能,用于采集用户使用服务的数据;转至第二步;
第二步、离线分析—对采集的所有用户使用服务的数据进行初步的数据处理后进行清洗;转至第三步;
第三步、离线计算与预测补全—对清洗后的数据进行用户相似度计算,得到用户相似度阈值,然后根据用户相似度阈值选择不同数据预测方式获取用户的服务可靠性矩阵;转至第四步;
第四步、CDN网络分发—将用户的服务可靠性矩阵根据不同的地址段分发到对应的CDN服务器。
本发明提出了一种面向群组对象的服务可靠性预测方法(简称PRE-UIPCC),该方法是通过Fuzzy logic方法计算用户群组个体之间的相似度,并利用协同理论来预测群组中用户在使用服务过程中的可靠性。该方法涉及的模型主要包括提出固有群组中用户相似度求解,动态计算相似度阈值,低成本计算服务相似度可靠性矩阵方法,离线计算可靠性矩阵模型,并通过CDN(Content Delivery Network)分发计算后的可靠性矩阵,基于地理位置处理用户的请求,以保证用户请求可以得到快速响应。
第一步中,通过信息收集系统收集用户使用服务的具体信息。第二步中,离线分析及清洗用户使用服务的数据。第三步中,离线计算及预测补全用户对应服务的可靠性矩阵。第四步中,将得出的可靠性矩阵分发至对应的CDN服务器。
进一步优选地,第一步中采集用户使用服务数据的具体方法如下:用户访问面向群组的服务可靠性预测应用模型的接口时,接口对用户当前指派服务的响应时间以及网络吞吐量、成功调用Web服务的概率进行统计,以用户为行,服务响应时间为列形成用户的服务可靠性矩阵,记为PRE-Mu-s。
优选地,第二步中,离线分析的方法由以下步骤构成:
2.1基于用户的服务可靠性矩阵PRE-Mu-s进行去重操作,以去除电脑和网络配置完全相同的用户的服务数据,减少重复计算量;
2.2对去重后的用户服务可靠性矩阵PRE-Mu-s进行脏数据清洗,以删除评分差异过大或内容缺失部分,去除不必要的计算过程。
上述方法中,在面向群组的服务可靠性预测应用模型中,由于用户是带有电脑及网络配置标签的虚拟用户,因此存在电脑和网络配置完全相同的用户,导致这一部分用户的服务可靠性评分相同,对这一部分用户使用服务的数据进行删除,能减少重复计算量。
优选地,第三步中,离线计算与预测补全的具体方法如下:
3.1假定目标服务为Serverj,目标用户为useri,设定最低预测值精确度为PT,且PT=0.3,在此情况下计算用户相似度,得到用户相似度阈值St;设第一步中收集的用户集中满足与目标用户useri相似度高于St全部用户中与目标用户useri相似度最高的用户为userk,将用户集下的用户userk与目标用户useri进行相似度比较,并判断二者相似度是否高于St,若二者相似度高于St(包括等于),则该用户userk满足条件,若二者相似度低于St,则该用户userk不满足条件;然后根据用户集下是否有用户userk满足与目标用户useri相似度高于St将用户集分为存在满足条件用户的用户集和不存在满足条件用户的用户集两种;
3.2当用户集为存在满足条件用户的用户集时,将用户集下满足条件的用户userk组合在一起形成用户集User[k];在用户集User[k]下选取与目标用户useri相似度最高的用户并记为users,使用用户users下选取目标服务Serverj产生可靠度,并将该可靠度作为目标用户useri使用目标服务Serverj的可靠度预测值;
3.3当用户集为不存在满足条件用户的用户集时,设服务为Serverv,且v≠j(即该服务不是目标服务),当目标用户useri下有使用服务Serverv的信息时,计算目标服务Serverj与服务Serverv的相似度,基于该服务相似度选取与目标服务Serverj最相近的k个邻服务,并将这k个邻服务组成服务集合S,记S={…},在集合S上根据服务相似度为目标用户useri填充其未使用过的服务Serverp的可靠性评分;选取服务集合S中所有使用过目标服务Serverj的用户,并计算该用户与目标用户useri的相似度,然后根据该用户相似度从服务合集S中选择与目标用户useri最相近的K个用户,最后根据这K个用户使用服务合集S中的服务的使用信息来预测目标服务Serverj的可靠性评分。
进一步的,3.1步中,计算用户相似度阈值St的方法如下:从用户群组中随机提取100份数据形成新的群组,并将新群组分为两部分,其中用户user1~70作为训练集UserB,user71~100作为计算相似度阈值训练数据集UserT,通过计算相似度阈值训练数据集UserT采用TCFS(Threshold Calculation for Similarity)算法不断循环计算小部分数据量的方式得到用户相似度阈值St。
上述方法中计算用户相似度阈值采用TCFS法,在本发明预测服务可靠性方法中,当目标用户在群组集合中有相似度超过阈值的用户时,则采用该用户对目标服务可靠性值作为目标用户的可靠性的数值,从而减少可靠性预测方法的计算量并保证预测的准确性。
再进一步的,3.1步中采用梯形模糊评分模型计算用户userk与目标用户useri相似度,3.3步中采用梯形模糊评分模型计算服务集合S中使用过目标服务Serverj的用户与目标用户useri的相似度;梯形模糊评分模型计算模糊相似度的公式如下:
或
其中,为梯形模糊数相似度,k为标记梯形顶峰常数项,ai,k为梯形的第k个顶点,aj,k为梯形的第k个顶点, 为梯形的重心,为梯形的重心, 为群组用户与目标用户相似度总和,u为目标用户,v为群组中的单个用户,sim(u,v)为最终计算的用户之间的模糊相似度,S(Ru,i,Rv,i)为单个用户与目标用户的相似度,n为群组中的用户数量。
更进一步的,3.3步中计算目标服务Serverj与服务Serverv相似度的具体过程如下:将目标服务Serverj简称Sj,服务Serverv简称Sv,根据(2)式计算Sj与Sv的相似性,
其中,simsum(Sv,Sj)为Sj与Sv的相似性值,mum(Sv,Sj)为Sj与Sv两个服务的相同调用者的数量,mum(Sj)为调用服务Sj的用户数量。
更进一步的,3.3步中,在集合S上根据服务相似度为目标用户useri填充其未使用过的服务Serverp的可靠性评分的具体方法如下:假设目标用户useri使用服务Serverp的可靠度为r′i,j,根据(3)式计算的r′i,j值,
其中,为目标服务sj在所有用户调用的时候产生的可靠度平均值,simn,j为目标服务sj与服务sn的相似度,n为0~服务集中服务数量,t′i,n表示用户在使用当前服务Sn的可靠性信息,表示服务Sj的可靠性平均信息。
更进一步的,3.3步中,根据K个用户使用服务合集S中服务的使用信息预测目标用户目标useri调用服务Serverj的可靠性评分的具体方法如下:假设ri,j为用户目标useri调用服务Serverj的可靠度预测值,根据(4)式计算ri,j的值,
其中,为目标用户useri下所有服务的可靠度平均值,simn,i为目标用户useri与用户集中单个用户usern的相似度,t′j,n为表示用户在使用当前服务Sn的可靠性信息,表示服务集中单个服务Sn的可靠性平均信息。
本发明的优点是在降低群组计算复杂程度的同时,为用户提供可靠性较高的服务结果。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本发明中可靠性预测的流程图。
图2为本发明的整体流程图。
图3为本发明中服务可靠性矩阵的示意图。
具体实施方式
本发明提供了一种大数据场景下面向群组的服务可靠性预测方法,该方法包括以下步骤:
第一步、收集用户的服务信息—建立面向群组的服务可靠性预测应用模型,在模型中搭建信息收集系统,信息收集系统内嵌信息收集功能,用于采集用户使用服务的数据。第一步中,通过信息收集系统收集用户使用服务的具体信息。采集用户使用服务数据的具体方法如下:用户访问面向群组的服务可靠性预测应用模型的接口时,每个接口对用户当前指派服务的响应时间以及网络吞吐量、成功调用Web服务的概率等其它要素进行统计,以用户为行,服务响应时间为列形成用户的服务可靠性矩阵,记为PRE-Mu-s。
第二步、离线分析—对采集的所有用户使用服务的数据进行初步的数据处理后进行清洗。第二步中,离线分析及清洗用户使用服务的数据。离线分析的方法由以下步骤构成:
2.1基于用户的服务可靠性矩阵PRE-Mu-s进行去重操作,以去除电脑和网络配置完全相同的用户的服务数据,减少重复计算量;
2.2对去重后的用户服务可靠性矩阵PRE-Mu-s进行脏数据清洗,以删除评分差异过大或内容缺失部分,去除不必要的计算过程。
第三步、离线计算与预测补全—对清洗后的数据进行用户相似度计算,得到用户相似度阈值,然后根据用户相似度阈值选择不同数据预测方式获取用户的服务可靠性矩阵(见图3)。第三步中,离线计算及预测补全用户对应服务的可靠性矩阵。离线计算与预测补全的具体方法如下:
3.1假定目标服务为Serverj,目标用户为useri,设定最低预测值精确度为PT,且PT=0.3,在此情况下计算用户相似度,得到用户相似度阈值St;设第一步中收集的用户集中满足与目标用户useri相似度高于St全部用户中与目标用户useri相似度最高的用户为userk,将用户集下的用户userk与目标用户useri进行相似度比较,并判断二者相似度是否高于St,若二者相似度高于St(包括等于),则该用户userk满足条件,若二者相似度低于St,则该用户userk不满足条件;然后根据用户集下是否有用户userk满足与目标用户useri相似度高于St将用户集分为存在满足条件用户的用户集和不存在满足条件用户的用户集两种。其中,计算用户相似度阈值St的方法如下:从用户群组中随机提取100份数据形成新的群组,并将新群组分为两部分,其中用户user1~70作为训练集UserB,user71~100作为计算相似度阈值训练数据集UserT,通过计算相似度阈值训练数据集UserT采用TCFS(ThresholdCalculation for Similarity)算法不断循环计算小部分数据量的方式得到用户相似度阈值St。
3.2当用户集为存在满足条件用户的用户集时,将用户集下满足条件的用户userk组合在一起形成用户集User[k];在用户集User[k]下选取与目标用户useri相似度最高的用户并记为users,使用用户users下选取目标服务Serverj产生可靠度,并将该可靠度作为目标用户useri使用目标服务Serverj的可靠度预测值。
3.3当用户集为不存在满足条件用户的用户集时,设服务为Serverv,且v≠j(即该服务不是目标服务),当目标用户useri下有使用服务Serverv的信息时,计算目标服务Serverj与服务Serverv的相似度,基于该服务相似度选取与目标服务Serverj最相近的k个邻服务,并将这k个邻服务组成服务集合S,记S={…},在集合S上根据服务相似度为目标用户useri填充其未使用过的服务Serverp的可靠性评分;选取服务集合S中所有使用过目标服务Serverj的用户,并计算该用户与目标用户useri的相似度,然后根据该用户相似度从服务合集S中选择与目标用户useri最相近的K个用户,最后根据这K个用户使用服务合集S中的服务的使用信息来预测目标服务Serverj的可靠性评分。其中,计算目标服务Serverj与服务Serverv相似度的具体过程如下:将目标服务Serverj简称Sj,服务Serverv简称Sv,根据(2)式计算Sj与Sv的相似性,
其中,simsum(Sv,Sj)为Sj与Sv的相似性值,mum(Sv,Sj)为Sj与Sv两个服务的相同调用者的数量,mum(Sj)为调用服务Sj的用户数量。在集合S上根据服务相似度为目标用户useri填充其未使用过的服务Serverp的可靠性评分的具体方法如下:假设目标用户useri使用服务Serverp的可靠度为r′i,j,根据(3)式计算的r′i,j值,
其中,为目标服务sj在所有用户调用的时候产生的可靠度平均值,simn,j为目标服务sj与服务sn的相似度,n为0~服务集中服务数量,t′i,n表示用户在使用当前服务Sn的可靠性信息,表示服务Sj的可靠性平均信息。
根据K个用户使用服务合集S中服务的使用信息预测目标用户目标useri调用服务Serverj的可靠性评分的具体方法如下:假设ri,j为用户目标useri调用服务Serverj的可靠度预测值,根据(4)式计算ri,j的值,
其中,为目标用户useri下所有服务的可靠度平均值,simn,i为目标用户useri与用户集中单个用户usern的相似度,t′j,n为表示用户在使用当前服务Sn的可靠性信息,表示服务集中单个服务Sn的可靠性平均信息。
另外,3.1步中采用梯形模糊评分模型计算用户userk与目标用户useri相似度,3.3步中采用梯形模糊评分模型计算服务集合S中使用过目标服务Serverj的用户与目标用户useri的相似度;梯形模糊评分模型计算模糊相似度的公式如下:
或
其中,为梯形模糊数相似度,k为标记梯形顶峰常数项,ai,k为梯形的第k个顶点,aj,k为梯形的第k个顶点, 为梯形的重心,为梯形的重心, 为群组用户与目标用户相似度总和,u为目标用户,v为群组中的单个用户,sim(u,v)为最终计算的用户之间的模糊相似度,S(Ru,i,Rv,i)为单个用户与目标用户的相似度,n为群组中的用户数量。
第四步、CDN网络分发—每天凌晨将用户的服务可靠性矩阵根据不同的地址段进行地域分发,以分发到对应的CDN服务器。第四步中,将得出的可靠性矩阵分发至对应的CDN服务器。
用户群组是指具有相似选择倾向的用户形成的集合,例如在线电影评论社区中的电影圈。服务可靠性是指结合服务是否可达,服务速度等属性的评分,是评估服务优良的重要数据。用户相似度是指用户与用户之间的相似度量值。协同过滤是指在可靠性预测过程中常见的一种方法。模糊相似度计算是指在针对离散评分不能合理的表达用户观点和传统协同过滤算法存在稀疏性等问题的前提下,借助年龄模糊逻辑模型,提出了梯形模糊评分模型,梯形模糊评分模型考虑了评分模糊性和信息量,通过梯形模糊数来计算用户相似度。模糊相似度计算采用Fuzzy-UBCF的如下两个方法:
其中,ai,k为梯形的第k个顶点,为梯形的重心。
然而,服务可靠性方面,在衡量网络的吞吐量、响应时间以及成功调用Web服务的概率后,形成模糊逻辑模型,直接用来预测服务的可靠性。服务相似性是指服务与服务之间的相似度量值。设有两个服务服务Sj和Sv,则二者的相似度求解方法如下:
sim(Sv,Sj)=α×simsum(Sv,Sj)+βsimdata(Sv,Sj)
其中,simsum(Sv,Sj)为服务Sv与服务Sj的共同调用者的相似性,这两个服务的历史信息所属调用者越多,说明两个服务越相似。Simdata(Sv,Sj)为使用服务Sj和Sv的用户使用服务可靠度的相似度,与上述相同,这两个服务的不同用户下可靠性相似度越高,两个服务越相似。α,β为满足不同用户需求设定的,可以调节用户相似性与可靠度相似性在影响服务相似度的比重。对于两个服务Sj和Sv,采用P(Sj/Sv)表示某用户历史调用下既有服务Sj信息,也有服务Sv信息的条件概率,这个概率可以用来衡量Sj与Sv的相似性simsum(Sv,Sj)的值,服务Sj与Sv相似性simsum(Sv,Sj)的计算方法如下:
实施例一
本实施例提供了一种大数据场景下面向群组的服务可靠性预测方法,该方法如图1和图2所示,包括以下步骤:
1)为求解相似度阈值,随机提取群组中一部分数据形成新的群组,并将群组中用户分为两部分,其中user1~70作为训练集UserB,user71~100作为计算相似度阈值训练数据集UserT。为计算相似度阈值,本实施例给出了相似度阈值的计算方法:TCFS(ThresholdCalculation for Similarity)算法,该算法通过不断循环计算小部分数据量的方式得出最优结果。
2)为计算服务提供者与服务可靠性的信息矩阵,调用服务使用者-服务可靠度信息矩阵。有一些服务的可靠度在服务使用者固定情况下保持稳定或者与使用者存在一定关系,这种关系可以通过矩阵Mu-s表示:
Mu-s为用户使用服务时服务可靠性的信息矩阵,其中Ri,j表示用户userj在调用服务Serveri的可靠度,0≤i≤20,0≤j≤100。
随机将矩阵Mu-s中的30%作为训练集UST,另外70%作为交叉验证集USp记录,并将Mu-s矩阵中的USp置为空值。
在Mu-s矩阵中,当前目标服务为Serverj,目标用户为useri(Rj,i∈USp)。为了预测目标用户useri在使用目标服务Serverj的可靠度,首先需要计算其它在目标用户useri使用服务列表下有使用信息的服务与Serverj的相似性,假定形成服务集Server[k],则对于服务Serverv∈Server[k],计算服务Serverv与Serverj的相似度。Mu-s矩阵中向量的相似性计算通常采用的是余弦相似性、相关相似性和修正的余弦相似性,而这三种方法在计算与服务属性有关相似性都会有一些欠缺。例如,这三种相似性计算方法在计算相似性时,将会将所有没有调用信息的Ri,j置为0,则Useri在调用Serverj的可靠度为0,这种赋值方法对预测影响较大,并且从本实施例面向群组对象出发,这三种方法均未考虑用户所处环境差异带来的结果不准确。因此,因为稀疏的原因,这些相似性计算方法并不可以有效的在没有经过处理的矩阵上来计算服务的相似性。
3)对于两个服务Sj和Sv,用P(Sj/Sv)表示某用户历史调用下既有服务Sj信息,也有服务Sv信息的条件概率,用这个概率可以来衡量Sj和Sv的相似性simsum(Sv,Sj)的值,simsum(Sv,Sj)的计算方法如下:
num(Sv,Sj)表示Sj和Sv两个服务相同调用者的数量,num(Sj)表示调用Sj的用户的数量。从上述服务相似度计算公式可看出,simsum(Sv,Sj)的值分布在0~1之间,由此可知共同的调用者越多,服务的相似度越高。
上述计算simsum(Sv,Sj)的方法是通过共同调用者下的服务可靠性来计算两个服务的可靠性。计算方式通过对余弦值计算方法进行改进得出。假设Sv,Sj的共同调用者的集合为Uservj,则:
其中,表示所有用户对服务Sv的可靠度历史数据的平均值,表示所有用户对服务Sj的可靠度历史数据的平均值。从上述公式可以得到用户useri所使用过的服务于Sj的相似度,相似度越高,那么它的历史数据就越有参考价值。通过计算simsum(Sv,Sj)与simdata(Sv,Sj)的公式可以得到不同方面Sj和Sv两个服务的相似度,而按照sim(Sv,Sj)式子则可以计算出总的相似度。
4)通过上述方法计算出两个服务Sj和Sv的相似度后,则可以根据该服务相似度,得到服务Sj最相近的K个邻居,并确定K个最近邻矩阵Rsim,通过服务的相似性及其他使用数据为矩阵Rsim当中的空白服务填充可靠度数据。这K个邻服务形成K邻服务集S′={s′1,s′2,s′3,s′4,…,s′k},从s′1到s′k的服务关于目标服务Sj的相似度依次降低,这K个服务面向群组的可靠度价值较高。这K个服务构成的矩阵如下式所示:
矩阵Rsim表示在面向群组用户情况下与服务Sj相似的K邻服务的可靠度矩阵。而在Rsim矩阵中,存在因为用户跨域及随机70%交叉验证集数据置空等问题导致的空白数据,为了使在下一步中的从服务可靠性角度计算得到的用户相似度更加准确,本实施例需将这个空白数据补全。
得到服务之间的相似度后,根据得到的服务相似度来进行Rsim矩阵补全。假定在Rsim矩阵中,用户useri在使用服务Serverp时的可靠度ri,j’空白,则使用下述方法进行补全:
其中表示服务sj在所有用户调用的时候产生的可靠度平均值,simn,j表示服务sj与sn的相似度,通过上述方法处理后,Rsim矩阵中不存在空白数据。
5)目标用户useri调用目标服务serverj的可靠度预测值为ri,j,ri,j计算方法如下所示:
其中,表示在用户useri下所有服务可靠性的平均信息,simn,j表示用户useri与用户usern基于服务可靠度的相似度。
除上述实施例外,本发明还可以有其他实施方式。凡采用等同替换或等效变换形成的技术方案,均落在本发明要求的保护范围。
Claims (9)
1.一种大数据场景下面向群组的服务可靠性预测方法,其特征在于,包括以下步骤:
第一步、收集用户的服务信息—建立面向群组的服务可靠性预测应用模型,在模型中搭建信息收集系统,信息收集系统内嵌信息收集功能,用于采集用户使用服务的数据;转至第二步;
第二步、离线分析—对采集的所有用户使用服务的数据进行初步的数据处理后进行清洗;转至第三步;
第三步、离线计算与预测补全—对清洗后的数据进行用户相似度计算,得到用户相似度阈值,然后根据用户相似度阈值选择不同数据预测方式获取用户的服务可靠性矩阵;转至第四步;
第四步、CDN网络分发—将用户的服务可靠性矩阵根据不同的地址段分发到对应的CDN服务器。
2.根据权利要求1所述大数据场景下面向群组的服务可靠性预测方法,其特征在于,第一步中,采集用户使用服务数据的具体方法如下:用户访问面向群组的服务可靠性预测应用模型的接口时,接口对用户当前指派服务的响应时间以及网络吞吐量、成功调用Web服务的概率进行统计,以用户为行,服务响应时间为列形成用户的服务可靠性矩阵,记为PRE-Mu-s。
3.根据权利要求2所述大数据场景下面向群组的服务可靠性预测方法,其特征在于,第二步中,离线分析的方法由以下步骤构成::
2.1基于用户的服务可靠性矩阵PRE-Mu-s进行去重操作,以去除电脑和网络配置完全相同的用户的服务数据,减少重复计算量;
2.2对去重后的用户服务可靠性矩阵PRE-Mu-s进行脏数据清洗,以删除评分差异过大或内容缺失部分。
4.根据权利要求3所述大数据场景下面向群组的服务可靠性预测方法,其特征在于,第三步中,离线计算与预测补全的具体方法如下:
3.1假定目标服务为Serverj,目标用户为useri,设定最低预测值精确度为PT,且PT=0.3,在此情况下计算用户相似度,得到用户相似度阈值St;设第一步中收集的用户集中满足与目标用户useri相似度高于St全部用户中与目标用户useri相似度最高的用户为userk,将用户集下的用户userk与目标用户useri进行相似度比较,并判断二者相似度是否高于St,若二者相似度高于St,则该用户userk满足条件,若二者相似度低于St,则该用户userk不满足条件;然后根据用户集下是否有用户userk满足与目标用户useri相似度高于St将用户集分为存在满足条件用户的用户集和不存在满足条件用户的用户集两种;
3.2当用户集为存在满足条件用户的用户集时,将用户集下满足条件的用户userk组合在一起形成用户集User[k];在用户集User[k]下选取与目标用户useri相似度最高的用户并记为users,使用用户users下选取目标服务Serverj产生可靠度,并将该可靠度作为目标用户useri使用目标服务Serverj的可靠度预测值;
3.3当用户集为不存在满足条件用户的用户集时,设服务为Serverv,且v≠j,当目标用户useri下有使用服务Serverv的信息时,计算目标服务Serverj与服务Serverv的相似度,基于该服务相似度选取与目标服务Serverj最相近的k个邻服务,并将这k个邻服务组成服务集合S,记S={…},在集合S上根据服务相似度为目标用户useri填充其未使用过的服务Serverp的可靠性评分;选取服务集合S中所有使用过目标服务Serverj的用户,并计算该用户与目标用户useri的相似度,然后根据该用户相似度从服务合集S中选择与目标用户useri最相近的K个用户,最后根据这K个用户使用服务合集S中的服务的使用信息来预测目标服务Serverj的可靠性评分。
5.根据权利要求4所述大数据场景下面向群组的服务可靠性预测方法,其特征在于,3.1步中,计算用户相似度阈值St的方法如下:从用户群组中随机提取100份数据形成新的群组,并将新群组分为两部分,其中用户user1~70作为训练集UserB,user71~100作为计算相似度阈值训练数据集UserT,通过计算相似度阈值训练数据集UserT采用TCFS算法得到用户相似度阈值St。
6.根据权利要求5所述大数据场景下面向群组的服务可靠性预测方法,其特征在于,3.1步中采用梯形模糊评分模型计算用户userk与目标用户useri相似度,3.3步中采用梯形模糊评分模型计算服务集合S中使用过目标服务Serverj的用户与目标用户useri的相似度;梯形模糊评分模型计算模糊相似度的公式如下:
或
其中,为梯形模糊数相似度,k为标记梯形顶峰常数项,ai,k为梯形的第k个顶点,aj,k为梯形的第k个顶点, 为梯形的重心,为梯形的重心, 为群组用户与目标用户相似度总和,u为目标用户,v为群组中的单个用户,sim(u,v)为最终计算的用户之间的模糊相似度,S(Ru,i,Rv,i)为单个用户与目标用户的相似度,n为群组中的用户数量。
7.根据权利要求6所述大数据场景下面向群组的服务可靠性预测方法,其特征在于,3.3步中计算目标服务Serverj与服务Serverv相似度的具体过程如下:将目标服务Serverj简称Sj,服务Serverv简称Sv,根据(2)式计算Sj与Sv的相似性,
其中,simsum(Sv,Sj)为Sj与Sv的相似性值,mum(Sv,Sj)为Sj与Sv两个服务的相同调用者的数量,mum(Sj)为调用服务Sj的用户数量。
8.根据权利要求7所述大数据场景下面向群组的服务可靠性预测方法,其特征在于,3.3步中,在集合S上根据服务相似度为目标用户useri填充其未使用过的服务Serverp的可靠性评分的具体方法如下:假设目标用户useri使用服务Serverp的可靠度为r′i,j,根据(3)式计算的r′i,j值,
其中,为目标服务sj在所有用户调用的时候产生的可靠度平均值,simn,j为目标服务sj与服务sn的相似度,n为0~服务集中服务数量,t′i,n表示用户在使用当前服务Sn的可靠性信息,表示服务Sj的可靠性平均信息。
9.根据权利要求8所述大数据场景下面向群组的服务可靠性预测方法,其特征在于,3.3步中,根据K个用户使用服务合集S中服务的使用信息预测目标用户目标useri调用服务Serverj的可靠性评分的具体方法如下:假设ri,j为用户目标useri调用服务Serverj的可靠度预测值,根据(4)式计算ri,j的值,
其中,为目标用户useri下所有服务的可靠度平均值,simn,i为目标用户useri与用户集中单个用户usern的相似度,t′j,n为表示用户在使用当前服务Sn的可靠性信息,表示服务集中单个服务Sn的可靠性平均信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810112975.1A CN108322344B (zh) | 2018-02-05 | 2018-02-05 | 大数据场景下面向群组的服务可靠性预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810112975.1A CN108322344B (zh) | 2018-02-05 | 2018-02-05 | 大数据场景下面向群组的服务可靠性预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108322344A true CN108322344A (zh) | 2018-07-24 |
CN108322344B CN108322344B (zh) | 2021-03-09 |
Family
ID=62902435
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810112975.1A Active CN108322344B (zh) | 2018-02-05 | 2018-02-05 | 大数据场景下面向群组的服务可靠性预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108322344B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105430099A (zh) * | 2015-12-22 | 2016-03-23 | 湖南科技大学 | 一种基于位置聚类的协同式Web服务性能预测方法 |
CN106027317A (zh) * | 2016-07-21 | 2016-10-12 | 中国人民解放军海军工程大学 | 信任感知的Web服务质量预测系统及方法 |
US20170235848A1 (en) * | 2012-08-29 | 2017-08-17 | Dennis Van Dusen | System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction |
-
2018
- 2018-02-05 CN CN201810112975.1A patent/CN108322344B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20170235848A1 (en) * | 2012-08-29 | 2017-08-17 | Dennis Van Dusen | System and method for fuzzy concept mapping, voting ontology crowd sourcing, and technology prediction |
CN105430099A (zh) * | 2015-12-22 | 2016-03-23 | 湖南科技大学 | 一种基于位置聚类的协同式Web服务性能预测方法 |
CN106027317A (zh) * | 2016-07-21 | 2016-10-12 | 中国人民解放军海军工程大学 | 信任感知的Web服务质量预测系统及方法 |
Non-Patent Citations (4)
Title |
---|
HAIYAN WANG等: "Prediction of Service Reliability Based on Grouping", 《2013 IEEE INTERNATIONAL CONFERENCE ON SERVICES COMPUTING》 * |
ZIBIN ZHENG等: "Collaborative reliability prediction of service-oriented systems", 《2010 ACM/IEEE 32ND INTERNATIONAL CONFERENCE ON SOFTWARE ENGINEERING》 * |
张龙昌: "面向大群体用户的模糊服务选择", 《计算机科学》 * |
王宏静: "面向群组的服务可靠性预测研究", 《中国优秀硕士学位论文全文数据库(电子期刊) 信息科技辑》 * |
Also Published As
Publication number | Publication date |
---|---|
CN108322344B (zh) | 2021-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CA3013711C (en) | Systems, methods, and articles of manufacture to measure online audiences | |
WO2019134274A1 (zh) | 兴趣探索方法、存储介质、电子设备及系统 | |
CN104579912B (zh) | 数据推送的方法及装置 | |
US8751303B2 (en) | Systems and methods of tracking online advertisement exposure | |
WO2012078091A1 (en) | Method and arrangement for ranking users | |
WO2015161226A1 (en) | Systems and methods for generating network intelligence through real-time analytics | |
CN113315978B (zh) | 一种基于联邦学习的协作式在线视频边缘缓存方法 | |
CN114513488B (zh) | 资源访问方法、装置、计算机设备和存储介质 | |
CN113412607B (zh) | 内容推送方法、装置、移动终端及存储介质 | |
US11627201B2 (en) | Optimizing network utilization | |
CN112004120A (zh) | 平台网络资源播放量的预测方法、装置、设备及存储介质 | |
WO2014161281A1 (zh) | 联机处理数据的方法、设备及系统 | |
CN113556368A (zh) | 用户识别方法、装置、服务器及存储介质 | |
CN110266555B (zh) | 用于分析网站服务请求的方法 | |
CN110213209B (zh) | 一种推送信息点击的作弊检测方法、装置及存储介质 | |
CN111108482B (zh) | 优化网络利用 | |
CN108322344B (zh) | 大数据场景下面向群组的服务可靠性预测方法 | |
CN104992060A (zh) | 用户年龄估计方法及装置 | |
JPH1185604A (ja) | コンテンツ配置変更方法及びシステム及びコンテンツ配置変更プログラムを格納した記憶媒体 | |
CN107888388B (zh) | 一种网络加速服务的计费方法和系统 | |
CN112003900B (zh) | 实现分布式系统中高负载场景下服务高可用的方法、系统 | |
CN113468419A (zh) | 内容推荐方法、装置、电子设备和存储介质 | |
CN101267269B (zh) | 交互式网络电视系统中负载均衡的实现方法及系统 | |
CN110543496B (zh) | 用于时序数据库集群的数据处理方法和装置 | |
US8626116B2 (en) | Reducing computational complexity during user data analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |