CN117495167A

CN117495167A - 基于图挖掘的云服务能力评级方法、装置、设备及存储介质

Info

Publication number: CN117495167A
Application number: CN202311399498.9A
Authority: CN
Inventors: 杨硕; 姚磊; 任娟; 项军
Original assignee: China Telecom Digital Intelligence Technology Co Ltd
Current assignee: China Telecom Digital Intelligence Technology Co Ltd
Priority date: 2023-10-26
Filing date: 2023-10-26
Publication date: 2024-02-02

Abstract

本发明提供了一种基于图挖掘的云服务能力评级方法、装置、设备及存储介质，评级方法包括：接入云服务提供商，加载数据集；对数据集执行皮尔逊相关性计算，输出由若干相关系数值组成的相关矩阵；将相关矩阵转换为偏相关矩阵，在偏相关矩阵上构造非正则偏相关网络图；构造图形化套索正则化网络，将偏相关矩阵导入所述图形化套索正则化网络，对比非正则偏相关网络图，找到具有最大边的图并输出；对最大边的图执行中心性分析，输出分析结果；根据分析结果，对云服务提供商的性能指标，依据计算得到的性能指标对云服务提供商进行排名并列表显示。本发明能有效地处理大型服务质量值数据集，帮助企业选择成本最优的最佳云服务提供商。

Description

基于图挖掘的云服务能力评级方法、装置、设备及存储介质

技术领域

本发明涉及云服务技术领域，尤其涉及一种基于图挖掘的云服务能力评级方法、装置、设备及存储介质。

背景技术

随着云计算的日益普及，越来越多的企业都使用云来部署其应用程序和基础架构的解决方案。云计算允许企业更快地启动和运行应用程序，降低了维护难度，让后台能更快地调整资源，以满足波动和不可预测的流量，同时，云供应商通常使用“现收现付”模式，这种收费模式可以提高服务器的管理的灵活性，降低费用。但是，选择一个合适的云服务提供商并不是那么简单，服务质量(QoS)参数对企业有直接影响，如响应时间、吞吐量和相应的客户评分等等。为解决这个问题，可以通过收集不同云服务商过往性能指标的大型数据集来进行决策，同时，还需要一种可靠的推荐系统，提供排名。但是现有的推荐系统，缺乏考虑海量数据和缺少合适的算法，无法有效地处理大量的数据。

发明内容

发明目的：提出一种基于图挖掘的云服务能力评级方法、装置、设备及存储介质，以解决现有技术存在的上述问题。

第一方面，提出一种基于图挖掘的云服务能力评级方法，步骤如下：

S1、接入云服务提供商，加载数据集；所述数据集包括云服务提供商集合以及响应时间服务度量；对所述数据集执行皮尔逊相关性计算，输出由若干相关系数值组成的相关矩阵；

S2、将所述相关矩阵转换为偏相关矩阵，在所述偏相关矩阵上构造非正则偏相关网络图；

S3、构造图形化套索正则化网络，将所述偏相关矩阵导入所述图形化套索正则化网络，对比所述非正则偏相关网络图，找到具有最大边的图并输出；

S4、对步骤S3输出的最大边的图执行中心性分析，输出分析结果；

S5、根据步骤S4输出的分析结果，对云服务提供商的性能指标，依据计算得到的性能指标对云服务提供商进行排名并列表显示。

在第一方面进一步的实施例中，步骤S1中对所述数据集执行皮尔逊相关性计算的表达式如下：

式中，corr(x,y)是两个变量间的相关性，cov(x,y)是x和y之间的协方差，s_xs_y是x和y的标准差，E是期望值操作，μx、μy是期望值，X、Y是随机变量。

在第一方面进一步的实施例中，步骤S2进一步包括：

利用偏相关性系数衡量两个变量之间线性关系的指标，同时控制其他变量的影响，以计算云服务提供商之间在响应时间方面的相关性；

所述偏相关性系数的表达式如下：

式中，ρXY·Z表示Z是X和Y之间偏相关性的影响变量，ρXY表示X和Y之间的偏相关性；ρXZ表示X和Z之间的偏相关性；ρZY表示Z和Y之间的偏相关性；

在所述偏相关性系数中，值为0表示两个节点之间没有连接，即两个节点相互独立。

在第一方面进一步的实施例中，构建非正则偏相关网络图，所述非正则偏相关网络图中，每个链路代表两个变量之间的所述相关系数值，系数值范围为[-1，1]。

在第一方面进一步的实施例中，还包括使用邦弗朗尼校正作为校正因子，测试所有连接并删除所有不具有统计学意义的连接，当进行多重比较或进行统计检验时，如果α值是0到1之间的数字，则当P为变量假设值大于或等于观察值的概率时，则P(z≥z_abserved)≤α被认为是显著的；此时降低α值以计算新的执行比较次数，用旧的α值除以比较的总数，得到新的α值，表达式如下：

式中，α_old表示旧的α值；α_new表示新的α值。

在第一方面进一步的实施例中，步骤S3中构造图形化套索正则化网络的表达式如下：

min(y-wX)²+λw

式中，y是目标向量，X是n维的特征矩阵，w是p个特征的系数向量，λ是控制正则化程度的超参数。

在第一方面进一步的实施例中，步骤S4进一步包括：

每个节点都有一个中心性评分，表示它在网络中的位置，利用中心性，确定最佳的云服务提供商，在用户和服务提供商之间建立直接的关系；

使用度中心度量标准根据云服务提供商的响应时间进行排名，展示出响应时间最长的云服务提供商；

对于图G＝(V，E)，节点的度v用如下表达式表示：

C_D(v)＝deg (v)

式中，i是重点节点，j代表所有其他节点，N是节点总数，w是加权邻接矩阵，deg(v)表示点v的度，用C_D(v)表示；Si表示加权度数中心性；表示计算加权邻接矩阵中每个节点的度；w是加权邻接矩阵，ij是指第i行第j列的元素。

在第一方面进一步的实施例中，步骤S5包括：计算云服务提供商的性能指标：使用归一化折损累计增益nDCG衡量排序质量：

其中，增益即在返回的结果列表中所有节点的相关性分数，表示为rel_i；CG是所有节点的相关性分数之和；DCG是在考虑了排序顺序的因素下，使得排名靠前的节点增益更高，对排名靠后的节点进行折损，即在计算相关性分数之和时，根据位置乘以一个随排名递减的权重，通过对相关性分数除以log₂(i+1)实现；IDCG是理想DCG，即根据相关性降序排列，排列到最符合预期状态的DCG；NDGC使用二者的比来表示，代表当前结果接近最理想结果的程度，从而让不同排名的顺序结果能进行比较评估，比值越大代表此排名顺序质量越高，可信度越高。

本发明的第二个方面，提出一种基于图挖掘的云服务能力评级装置，该装置包括：

数据集加载模块，用于接入云服务提供商，加载数据集；所述数据集包括云服务提供商集合以及响应时间服务度量；对所述数据集执行皮尔逊相关性计算，输出由若干相关系数值组成的相关矩阵；

第一运算模块，用于将所述相关矩阵转换为偏相关矩阵，在所述偏相关矩阵上构造非正则偏相关网络图；

第二运算模块，用于构造图形化套索正则化网络，将所述偏相关矩阵导入所述图形化套索正则化网络，对比所述非正则偏相关网络图，找到具有最大边的图并输出；

输出模块，用于对所述第二运算模块输出的最大边的图执行中心性分析，根据分析结果对云服务提供商的响应时间进行排名并列表显示。

本发明的第三个方面，提出一种电子设备，该设备包括：处理器以及存储有计算机程序指令的存储器；所述处理器执行所述计算机程序指令时实现如第一方面所述的云服务能力评级方法。

本发明的第四个方面，提出一种计算机可读存储介质，存储介质中存储有至少一个可执行指令，所述可执行指令在电子设备上运行时，使得电子设备执行如第一方面所述的云服务能力评级方法。

本发明具备如下有益效果：本发明使用社交网络分析原理，采用图形套索正则化，使用度中心度量和归一化折扣累积增益方法，来识别排名靠前的提供商。最终，能有效地处理大型服务质量值数据集，帮助企业选择成本最优的最佳云服务提供商，帮助云服务提供商提高其服务质量参数。

附图说明

图1是本发明实施例中基于图挖掘的云服务能力评级方法流程示意图。

图2是本发明实施例中基于图挖掘的云服务能力评级装置的结构示意图。

具体实施方式

在下文的描述中，给出了大量具体的细节以便提供对本发明更为彻底的理解。然而，对于本领域技术人员而言显而易见的是，本发明可以无需一个或多个这些细节而得以实施。在其他例子中，为了避免与本发明发生混淆，对于本领域公知的一些技术特征未进行描述。

现有的服务或应用程序的决策和推荐系统，主要分为三个类别。

传统统计方法，大多基于层次分析法(AHP)，通过数据分析出若干特性，分配权重，并考虑特性之间的相互依赖性，以提供服务排名。但是，这些方法在处理高维数据和变量之间的非线性关系方面存在局限性。基于机器学习的方法，使用例如决策树、支持向量机和神经网络对云服务提供商进行排名，可以处理高维数据和变量之间的非线性关系。但是，这些方法需要大量的训练数据，可能会出现过拟合的问题。基于图的方法，使用图论对云服务提供商之间的关系进行建模，并根据其中心性度量对它们进行排名，可以处理高维数据和变量之间的非线性关系。但是，这些方法需要事先了解云服务提供商之间的关系，并且可能会受到虚假连接的影响。

综上，现有的方法在处理云环境中的大量QoS值数据集方面存在着差距，加上使用基于图神经网络对服务进行排名的方法比较少见。因此，本方法使用社交网络分析原理，采用图形套索正则化，使用度中心度量和归一化折扣累积增益方法，来识别排名靠前的提供商。最终，能有效地处理大型服务质量值数据集，帮助企业选择成本最优的最佳云服务提供商，帮助云服务提供商提高其服务质量参数。

为更好地解决背景技术中提到的技术问题，本发明旨在实现根据云服务提供商的服务质量参数对其进行排名，来满足企业以最佳成本选择最佳云服务提供商的需求，提出一种基于图形的方法计算云服务提供商在响应时间方面的偏相关性，对服务提供商进行排名，并应用归一化方法来衡量云服务提供商的排名质量。

本发明是一种基于图挖掘的云服务能力评级方法，其整体流程如图1所示。该方法首先，根据响应时间计算了云服务提供商之间的偏相关系数，以识别云服务提供商之间的关系并控制其他变量的影响。之后，构造了一个图形化套索正则化网络，辅以度中心性衡量标准来识别核心的云服务提供商。最后，作应用归一化折损累计增益来衡量上一步中的排名质量，提高评估的准确性和效率。总体而言，本文提出的技术解决方案是一种使用图论和中心度量根据响应时间对云服务提供商进行排名的新方法。

本实施例提出一种基于图挖掘的云服务能力评级方法，它包括以下主要步骤，整体流程如图一所示。首先应用皮尔逊相关性来计算数据的偏相关性，并据此构造图，得到一个由非正则偏相关网络组成的网络图。之后，使用套索正则化方法对部分相关网络进行正则化，消除不重要的边。计算网络中每个节点的中心度度量值，得到图中最有影响力的节点，并应用归一化折损累计增益衡量排名质量，最后得到云服务提供商排名。

S1、应用皮尔逊相关性。计算如公式1所示

其中，corr(x,y)是两个变量间的相关性，cov(x,y)是x和y之间的协方差，s_xs_y是x和y的标准差，E是期望值操作，μx、μy是期望值，X、Y是随机变量。

S2、偏相关性网络。偏相关性系数是衡量两个变量之间线性关系的指标，同时控制其他变量的影响，以计算云服务提供商之间在响应时间方面的相关性。

在网络中，每个链路代表两个变量之间的部分相关系数值，计算方式如公式1所示，系数值范围从-1到1。公式展示了在调整Z时找到X和Y之间的偏相关性，形式上，Z是X和Y之间偏相关性的影响变量，写作ρXY·Z。参数ρXY为X和Y之间偏相关性，为了消除Z的影响，还需要计算X和Z间、Z和Y间的相关性，并从从原始参数中减去。

在偏相关性系数中，值为0表示两个节点之间没有连接，即这两个节点是独立的。为了去除虚假的和不显著的边缘，使用邦弗朗尼校正作为校正因子，来测试所有连接并删除所有不具有统计学意义的连接。如公式2所示，当进行多重比较或进行统计检验时，如果α值是0到1之间的数字，则当P为变量假设值大于或等于观察值的概率时，则P(z≥z_abserved)≤α被认为是显著的。这时会降低α值以计算新的执行比较次数，用旧的α值除以比较的总数，得到新的α值。

S3、套索回归。套索回归是一种统计分析方法，能提高其产生的统计模型的预测准确性和可预测性。其通过强迫回归系数的绝对值之和小于一个固定值来实现，通过强迫某些系数被设置为零，有效地选择了一个不包括这些系数的更简单的模型。与岭回归不同，通过设置系数为零，能有效减少模型中预测因子的数量，识别重要的预测因子，在冗余预测因子中进行选择，并产生具有潜在较低预测误差的收缩估计值。此外，在套索正则化中，会增加惩罚以避免过拟合，定义为lambda(λ)，来控制图的稀疏性，有助于特性选择和控制虚假连接。以公式3的线性模型为例，表示了残差平方和+λ*|斜率|，m是数量，ρ是特征数。

在网络中，调优参数λ非常重要，过高或过低都会消除网络中太多的虚假连接和太多的真实连接。对于不保留边的λ值，λmax被设置为最大的绝对相关，一个最小值可以通过比率R乘以这个最大值来选择，如公式4所示。

λ_min＝λ_maR

在选择最佳网络上，使用最小化扩展贝叶斯信息准则(EBIC)优化技术，实验证明其具有很高的特异性和基于样本量和真实网络结构的变化灵敏度。

S4、基于图的中心性分析。中心性是分析网络图的一个重要概念，如果一个实体与许多其他实体有连接，则该实体被认为是重要的，中心性就是描述连接到节点的边数。每个节点都有一个中心性评分，表示它在网络中的位置，利用中心性，可以确定最佳的云服务提供商，需要在用户和服务提供商之间建立直接的关系。使用度中心度量标准根据云服务提供商的响应时间进行排名，可以展示出响应时间最长的云服务提供商。对于图G＝(V，E)，节点的度v可以用公式5、6表示。

C_D(v)＝deg (v)

其中i是重点节点，j代表所有其他节点，N是节点总数，w是加权邻接矩阵。

S5、计算性能指标。方法使用归一化折损累计增益(NDCG)来衡量排序质量，其核心思想是根据节点在返回结果列表中的位置来评估节点的重要性。所谓增益即在返回的结果列表中所有节点的相关性分数，表示为rel_i。CG是所有节点的相关性分数之和，仅仅是累加计算。DCG是在考虑了排序顺序的因素下，使得排名靠前的节点增益更高，对排名靠后的节点进行折损，即在计算相关性分数之和时，根据位置乘以一个随排名递减的权重，通过对相关性分数除以log₂(i+1)实现。IDCG是理想DCG，即根据相关性降序排列，排列到最符合预期状态的DCG。NDGC使用二者的比来表示，代表当前结果接近最理想结果的程度，从而让不同排名的顺序结果能进行比较评估，比值越大代表此排名顺序质量越高，可信度越高。

综上所述，整个算法的示意见下表所示。使用云服务提供商的响应时间等参数计算部分相关性，构造一个带惩罚的正则套索图，计算中心度量标准对云服务提供商进行排名，并使用归一化折损累计增益方法衡量排名质量。

作为优选的实施例，还提出一种基于图挖掘的云服务能力评级装置600，该装置包括数据集加载模块601、第一运算模块602、第二运算模块603、输出模块604。

数据集加载模块601用于接入云服务提供商，加载数据集；所述数据集包括云服务提供商集合以及响应时间服务度量；对所述数据集执行皮尔逊相关性计算，输出由若干相关系数值组成的相关矩阵。第一运算模块602用于将所述相关矩阵转换为偏相关矩阵，在所述偏相关矩阵上构造非正则偏相关网络图。第二运算模块603用于构造图形化套索正则化网络，将所述偏相关矩阵导入所述图形化套索正则化网络，对比所述非正则偏相关网络图，找到具有最大边的图并输出。输出模块604用于对所述第二运算模块603输出的最大边的图执行中心性分析，根据分析结果对云服务提供商的响应时间进行排名并列表显示。

如上所述，尽管参照特定的优选实施例已经表示和表述了本发明，但其不得解释为对本发明自身的限制。在不脱离所附权利要求定义的本发明的精神和范围前提下，可对其在形式上和细节上做出各种变化。

Claims

1.一种基于图挖掘的云服务能力评级方法，其特征在于，包括：

2.根据权利要求1所述的云服务能力评级方法，其特征在于，步骤S1中对所述数据集执行皮尔逊相关性计算的表达式如下：

式中，corr(x,y)是两个变量间的相关性，cov(x,y)是x和y之间的协方差，在此处，x是第i个用户第j个服务商的响应时间，y是除了x外矩阵中其他所有元素；s_xs_y是x和y的标准差，E是期望值操作，μx、μy是期望值，X、Y是随机变量。

3.根据权利要求1所述的云服务能力评级方法，其特征在于，步骤S2进一步包括：

所述偏相关性系数的表达式如下：

式中，ρXY·Z表示Z是X和Y之间偏相关性的影响变量，其中x是第i个用户第j个服务商的响应时间，y是第i个用户第j+1个服务商的响应时间，z是除了x、y外矩阵中其他所有元素；ρXY表示X和Y之间的偏相关性；ρXZ表示X和Z之间的偏相关性；ρZY表示Z和Y之间的偏相关性；

4.根据权利要求3所述的云服务能力评级方法，其特征在于，构建非正则偏相关网络图，所述非正则偏相关网络图中，每个链路代表两个变量之间的所述相关系数值，系数值范围为[-1，1]。

5.根据权利要求4所述的云服务能力评级方法，其特征在于，还包括：

使用邦弗朗尼校正作为校正因子，测试所有连接并删除所有不具有统计学意义的连接，当进行多重比较或进行统计检验时，如果α值是0到1之间的数字，则当P为变量假设值大于或等于观察值的概率时，则P(z≥z_abserved)≤α被认为是显著的；此时降低α值以计算新的执行比较次数，用旧的α值除以比较的总数，得到新的α值，表达式如下：

式中，α_old表示旧的α值；α_new表示新的α值。

6.根据权利要求1所述的云服务能力评级方法，其特征在于，步骤S3中构造图形化套索正则化网络的表达式如下：

min(y-wX)²+λw

7.根据权利要求1所述的云服务能力评级方法，其特征在于，步骤S4进一步包括：

对于图G＝(V，E)，节点的度v用如下表达式表示：

C_D(v)＝deg(v)

8.根据权利要求7所述的云服务能力评级方法，其特征在于，步骤S5计算云服务提供商的性能指标的过程包括，使用归一化折损累计增益nDCG衡量排序质量：

9.一种基于图挖掘的云服务能力评级装置，其特征在于，包括：

10.一种电子设备，其特征在于，所述设备包括：处理器以及存储有计算机程序指令的存储器；

所述处理器执行所述计算机程序指令时实现如权利要求1至8中任一项所述的云服务能力评级方法。

11.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一个可执行指令，所述可执行指令在电子设备上运行时，使得电子设备执行如权利要求1至8中任一项所述的云服务能力评级方法。