CN115061836A

CN115061836A - 一种接口层面的基于图嵌入算法的微服务拆分方法

Info

Publication number: CN115061836A
Application number: CN202210977791.8A
Authority: CN
Inventors: 李莹; 陈龙; 刘佳豪; 甘蕊; 张凌飞
Original assignee: Tianjin Zhongyi Science And Technology Co ltd; Binhai Industrial Technology Research Institute of Zhejiang University
Current assignee: Tianjin Zhongyi Science And Technology Co ltd; Binhai Industrial Technology Research Institute of Zhejiang University
Priority date: 2022-08-16
Filing date: 2022-08-16
Publication date: 2022-09-16
Anticipated expiration: 2042-08-16
Also published as: CN115061836B

Abstract

本发明提供了一种接口层面的基于图嵌入算法的微服务拆分方法，包括：获取目标单体应用运行时的调用日志，根据日志记录中的参数信息，归纳出各个接口的调用情况，并构建有向调用图；根据设定的采样链长度获取有向调用图内的采样数据；将得到的采样数据投入LINE图嵌入模型中进行训练，提取各个接口向量；利用DBSCAN聚类算法对接口向量进行聚类，将相似度较高的接口归为一类，进而将单体应用的各个功能接口划分为了多个接口簇，实现了从接口层面对目标单体应用进行的拆分。本发明所述的拆分方法，根据单体应用的调用日志生成调用关系图，将应用的调用关系可视化，便于精确分析发掘接口之间的关联。

Description

一种接口层面的基于图嵌入算法的微服务拆分方法

技术领域

本发明属于微服务技术领域，尤其是涉及一种接口层面的基于图嵌入算法的微服务拆分方法。

背景技术

微服务是一种开发软件的架构和组织方法，是面向服务的体系结构（SOA）架构样式的一种变体。它将单一应用程序划分成一组通过明确定义的 API 进行通信的小型独立服务，通过服务之间互相协调、互相配合实现用户所需要的功能。这些组件是独立运行的，因此可以针对各项服务进行更新、部署和扩展，相比于整体架构而言也有着开发便捷、便于部署、易于进行代码复用以及拓展灵活等优势。因此许多项目也逐步从单体架构迁移为微服务架构。

基于上述优势，越来越多的公司将单体应用拆分为微服务架构，拆分的过程往往使用人工拆分的方式，这种方式会带来很多的不合理性。

单体应用迁移为微服务架构的过程中需要进行应用的拆分。合理拆分归纳代码，可以使迁移后的微服务的架构更为清晰，易于维护。然而这个工作当前大多由架构师或开发人员自主完成。这不仅会浪费大量的人力资源，且对于许多复杂的应用而言，开发人员难以熟知应用的各个部分，合理估计各个接口之间的关系进而进行拆分也就难以实现。

为了更好地建设微服务架构，降低服务之间调用延时，需要对微服务的接口进行更加合理的划分。

发明内容

有鉴于此，本发明旨在提出一种接口层面的基于图嵌入算法的微服务拆分方法，以现有技术微服务接口拆分的问题。

为达到上述目的，本发明的技术方案是这样实现的：

一种接口层面的基于图嵌入算法的微服务拆分方法，包括：

S1、获取目标单体应用运行时的调用日志，根据日志记录中的参数信息，归纳出各个接口的调用情况，并构建有向调用图；

S2、根据设定的采样链长度获取有向调用图内的采样数据；

S3、将得到的采样数据投入LINE图嵌入模型中进行训练，提取各个接口向量；

S4、利用DBSCAN聚类算法对接口向量进行聚类，将相似度较高的接口归为一类，进而将单体应用的各个功能接口划分为了多个接口簇，实现了从接口层面对目标单体应用进行的拆分。

进一步的，步骤S1中通过跟踪工具Kieker获取目标单体应用运行时的调用日志，具体方法如下：

S101、向目标单体应用系统中插入探针，充分运行准备的测试用例，得到目标单体应用执行时的调用信息；

S102、根据调用信息中的被调用的方法，调用顺序和调用堆栈的深度多种参数信息，归纳出各个接口的调用情况。

进一步的，步骤S1中构建有向调用图采用如下方法：利用节点代表应用接口，有向边代表接口之间的调用关系，边的权值代表接口调用频次，根据上述信息构建有向调用图。

进一步的，步骤S2中，采样流程包括历遍各个节点，逐个进行k次定长有偏随机游走生成训练数据；具体如下：

S201、根据本节点的各个边权值与本节点出度比值，生成各个路径的选择区间；

S202、调用random库生成[0,1]区间内随机数，基于随机数的值选择对应的边进行游走，将目标节点加入节点序列中；

S203、重复步骤S201- S202，直至节点序列长度达到设定的长度；

S204、重复步骤S201- S203 至k次，生成k个以本节点为起点的序列；

S205、重复步骤S201- S204，为所有节点均生成k个序列。

进一步的，步骤S3中的对采集数据训练过程如下：

LINE图嵌入模型用于提取各个接口的一阶特征与二阶特征；

其中，一阶特征的意义为节点之间的直接相连边的权值，同时为相互调用的次数，反应了节点之间直接的相关度；

其中

为i与j接口相互调用频次和，W为两者出度和，E为调用图中边的集合，在LINE模型中采用如下公式来训练，其中u_i, u_j为两节点的向量为：

进而利用KL散度来表示两者的误差值，误差为损失函数，公式如下：

随后在训练中将采用随机梯度下降法来优化该过程；

二阶特征，为两节点间邻居的重合度，反应了节点之间功能的相似度，相似度值为：

d_i为两者邻居节点和，

为两者共同的邻居节点数；

LINE模型中采用如下公式训练：

其中，u_i, u_j为节点嵌入后的向量，

为i向量的转置，

为j向量的转置，

为k向量的转置，V为节点集合；

同样也使用KL散度来衡量不同分布的差距，即二阶相似的目标函数定义为：

随后在训练中将采用随机梯度下降法来优化该过程。

然而对损失时需要计算联合概率，该步骤需要对于整个的节点集合进行求和，复杂度过高。为了解决这个问题，我们采用负采样的方法, 通过一些噪声分布来采样一些负例边,将根据输入前部序列ABC输出结果D的问题转化为输入序列ABC与D判断D是否为正确的下一个节点的判断问题，返回值变成了0与1，而反向传播更新权重时也只更新相关节点的权重进而来降低该部分的复杂度，提升算法的性能。

进一步的，步骤S4中通过DBSCAN聚类算法对接口向量进行聚类过程如下：

S401：从数据集中任意选取一个数据对象点p；

S402：如果对于参数Eps和MinPts，所选取的数据对象点p为核心点，则找出所有从p密度可达的数据对象点，形成一个簇；

S403：如果选取的数据对象点p是边缘点，选取另一个数据对象点；

S404：重复S402-S403步，直到所有点被处理。

相对于现有技术，本发明所述的一种接口层面的基于图嵌入算法的微服务拆分方法具有以下优势：

（1）本发明所述的一种接口层面的基于图嵌入算法的微服务拆分方法，根据单体应用的调用日志生成调用关系图，将应用的调用关系可视化，便于精确分析发掘接口之间的关联。

（2）本发明所述的一种接口层面的基于图嵌入算法的微服务拆分方法，采用定长有偏随机游走对调用图采样，确保采样数据更为契合图中关联，关联密切的节点生成的对应的数据也更多，进而得到的训练也更为充分。

（3）本发明所述的一种接口层面的基于图嵌入算法的微服务拆分方法，采用LINE模型进行训练，充分保留了接口的一阶二阶相似度。从多个维度量化接口的特征属性。

（4）本发明所述的一种接口层面的基于图嵌入算法的微服务拆分方法，最终采用密度聚类进行划分，可以对任意分布的接口向量进行聚类，具有更广泛的适用性，同时可以在聚类时发现异常点，为代码的进一步重构提供建议。

附图说明

构成本发明的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1为本发明实施例所述的一种接口层面的基于图嵌入算法的微服务拆分方法流程图；

图2为本发明实施例所述的构建得到的接口调用有向图的示例以及有偏随机游走采样得到的部分训练数据示意图；

图3为本发明实施例所述的密度聚类的示意图。

具体实施方式

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

在本发明的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本发明中的具体含义。

下面将参考附图并结合实施例来详细说明本发明。

如图1所示，基于图嵌入算法的微服务拆分方式包含了数据收集阶段S1，训练数据生成阶段S2，模型训练阶段S3和根据相似度聚类阶段S4。

一种接口层面的基于图嵌入算法的微服务拆分方法，包括以下步骤：

S1、利用跟踪工具得到目标单体应用运行时的调用日志，随后根据执行后得到的日志记录中的参数信息，归纳出各个接口的调用情况，并构建有向调用图；

其中，图中节点代表应用接口，图中有向边代表接口之间的调用关系，边的权值为接口调用的频次；

S2、遍历图中各个节点，逐个进行k次定长有偏随机游走，对S1中得到的调用图进行采样，其中采样链的长度为设置的常数值，随机游走时的概率为该边的权值与选定节点出度的比值；

S3、将得到的采样数据投入LINE图嵌入模型中进行训练，提取各个接口的一阶特征向量与二阶特征向量，该接口向量则可以由训练得到的特征向量拼接后表示；

步骤S1中，服务端构建微服务集群方法为：

服务端基于spring cloud构建服务集群，在微服务应用启动类上开启服务发现注解@EnableDiscoveryClient 和 feign 注解@EnableFeignClients，微服务应用之间通过Feign Client调用。

步骤S1中，收集还原各微服务应用之间分布式链路调用过程并形成图状调用链的方法：在每个微服务应用的配置文件中添加链路追踪工具SOFATracer依赖、Spring CloudOpenFeign依赖和数据收集工具Zipkin 依赖，使用SOFATracer对Spring Cloud OpenFeign组件进行埋点接入用于获取各微服务应用链路调用过程；各项目工程引入链路收集展示工具 Zipkin，启动Zipkin服务端，接收SOFATracer上报的链路日志数据，Zipkin对链路日志数据清洗形成图状调用链，还原分布式链路调用过程。

步骤S1中所述的跟踪工具为Kieker，收集调用日志信息的流程为：（1）向目标单体应用系统中插入探针，充分运行准备的测试用例，得到单体应用执行时的调用信息。(2) 根据调用信息中的被调用的方法，调用顺序和调用堆栈的深度等参数信息，归纳出各个接口的调用情况。

步骤S1中的调用图构建方式为：图中节点代表应用接口，图中有向边代表接口之间的调用关系，边的权值为接口调用的频次；例如图2中节点A与节点B之间存在一条由A指向B的边权值为5的有向边，代表在运行样例的过程中，接口A直接调用了5次接口B。

步骤S2中采样流程为遍历图中所有节点，以对应节点为起点进行k次定长有偏随机游走生成训练数据，该流程如下所示：

（1）根据该节点的各个边权值与该节点出度比值，生成各个路径的选择区间；

（2）调用random库生成[0,1]区间内随机数，基于随机数的值选择对应的边进行游走，将目标节点加入节点序列；

（3）重复（1）（2）步骤，直到节点序列长度到定长；

（4）重复（1）-（3）步骤k次，生成k个以该节点为起点的序列；

（5）重复（1）-（4）步骤，为所有节点均生成k个序列；

以图2中A节点为例，其通过定长为4的有偏随机游走生成训练序列的过程为：（1）图中A为起点的边有：A->B，A->C，A->D，A->E，边权值分别为6，8，3，3，则对应的区间为B：[0-0.3]，C：[0.3-0.7]，D：[0.7-0.85]，D：[0.85-1]。随后生成[0,1]之间的随机数，选择对应的边为游走路线，例如所生成随机数为0.2，则选择边A->B，此时序列为A，B；（2）从B开始重复（1）中的流程，选择下一个节点，如E。序列为A，B，E；（3）重复（1）（2）流程直到序列长度达到定长4为止，图例中的某次游走结果为：A，B，E，D；（4）重复流程（1-3）直到为每个节点均生成k次以其为初始点的序列为止，其部分序列如图2所示。

步骤S3中的LINE图嵌入模型可以提取各个接口的一阶特征与二阶特征。其中一阶特征的意义为节点之间的直接相连边的权值，即为相互调用的次数，反应了节点之间直接的相关度。相关度值表示为：

进而可以利其中

为i与j与接口相互调用频次和，W为两者出度和，E为调用图中边集合，在LINE模型中采用如下公式来训练，其中u_i, u_j为节点嵌入后的向量表示：

进而可以利用KL散度来表示两者的误差值，即为损失函数，该部分简化表示如下：

随后在训练中将采用随机梯度下降法来优化该过程。

其中随机梯度下降法是一个一阶最优化算法，使用梯度下降法找到一个函数的局部极小值，必须向函数上当前点对应梯度（或者是近似梯度）的反方向的规定步长距离点进行迭代搜索，是一种常用的算法，具体过程此处不再详细介绍。

步骤S3中的所述的节点间的二阶特征，其意义为两节点间邻居的重合度，反应了节点之间功能的相似度。相似度值可以表示为：

为两者邻居节点和，

为两者共同的邻居节点数。在LINE模型中采用如下公式训练：

其中，u_i, u_j为节点嵌入后的向量，

为i向量的转置，

为j向量的转置，

为k向量的转置，V为节点集合；

同样也使用KL散度来衡量不同分布的差距。不同分布的差距通过二阶相似相似的目标函数定义为：

然而对损失时需要计算联合概率

，该步骤需要对于整个的节点集合进行求和，复杂度过高。为了解决这个问题，我们采用负采样的方法, 通过一些噪声分布来采样一些负例边,将根据输入前部序列ABC输出结果D的问题转化为输入序列ABC与D判断D是否为正确的下一个节点的判断问题，返回值变成了0与1，而反向传播更新权重时也只更新相关节点的权重进而来降低该部分的复杂度，提升算法的性能。

我们一个简单有效的方式来结合一阶相似度和二阶相似度对节点进行嵌入：首先训练LINE模型，然后将一阶，二阶近似性的结果进行向量结果的拼接。即：对于节点A最终基于一阶相似度嵌入的结果为[0.6,0.7,0.2]，二阶相似度嵌入结果为 [0.3,0.1,0.9]，则该节点向量为：[0.6,0.7,0.2,0.3,0.1,0.9]。

步骤S4中的DBSCAN聚类中使用到eps邻域，该定义表示为：

，以对象p为中心，以给定半径eps为半径的邻域称为对象p的eps邻域。

密度阈值Minpts。对于给定的对象集D，

，使对象p称为核心点的密度限定值。

核心对象。对于给定对象集D，

，

，

在对象p的邻域内，若n大于密度阈值Minpts，表示对象p的eps邻域内对象个数大于密度阈值，则定义p为核心点。

密度。对于给定对象集D，

，以对象p为中心，以给定半径eps为半径的邻域内对象的个数定义为对象p的密度。

直接密度可达。对于给定对象集D，

，

的eps邻域，且p是核心对象，则称q从p直接密度可达。

密度可达。对于给定对象集D，

，对于

，若

从

关于eps和Minpts直接密度可达，则对象q是从对象p关于eps和Minpts密度可达。

密度互连。对于给定对象集D，

，若

，使得对象p和q是从o关于eps和Minpts密度可达，那么对象p和q是关于eps和Minpts密度互连的。

具体的实行步骤如下：

（1）从数据集中任意选取一个数据对象点p。

（2）如果对于参数Eps和MinPts，所选取的数据对象点p为核心点，则找出所有从p密度可达的数据对象点，形成一个簇。

（3）如果选去的数据对象点p是边缘点，选取另一个数据对象点。

（4）重复（2）-（3）步，直到所有点被处理。

相对于现有技术，本发明提出的一种接口层面的基于图嵌入算法的微服务拆分方法的贡献具体如下：

（1）本发明根据单体应用的调用日志生成调用关系图，将应用的调用关系可视化，便于精确分析发掘接口之间的关联。

（2）本发明采用定长有偏随机游走对调用图采样，确保采样数据更为契合图中关联，关联密切的节点生成的对应的数据也更多，进而得到的训练也更为充分。

（3）本发明采用LINE模型进行训练，充分保留了接口的一阶二阶相似度。从多个维度量化接口的特征属性。

（4）最终采用密度聚类进行划分，可以对任意分布的接口向量进行聚类，具有更广泛的适用性，同时可以在聚类时发现异常点，为代码的进一步重构提供建议。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。