CN109960839B

CN109960839B - 基于机器学习的业务支撑系统业务链路发现方法和系统

Info

Publication number: CN109960839B
Application number: CN201711433930.6A
Authority: CN
Inventors: 任赣; 胡林熙; 蒋健; 唐涛; 叶晓龙; 乔柏林; 蒋通通
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Current assignee: China Mobile Zhejiang Innovation Research Institute Co ltd; China Mobile Communications Group Co Ltd; China Mobile Group Zhejiang Co Ltd
Priority date: 2017-12-26
Filing date: 2017-12-26
Publication date: 2023-04-28
Anticipated expiration: 2037-12-26
Also published as: CN109960839A

Abstract

本发明提供一种基于机器学习的业务支撑系统业务链路发现方法和系统，所述方法包括：获取新增业务的服务接口调用日志，基于已训练的业务链路模型，判断每个服务接口的上下游关系，并基于所述上下游关系拟合得到新增业务的调用链路；基于已训练的服务接口分组模型，对所述调用链路中的每个服务接口进行分类。基于用户日志与业务信息，运用朴素贝叶斯算法进行机器训练，自动判断业务链路上下游关系并拟合出业务调用链路；基于业务链路接口属性中已知的接口名称和接口类型，运用k‑means算法进行机器训练，自动进行接口的归类分组。解决了现有技术中链路调用关系更新依赖人工重复识别，人力资本投入巨大，且数据准确性无法得到保障的问题。

Description

基于机器学习的业务支撑系统业务链路发现方法和系统

技术领域

本发明涉及业务支撑技术领域，更具体地，涉及一种基于机器学习的业务支撑系统业务链路发现方法和系统。

背景技术

业务，是指企业和组织生产经营活动、事务处理等一系列过程的总和。随着信息技术的引入，业务已经与IT(Information Technology，信息技术)紧密耦合到了一起。从IT的角度来看，业务包括业务的IT支撑系统、业务数据、业务链路和业务的参与人员。其中业务链路是业务模型中最为关键的一环，会直接影响到业务健康度、业务服务目录、客户感知体系等上层应用的建筑。

业务链路是指用户前台业务办理全路径下各个环节的关系视图。基于业务链路，用户可以一目了然的洞悉业务当前的运行状况和健康状态。在业务链路中，融入业务办理量、业务办理成功率、业务办理耗时等指标进行监控和展现，并能做到异动预警，可以快速发现并定位当前问题所在。

业务链路视图的首次成型基本是在需求设计初期构建方案时规划好，再通过人工绘制而成。但在需求正式上线后，可能会由于性能问题、业务需求变更等需要进行变更调整，由此业务链路视图也需要相应进行更新。目前业务链路视图的更新方式主要以人工维护更新为主，根据需求文档来更新数据，或者通过人工梳理业务代码方式逐一匹配流程环节，从而达到更新业务链路视图的目的。因此，目前业务链路视图更新方式存在如下缺陷：链路调用关系更新依赖人工重复识别，人力资本投入巨大，且数据准确性无法得到保障。随着当前“微服务”架构的发展，服务数量呈几何倍数增加，服务关系更加错综复杂依靠传统的方案已无法继续支撑。

发明内容

本发明提供一种克服上述问题或者至少部分地解决上述问题的一种基于机器学习的业务支撑系统业务链路发现方法和系统，解决了现有技术中链路调用关系更新依赖人工重复识别，人力资本投入巨大，且数据准确性无法得到保障的问题。

根据本发明的一个方面，提供一种业务链路发现方法，包括：

获取新增业务的服务接口调用日志，基于已训练的业务链路模型，判断每个服务接口的上下游关系，并基于所述上下游关系拟合得到新增业务的调用链路；

基于已训练的服务接口分组模型，对所述调用链路中的每个服务接口进行分类。

作为优选的，所述业务链路模型的训练过程具体包括：

基于业务操作日志，统计已知业务的服务接口信息，通过朴素贝叶斯网络进行训练，得到每个已知业务下服务接口的分布及调用关系。

作为优选的，基于业务操作日志，统计已知业务的服务接口信息，具体包括：

基于用户表中特征字段区分出系统和业务，获取已知业务和新增业务之间的关系矩阵，抓取指定时间段内的已知业务和新增业务，并从每个服务接口中截取单个业务的端到端系统日志。

作为优选的，通过朴素贝叶斯网络进行训练具体包括：

将每个服务接口作为一个独立事件，基于朴素贝叶斯网络求得每个独立事件判定到新增业务的误判率，以每个独立事件误判率最小作为判定规则，获取新增业务中服务接口的出现概率；

按照概率将服务接口划分为必选接口、可选接口、不选接口，将可选接口和必选接口作为新增业务的调用链路接口。

作为优选的，基于朴素贝叶斯网络求得每个独立事件判定到新增业务的误判率，以每个独立事件误判率最小作为判定规则，具体包括：

将每个服务接口作为一个独立事件，业务y＝{C1,C2,C3,C4,...,Ci}，将一个在新增业务中出现的接口C_j错误判定为Ci的概率定为λ_ij，基于后验概率P(Ci|X)，求得事件X与Ci错误判断的概率：

获取h：X→Y最小化总体误判概率：

R(h)＝Ex[R(h(x)|x)]

在每个样本上选择误判R(C|X)最小的标记，C是选择的条件，以使总体误判概率R(h)最小化，即：

条件概率：R(C|X)＝1-P(C|X)，将贝叶斯最有分类作为判定规则：

h*(x)＝argc∈ymaxR(c|x)。

作为优选的，还包括，获取后验概率P(C|X)，利用训练集得到参数θ_c，θ_c极大似然估计，估计c发生的概率；将P(C|X)记为P(C|θ_c)，将训练集中第C类样本组成集合Dc：

取对数似然

θ_c的极大似然为：

θ＝argθ_cmaxLL(θ_c)

取

参数μ_c和

的极大似然估计为：

所有的接口和服务是相互独立的，因此：

根据判定规则：

其中

作为优选的，通过已训练的业务链路分组模型，对所述调用链路中的每个服务接口进行分类前还包括：

获取接口属性中已知的接口类别、接口名称信息，通过K-均值算法对已知服务接口分组进行训练，得到训练后的服务接口分组模型。

一种业务链路发现系统，包括：

日志统计模块，用于基于用户表中特征字段区分出系统和业务，获取已知业务和新增业务之间的关系矩阵，抓取指定时间段内的已知业务和新增业务，并从每个服务接口中截取单个业务的端到端系统日志；

业务链路计算模块，用于基于已训练的业务链路模型，判断每个服务接口的上下游关系，并基于所述上下游关系拟合得到新增业务的调用链路；

业务链路分组模块，用于基于已训练的服务接口分组模型，对所述调用链路中的每个服务接口进行分类。

一种业务链路发现设备，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如上述的业务链路发现方法。

一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行如上述的业务链路发现方法。

本发明提出一种基于机器学习的业务支撑系统业务链路发现方法和系统，基于大数据用户日志与业务信息，运用朴素贝叶斯算法进行机器训练，自动判断业务链路上下游关系并拟合出业务调用链路；基于业务链路接口属性中已知的接口名称和接口类型，运用k-means算法进行机器训练，自动进行接口的归类分组。解决了现有技术中链路调用关系更新依赖人工重复识别，人力资本投入巨大，且数据准确性无法得到保障的问题。

附图说明

图1为根据本发明实施例的业务链路发现方法流程图；

图2为根据本发明实施例的贝叶斯算法示意图；

图3为根据本发明实施例的朴素贝叶斯算法示意图；

图4为根据本发明实施例的朴素贝叶斯分类模型示意图；

图5为根据本发明实施例的k-means算法示意图；

图6为根据本发明实施例的服务接口分组归类模型示意图；

图7为根据本发明实施例的服务接口分组归类模型判断示意图；

图8为根据本发明实施例的业务链路发现系统结构框图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

如图1所示，图中一种业务链路发现方法，包括：

在本实施例中，所述业务链路模型的训练过程具体包括：

基于用户表，通过表中特征字段区分出系统和业务并确认业务，并且确认出是否已有业务调用链；归纳出已知业务和新增业务之间的关系矩阵，用于区分原子业务和组合业务；根据传统统计学算法，并利用调度作业不断抓取用户命令抓取指定时间段内已知和新增业务用户。

基于已有系统的业务办理编号，结合用户操作业务时间、业务操作工号等要素，在一定时间区间内，从当前有效服务接口中截取用户办理单个业务的端到端系统日志，对日志切片，根据时间、操作员、系统工号等把连续的日志切成单个业务的分片日志。

在用户归属系统、相关业务、以及对应业务日志数据获取之后，通过朴素贝叶斯原理组装出业务调用原始链路。根据业务特征，每一个业务都要调用接口，把单独子业务接口作为特征独立事件，根据统计学原理，每一个独立事件N发生的概率为P(n)。对每个业务的特征独立事件来说，事件不会重复。

贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。

由图2得知：P(A|B)＝P(A∩B)/P(B)；

因此P(A∩B)＝P(A|B)P(B)；

同理：P(A∩B)＝P(B|A)P(A)；

所以P(A|B)P(B)＝P(B|A)P(A)；

P(A|B)＝P(B|A)P(A)/P(B)；

如此就可以求出相互独立特征事件发生的概率P(A|B)。事件B未发生，对事件A预估发生的概率，定义为先验概率P(A)；事件B已经发生，对事件A发生的概率进行重新评估，定义为后验概率P(A|B)；为了对事件发生的概率有更真实的评估，把定义为调整因子P(B|A)/P(B)，那么事件发生的概率就为：后验概率＝先验概率x调整因子。

如果调整因子>1，表明事件发生的概率变大，即事件A发生的概率P(A)变大；如果调整因子＝1，表明事件AB发生的关联系不大，即事件B是否发生，都不影响事件A发生的概率；如果调整因子<1，表明事件发生的概率变小，即事件A发生的概率P(A)变小。

朴素贝叶斯定理思想基础是：对于给出的待确认项，求解在此项出现的条件下各个事件的概率，求出概率。假定一个子业务有N个可能的独立事件，y＝{C1,C2,C3,C4,...,Ci}，y表示办理的业务，Ci表示办理业务中发生的原子事件，将一个在子业务中真实出现的接口Cj错误判定为Ci的概率定为λ_ij，基于后验概率P(Ci|X)，可求得事件X与Ci错误判断的概率，即在样本x上的条件概率：

寻找一个判定规则，获取h：X→Y最小化总体误判概率：

R(h)＝Ex[R(h(x)|x)]

对于每一个样本若h能最小化误判概率R(h(x)|x),则总体误判概率R(h)可以被最小化，只需在每个样本上选择误判R(C|X)最小的标记，即

其中h*：贝叶斯最有分类器；R(h*)：贝叶斯概率，1-R(h*)：贝叶斯分类最好。

目标是最小化误判错误率，则误判：

条件概率：R(C|X)＝1-P(C|X)，C是选择的条件，将贝叶斯最有分类：

h*(x)＝argc∈ymaxR(c|x)。

即对每个样本x，选择能使后验风险概率P(C|X)最大的类别标记

根据极大似然估计，P(C|X)具有确定的形式并且被参数θ_c唯一确定，则利用训练集D估计参数θ_c，P(C|X)记为P(C|θ_c)，θ_c极大似然估计，估计c发生的概率；将训练集中第C类样本组成集合Dc：

防止连乘造成向下溢出，取对数似然

此时，θ_c的极大似然为：

θ＝argθ_cmaxLL(θ_c)

连续属性情况下，取

参数μ_c和

的极大似然估计为：

所有的接口和服务是相互独立的，因此：

根据判定规则：

其中

通过朴素贝叶斯定理，对业务操作日志进行机器训练，统计已有的和新增的服务接口信息，训练后得到每个业务和接口的对应关系，独立特征事件(每个接口c1-c(i))发生的概率如图3所示。

对于同一个业务的子接口，动态获取平均概率，按照概率划分出必选接口、可选接口、不选接口，在可选接口概率线以上的接口即为所求的业务调用链接口，如图4所示。

在本实施例中，通过已训练的业务链路分组模型，对所述调用链路中的每个服务接口进行分类前还包括：

k-means算法是一种很常见的聚类算法，它的基本思想是：通过迭代寻找k个聚类的一种划分方案，使得用这k个聚类的均值来代表相应各类样本时所得的总体误差最小。k-means算法的基础是最小误差平方和准则。其代价函数是：

式中，μ_c(i)表示第i个聚类的均值。我们希望代价函数最小，直观的来说，各类内的样本越相似，其与该类均值间的误差平方越小，对所有类所得到的误差平方求和，即可验证分为k类时，各聚类是否是最优的。

上式的代价函数无法用解析的方法最小化，只能有迭代的方法。k-means算法是将样本聚类成k个簇(cluster)，其中k是用户给定的，其求解过程非常直观简单，算法描述如下：

1、随机选取k个聚类质心点

2、重复下面过程直到收敛{

对于每一个样例i，计算其应该属于的类：

对于每一个类j，重新计算该类的质心：

如图5所示，通过k-means算法，对已知接口分组进行机器训练，具体实现如下：

以开户业务为例，取6个聚类质心点，分别代表6类接口分组，统计已知接口类型，通过计算确认已知接口的类归属，绘制已知接口分组分布图，再对每一类接口分组重新计算其质心，重复上述过程，直到所有已知接口分组都归类到图中，如图6所示。

对于新增的未知服务接口，统计其接口类型和接口名称，按照同样的方式显示在分布图上，通过和不同质心点之间距离的判断，来自动确认未知接口属于哪一类接口分组，如图7所示。

如图8所示，本实施例中还示出了一种业务链路发现系统，包括：

具体的，日志统计模块包括获取用户单元、获取日志单元和挖掘日志单元。

获取用户单元用于基于用户表，通过表中特征字段区分出系统和业务并确认子业务，并且确认出是否已有业务调用链；归纳出已知子业务和新增子业务之间的关系矩阵，类似如下表：

根据传统统计学算法，并利用调度作业不断抓取用户命令抓取指定时间段内已知业务和新增业务的用户。

获取日志单元用于基于已有系统的业务办理编号，结合用户操作业务时间、业务操作工号等要素，在一定时间区间内，从当前有效服务接口中截取用户办理单个业务的端到端系统日志。

挖掘日志单元用于在用户归属系统、相关业务、以及对应业务日志数据获取之后，通过朴素贝叶斯原理组装出业务调用原始链路。

业务链路计算模块，用于基于已训练的业务链路模型，判断每个服务接口的上下游关系，并基于所述上下游关系拟合得到新增业务的调用链路；在本实施例中，业务链路计算模块通过上述方法中朴素贝叶斯网络训练的业务链路模型进行链路计算。

业务链路分组模块，用于基于已训练的服务接口分组模型，对所述调用链路中的每个服务接口进行分类。最终得到的业务链路存储到业务链数据库中。

本实施例中还提供了一种业务链路发现设备，包括：处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线；

其中，

所述处理器、存储器、通信接口通过所述总线完成相互间的通信；

所述通信接口用于该测试设备与显示装置的通信设备之间的信息传输；

所述处理器用于调用所述存储器中的程序指令，以执行上述各方法实施例所提供的业务质量分析方法，例如包括：

本实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的业务链路发现方法，例如包括：

本实施例提供一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质存储计算机指令，所述计算机指令使所述计算机执行上述各方法实施例所提供的业务链路发现方法，例如包括：

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的显示装置的测试设备等实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后，本发明的方法仅为较佳的实施方案，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种业务链路发现方法，其特征在于，包括：

基于已训练的服务接口分组模型，对所述调用链路中的每个服务接口进行分类；

其中，所述业务链路模型的训练过程具体包括：

基于业务操作日志，统计已知业务的服务接口信息，通过朴素贝叶斯网络进行训练，得到每个已知业务下服务接口的分布及调用关系；

基于业务操作日志，统计已知业务的服务接口信息，具体包括：

基于用户表中特征字段区分出系统和业务，获取已知业务和新增业务之间的关系矩阵，抓取指定时间段内的已知业务和新增业务，并从每个服务接口中截取单个业务的端到端系统日志；

通过朴素贝叶斯网络进行训练具体包括：

2.根据权利要求1所述的业务链路发现方法，其特征在于，基于朴素贝叶斯网络求得每个独立事件判定到新增业务的误判率，以每个独立事件误判率最小作为判定规则，具体包括：

其中，y表示办理的业务，C1、C2、C3、C4、...、Ci分别表示第1、2、3、4、...、i个独立事件，X表示样本，j＝1,2,3,...,N，N为独立事件的数量，C_j表示一个在新增业务中出现的接口；

获取h：X→Y最小化总体误判概率：

R(h)＝Ex[R(h(x)|x)]

R(h(x)|x)表示误判概率，R(h)表示总体误判概率，x表示样本，h表示最小化总体误判的判定规则；

在每个样本上选择误判R(C|X)最小的标记，以使总体误判概率R(h)最小化，即：

其中，h*表示贝叶斯最优分类器，x表示样本，C表示选择的条件；

条件概率：R(C|X)＝1-P(C|X)，C是选择的条件，将贝叶斯最优分类作为判定规则：

h*(x)＝argc∈ymaxR(c|x)

其中，h*表示贝叶斯最优分类器，x表示样本，c表示选择的条件，y表示办理的业务。

3.根据权利要求2所述的业务链路发现方法，其特征在于，还包括，获取后验概率P(C|X)，利用训练集得到参数θ_c，θ_c极大似然估计，估计c发生的概率；将P(C|X)记为P(C|θ_c)，将训练集中第C类样本组成集合Dc：

其中，x表示第C类样本中的一个样本，c表示选择的条件；

取对数似然

其中，x表示第C类样本中的一个样本；

θ_c的极大似然为：

θ＝argθ_cmaxLL(θ_c)

取

参数μ_c和

的极大似然估计为：

其中，μ_c表示均值；

表示方差，x表示第C类样本中的一个样本，T表示达到业务高准确率要求的最低值；

所有的接口和服务是相互独立的，因此：

其中，x表示第C类样本中的一个样本，c表示选择的条件，d表示样本数；

根据判定规则：

其中，x表示第C类样本中的一个样本，c表示选择的条件，y表示办理的业务；

其中

其中，D表示训练集，x表示样本，x_i表示第C类样本中的第i个样本，c表示选择的条件。

4.根据权利要求1所述的业务链路发现方法，其特征在于，通过已训练的业务链路分组模型，对所述调用链路中的每个服务接口进行分类前还包括：

5.一种业务链路发现系统，其特征在于，包括：

业务链路计算模块，用于基于已训练的业务链路模型，判断每个服务接口的上下游关系，并基于所述上下游关系拟合得到新增业务的调用链路；其中，所述业务链路模型的训练过程具体包括：基于业务操作日志，统计已知业务的服务接口信息，通过朴素贝叶斯网络进行训练，得到每个已知业务下服务接口的分布及调用关系；基于业务操作日志，统计已知业务的服务接口信息，具体包括：基于用户表中特征字段区分出系统和业务，获取已知业务和新增业务之间的关系矩阵，抓取指定时间段内的已知业务和新增业务，并从每个服务接口中截取单个业务的端到端系统日志；通过朴素贝叶斯网络进行训练具体包括：将每个服务接口作为一个独立事件，基于朴素贝叶斯网络求得每个独立事件判定到新增业务的误判率，以每个独立事件误判率最小作为判定规则，获取新增业务中服务接口的出现概率；按照概率将服务接口划分为必选接口、可选接口、不选接口，将可选接口和必选接口作为新增业务的调用链路接口；

6.一种业务链路发现设备，其特征在于，包括：

至少一个处理器；以及

与所述处理器通信连接的至少一个存储器，其中：

所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。

7.一种计算机程序产品，其特征在于，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行如权利要求1至4任一所述的方法。