CN109960839B - 基于机器学习的业务支撑系统业务链路发现方法和系统 - Google Patents

基于机器学习的业务支撑系统业务链路发现方法和系统 Download PDF

Info

Publication number
CN109960839B
CN109960839B CN201711433930.6A CN201711433930A CN109960839B CN 109960839 B CN109960839 B CN 109960839B CN 201711433930 A CN201711433930 A CN 201711433930A CN 109960839 B CN109960839 B CN 109960839B
Authority
CN
China
Prior art keywords
service
interface
link
newly added
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711433930.6A
Other languages
English (en)
Other versions
CN109960839A (zh
Inventor
任赣
胡林熙
蒋健
唐涛
叶晓龙
乔柏林
蒋通通
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Zhejiang Innovation Research Institute Co ltd
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Zhejiang Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Zhejiang Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201711433930.6A priority Critical patent/CN109960839B/zh
Publication of CN109960839A publication Critical patent/CN109960839A/zh
Application granted granted Critical
Publication of CN109960839B publication Critical patent/CN109960839B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Marketing (AREA)
  • Geometry (AREA)
  • Educational Administration (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Computer Hardware Design (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Telephonic Communication Services (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种基于机器学习的业务支撑系统业务链路发现方法和系统,所述方法包括:获取新增业务的服务接口调用日志,基于已训练的业务链路模型,判断每个服务接口的上下游关系,并基于所述上下游关系拟合得到新增业务的调用链路;基于已训练的服务接口分组模型,对所述调用链路中的每个服务接口进行分类。基于用户日志与业务信息,运用朴素贝叶斯算法进行机器训练,自动判断业务链路上下游关系并拟合出业务调用链路;基于业务链路接口属性中已知的接口名称和接口类型,运用k‑means算法进行机器训练,自动进行接口的归类分组。解决了现有技术中链路调用关系更新依赖人工重复识别,人力资本投入巨大,且数据准确性无法得到保障的问题。

Description

基于机器学习的业务支撑系统业务链路发现方法和系统
技术领域
本发明涉及业务支撑技术领域,更具体地,涉及一种基于机器学习的业务支撑系统业务链路发现方法和系统。
背景技术
业务,是指企业和组织生产经营活动、事务处理等一系列过程的总和。随着信息技术的引入,业务已经与IT(Information Technology,信息技术)紧密耦合到了一起。从IT的角度来看,业务包括业务的IT支撑系统、业务数据、业务链路和业务的参与人员。其中业务链路是业务模型中最为关键的一环,会直接影响到业务健康度、业务服务目录、客户感知体系等上层应用的建筑。
业务链路是指用户前台业务办理全路径下各个环节的关系视图。基于业务链路,用户可以一目了然的洞悉业务当前的运行状况和健康状态。在业务链路中,融入业务办理量、业务办理成功率、业务办理耗时等指标进行监控和展现,并能做到异动预警,可以快速发现并定位当前问题所在。
业务链路视图的首次成型基本是在需求设计初期构建方案时规划好,再通过人工绘制而成。但在需求正式上线后,可能会由于性能问题、业务需求变更等需要进行变更调整,由此业务链路视图也需要相应进行更新。目前业务链路视图的更新方式主要以人工维护更新为主,根据需求文档来更新数据,或者通过人工梳理业务代码方式逐一匹配流程环节,从而达到更新业务链路视图的目的。因此,目前业务链路视图更新方式存在如下缺陷:链路调用关系更新依赖人工重复识别,人力资本投入巨大,且数据准确性无法得到保障。随着当前“微服务”架构的发展,服务数量呈几何倍数增加,服务关系更加错综复杂依靠传统的方案已无法继续支撑。
发明内容
本发明提供一种克服上述问题或者至少部分地解决上述问题的一种基于机器学习的业务支撑系统业务链路发现方法和系统,解决了现有技术中链路调用关系更新依赖人工重复识别,人力资本投入巨大,且数据准确性无法得到保障的问题。
根据本发明的一个方面,提供一种业务链路发现方法,包括:
获取新增业务的服务接口调用日志,基于已训练的业务链路模型,判断每个服务接口的上下游关系,并基于所述上下游关系拟合得到新增业务的调用链路;
基于已训练的服务接口分组模型,对所述调用链路中的每个服务接口进行分类。
作为优选的,所述业务链路模型的训练过程具体包括:
基于业务操作日志,统计已知业务的服务接口信息,通过朴素贝叶斯网络进行训练,得到每个已知业务下服务接口的分布及调用关系。
作为优选的,基于业务操作日志,统计已知业务的服务接口信息,具体包括:
基于用户表中特征字段区分出系统和业务,获取已知业务和新增业务之间的关系矩阵,抓取指定时间段内的已知业务和新增业务,并从每个服务接口中截取单个业务的端到端系统日志。
作为优选的,通过朴素贝叶斯网络进行训练具体包括:
将每个服务接口作为一个独立事件,基于朴素贝叶斯网络求得每个独立事件判定到新增业务的误判率,以每个独立事件误判率最小作为判定规则,获取新增业务中服务接口的出现概率;
按照概率将服务接口划分为必选接口、可选接口、不选接口,将可选接口和必选接口作为新增业务的调用链路接口。
作为优选的,基于朴素贝叶斯网络求得每个独立事件判定到新增业务的误判率,以每个独立事件误判率最小作为判定规则,具体包括:
将每个服务接口作为一个独立事件,业务y={C1,C2,C3,C4,...,Ci},将一个在新增业务中出现的接口Cj错误判定为Ci的概率定为λij,基于后验概率P(Ci|X),求得事件X与Ci错误判断的概率:
Figure BDA0001525468610000031
获取h:X→Y最小化总体误判概率:
R(h)=Ex[R(h(x)|x)]
在每个样本上选择误判R(C|X)最小的标记,C是选择的条件,以使总体误判概率R(h)最小化,即:
Figure BDA0001525468610000032
Figure BDA0001525468610000033
条件概率:R(C|X)=1-P(C|X),将贝叶斯最有分类作为判定规则:
h*(x)=argc∈ymaxR(c|x)。
作为优选的,还包括,获取后验概率P(C|X),利用训练集得到参数θc,θc极大似然估计,估计c发生的概率;将P(C|X)记为P(C|θc),将训练集中第C类样本组成集合Dc:
Figure BDA0001525468610000034
取对数似然
Figure BDA0001525468610000035
θc的极大似然为:
θ=argθcmaxLL(θc)
Figure BDA0001525468610000036
参数μc
Figure BDA0001525468610000037
的极大似然估计为:
Figure BDA0001525468610000038
Figure BDA0001525468610000041
所有的接口和服务是相互独立的,因此:
Figure BDA0001525468610000042
根据判定规则:
Figure BDA0001525468610000043
其中
Figure BDA0001525468610000044
Figure BDA0001525468610000045
作为优选的,通过已训练的业务链路分组模型,对所述调用链路中的每个服务接口进行分类前还包括:
获取接口属性中已知的接口类别、接口名称信息,通过K-均值算法对已知服务接口分组进行训练,得到训练后的服务接口分组模型。
一种业务链路发现系统,包括:
日志统计模块,用于基于用户表中特征字段区分出系统和业务,获取已知业务和新增业务之间的关系矩阵,抓取指定时间段内的已知业务和新增业务,并从每个服务接口中截取单个业务的端到端系统日志;
业务链路计算模块,用于基于已训练的业务链路模型,判断每个服务接口的上下游关系,并基于所述上下游关系拟合得到新增业务的调用链路;
业务链路分组模块,用于基于已训练的服务接口分组模型,对所述调用链路中的每个服务接口进行分类。
一种业务链路发现设备,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如上述的业务链路发现方法。
一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行如上述的业务链路发现方法。
本发明提出一种基于机器学习的业务支撑系统业务链路发现方法和系统,基于大数据用户日志与业务信息,运用朴素贝叶斯算法进行机器训练,自动判断业务链路上下游关系并拟合出业务调用链路;基于业务链路接口属性中已知的接口名称和接口类型,运用k-means算法进行机器训练,自动进行接口的归类分组。解决了现有技术中链路调用关系更新依赖人工重复识别,人力资本投入巨大,且数据准确性无法得到保障的问题。
附图说明
图1为根据本发明实施例的业务链路发现方法流程图;
图2为根据本发明实施例的贝叶斯算法示意图;
图3为根据本发明实施例的朴素贝叶斯算法示意图;
图4为根据本发明实施例的朴素贝叶斯分类模型示意图;
图5为根据本发明实施例的k-means算法示意图;
图6为根据本发明实施例的服务接口分组归类模型示意图;
图7为根据本发明实施例的服务接口分组归类模型判断示意图;
图8为根据本发明实施例的业务链路发现系统结构框图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
如图1所示,图中一种业务链路发现方法,包括:
获取新增业务的服务接口调用日志,基于已训练的业务链路模型,判断每个服务接口的上下游关系,并基于所述上下游关系拟合得到新增业务的调用链路;
基于已训练的服务接口分组模型,对所述调用链路中的每个服务接口进行分类。
在本实施例中,所述业务链路模型的训练过程具体包括:
基于业务操作日志,统计已知业务的服务接口信息,通过朴素贝叶斯网络进行训练,得到每个已知业务下服务接口的分布及调用关系。
基于用户表,通过表中特征字段区分出系统和业务并确认业务,并且确认出是否已有业务调用链;归纳出已知业务和新增业务之间的关系矩阵,用于区分原子业务和组合业务;根据传统统计学算法,并利用调度作业不断抓取用户命令抓取指定时间段内已知和新增业务用户。
基于已有系统的业务办理编号,结合用户操作业务时间、业务操作工号等要素,在一定时间区间内,从当前有效服务接口中截取用户办理单个业务的端到端系统日志,对日志切片,根据时间、操作员、系统工号等把连续的日志切成单个业务的分片日志。
在用户归属系统、相关业务、以及对应业务日志数据获取之后,通过朴素贝叶斯原理组装出业务调用原始链路。根据业务特征,每一个业务都要调用接口,把单独子业务接口作为特征独立事件,根据统计学原理,每一个独立事件N发生的概率为P(n)。对每个业务的特征独立事件来说,事件不会重复。
贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。其中P(A|B)是在B发生的情况下A发生的可能性。
由图2得知:P(A|B)=P(A∩B)/P(B);
因此P(A∩B)=P(A|B)P(B);
同理:P(A∩B)=P(B|A)P(A);
所以P(A|B)P(B)=P(B|A)P(A);
P(A|B)=P(B|A)P(A)/P(B);
如此就可以求出相互独立特征事件发生的概率P(A|B)。事件B未发生,对事件A预估发生的概率,定义为先验概率P(A);事件B已经发生,对事件A发生的概率进行重新评估,定义为后验概率P(A|B);为了对事件发生的概率有更真实的评估,把定义为调整因子P(B|A)/P(B),那么事件发生的概率就为:后验概率=先验概率x调整因子。
如果调整因子>1,表明事件发生的概率变大,即事件A发生的概率P(A)变大;如果调整因子=1,表明事件AB发生的关联系不大,即事件B是否发生,都不影响事件A发生的概率;如果调整因子<1,表明事件发生的概率变小,即事件A发生的概率P(A)变小。
朴素贝叶斯定理思想基础是:对于给出的待确认项,求解在此项出现的条件下各个事件的概率,求出概率。假定一个子业务有N个可能的独立事件,y={C1,C2,C3,C4,...,Ci},y表示办理的业务,Ci表示办理业务中发生的原子事件,将一个在子业务中真实出现的接口Cj错误判定为Ci的概率定为λij,基于后验概率P(Ci|X),可求得事件X与Ci错误判断的概率,即在样本x上的条件概率:
Figure BDA0001525468610000071
寻找一个判定规则,获取h:X→Y最小化总体误判概率:
R(h)=Ex[R(h(x)|x)]
对于每一个样本若h能最小化误判概率R(h(x)|x),则总体误判概率R(h)可以被最小化,只需在每个样本上选择误判R(C|X)最小的标记,即
Figure BDA0001525468610000072
其中h*:贝叶斯最有分类器;R(h*):贝叶斯概率,1-R(h*):贝叶斯分类最好。
目标是最小化误判错误率,则误判:
Figure BDA0001525468610000081
条件概率:R(C|X)=1-P(C|X),C是选择的条件,将贝叶斯最有分类:
h*(x)=argc∈ymaxR(c|x)。
即对每个样本x,选择能使后验风险概率P(C|X)最大的类别标记
根据极大似然估计,P(C|X)具有确定的形式并且被参数θc唯一确定,则利用训练集D估计参数θc,P(C|X)记为P(C|θc),θc极大似然估计,估计c发生的概率;将训练集中第C类样本组成集合Dc:
Figure BDA0001525468610000082
防止连乘造成向下溢出,取对数似然
Figure BDA0001525468610000083
此时,θc的极大似然为:
θ=argθcmaxLL(θc)
连续属性情况下,取
Figure BDA0001525468610000084
参数μc
Figure BDA0001525468610000085
的极大似然估计为:
Figure BDA0001525468610000086
Figure BDA0001525468610000087
所有的接口和服务是相互独立的,因此:
Figure BDA0001525468610000088
根据判定规则:
Figure BDA0001525468610000091
其中
Figure BDA0001525468610000092
Figure BDA0001525468610000093
通过朴素贝叶斯定理,对业务操作日志进行机器训练,统计已有的和新增的服务接口信息,训练后得到每个业务和接口的对应关系,独立特征事件(每个接口c1-c(i))发生的概率如图3所示。
对于同一个业务的子接口,动态获取平均概率,按照概率划分出必选接口、可选接口、不选接口,在可选接口概率线以上的接口即为所求的业务调用链接口,如图4所示。
在本实施例中,通过已训练的业务链路分组模型,对所述调用链路中的每个服务接口进行分类前还包括:
获取接口属性中已知的接口类别、接口名称信息,通过K-均值算法对已知服务接口分组进行训练,得到训练后的服务接口分组模型。
k-means算法是一种很常见的聚类算法,它的基本思想是:通过迭代寻找k个聚类的一种划分方案,使得用这k个聚类的均值来代表相应各类样本时所得的总体误差最小。k-means算法的基础是最小误差平方和准则。其代价函数是:
Figure BDA0001525468610000094
式中,μc(i)表示第i个聚类的均值。我们希望代价函数最小,直观的来说,各类内的样本越相似,其与该类均值间的误差平方越小,对所有类所得到的误差平方求和,即可验证分为k类时,各聚类是否是最优的。
上式的代价函数无法用解析的方法最小化,只能有迭代的方法。k-means算法是将样本聚类成k个簇(cluster),其中k是用户给定的,其求解过程非常直观简单,算法描述如下:
1、随机选取k个聚类质心点
2、重复下面过程直到收敛{
对于每一个样例i,计算其应该属于的类:
Figure BDA0001525468610000101
对于每一个类j,重新计算该类的质心:
Figure BDA0001525468610000102
如图5所示,通过k-means算法,对已知接口分组进行机器训练,具体实现如下:
以开户业务为例,取6个聚类质心点,分别代表6类接口分组,统计已知接口类型,通过计算确认已知接口的类归属,绘制已知接口分组分布图,再对每一类接口分组重新计算其质心,重复上述过程,直到所有已知接口分组都归类到图中,如图6所示。
对于新增的未知服务接口,统计其接口类型和接口名称,按照同样的方式显示在分布图上,通过和不同质心点之间距离的判断,来自动确认未知接口属于哪一类接口分组,如图7所示。
如图8所示,本实施例中还示出了一种业务链路发现系统,包括:
日志统计模块,用于基于用户表中特征字段区分出系统和业务,获取已知业务和新增业务之间的关系矩阵,抓取指定时间段内的已知业务和新增业务,并从每个服务接口中截取单个业务的端到端系统日志;
具体的,日志统计模块包括获取用户单元、获取日志单元和挖掘日志单元。
获取用户单元用于基于用户表,通过表中特征字段区分出系统和业务并确认子业务,并且确认出是否已有业务调用链;归纳出已知子业务和新增子业务之间的关系矩阵,类似如下表:
Figure BDA0001525468610000111
根据传统统计学算法,并利用调度作业不断抓取用户命令抓取指定时间段内已知业务和新增业务的用户。
获取日志单元用于基于已有系统的业务办理编号,结合用户操作业务时间、业务操作工号等要素,在一定时间区间内,从当前有效服务接口中截取用户办理单个业务的端到端系统日志。
挖掘日志单元用于在用户归属系统、相关业务、以及对应业务日志数据获取之后,通过朴素贝叶斯原理组装出业务调用原始链路。
业务链路计算模块,用于基于已训练的业务链路模型,判断每个服务接口的上下游关系,并基于所述上下游关系拟合得到新增业务的调用链路;在本实施例中,业务链路计算模块通过上述方法中朴素贝叶斯网络训练的业务链路模型进行链路计算。
业务链路分组模块,用于基于已训练的服务接口分组模型,对所述调用链路中的每个服务接口进行分类。最终得到的业务链路存储到业务链数据库中。
本实施例中还提供了一种业务链路发现设备,包括:处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;
其中,
所述处理器、存储器、通信接口通过所述总线完成相互间的通信;
所述通信接口用于该测试设备与显示装置的通信设备之间的信息传输;
所述处理器用于调用所述存储器中的程序指令,以执行上述各方法实施例所提供的业务质量分析方法,例如包括:
获取新增业务的服务接口调用日志,基于已训练的业务链路模型,判断每个服务接口的上下游关系,并基于所述上下游关系拟合得到新增业务的调用链路;
基于已训练的服务接口分组模型,对所述调用链路中的每个服务接口进行分类。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的业务链路发现方法,例如包括:
获取新增业务的服务接口调用日志,基于已训练的业务链路模型,判断每个服务接口的上下游关系,并基于所述上下游关系拟合得到新增业务的调用链路;
基于已训练的服务接口分组模型,对所述调用链路中的每个服务接口进行分类。
本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的业务链路发现方法,例如包括:
获取新增业务的服务接口调用日志,基于已训练的业务链路模型,判断每个服务接口的上下游关系,并基于所述上下游关系拟合得到新增业务的调用链路;
基于已训练的服务接口分组模型,对所述调用链路中的每个服务接口进行分类。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所描述的显示装置的测试设备等实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后,本发明的方法仅为较佳的实施方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种业务链路发现方法,其特征在于,包括:
获取新增业务的服务接口调用日志,基于已训练的业务链路模型,判断每个服务接口的上下游关系,并基于所述上下游关系拟合得到新增业务的调用链路;
基于已训练的服务接口分组模型,对所述调用链路中的每个服务接口进行分类;
其中,所述业务链路模型的训练过程具体包括:
基于业务操作日志,统计已知业务的服务接口信息,通过朴素贝叶斯网络进行训练,得到每个已知业务下服务接口的分布及调用关系;
基于业务操作日志,统计已知业务的服务接口信息,具体包括:
基于用户表中特征字段区分出系统和业务,获取已知业务和新增业务之间的关系矩阵,抓取指定时间段内的已知业务和新增业务,并从每个服务接口中截取单个业务的端到端系统日志;
通过朴素贝叶斯网络进行训练具体包括:
将每个服务接口作为一个独立事件,基于朴素贝叶斯网络求得每个独立事件判定到新增业务的误判率,以每个独立事件误判率最小作为判定规则,获取新增业务中服务接口的出现概率;
按照概率将服务接口划分为必选接口、可选接口、不选接口,将可选接口和必选接口作为新增业务的调用链路接口。
2.根据权利要求1所述的业务链路发现方法,其特征在于,基于朴素贝叶斯网络求得每个独立事件判定到新增业务的误判率,以每个独立事件误判率最小作为判定规则,具体包括:
将每个服务接口作为一个独立事件,业务y={C1,C2,C3,C4,...,Ci},将一个在新增业务中出现的接口Cj错误判定为Ci的概率定为λij,基于后验概率P(Ci|X),求得事件X与Ci错误判断的概率:
Figure FDA0004043853710000021
其中,y表示办理的业务,C1、C2、C3、C4、...、Ci分别表示第1、2、3、4、...、i个独立事件,X表示样本,j=1,2,3,...,N,N为独立事件的数量,Cj表示一个在新增业务中出现的接口;
获取h:X→Y最小化总体误判概率:
R(h)=Ex[R(h(x)|x)]
R(h(x)|x)表示误判概率,R(h)表示总体误判概率,x表示样本,h表示最小化总体误判的判定规则;
在每个样本上选择误判R(C|X)最小的标记,以使总体误判概率R(h)最小化,即:
Figure FDA0004043853710000022
Figure FDA0004043853710000023
其中,h*表示贝叶斯最优分类器,x表示样本,C表示选择的条件;
条件概率:R(C|X)=1-P(C|X),C是选择的条件,将贝叶斯最优分类作为判定规则:
h*(x)=argc∈ymaxR(c|x)
其中,h*表示贝叶斯最优分类器,x表示样本,c表示选择的条件,y表示办理的业务。
3.根据权利要求2所述的业务链路发现方法,其特征在于,还包括,获取后验概率P(C|X),利用训练集得到参数θc,θc极大似然估计,估计c发生的概率;将P(C|X)记为P(C|θc),将训练集中第C类样本组成集合Dc:
Figure FDA0004043853710000024
其中,x表示第C类样本中的一个样本,c表示选择的条件;
取对数似然
Figure FDA0004043853710000031
其中,x表示第C类样本中的一个样本;
θc的极大似然为:
θ=argθcmaxLL(θc)
Figure FDA0004043853710000032
参数μc
Figure FDA0004043853710000033
的极大似然估计为:
Figure FDA0004043853710000034
Figure FDA0004043853710000035
其中,μc表示均值;
Figure FDA0004043853710000036
表示方差,x表示第C类样本中的一个样本,T表示达到业务高准确率要求的最低值;
所有的接口和服务是相互独立的,因此:
Figure FDA0004043853710000037
其中,x表示第C类样本中的一个样本,c表示选择的条件,d表示样本数;
根据判定规则:
Figure FDA0004043853710000038
其中,x表示第C类样本中的一个样本,c表示选择的条件,y表示办理的业务;
其中
Figure FDA0004043853710000039
Figure FDA0004043853710000041
其中,D表示训练集,x表示样本,xi表示第C类样本中的第i个样本,c表示选择的条件。
4.根据权利要求1所述的业务链路发现方法,其特征在于,通过已训练的业务链路分组模型,对所述调用链路中的每个服务接口进行分类前还包括:
获取接口属性中已知的接口类别、接口名称信息,通过K-均值算法对已知服务接口分组进行训练,得到训练后的服务接口分组模型。
5.一种业务链路发现系统,其特征在于,包括:
日志统计模块,用于基于用户表中特征字段区分出系统和业务,获取已知业务和新增业务之间的关系矩阵,抓取指定时间段内的已知业务和新增业务,并从每个服务接口中截取单个业务的端到端系统日志;
业务链路计算模块,用于基于已训练的业务链路模型,判断每个服务接口的上下游关系,并基于所述上下游关系拟合得到新增业务的调用链路;其中,所述业务链路模型的训练过程具体包括:基于业务操作日志,统计已知业务的服务接口信息,通过朴素贝叶斯网络进行训练,得到每个已知业务下服务接口的分布及调用关系;基于业务操作日志,统计已知业务的服务接口信息,具体包括:基于用户表中特征字段区分出系统和业务,获取已知业务和新增业务之间的关系矩阵,抓取指定时间段内的已知业务和新增业务,并从每个服务接口中截取单个业务的端到端系统日志;通过朴素贝叶斯网络进行训练具体包括:将每个服务接口作为一个独立事件,基于朴素贝叶斯网络求得每个独立事件判定到新增业务的误判率,以每个独立事件误判率最小作为判定规则,获取新增业务中服务接口的出现概率;按照概率将服务接口划分为必选接口、可选接口、不选接口,将可选接口和必选接口作为新增业务的调用链路接口;
业务链路分组模块,用于基于已训练的服务接口分组模型,对所述调用链路中的每个服务接口进行分类。
6.一种业务链路发现设备,其特征在于,包括:
至少一个处理器;以及
与所述处理器通信连接的至少一个存储器,其中:
所述存储器存储有可被所述处理器执行的程序指令,所述处理器调用所述程序指令能够执行如权利要求1至4任一所述的方法。
7.一种计算机程序产品,其特征在于,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行如权利要求1至4任一所述的方法。
CN201711433930.6A 2017-12-26 2017-12-26 基于机器学习的业务支撑系统业务链路发现方法和系统 Active CN109960839B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711433930.6A CN109960839B (zh) 2017-12-26 2017-12-26 基于机器学习的业务支撑系统业务链路发现方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711433930.6A CN109960839B (zh) 2017-12-26 2017-12-26 基于机器学习的业务支撑系统业务链路发现方法和系统

Publications (2)

Publication Number Publication Date
CN109960839A CN109960839A (zh) 2019-07-02
CN109960839B true CN109960839B (zh) 2023-04-28

Family

ID=67022103

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711433930.6A Active CN109960839B (zh) 2017-12-26 2017-12-26 基于机器学习的业务支撑系统业务链路发现方法和系统

Country Status (1)

Country Link
CN (1) CN109960839B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110750455B (zh) * 2019-10-18 2021-04-30 北京大学 基于系统日志分析的智能在线自更新故障诊断方法和系统
CN113569879B (zh) * 2020-04-28 2024-03-19 中国移动通信集团浙江有限公司 异常识别模型的训练方法、异常账号识别方法及相关装置
CN113869989B (zh) * 2021-12-01 2022-05-06 阿里云计算有限公司 一种信息处理方法及装置
CN115150279A (zh) * 2022-07-06 2022-10-04 中国银行股份有限公司 业务链路信息的获取方法及装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8700414B2 (en) * 2004-12-29 2014-04-15 Sap Ag System supported optimization of event resolution
US8817655B2 (en) * 2011-10-20 2014-08-26 Telefonaktiebolaget Lm Ericsson (Publ) Creating and using multiple packet traffic profiling models to profile packet flows
US9324038B2 (en) * 2013-11-15 2016-04-26 Xerox Corporation Method and system for clustering, modeling, and visualizing process models from noisy logs
WO2015134665A1 (en) * 2014-03-04 2015-09-11 SignalSense, Inc. Classifying data with deep learning neural records incrementally refined through expert input
CN104102875B (zh) * 2014-07-22 2017-05-03 河海大学 基于加权朴素贝叶斯分类器的软件服务质量监控方法及系统
CN107203464B (zh) * 2016-03-17 2020-09-08 阿里巴巴集团控股有限公司 业务问题的定位方法以及装置
CN107423205B (zh) * 2017-07-11 2020-11-27 北京明朝万达科技股份有限公司 一种用于数据防泄漏系统的系统故障预警方法及系统

Also Published As

Publication number Publication date
CN109960839A (zh) 2019-07-02

Similar Documents

Publication Publication Date Title
CN109960839B (zh) 基于机器学习的业务支撑系统业务链路发现方法和系统
CN111475804B (zh) 一种告警预测方法及系统
US10248528B2 (en) System monitoring method and apparatus
US10002144B2 (en) Identification of distinguishing compound features extracted from real time data streams
CN108683530A (zh) 多维度数据的数据分析方法、装置及存储介质
CN107810500A (zh) 数据质量分析
CN108427725A (zh) 数据处理方法、装置和系统
CN105740121A (zh) 一种日志文本监控与预警方法、装置
CN112241494B (zh) 基于用户行为数据的关键信息推送方法及装置
CN108063676A (zh) 通信网络故障预警方法及装置
CN106161135B (zh) 业务交易故障分析方法及装置
WO2011094664A1 (en) Risk scorecard
CN110414688A (zh) 信息分析方法、装置、服务器及存储介质
CN110457175B (zh) 业务数据处理方法、装置、电子设备及介质
WO2011017955A1 (zh) 一种告警数据分析的方法及其系统
CN105917625A (zh) 使用附加数据的检测到的网络异常的分类
CN110287316A (zh) 一种告警分类方法、装置、电子设备及存储介质
CN111984442A (zh) 计算机集群系统的异常检测方法及装置、存储介质
WO2021002780A1 (ru) Система мониторинга качества и процессов на базе машинного обучения
CN110490486A (zh) 一种企业大数据管理系统
CN113342939B (zh) 数据质量监控方法、装置及相关设备
CN114154866A (zh) 一种上市企业财务风险预警方法和系统
US20140129561A1 (en) Risk analysis using unstructured data
CN106951360B (zh) 数据统计完整度计算方法和系统
CN112465397A (zh) 一种审计数据的分析方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: No. 19, Jiefang East Road, Hangzhou, Zhejiang Province, 310016

Patentee after: CHINA MOBILE GROUP ZHEJIANG Co.,Ltd.

Patentee after: CHINA MOBILE COMMUNICATIONS GROUP Co.,Ltd.

Address before: No. 19, Jiefang East Road, Hangzhou, Zhejiang Province, 310016

Patentee before: CHINA MOBILE GROUP ZHEJIANG Co.,Ltd.

Patentee before: CHINA MOBILE COMMUNICATIONS Corp.

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20231226

Address after: No. 19, Jiefang East Road, Hangzhou, Zhejiang Province, 310016

Patentee after: CHINA MOBILE GROUP ZHEJIANG Co.,Ltd.

Patentee after: China Mobile (Zhejiang) Innovation Research Institute Co.,Ltd.

Patentee after: CHINA MOBILE COMMUNICATIONS GROUP Co.,Ltd.

Address before: No. 19, Jiefang East Road, Hangzhou, Zhejiang Province, 310016

Patentee before: CHINA MOBILE GROUP ZHEJIANG Co.,Ltd.

Patentee before: CHINA MOBILE COMMUNICATIONS GROUP Co.,Ltd.