CN117978700A - 一种业务指标的监控方法、装置、存储介质及电子设备 - Google Patents

一种业务指标的监控方法、装置、存储介质及电子设备 Download PDF

Info

Publication number
CN117978700A
CN117978700A CN202410108803.2A CN202410108803A CN117978700A CN 117978700 A CN117978700 A CN 117978700A CN 202410108803 A CN202410108803 A CN 202410108803A CN 117978700 A CN117978700 A CN 117978700A
Authority
CN
China
Prior art keywords
time period
index
preset
monitored
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202410108803.2A
Other languages
English (en)
Inventor
霍岳
孙雨婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Tianjin Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Tianjin Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Tianjin Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202410108803.2A priority Critical patent/CN117978700A/zh
Publication of CN117978700A publication Critical patent/CN117978700A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Telephonic Communication Services (AREA)

Abstract

本申请公开了一种业务指标的监控方法、装置、存储介质及电子设备,涉及数据处理技术领域,其中方法包括:首先获取核心网中第一预设时间周期内的预设时间粒度对应的第一历史指标数据;通过预设模型对第一历史指标数据进行训练,得到待监控时间周期的目标时间粒度对应的业务指标基准值,其中,第一预设时间周期为待监控时间周期的预设整数倍;基于业务指标基准值,确定待监控时间周期对应的动态监控阈值;按照动态监控阈值对待监控时间周期进行业务指标的监控。与目前现有技术相比,本申请得到的精准动态阈值能够紧密跟踪业务指标的波动,具有极高的准确度,能够将上下阈值范围设定在极小的合理区间,确保网络平稳正常运行。

Description

一种业务指标的监控方法、装置、存储介质及电子设备
技术领域
本申请涉及数据处理领域,尤其涉及一种业务指标的监控方法、装置、存储介质及电子设备。
背景技术
在移动通信核心网运维场景中,关键业务指标实时监控是最为常见和重要的手段,其中阈值告警因其能第一时间反应设备或业务的运行状况而备受重视,因此阈值告警常常被用来作为发现移动通信核心网业务指标的隐患问题。
目前,业务指标监控通常是根据业务指标的特征经验预设静态阈值,在实际业务测量不符合其预设的静态阈值的情况下,产生业务告警。
然而,使用这种静态阈值设定的监控方法,缺乏对业务模型波动的考虑,会导致不能及时发现网络的潜在风险,进而导致引发影响业务正常运行的网络故障,影响客户感知,增加运维成本。
发明内容
有鉴于此,本申请提供了一种业务指标的监控方法、装置、存储介质及电子设备,主要目的在于改善目前现有技术缺乏对业务模型波动的考虑,会导致不能及时发现网络的潜在风险,进而导致引发影响业务正常运行的网络故障,影响客户感知,增加运维成本的技术问题。
第一方面,本申请提供了一种业务指标的监控方法,包括:
获取核心网中第一预设时间周期内的预设时间粒度对应的第一历史指标数据;
通过预设模型对所述第一历史指标数据进行训练,得到待监控时间周期的所述目标时间粒度对应的业务指标基准值,其中,所述第一预设时间周期为所述待监控时间周期的预设整数倍;
基于所述业务指标基准值,确定所述待监控时间周期对应的动态监控阈值;
按照所述动态监控阈值对所述待监控时间周期进行业务指标的监控。
第二方面,本申请提供了一种业务指标的监控装置,包括:
获取模块,被配置为获取核心网中第一预设时间周期内的预设时间粒度对应的第一历史指标数据;
训练模块,被配置为通过预设模型对所述第一历史指标数据进行训练,得到待监控时间周期的所述目标时间粒度对应的业务指标基准值,其中,所述第一预设时间周期为所述待监控时间周期的预设整数倍;
确定模块,被配置为基于所述业务指标基准值,确定所述待监控时间周期对应的动态监控阈值;
监控模块,被配置为按照所述动态监控阈值对所述待监控时间周期进行业务指标的监控。
第三方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现第一方面的业务指标的监控方法。
第四方面,本申请提供了一种电子设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现第一方面的业务指标的监控方法。
第五方面,本申请提供了一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序被处理器执行时实现第一方面的业务指标的监控方法。
借由上述技术方案,本申请提供的一种业务指标的监控方法、装置、存储介质及电子设备,首先获取核心网中第一预设时间周期内的预设时间粒度对应的第一历史指标数据;通过预设模型对所述第一历史指标数据进行训练,得到待监控时间周期的所述目标时间粒度对应的业务指标基准值,其中,所述第一预设时间周期为所述待监控时间周期的预设整数倍;基于所述业务指标基准值,确定所述待监控时间周期对应的动态监控阈值;按照所述动态监控阈值对所述待监控时间周期进行业务指标的监控。与目前现有技术相比,本申请通过采集第一历史指标数据,并基于预设模型得到业务指标基准值,再根据业务指标基准值精准确定动态监控阈值。通过这种方式得到的精准动态阈值能够紧密跟踪业务指标的波动,具有极高的准确度,能够将上下阈值范围设定在极小的合理区间,大大提高了阈值设置的精细度,在保证高准确性的情况下仍具备极高的灵明度,能够尽早发现指标异常、尽早产生告警、尽早引起运维注意,从而尽早干预尽早排查网络问题,将潜在故障消灭在萌芽之中,确保网络平稳正常运行。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示出了本申请实施例提供的一种业务指标的监控方法的流程示意图;
图2示出了本申请实施例提供的一种业务指标的监控方法的流程示意图;
图3示出了本申请实施例提供的一种示例的示意图;
图4示出了本申请实施例提供的一种示例的示意图;
图5示出了本申请实施例提供的一种示例的示意图;
图6示出了本申请实施例提供的一种示例的示意图;
图7示出了本申请实施例提供的一种示例的示意图;
图8示出了本申请实施例提供的一种示例的示意图;
图9示出了本申请实施例提供的一种示例的示意图;
图10示出了本申请实施例提供的一种示例的示意图;
图11示出了本申请实施例提供的一种示例的流程示意图;
图12示出了本申请实施例提供的一种业务指标的监控装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本申请的实施例。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
为了改善目前现有技术缺乏对业务模型波动的考虑,会导致不能及时发现网络的潜在风险,进而导致引发影响业务正常运行的网络故障,影响客户感知,增加运维成本的技术问题。本实施例提供了一种业务指标的监控方法,如图1所示,该方法包括:
步骤101、获取核心网中第一预设时间周期内的预设时间粒度对应的第一历史指标数据。
对于本实施例,核心网可以为独立组网(Standalone,SA)核心网。
在本申请实施例中,第一预设时间周期为可以根据需求进行设置,相应的,时间粒度为时间的单位,预设时间粒度可以为15分钟、30分钟等等,对于第一预设时间周期和预设时间粒度的具体数值不做具体限定。
相应的,第一历史指标数据为第一预设时间周期内的预设时间粒度对应的指标数据,例如,第一预设时间周期为30天,预设时间粒度为15分钟,则第一历史指标数据为30天时间周期中的每15分钟为一个单位的指标数据。
在一些示例中,历史指标数据可以包括但不限于注册类指标、鉴权类指标、切换类指标、寻呼类指标、连接建立类指标等等。
其中,注册类指标可以包括各网元的初始注册请求次数,各网元的初始注册成功次数,各网元的初始注册区分各种原因的失败次数,UE上下文注册请求次数或注册成功次数,区分各种失败原因的用户设备(User Equipment,UE)上下文注册失败次数,各网元的注册用户数等。
相应的,鉴权类指标可以包括鉴权尝试次数,鉴权请求次数,鉴权成功次数,各类原因的鉴权失败次数等。
可选的,切换类指标可以包括接入和移动管理功能(Access and MobilityManagement Function,AMF)内,AMF间,Xn接口,N2接口等情况的切换请求或成功次数,AMF内,AMF间,Xn接口,N2接口等情况的各种原因的切换失败次数,增强的单无线语音呼叫连续性(Enhanced Single Radio Voice Call Continuity,eSRVCC)切换成功率,切换成功率(连接态)等。
相应的,寻呼类指标可以包括各种维度的寻呼请求或成功次数,各种维度的各种原因的寻呼失败次数等。
进一步的,连接建立类指标可以包括会话上下文建立请求次数、会话上下文建立成功次数、传输控制协议(Transmission Control Protocol,TCP)连接建立成功率、域名系统(Domain Name System,DNS)连接建立成功率、超文本传输协议(Hypertext TransferProtocol,HTTP)连接建立成功率、协议数据单元(Protocol Data Unit,PDU)会话建立成功率、PDU会话建立流程平均时长等。
步骤102、通过预设模型对第一历史指标数据进行训练,得到待监控时间周期的目标时间粒度对应的业务指标基准值。
其中,第一预设时间周期为待监控时间周期的预设整数倍。
对于本实施例,待监控时间周期为需要进行监控的时间周期,相应的,第一预设时间周期为待监控时间周期的预设整数倍可以依据待监控时间周期进行设置第一预设时间周期,例如,待监控时间周期为24小时,相对应的第一预设时间周期可以为30天。
步骤103、基于业务指标基准值,确定待监控时间周期对应的动态监控阈值。
在一些示例中,业务指标基准值为待监控时间周期对应的业务指标的标准值,进一步的,需要基于业务指标基准值确定上下限阈值,得到动态监控阈值。
步骤104、按照动态监控阈值对待监控时间周期进行业务指标的监控。
与目前现有技术相比,本实施例通过采集第一历史指标数据,并基于预设模型得到业务指标基准值,再根据业务指标基准值精准确定动态监控阈值。通过这种方式得到的精准动态阈值能够紧密跟踪业务指标的波动,具有极高的准确度,能够将上下阈值范围设定在极小的合理区间,大大提高了阈值设置的精细度,在保证高准确性的情况下仍具备极高的灵明度,能够尽早发现指标异常、尽早产生告警、尽早引起运维注意,从而尽早干预尽早排查网络问题,将潜在故障消灭在萌芽之中,确保网络平稳正常运行。
为了进一步说明本实施例方法的具体实施过程,本实施例提供了如图2所示的具体方法,该方法包括:
步骤201、获取核心网中第一预设时间周期内的预设时间粒度对应的第一历史指标数据。
示例性的,获取待监控指标的第一历史指标数据,第一历史指标数据包含但不限于时间戳和指标数据。第一历史指标数据为一个连续时间周期的粒度一致的时序数据集,时间单位与训练数据集保持一致。
步骤202、基于第一预设时间周期确定待监控时间周期。
示例性的,采集5天的历史数据来推理未来24小时的指标基准值。即用5天的15分钟粒度历史数据,共480组数据,推理未来24小时(第六天)的15分钟粒度的业务指标基准值,共96组数据。
步骤203、对第一历史指标数据和待监控时间周期按照预设节假日条件进行标记。
在一些示例中,预设节假日条件可以为定义法定节假日及周末为节假日,对应的H-flag值为1;其余时间为工作日,对应的H-flag值为0。
示例性的,依照预设节假日条件,获取的第一历史指标数据中的每一组数据添加H-flag标识,生成带有节假日标识的输入第一历史指标数据。依照节假日判定规则,对未来基准值推理周期添加H-flag标识。获取的输入第一历史指标数据和H-flag标识,输入持久化的具有节假日特征的基准值推理模型,得到与输入数据集粒度一致的业务指标基准值。
步骤204、通过预设模型对标记后的第一历史指标数据和待监控时间周期进行训练,得到待监控时间周期的目标时间粒度对应的业务指标基准值。
对于本实施例,预设模型的训练过程包括:获取核心网中第二预设时间周期内的预设时间粒度对应的第二历史指标数据;对第二历史指标数据进行处理,得到训练数据;基于预设循环神经网络和长短期记忆网络对训练数据进行模型训练,得到预设模型
其中,第二预设时间周期大于第一预设时间周期,预设循环神经网络为以均方根误差作为损失函数的循环神经网络,长短期记忆网络用于优化所述预设模型的数据精度。
进一步的,预设模型的训练过程还包括:对第二历史指标数据进行清洗处理和空值插值处理,得到样本指标数据;按照预设节假日条件对样本指标数据进行标记,得到训练数据。
在本申请实施例中,预设模型的名称可以为业务指标基准值推理模型、指标基准值推理模型等等,对于预设模型的具体名称,在此不做具体限定。
示例性的,采集15分钟时间粒度的3个月内的第二历史指标数据作为样本数据,样本数据集包含但不限于N组时间戳和指标数据xi。样本数据集为一个连续时间周期内的粒度一致的时序数据,时间单位为分钟,但不做唯一限定。
需要说明的是,模型训练数据的样本数量,在长短期记忆网络(Long Short-TermMemory,LSTM)循环神经网络(Recurrent Neural Network,RNN)算法本身并没有限制,通常数据样本越多,则模型推理准确性越高,超过3个月后正相关性变为不明显,根据实际运行情况归纳,通常推理未来24小时基准值模型,采用30天历史数据样本进行训练,即可达到较高的精准度。
对获取的第二历史指标数据进行预处理,预处理包括数据清洗处理和空值插值处理。数据清洗以剔除不符合现网实际情况的数据以提高目标样本数据的准确度,并进一步提高预测模型的预测精度。比如将工作日用户数日环比波动幅度超过第一阈值(如10%)或流量波动幅度超过第二阈值(如15%)的数据,节假日用户数日环比波动幅度超过第三阈值(如20%)或流量波动幅度超过第四阈(如30%)的数据进行剔除。对目标数据样本进行空值插值处理,即通过中位数、均值或者众数等进行插值,得到处理完的训练数据。
使用RNN的n-to-m模型进行模型训练,选择均方误差作为其损失函数。通过这样的模型训练会得到参数确定的用于网元指标基准值推理的模型。
预设节假日条件可以为定义法定节假日及周末为节假日,对应的H-flag值为1;其余时间为工作日,对应的H-flag值为0。
依照预设节假日条件对训练数据中的每个数据添加H-flag标识,生成带有节假日标识的训练数据集,其结构如图3所示。Data-m为第m个业务指标,Time-m为该指标对应的采集时间,H-flag-m标识了Time-m是否为节假日。
使用生成的训练数据集,基于以均方误差作为损失函数的RNN算法进行模型训练,创建具有节假日特征的预测模型。模型的训练目标是尽可能减小损失函数的值,使模型预测结果和实际结果之间的误差最小化。在训练过程中,加入了节假日特征,使模型能够更好地对不同日期的数据进行建模和预测。训练结束后,得到了包含节假日特征的预测模型,并通过公式一获得模型的均方差损失值MSE,公式一具体如下所示:
在公式一中,Σ(xi-x′i)2为所有样本的预测值与其真实值的差的平方和,N为样本数。
进一步的,进行模型持久化,用于生产环境的指标预测。优化基准值精准度,采用LSTM对RNN进行增强:LSTM是一种循环神经网络RNN的变体,它专门设计用于处理和建模序列数据。相对于传统的RNN,LSTM引入了一种特殊的记忆单元结构,以解决长期依赖问题。LSTM的关键思想是通过控制信息的流动和遗忘来处理序列中的长期依赖关系。它由一个单元格(cell)和三个门(gate)组成,分别是输入门(input gate)、遗忘门(forget gate)和输出门(output gate)。每个门都包含一个sigmoid激活函数,其输出值在0和1之间,用于控制信息的流动。
具体的,LSTM通过以下步骤来处理输入序列:输入门决定是否接受当前时间步的输入,并结合先前的记忆来生成候选记忆值。遗忘门决定是否将之前的记忆状态保留下来。它使用当前时间步的输入和先前的记忆状态作为输入,并输出一个介于0和1之间的遗忘因子。计算当前时间步的记忆状态,它是通过将遗忘门的输出与候选记忆值相乘得到的。输出门决定是否输出当前时间步的记忆状态作为LSTM的输出。输出门使用当前时间步的输入和先前的记忆状态来计算输出因子,并通过将输出因子与记忆状态相乘得到最终的LSTM输出。
如图4所示,通过这样的门控机制,LSTM能够选择性地记住或遗忘信息,并且能够处理长期依赖关系,有助于解决传统RNN中的梯度消失和梯度爆炸问题。相对于传统的RNN,LSTM可以解决长期依赖问题,体现在传统RNN在处理长序列时容易出现梯度消失或梯度爆炸的问题,导致难以捕捉到长期依赖关系。而LSTM通过引入门控机制,可以有选择性地记住或遗忘信息,从而更好地处理长期依赖问题。具有长期记忆能力,体现在LSTM具有记忆单元(cell)的结构,可以在较长时间跨度内保持和传递信息。这种长期记忆能力使得LSTM在处理需要考虑上下文关系的任务中表现出色,例如自然语言处理中的语义理解和生成文本等。具有强大的建模能力,体现在LSTM能够对序列中的关键信息进行选择性的记忆和输出,从而更好地捕捉序列中的重要模式和特征。这使得LSTM在处理语音识别、机器翻译、情感分析等任务时能够提供更准确的建模能力。可以减轻梯度消失问题,体现在传统RNN在反向传播时容易遇到梯度消失的问题,导致无法有效更新网络参数。而LSTM通过门控机制,可以有效地调节梯度流动,从而减轻梯度消失问题,更好地支持模型的训练和优化。可以对稀疏序列的处理,体现在LSTM对于稀疏序列的处理效果较好。在自然语言处理中,文本序列通常是稀疏的,包含大量的停用词和冗余信息。LSTM通过门控机制,可以有选择性地过滤掉无关的信息,从而更好地捕捉到序列中的重要特征。
可选的,模型训练过程需要周期性地进行以保证用最新的数据训练出预测模型,从而获得更为准确的预测数据。通过模型训练后可以得到用于推理15分钟粒度的关键业务指标基准值的模型。
示例性的,如图5所示,展示了通过上述指标预测方法预测的AMF网元寻呼成功率的预测值与实测值的对比。从图中可以看出,由S2训练得到的推理模型所推理的基准值与实际发生值高度匹配,因此可以用来指导精准动态阈值的设置。
步骤205、基于业务指标基准值,确定待监控时间周期对应的动态监控阈值。
可选的,在步骤205之前,本实施例方法还包括:确定预设模型对应的均方差损失值,并基于均方差损失值得到预设模型对应的均方根误差;相应的,步骤205具体可包括:基于业务指标基准值和均方根误差,确定待监控时间周期对应的动态监控阈值。
在一些示例中,步骤205具体还包括:确定待监控时间周期对应的核心网业务指标的类型信息;基于类型信息、均方根误差和业务指标基准值,确定待监控时间周期对应的上下限阈值;依据上下限阈值,得到待监控时间周期对应的动态监控阈值。
随着5G虚拟化核心网的到来,当前运营商核心网正处于传统网络和虚拟化网络并存的状态。移动通信核心网现网包含2G或4G或5G三代共计10个领域的网元设备。网络拓扑复杂度高,对于运维的要求也达到了新的高度。
不管是网元运行情况关键指标、按照业务类别定义的关键指标、以及关键质量指标的监控,能够及时准确的反映出网络存在的隐患问题,但由于当前移动通信核心网多代多域共存的情况,以及庞大的用户量,使得人工对这些指标进行监控的方式面临巨大的挑战。
在本申请实施例中,按照运维场景划分,核心网业务指标的类型信息可以包括:网元运行情况日常监控、用户业务质差问题监测和重大活动或节日通信保障。
在网元日常运行情况监控场景下,通常需要根据不同的网元特性定义需要监控的关键指标,这里以5G核心网(5GC)举例,除了不同类型网元通用的如用户数、系统负荷类指标,AMF的主要作用是移动性管理,会话管理功能(Session Management Function,SMF)的主要作用是会话管理,那么以网元为粒度的以上特性指标就会成为日常监控的关键,具体的,对AMF日常监控会关注如下关于移动性管理的关键业绩指标(Key PerformanceIndication,KPI)包括:初始注册、AMF内、AMF间等情况下的注册或成功次数、初始注册、AMF内、AMF间等情况下的各种原因的失败次数、各种维度的寻呼请求或成功次数、各种维度的各种原因的寻呼失败次数、鉴权尝试次数或鉴权请求或成功次数、各类原因的鉴权失败次数、AMF内,AMF间,Xn接口,N2接口等情况的切换请求或成功次数、AMF内,AMF间,Xn接口,N2接口等情况的各种原因的切换失败次数、4G或5G重选尝试或成功次数、区分不同原因的4G或5G重选失败次数
相应的,对SMF日常监控会关注如下会话管理的KPI:PDU会话建立请求次数、分切片的PDU会话建立请求次数、分数据网络名称(Data Network Name,DNN)的PDU会话建立请求次数、PDU会话建立成功次数、分切片的PDU会话建立成功次数、分DNN的PDU会话建立成功次数、区分各种原因和维度的PDN会话建立失败次数、平均PDN会话数、区分DNN或切片的PDN会话数、平均流量工程术语服务质量(Quality of Service,QoS)流数、分切片和DNN的平均Qos流数、创建会话管理(Session Management,SM)策略请求的次数、创建SM策略成功次数、更新SM策略请求的次数、更新SM策略成功次数、删除策略请求的次数、删除SM策略成功次数、UE上下文注册请求次数或注册成功次数、区分各种失败原因的UE上下文注册失败次数、各种漫游场景下的PDU会话建立统计。
在业务质差问题监控场景中,更多的是影响用户体验的业务指标,这些指标的劣化通常是直接影响用户体验,这些业务指标受到影响的因素常常是跨越多个网元,甚至是多个域的网元:例如,eSRVCC切换成功率,影响因素包括2G无线、4G无线、2G cs-core核心网、4G EPC核心网,IP多媒体系统(IP Multimedia Subsystem,IMS)核心网等;长途来话排除用户原因接通率,影响因素包括2G、4G、5G无线,CS-core核心网、IMS核心网、5GC核心网,4G分组核心网(Evolved Packet Core,EPC)核心网等;4G或5G上网上下行速率,影响因素包括用户终端、无线,5GC,EPC核心网等。
此类指标以5G业务举例,还包括:切换成功率(连接态)、TCP连接建立成功率、DNS连接建立成功率、HTTP连接建立成功率、PDU会话建立成功率、PDU会话建立流程平均时长、5G上网上下行速率等等。
重大活动或节日保障在近年来越来越成为核心网运维工作的重要组成部分,该场景通常包括如重要会议、春节、中秋、重要运动会、极端恶劣天气、突发事件等情况下的通信保障。从指标选择上来看,该场景会是更加综合的应用,主要体现在既要重点关注以业务维度的如质量问题监控指标,也由于其常常有限定地域性,也需要关注网元维度的关键指标以尽早发现网元隐患问题。
进一步的,在阈值设定上,重大活动保障也具有一定的特殊性。主要体现在:日常运维监控中通常会设定相对较为宽松的阈值范围,以保证误报率在一个较低的范围,而重大活动保障,通常需要设置一个更为敏感的范围,能够让负责保障工作的运维团队能够尽快发现和处理隐患。以及通常需要按照一定的地域范围进行汇聚,这主要指除了如春节、中秋这样全网范围的事件,类似大会、运动会,恶劣天气、突发事件等情况,通常都具有一定的地域性,这就需要将重要指标按照地域的范围进行汇聚,而不是通常的单网元维度或者资源池维度。重大活动本身可能会带来指标的突变,比如春节、国庆长假,这些特殊活动本身就会带来用户话务模型的显著变化,从而使得不管是网元还是业务维度指标都发生较日常不同的突变。
示例性的,得到了指标基准值,因其与指标实际值高度匹配,因此可以用来指导指标精准动态阈值的设置。例如,得到一组网元指标的基准值Y={y1,y2,…,yn}
基于模型的均方差损失值MSE,通过公式二计算模型的均方根误差,公式二具体如下所示:
根据具体场景,采用不同的上下限阈值公式进行实时监控:在日常网元运行情况监控中建议采用6sigma方式进行设定,具体上下限阈值可以通过公式三进行确定,公式三具体如下所示:
T=Y±6σ′ (公式三)
通过公式三中的上下限阈值可以得到指标的一组动态监控阈值T={t1,t2,...,tn}。
对于用户业务质差问题监测场景,由于此类监控指标的特殊性,建议可以仅设定下阈值,且采用灵明度较高的3sigma方式进行设定,具体上下限阈值可以通过公式四进行确定,公式四具体如下所示:
T=Y±3σ (公式四)
通过公式四中的上下限阈值可以得到指标的一组动态监控阈值。
在重大活动和节假日保障场景中,为了提高隐患发现的灵敏度建议可以采用3sigma方式进行精准动态阈值计算,可以通过公式四进行确定。
对于以上提到的重大活动可能叠加用户话务模型突变的情况,可以通过在LSTM神经网络最后一个隐藏层后增加一个全连接神经网络层,在模型训练和推理中嵌入特殊事件因子来提高准确性。
示例性的,对AMF寻呼成功率采用下限阈值监控,指标预测值、指标实测值、指标动态阈值如图6所示。
步骤206、按照动态监控阈值对待监控时间周期进行业务指标的监控。
具体的,如图7所示,通过文件传输协议(File Transfer Protocol,ftp)或安全的文件传输协议(sftp)从移动通信核心网运营与维护中心(OMC)实时采集核心网网元业务指标。将采集到的业务指标保存入库,将用于模型训练和精准阈值推理的历史指标送到AI服务模块,将实时指标发送至指标监控服务模块。指标监控服务将实时采集指标和从AI服务模块获得的精准动态阈值对比,如果超出精准动态阈值,则产生业务指标隐患告警,发送至运营与维护中心(OMC),通知运维人员。
在移动通信核心网运维场景中,关键业务指标实时监控是最为常见和重要的手段,其中阈值告警因其能第一时间反应设备或业务的运行状况而备受重视,因此阈值告警常常被用来作为发现移动通信核心网业务指标的隐患问题。
现阶段,移动通信核心网运维场景中,业务隐患问题发现的告警通常是通过运维专家根据业务指标的特征经验预设静态阈值,当实际业务测量不符合其预设的静态阈值时,业务告警产生。比如5G网络中针对AMF寻呼成功率,在特定网络环境下,通常不低于98.8%,则根据经验设定下阈值为98.8%,则当寻呼成功率低于98.8%时,实时指标监控系统将产生告警通知运维人员。
如图8所示,现有的通过运维专家经验人工设定指标静态阈值,从而当实时采集到的业务指标不符合预设阈值而产生告警的方法,通常在设定静态阈值时需要考虑业务模型常规波动的最小值或最大值,即静态阈值通常要设置为低于常规业务模型波动的最小值或高于其最大值,以保证业务在正常范围内波动时不触发告警。
然而这种静态阈值设定方法没有考虑业务模型波动而带来的对阈值动态设置的要求。静态阈值在业务越来越复杂、精度和时延要求越来越高的今天已经不再符合主动运维和精细化运维的需求了。
另外,静态阈值的设定可能导致网络的潜在风险没有被及时发现,从而可能引发影响业务正常运行的网络故障,影响客户感知,增加运维成本。如图9所示,示例了在业务指标波动范围内指标发生异常的情况,这是静态阈值检测不到的潜在风险。
如图10所示,示例了通过设定指标动态阈值捕捉到指标在波动范围内的异常从而触发告警的情况,这是传统的静态阈值无法做到的,对于移动通信核心网业务指标隐患发现场景,精细化和准确性上都有极为显著的提升。
在移动通信网络运维中,通过关键业务指标监控,发现隐患问题并触发告警是非常核心和重要的运维手段,因此如何能提升隐患发现的敏感度,准确性、从而可以有效预防网络隐患是移动通信网络运维中一直在探索和想要有效解决的问题。
本方案提供了一种基于构建LSTM增强的循环神经网络来训练和推理业务指标精准动态阈值,并利用精准动态阈值甄别业务指标隐患的方法。该方法考虑了业务模型的波动规律,使得指标的监控更为精细化,能够尽早发现指标异常、尽早产生告警、尽早引起运维注意,从而尽早干预尽早排查网络问题,将潜在故障消灭在萌芽之中,确保网络平稳正常运行。该方法可以广泛地应用在通信网络运维的各个领域,如核心网、接入网、无线等,具有非常大的推广意义,因此具有非常高的商业价值。
与目前现有技术相比,本实施例通过采集第一历史指标数据,并基于LSTM增强的RNN算法建模,推理业务指标的未来的与第一历史数据同等时间粒度的基准值,再根据建模时得到模型的均方差损失值MSE值循环设定业务指标未来一定周期的精准动态上下阈值。通过这种方式得到的精准动态阈值能够紧密跟踪业务指标的波动,与传统的静态阈值相比大大提高了阈值设置的精细度。由于推理的业务指标的基准值是跟随数据的波动规律而波动的,从而使得系统设定的阈值是随业务模型的波动而波动的,且算法推理的基准值具有极高的准确度,能够将上下阈值范围设定在极小的合理区间,在保证高准确性的情况下仍具备极高的灵明度,即为精准动态阈值。精准动态阈值考虑了业务模型的波动规律,使得指标的监控更为精细化,能够尽早发现指标异常、尽早产生告警、尽早引起运维注意,从而尽早干预尽早排查网络问题,将潜在故障消灭在萌芽之中,确保网络平稳正常运行。在阈值设定算法中,采用了神经网络算法损失函数中的MSE换算西格玛,并应用六西格玛概率原则,将动态阈值置信区间设置在99.99966%,在提升监控准确率同时降低误报漏报率。通过LSTM增强的RNN算法,根据移动通信网络中核心网关键业务指标的历史数据训练和推理出业务指标未来短周期的与第一历史数据同等时间粒度的精准动态阈值,利用该精准动态阈值应用于移动通信核心网业务指标隐患问题实时监控,能够显著降低隐患问题漏报率及提升准确性。
为了说明本实施例的具体实现过程,给出如下具体的应用示例,如图11所示,但不限于此:
获取核心网的目标样本数据,并对获取的目标样本数据进行预处理,预处理包括数据清洗处理和空值插值处理。
使用LSTM增强的RNN的模型n-to-m进行模型训练,选择均方误差作为其损失函数,采集时间粒度一致的一段时间内的指标历史数据作为模型训练数据并打上节假日标识作为模型训练的输入,输出参数确定的用于移动通信网络业务指标基准值的推理模型。
采集一个连续时间周期内的粒度与模型训练数据一致的指标历史时序数据作为基准值推理的输入数据,通过基准值推理模型来输出未来的与输入数据粒度一致的指标值。输入数据要求带有节假日标识,且输入数据流格式顺序要求与训练时保持一致。指标所在日期的节假日标识也是模型的输入。
根据具体场景,采用不同上下限阈值公式来得到指标监控的动态阈值T={t1,t2,…,tn}。其中Y={y1,y2,…,yn},是指标的基准值。采集移动通信核心网实时业务指标与推理的精准动态阈值进行比对,超出阈值范围的情况下即认为存在业务指标隐患问题,产生告警,通知运维人员。
与目前现有技术相比,本实施例通过采集第一历史指标数据,并基于LSTM增强的RNN算法建模,推理业务指标的未来的与第一历史数据同等时间粒度的基准值,再根据建模时得到模型的均方差损失值MSE值循环设定业务指标未来一定周期的精准动态上下阈值。通过这种方式得到的精准动态阈值能够紧密跟踪业务指标的波动,与传统的静态阈值相比大大提高了阈值设置的精细度。由于推理的业务指标的基准值是跟随数据的波动规律而波动的,从而使得系统设定的阈值是随业务模型的波动而波动的,且算法推理的基准值具有极高的准确度,能够将上下阈值范围设定在极小的合理区间,在保证高准确性的情况下仍具备极高的灵明度,即为精准动态阈值。精准动态阈值考虑了业务模型的波动规律,使得指标的监控更为精细化,能够尽早发现指标异常、尽早产生告警、尽早引起运维注意,从而尽早干预尽早排查网络问题,将潜在故障消灭在萌芽之中,确保网络平稳正常运行。在阈值设定算法中,采用了神经网络算法损失函数中的MSE换算西格玛,并应用六西格玛概率原则,将动态阈值置信区间设置在99.99966%,在提升监控准确率同时降低误报漏报率。通过LSTM增强的RNN算法,根据移动通信网络中核心网关键业务指标的历史数据训练和推理出业务指标未来短周期的与第一历史数据同等时间粒度的精准动态阈值,利用该精准动态阈值应用于移动通信核心网业务指标隐患问题实时监控,能够显著降低隐患问题漏报率及提升准确性。
进一步的,作为图1和图2所示方法的具体实现,本实施例提供了一种业务指标的监控装置,如图12所示,该装置包括:获取模块31、训练模块32、确定模块33、监控模块34。
获取模块31,被配置为获取核心网中第一预设时间周期内的预设时间粒度对应的第一历史指标数据;
训练模块32,被配置为通过预设模型对所述第一历史指标数据进行训练,得到待监控时间周期的所述目标时间粒度对应的业务指标基准值,其中,所述第一预设时间周期为所述待监控时间周期的预设整数倍;
确定模块33,被配置为基于所述业务指标基准值,确定所述待监控时间周期对应的动态监控阈值;
监控模块34,被配置为按照所述动态监控阈值对所述待监控时间周期进行业务指标的监控。
在本实施例的一些示例中,训练模块32,还被配置为基于所述第一预设时间周期确定所述待监控时间周期;对所述第一历史指标数据和所述待监控时间周期按照预设节假日条件进行标记。
在本实施例的一些示例中,训练模块32,具体还被配置为通过所述预设模型对标记后的第一历史指标数据和待监控时间周期进行训练,得到待监控时间周期的所述目标时间粒度对应的业务指标基准值。
在本实施例的一些示例中,确定模块33,还被配置为确定所述预设模型对应的均方差损失值,并基于所述均方差损失值得到所述预设模型对应的均方根误差;相应的,确定模块33,具体还被配置为基于所述业务指标基准值和所述均方根误差,确定所述待监控时间周期对应的动态监控阈值。
在本实施例的一些示例中,确定模块33,还被配置为确定所述待监控时间周期对应的核心网业务指标的类型信息;相应的,确定模块33,具体还被配置为基于所述类型信息、所述均方根误差和所述业务指标基准值,确定所述待监控时间周期对应的上下限阈值;依据所述上下限阈值,得到所述待监控时间周期对应的动态监控阈值。
在本实施例的一些示例中,所述预设模型的训练过程包括:获取核心网中第二预设时间周期内的预设时间粒度对应的第二历史指标数据,所述第二预设时间周期大于所述第一预设时间周期;对所述第二历史指标数据进行处理,得到训练数据;基于预设循环神经网络和长短期记忆网络对所述训练数据进行模型训练,得到所述预设模型,所述预设循环神经网络为以均方根误差作为损失函数的循环神经网络,所述长短期记忆网络用于优化所述预设模型的数据精度。
在本实施例的一些示例中,所述预设模型的训练过程具体还包括:对所述第二历史指标数据进行清洗处理和空值插值处理,得到样本指标数据;按照预设节假日条件对所述样本指标数据进行标记,得到所述训练数据。
需要说明的是,本实施例提供的一种业务指标的监控装置所涉及各功能单元的其它相应描述,可以参考图1和图2中的对应描述,在此不再赘述。
基于上述如图1至图2所示方法,相应的,本实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述如图1至图2所示的方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景的方法。
基于上述如图1至图2所示的方法,以及图12所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种电子设备,如个人计算机、服务器、笔记本电脑、智能手机、智能机器人等智能终端,该设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1至图2所示的方法。
可选的,上述实体设备还可以包括用户接口、网络接口、摄像头、射频(RadioFrequency,RF)电路,传感器、音频电路、WI-FI模块等等。用户接口可以包括显示屏(Display)、输入单元比如键盘(Keyboard)等,可选用户接口还可以包括USB接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如WI-FI接口)等。
本领域技术人员可以理解,本实施例提供的上述实体设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述实体设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与信息处理实体设备中其它硬件和软件之间通信。
基于上述如图1至图2所示方法,本申请实施例还提供一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序被处理器执行时实现实现上述如图1至图2所示的方法,计算机程序被处理器执行时所实现的方法可参照本申请的各个实施例,此处不再赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。与目前现有技术相比,本实施例通过采集第一历史指标数据,并基于LSTM增强的RNN算法建模,推理业务指标的未来的与第一历史数据同等时间粒度的基准值,再根据建模时得到模型的均方差损失值MSE值循环设定业务指标未来一定周期的精准动态上下阈值。通过这种方式得到的精准动态阈值能够紧密跟踪业务指标的波动,与传统的静态阈值相比大大提高了阈值设置的精细度。由于推理的业务指标的基准值是跟随数据的波动规律而波动的,从而使得系统设定的阈值是随业务模型的波动而波动的,且算法推理的基准值具有极高的准确度,能够将上下阈值范围设定在极小的合理区间,在保证高准确性的情况下仍具备极高的灵明度,即为精准动态阈值。精准动态阈值考虑了业务模型的波动规律,使得指标的监控更为精细化,能够尽早发现指标异常、尽早产生告警、尽早引起运维注意,从而尽早干预尽早排查网络问题,将潜在故障消灭在萌芽之中,确保网络平稳正常运行。在阈值设定算法中,采用了神经网络算法损失函数中的MSE换算西格玛,并应用六西格玛概率原则,将动态阈值置信区间设置在99.99966%,在提升监控准确率同时降低误报漏报率。通过LSTM增强的RNN算法,根据移动通信网络中核心网关键业务指标的历史数据训练和推理出业务指标未来短周期的与第一历史数据同等时间粒度的精准动态阈值,利用该精准动态阈值应用于移动通信核心网业务指标隐患问题实时监控,能够显著降低隐患问题漏报率及提升准确性。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所述的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种业务指标的监控方法,其特征在于,包括:
获取核心网中第一预设时间周期内的预设时间粒度对应的第一历史指标数据;
通过预设模型对所述第一历史指标数据进行训练,得到待监控时间周期的所述目标时间粒度对应的业务指标基准值,其中,所述第一预设时间周期为所述待监控时间周期的预设整数倍;
基于所述业务指标基准值,确定所述待监控时间周期对应的动态监控阈值;
按照所述动态监控阈值对所述待监控时间周期进行业务指标的监控。
2.根据权利要求1所述的方法,其特征在于,在所述通过预设模型对所述第一历史指标数据进行训练,得到待监控时间周期的所述目标时间粒度对应的业务指标基准值之前,所述方法还包括:
基于所述第一预设时间周期确定所述待监控时间周期;
对所述第一历史指标数据和所述待监控时间周期按照预设节假日条件进行标记。
所述通过预设模型对所述第一历史指标数据进行训练,得到待监控时间周期的所述目标时间粒度对应的业务指标基准值,包括:
通过所述预设模型对标记后的第一历史指标数据和待监控时间周期进行训练,得到待监控时间周期的所述目标时间粒度对应的业务指标基准值。
3.根据权利要求1所述的方法,其特征在于,在所述基于所述业务指标基准值,确定所述待监控时间周期对应的动态监控阈值之前,所述方法还包括:
确定所述预设模型对应的均方差损失值,并基于所述均方差损失值得到所述预设模型对应的均方根误差;
所述基于所述业务指标基准值,确定所述待监控时间周期对应的动态监控阈值,包括:
基于所述业务指标基准值和所述均方根误差,确定所述待监控时间周期对应的动态监控阈值。
4.根据权利要求3所述的方法,其特征在于,在所述基于所述业务指标基准值和所述均方根误差,确定所述待监控时间周期对应的动态监控阈值之前,所述方法还包括:
确定所述待监控时间周期对应的核心网业务指标的类型信息;
所述基于所述业务指标基准值和所述均方根误差,确定所述待监控时间周期对应的动态监控阈值,包括:
基于所述类型信息、所述均方根误差和所述业务指标基准值,确定所述待监控时间周期对应的上下限阈值;
依据所述上下限阈值,得到所述待监控时间周期对应的动态监控阈值。
5.根据权利要求1所述的方法,其特征在于,所述预设模型的训练过程包括:
获取核心网中第二预设时间周期内的预设时间粒度对应的第二历史指标数据,所述第二预设时间周期大于所述第一预设时间周期;
对所述第二历史指标数据进行处理,得到训练数据;
基于预设循环神经网络和长短期记忆网络对所述训练数据进行模型训练,得到所述预设模型,所述预设循环神经网络为以均方根误差作为损失函数的循环神经网络,所述长短期记忆网络用于优化所述预设模型的数据精度。
6.根据权利要求5所述的方法,其特征在于,所述对所述第二历史指标数据进行处理,得到训练数据集,包括:
对所述第二历史指标数据进行清洗处理和空值插值处理,得到样本指标数据;
按照预设节假日条件对所述样本指标数据进行标记,得到所述训练数据。
7.一种业务指标的监控装置,其特征在于,包括:
获取模块,被配置为获取核心网中第一预设时间周期内的预设时间粒度对应的第一历史指标数据;
训练模块,被配置为通过预设模型对所述第一历史指标数据进行训练,得到待监控时间周期的所述目标时间粒度对应的业务指标基准值,其中,所述第一预设时间周期为所述待监控时间周期的预设整数倍;
确定模块,被配置为基于所述业务指标基准值,确定所述待监控时间周期对应的动态监控阈值;
监控模块,被配置为按照所述动态监控阈值对所述待监控时间周期进行业务指标的监控。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。
9.一种电子设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法。
10.一种计算机程序产品,所述计算机程序产品包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任意一项所述的方法。
CN202410108803.2A 2024-01-25 2024-01-25 一种业务指标的监控方法、装置、存储介质及电子设备 Pending CN117978700A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410108803.2A CN117978700A (zh) 2024-01-25 2024-01-25 一种业务指标的监控方法、装置、存储介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410108803.2A CN117978700A (zh) 2024-01-25 2024-01-25 一种业务指标的监控方法、装置、存储介质及电子设备

Publications (1)

Publication Number Publication Date
CN117978700A true CN117978700A (zh) 2024-05-03

Family

ID=90857640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410108803.2A Pending CN117978700A (zh) 2024-01-25 2024-01-25 一种业务指标的监控方法、装置、存储介质及电子设备

Country Status (1)

Country Link
CN (1) CN117978700A (zh)

Similar Documents

Publication Publication Date Title
US11018958B2 (en) Communication network quality of experience extrapolation and diagnosis
Wang et al. Spatio-temporal analysis and prediction of cellular traffic in metropolis
CN109005556B (zh) 一种基于用户话单的4g网络质量优化方法与系统
US10708795B2 (en) Artificial intelligence-based network advisor
Sultan et al. Call detail records driven anomaly detection and traffic prediction in mobile cellular networks
Jin et al. Nevermind, the problem is already fixed: proactively detecting and troubleshooting customer dsl problems
US10482158B2 (en) User-level KQI anomaly detection using markov chain model
EP2894813A1 (en) Technique for creating a knowledge base for alarm management in a communications network
US20130316701A1 (en) Data processing method and device for essential factor lost score
Chakraborty et al. A comparative study for Time Series Forecasting within software 5G networks
CN113099475A (zh) 网络质量检测方法、装置、电子设备及可读存储介质
CN107085549A (zh) 故障信息生成的方法和装置
US20230126260A1 (en) Method, device and computer program product for anomaly detection and root cause analysis
CN116756522B (zh) 概率预报方法、装置、存储介质及电子设备
CN111311014A (zh) 业务数据处理方法、装置、计算机设备和存储介质
Rajesh et al. Achieving QoS in GSM Network by Efficient Anomaly Mitigation and Data Prediction Model
CN110647086B (zh) 一种基于运行大数据分析的智能运维监控系统
CN109963292A (zh) 投诉预测的方法、装置、电子设备和存储介质
CN112968796A (zh) 网络安全态势感知方法、装置及计算机设备
CN117978700A (zh) 一种业务指标的监控方法、装置、存储介质及电子设备
CN106817710A (zh) 一种网络问题的定位方法及装置
CN116016288A (zh) 工业设备的流量监测方法、装置、设备及存储介质
CN115208773B (zh) 网络隐性故障监测方法及装置
CN107566187B (zh) 一种sla违例监测方法、装置和系统
AT&T

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination