CN118827480A - 网络系统、业务处理方法、装置、设备及存储介质 - Google Patents

网络系统、业务处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN118827480A
CN118827480A CN202311317111.0A CN202311317111A CN118827480A CN 118827480 A CN118827480 A CN 118827480A CN 202311317111 A CN202311317111 A CN 202311317111A CN 118827480 A CN118827480 A CN 118827480A
Authority
CN
China
Prior art keywords
computing
service
network
computing network
perception
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311317111.0A
Other languages
English (en)
Inventor
赵宇翔
余立
李峥
李曦
林之怡
王一帆
朱琳
袁向阳
乔梦遥
郑茂俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
Research Institute of China Mobile Communication Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
Research Institute of China Mobile Communication Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, Research Institute of China Mobile Communication Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN202311317111.0A priority Critical patent/CN118827480A/zh
Publication of CN118827480A publication Critical patent/CN118827480A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/12Network monitoring probes
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/10Flow control; Congestion control
    • H04L47/24Traffic characterised by specific attributes, e.g. priority or QoS
    • H04L47/2491Mapping quality of service [QoS] requirements between different networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • H04L47/80Actions related to the user profile or the type of traffic
    • H04L47/801Real time traffic

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了一种网络系统、业务处理方法、装置、设备及存储介质。其中,所述网络系统包括:算网业务感知模块、算网业务监控模块和算网业务决策模块;其中,所述算网业务感知模块,用于获取算网业务中的各算力节点以及算网感知数据;所述算网感知数据包括以下至少之一:算力资源感知数据;网络性能感知数据;业务质量感知数据;所述算网业务监控模块,用于基于所述算网感知数据,对所述算网业务的业务质量进行监控,得到监控结果;所述算网业务决策模块,用于基于所述监控结果,对所述算网业务进行业务决策优化。

Description

网络系统、业务处理方法、装置、设备及存储介质
技术领域
本申请涉及算力网络技术领域,尤其涉及一种网络系统、业务处理方法、装置、设备及存储介质。
背景技术
相关技术中,由于算力网络规模大、资源异构性强、动态性高,导致算力网络资源调度框架中,网络感知、业务质量与资源调度呈割裂化态势,难以保障实时、高效、多源约束下的异构资源调度性能,从而也就无法实现资源配置效率和用户体验的共同提升。
发明内容
为解决相关技术中存在的技术问题,本申请实施例提供一种网络系统、业务处理方法、装置、设备及存储介质。
为达到上述目的,本申请实施例的技术方案是这样实现的:
第一方面,本申请实施例提供了一种网络系统,所述网络系统包括:算网业务感知模块、算网业务监控模块和算网业务决策模块;其中,
所述算网业务感知模块,用于获取算网业务中的各算力节点以及算网感知数据;所述算网感知数据包括以下至少之一:算力资源感知数据;网络性能感知数据;业务质量感知数据;
所述算网业务监控模块,用于基于所述算网感知数据,对所述算网业务的业务质量进行监控,得到监控结果;
所述算网业务决策模块,用于基于所述监控结果,对所述算网业务进行业务决策优化。
上述方案中,所述算网业务感知模块还包括:第三子模块;
其中,所述第三子模块,用于将各感知探针采集的所述相应算力节点的算网感知数据周期性上报至所述第二子模块。
上述方案中,所述算网业务监控模块还包括:第七子模块;
其中,所述第七子模块,用于在所述第五子模块基于所述分析结果,确定所述算网业务出现故障之后,呈现告警信息。
第二方面,本申请实施例还提供了一种业务处理方法,所述方法包括:
获取算网业务中的各算力节点以及算网感知数据;所述算网感知数据包括以下至少之一:算力资源感知数据;网络性能感知数据;业务质量感知数据;
基于所述算网感知数据,对所述算网业务的业务质量进行监控,得到监控结果;
基于所述监控结果,对所述算网业务进行业务决策优化。
第三方面,本申请实施例还提供了一种业务处理装置,包括:
获取单元,用于获取算网业务中的各算力节点以及算网感知数据;所述算网感知数据包括以下至少之一:算力资源感知数据;网络性能感知数据;业务质量感知数据;
监控单元,用于基于所述算网感知数据,对所述算网业务的业务质量进行监控,得到监控结果;
决策单元,用于基于所述监控结果,对所述算网业务进行业务决策优化。
第四方面,本申请实施例还提供了一种业务处理设备,包括:处理器和用于存储能够在所述处理器上运行的计算机程序的存储器;
其中,所述处理器用于运行所述计算机程序时,执行本申请实施例所述的业务处理方法的步骤。
第五方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例所述的业务处理方法的步骤。
本申请实施例提供的网络系统、业务处理方法、装置、设备及存储介质,该网络系统包括:算网业务感知模块、算网业务监控模块和算网业务决策模块;其中,所述算网业务感知模块,用于获取算网业务中的各算力节点以及算网感知数据;所述算网感知数据包括以下至少之一:算力资源感知数据;网络性能感知数据;业务质量感知数据;所述算网业务监控模块,用于基于所述算网感知数据,对所述算网业务的业务质量进行监控,得到监控结果;所述算网业务决策模块,用于基于所述监控结果,对所述算网业务进行业务决策优化。
可见,本申请实施例建立了一种基于用户业务质量的感知-监控-决策一体的智能化的网络系统,通过在网络系统中设置算网业务感知模块、算网业务监控模块和算网业务决策模块,统筹考虑算力资源、网络性能以及业务质量,通过融合算网及业务质量信息,综合提升整个算网的资源利用率,并为算网用户提供高质量的算网服务,也即,保障了实时、高效、多源约束下的异构资源调度性能,最终实现资源配置效率和用户体验的共同提升。
附图说明
图1为本申请实施例的网络系统的结构示意图;
图2为本申请实施例的业务处理方法的流程示意图一;
图3为本申请实施例的面向算网业务的智能化感知-监控-决策一体的网络系统的架构示意图;
图4为本申请实施例的一种算力网络中感知探针的部署框架示意图;
图5为本申请实施例的主被动融合算网状态感知技术框架示意图;
图6为本申请实施例的业务异常监控和故障诊断分析的框架示意图;
图7为本申请实施例的业务处理方法的流程示意图二;
图8为本申请实施例的业务处理装置的组成结构示意图;
图9为本申请实施例的业务处理设备的硬件组成结构示意图。
具体实施方式
下面结合附图及实施例对本申请再作进一步详细的说明。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中在本申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请。
随着第五代移动通信技术(5G,5th Generation Mobile CommunicationTechnology)和人工智能的发展,大量新兴的计算需求出现,并带来了网络中传输数据的爆炸性增长。同时,用户对网络质量的要求也越来越高,以寻求更稳定、高速和高质量的网络响应,也逐步提出不同的体验质量(QoE,Quality of Experience)要求。云计算和边缘计算技术为用户提供了随时随地、方便地访问各种计算资源的能力。边缘和云计算进一步解决了业务的低延迟需求和缓解主干网络中大量数据导致的拥塞问题。因此,如何综合网络的性能表现及分布式算力资源状态,实现任务数据灵活传输、应用程序的灵活部署和分布式资源的协调调度,以保障业务端到端质量、提升用户体验变得至关重要。
以信息传递为核心的传统网络基础设施正在向以算力网络为代表的融合计算、存储、网络资源的新型异构层次化网络架构转变。如何将动态分布的计算与存储资源互联,通过网络、存储、算力等多维度资源的统一协同调度,使海量的应用能够按需、实时调用泛在分布式的计算资源,实现连接和算力在网络的全局优化,提供一致的用户体验,近年来也成为了业界研究热点。
相关技术中由于算力网络规模大、资源异构性强、动态性高,导致算力网络资源调度框架中,网络感知、业务质量与资源调度呈割裂化态势,难以保障实时、高效、多源约束下的异构资源调度性能。因此,亟需建立基于用户业务质量的感知-监控-决策一体的智能化的网络系统,最终实现资源配置效率和用户体验的共同提升的方案。
基于此,本申请实施例提出一种网络系统,在本申请的各种实施例中,建立了一种基于用户业务质量的感知-监控-决策一体的智能化的网络系统,通过在网络系统中设置算网业务感知模块、算网业务监控模块和算网业务决策模块,统筹考虑算力资源、网络性能以及业务质量,通过融合算网及业务质量信息,综合提升整个算网的资源利用率,并为算网用户提供高质量的算网服务,也即,保障了实时、高效、多源约束下的异构资源调度性能,最终实现资源配置效率和用户体验的共同提升。
本申请实施例提供了一种网络系统,图1为本申请实施例的网络系统的结构示意图,如图1所示,所述网络系统包括:算网业务感知模块11、算网业务监控模块12和算网业务决策模块13;其中,
所述算网业务感知模块11,用于获取算网业务中的各算力节点以及算网感知数据;所述算网感知数据包括以下至少之一:算力资源感知数据;网络性能感知数据;业务质量感知数据;
所述算网业务监控模块12,用于基于所述算网感知数据,对所述算网业务的业务质量进行监控,得到监控结果;
所述算网业务决策模块13,用于基于所述监控结果,对所述算网业务进行业务决策优化。
实际应用时,所述算网业务感知模块11结合主动、被动感知数据等方式,按需获取算力资源、网络性能、业务质量的感知数据,为上层的算网业务监控模块12和算网业务决策模块13提供统一的数据服务。
基于此,在一实施例中,所述算网业务感知模块11包括:第一子模块和第二子模块;其中,
所述第一子模块,用于部署设置在所述各算力节点上的感知探针,所述感知探针用于主动采集相应算力节点的算网感知数据;
所述第二子模块,用于接收各感知探针上报的所述相应算力节点的算网感知数据。
这里,感知探针为分布式探针,即为部署在各算力节点上的分布式探针,利用该分布式探针可实现算力资源、网络性能、业务质量的精细化感知。其中,分布式探针是一个可以轻量化运行在算力节点的代理程序。
这里,本申请实施例中的算网感知数据包括以下至少之一:算力资源感知数据;网络性能感知数据;业务质量感知数据;其中,
所述算力资源感知数据包括以下至少之一:资源池位置;资源配额;资源负荷;其中,所述资源配额包括以下至少之一:中央处理器(CPU,Central Processing Unit)配额;内存配额;图形处理器(GPU,Graphic Processing Unit)配额;存储配额;所述资源负荷包括以下至少之一:网络资源的利用率;存储输入/输出(I/O,Input/Output)性能;网络I/O性能;
所述网络性能感知数据包括以下至少之一:包括智能专线、云专网的网络资源的物理链路拓扑与容量;资源负荷;预置的传输电路与隧道的网络服务质量(QoS,Quality ofService)信息;其中,这里的资源负荷包括时延、丢包、抖动;
所述业务质量感知数据包括以下至少之一:业务资源信息;业务应用性能;业务质量关键绩效指标(KPI,Key Performance Indicators);业务质量关键质量指标(KQI,KeyQuality Indicators);其中,所述业务资源信息包括以下至少之一:应用服务接口地址;应用实例的资源需求规格;所述业务应用性能包括以下至少之一:接口吞吐性能;接口响应性能;所述业务质量KPI包括以下至少之一:传输控制协议(TCP,Transmission ControlProtocol)质量KPI;域名解析系统(DNS,Domain Name System)质量KPI;超文本传输协议(HTTP,Hypertext Transfer Protocol)质量KPI;所述业务质量KQI包括以下至少之一:上行平均速率;下行平均速率;平均丢包率。
这里,所述算网业务感知模块11还包括:第三子模块;
其中,所述第三子模块,用于将各感知探针采集的所述相应算力节点的算网感知数据周期性上报至所述第二子模块。
需要说明的是,处于相邻位置的分布式探针可以相互发现,并相互探测。在本申请实施例中,分布式探针可以理解为,是分别在业务用户侧、网络侧、算力侧部署的业务质量感知探针,该分布式探针支持多种探测协议,例如Iperf、双向主动测量协议(TWAMP,Two-Way Active Measurement Protocol)、路由追踪(TraceRoute)、Ping等,通过在业务真实网络路径上配置主动探测任务,实时掌握业务运行状况,实现端到端(例如跨专业、跨厂商、跨地域网段)的业务质量、算力资源与网络性能的实时感知以及检测指标的采集上报。
这里,在本申请实施例中,感知探针即分布式探针周期性上报算网感知数据,属于主动工作模式,即算网业务感知模块11主动感知数据。当然,实际应用时,除了主动感知数据以外,算网业务感知模块11还可以被动感知数据,即基于数据汇集节点发起查询和探测任务的被动工作模式。
基于此,在一实施例中,所述感知探针,还用于接收所述第二子模块下发的查询任务;
其中,所述查询任务基于所述第二子模块的上层业务模块的查询请求生成,所述查询任务中携带有所述查询请求;
响应于所述查询请求,采集相应算力节点的算网感知数据。
这里,所述第二子模块可以为数据汇集节点,或称为数据汇集模块。具体来说,数据汇集节点的上层业务模块向数据汇集节点发起查询请求,数据汇集节点在接收到上层业务模块发起的查询请求后,生成查询任务,并将查询任务下发至感知探针执行,也就是说,感知探针接收到数据汇集节点下发的查询任务后,解析该查询任务以得到查询请求,然后响应于查询请求,采集相应算力节点的算网感知数据。
由此可见,本申请实施例通过主被动融合的轻量化算力网络状态感知机制,获取算力网络中各个算力节点以及网络链路的状态数据(包括算力资源感知数据、网络性能感知数据、业务质量感知数据中的至少一个感知数据),解决异构网络、跨厂商、分段测量数据不统一等问题,保证数据时效性、跨厂商兼容性、端到端完整性,实现面向租户级的端到端数据感知和多维数据分析能力。
实际应用时,算网业务监控模块12基于算网业务感知模块11上报的算网感知数据,实时对算网业务的业务质量进行分析与理解,为算网业务决策模块13提供数据基础,提升决策质量。
基于此,在一实施例中,所述算网业务监控模块12包括:第四子模块和第五子模块;其中,
所述第四子模块,用于基于所述算网感知数据,对所述算网业务的性能指标进行分析,得到分析结果;所述性能指标包括以下至少之一:算力资源的状态;网络资源的状态;业务质量的状态;
所述第五子模块,用于基于所述分析结果,确定所述算网业务是否出现故障。
下面对第四子模块的处理过程进行说明。
这里,所述第四子模块,具体用于:
利用预先建立的服务质量评估模型,确定所述算网业务的服务质量;
基于所述算网感知数据,确定算力网络和目标设备的健康状态,以及所述算网业务的运行情况;所述目标设备为对应部署所述算网业务的设备;
基于所述算网业务的服务质量、所述算力网络和目标设备的健康状态,以及所述算网业务的运行情况,得到所述分析结果。
这里,为了确定待部署任务即算网业务在目标设备中的服务质量,需结合算力网络资源弹性调度的特点,从设备本地信息和网络状况两方面进行分析。也就是说,基于网络状况信息和设备本地信息建立服务质量评估模型,从而通过建立的服务质量评估模型,对算网业务的服务质量进行评估。
下面对第五子模块的处理过程进行说明。
这里,所述第五子模块,具体用于:
将所述分析结果与目标阈值进行比较,得到比较结果;
在所述比较结果表征所述分析结果小于所述目标阈值的情况下,确定所述算网业务出现故障;
在所述比较结果表征所述分析结果大于或等于所述目标阈值的情况下,确定所述算网业务未出现故障。
需要说明的是,目标阈值是根据实际需求设置的,在此不做限定。在利用第四子模块确定出分析结果之后,利用第五子模块将分析结果与预先设定的目标阈值进行比较,当分析结果小于预先设定的目标阈值时,则表明当前节点任务分配出现了问题,即算网业务出现故障;当分析结果大于或等于预先设定的目标阈值时,则表明当前节点任务分配未出现问题,即算网业务未出现故障。
实际应用时,当检测出算网业务出现故障之后,需要配合人工智能(AI,Artificial Intelligence)诊断能力,快速发现并定位用户和虚拟私有云(VPC,VirtualPrivate Cloud)之间的故障,全面保障算网业务服务级别协议(SLA,Service-LevelAgreement)。
基于此,在一实施例中,所述算网业务监控模块12还包括:第六子模块;
其中,所述第六子模块,用于在所述第五子模块基于所述分析结果,确定所述算网业务出现故障之后,对所述算网业务出现的故障进行诊断分析,以识别出现所述故障的根本原因以及对所述故障进行定位。
这里,针对算网业务的故障,可以基于专线虚拟专用网络(VPN,Virtual PrivateNetwork)流量,对算网业务进行随路检测,分析业务丢包或者时延劣化问题;通过将业务路径上各网元设备的问题进行聚合分析,完成业务故障的根本原因的分析,从而快速了解故障出现的原因。
这里,所述算网业务监控模块12还包括:第七子模块;
其中,所述第七子模块,用于在所述第五子模块基于所述分析结果,确定所述算网业务出现故障之后,呈现告警信息。
需要说明的是,第七子模块用于对告警信息进行可视化展示,以便于用户快速查看算网业务出现的故障,其中,告警信息可以通过即时消息的方式进行推送。
实际应用时,当算网业务出现异常时,通常需要进行算网资源的重新调度,优化任务部署,实现面向算网业务确定性服务质量的控制能力。
基于此,在一实施例中,所述算网业务决策模块13包括:第八子模块和第九子模块;其中,
所述第八子模块,用于在所述监控结果表征所述算网业务出现故障的情况下,触发重调度请求;
所述第九子模块,用于响应于所述重调度请求,利用业务优化策略对所述算网业务进行业务决策优化。
这里,所述第九子模块,具体用于:
响应于所述重调度请求,判断所述业务优化策略的仿真效果是否满足第一设定条件,得到判断结果;
在所述判断结果表征所述业务优化策略的仿真效果满足所述第一设定条件的情况下,利用所述业务优化策略对所述算网业务进行业务决策优化。
需要说明的是,为了保障策略执行的准确性,在下发业务优化策略之前,需要先判断业务优化策略的仿真效果是否满足第一设定条件,当只有在业务优化策略的仿真效果满足第一设定条件的情况下,才下发业务优化策略,从而利用业务优化策略对算网业务进行业务决策优化,即实现算网业务的优化过程。
下面对业务优化策略的生成过程进行说明。
在本申请实施例中,所述算网业务决策模块13还包括:第十子模块;
其中,所述第十子模块,用于生成所述业务优化策略。
所述第十子模块,具体用于:
确定当前算力网络拓扑中各边的权重,以及各算力节点的权重;
基于所述当前算力网络拓扑中各边的权重,以及各算力节点的权重,构建动态网络;
从所述动态网络中选取目标算力节点和目标路由路径,所述目标路由路径为从源算力节点到所述目标算力节点的路由路径,且所述目标路由路径的路由成本满足第二设定条件;
基于所述目标算力节点和所述目标路由路径,生成所述业务优化策略。
这里,动态网络的建模过程,是利用图论方法将动态网络抽象为图拓扑结构,利用图论中的点、边权重信息表征算力资源、网络资源多维度性能指标的动态性,拓扑图中的点、边均根据基础性能指标KPI及任务QoE约束赋予相应的权重。在本申请实施例中,对于算力路由问题,同时考虑计算任务的传输过程和计算过程,因此,所提出的动态网络中同时定义了边缘权重和节点权重,即当前算力网络拓扑中各边的权重,以及各算力节点的权重,以此来构建动态网络。此外,在本申请实施例中,将算网业务优化问题转变为在动态网络中为计算任务识别最合适的算力节点(即目标算力节点),并选择从源节点到目标节点的最佳路由路径(即目标路由路径),使得总体成本最小化。其中,目标路由路径的路由成本满足第二设定条件,可以理解为目标路由路径的路由成本最低。
基于前述的网络系统,本申请实施例提供了一种业务处理方法,该方法应用于业务处理装置,图2为本申请实施例的业务处理方法的流程示意图一;如图2所示,该方法包括:
步骤201:获取算网业务中的各算力节点以及算网感知数据;所述算网感知数据包括以下至少之一:算力资源感知数据;网络性能感知数据;业务质量感知数据。
在一实施例中,所述获取算网感知数据,包括:
部署设置在所述各算力节点上的感知探针,所述感知探针用于主动采集相应算力节点的算网感知数据;
接收各感知探针上报的所述相应算力节点的算网感知数据。
这里,所述感知探针,用于接收第二子模块下发的查询任务;
其中,所述查询任务基于所述第二子模块的上层业务模块的查询请求生成,所述查询任务中携带有所述查询请求;
响应于所述查询请求,采集相应算力节点的算网感知数据。
步骤202:基于所述算网感知数据,对所述算网业务的业务质量进行监控,得到监控结果。
在一实施例中,所述基于所述算网感知数据,对所述算网业务的业务质量进行监控,得到监控结果,包括:
基于所述算网感知数据,对所述算网业务的性能指标进行分析,得到分析结果;所述性能指标包括以下至少之一:算力资源的状态;网络资源的状态;业务质量的状态;
基于所述分析结果,确定所述算网业务是否出现故障。
其中,所述基于所述算网感知数据,对所述算网业务的性能指标进行分析,得到分析结果,包括:
利用预先建立的服务质量评估模型,确定所述算网业务的服务质量;
基于所述算网感知数据,确定算力网络和目标设备的健康状态,以及所述算网业务的运行情况;所述目标设备为对应部署所述算网业务的设备;
基于所述算网业务的服务质量、所述算力网络和目标设备的健康状态,以及所述算网业务的运行情况,得到所述分析结果。
其中,所述基于所述分析结果,确定所述算网业务是否出现故障,包括:
将所述分析结果与目标阈值进行比较,得到比较结果;
在所述比较结果表征所述分析结果小于所述目标阈值的情况下,确定所述算网业务出现故障;
在所述比较结果表征所述分析结果大于或等于所述目标阈值的情况下,确定所述算网业务未出现故障。
在一实施例中,在所述基于所述分析结果,确定所述算网业务出现故障之后,该方法还包括:
对所述算网业务出现的故障进行诊断分析,以识别出现所述故障的根本原因以及对所述故障进行定位。
在另一实施例中,在所述基于所述分析结果,确定所述算网业务出现故障之后,该方法还包括:呈现告警信息。
步骤203:基于所述监控结果,对所述算网业务进行业务决策优化。
在一实施例中,所述基于所述监控结果,对所述算网业务进行业务决策优化,包括:
在所述监控结果表征所述算网业务出现故障的情况下,触发重调度请求;
响应于所述重调度请求,利用业务优化策略对所述算网业务进行业务决策优化。
其中,所述响应于所述重调度请求,利用业务优化策略对所述算网业务进行业务决策优化,包括:
响应于所述重调度请求,判断所述业务优化策略的仿真效果是否满足第一设定条件,得到判断结果;
在所述判断结果表征所述业务优化策略的仿真效果满足所述第一设定条件的情况下,利用所述业务优化策略对所述算网业务进行业务决策优化。
在一实施例中,该方法还包括:生成所述业务优化策略。
其中,所述生成所述业务优化策略,包括:
确定当前算力网络拓扑中各边的权重,以及各算力节点的权重;
基于所述当前算力网络拓扑中各边的权重,以及各算力节点的权重,构建动态网络;
从所述动态网络中选取目标算力节点和目标路由路径,所述目标路由路径为从源算力节点到所述目标算力节点的路由路径,且所述目标路由路径的路由成本满足第二设定条件;
基于所述目标算力节点和所述目标路由路径,生成所述业务优化策略。
需要说明的是,业务处理装置完成对业务处理的具体处理过程已在上文详述,具体可参见网络系统的详细描述过程,这里不再赘述。
采用本申请实施例的技术方案,通过建立了一种基于用户业务质量的感知-监控-决策一体的智能化的网络系统,通过在网络系统中设置算网业务感知模块、算网业务监控模块和算网业务决策模块,统筹考虑算力资源、网络性能以及业务质量,通过融合算网及业务质量信息,综合提升整个算网的资源利用率,并为算网用户提供高质量的算网服务,也即,保障了实时、高效、多源约束下的异构资源调度性能,最终实现资源配置效率和用户体验的共同提升。
本申请实施例通过主被动融合的轻量化算力网络状态感知机制获取算力网络中各个算力节点以及网络链路的状态数据,以感知的业务质量、网络状态、算力资源使用情况为输入,将算力网络调度抽象为多目标优化问题,从而更好地支撑算网业务的优化调度。并且,该网络系统中的算网业务监控模块可面向算网业务全时段、全网络的7*24实时端到端监控,及时发现网络隐患故障,先于客户发现问题,实现故障的快速告警和精准定界定位。
下面结合应用实施例对本申请进行说明。
下面先对相关技术中的算网业务感知、监控、决策的方案进行说明。
目前,针对算网业务感知、监控、决策公知技术方案主要如下所列:
算网业务状态感知,算力网络中涉及到大量传统网络架构的设备,这些设备通常仅支持一些传统的网络状态感知方法,比如简单网络管理协议(SNMP,Simple NetworkManagement Protocol),Traceroute,Ping,被动测量时延,基于Packet trace跟踪网络状态等方法。这些方法在大范围网域数据采集场景下,面临着测量周期难以统一、采集成本较高、采集范围割裂等问题。总体来看,当前算力网络缺乏面向业务面的精准感知数据,不同网络链路区段可实施的技术方案受限于各自的算力和网络架构,感知到的信息在维度、数据规范等多个方面都不统一,难以提供统一、有效的应用感知结果,无法有力支撑进一步的算力优化调度。
算网业务故障诊断,现有方案中是根据数据中心网络拓扑结构生成探测计划,发送IP-in-IP报文以检测路径丢包率,然后,应用针对现实世界数据不一致的问题设计了一种高精度链路故障推理算法,并确定出故障链路或故障设备。可见,现有方案未考虑算力网络的特点,存在专注于某一种特定故障、可扩展范围较小、故障诊断时间长,无法实时检测和具有性能开销大等特点。
算网业务调度策略,目前发现网络租户共享资源,很容易彼此影响,导致服务性能不可预测,并设计了一个为数据中心用户提供可预测性能服务的框架FAB。FAB的核心网交换机负责通过带内网络遥测(INT,Inband Network Telemetry)感知网络信息,并发送至边缘端,边缘端依靠准确网络信息,高效控制租户流量的路径和速率。然而,现有方法缺乏面向算网业务的多因子决策体系,难以提供全局路由最优算路结果,以支撑算网业务调度智能化。
由此可见,相关技术中的业务质量保障系统普遍存在算网数据感知时效性差、业务故障定位时间较长、业务动态调度智能化水平不高的问题,导致无法实现面向用户业务体验的端到端质量保障。下面对存在的几个问题进行说明:
(1)数据感知时效性差
跨设备厂家间,分段物理链路网络质量采集任务割裂,采集周期不统一,采集上报时延较大;缺乏业务质量感知能力与手段,业务SLA不可视,业务故障协同诊断缺乏依据。针对算力网络个性化细粒度感知需求,被动感知技术提供的感知结果难以满足需求,需要研究动态网络拓扑下主动探测路径分析方法,研制面向算力网络的端到端逐跳状态感知技术,建立超大规模算力网络高效感知体系。
(2)业务故障定位时间较长
当前算网业务故障处理流程通过网络信令跟踪、告警及日志分析抓包对包、配置核查等技术手段进行端到端问题分析定位;网络侧各单域有零星的数据收集及抓包工具,但数据分散,分段、跨厂家关联分析处理很难。当前故障分析定位环节以人工为主,工具为辅,强依赖专家经验(视频回传的故障分析定位耗时7.5小时)
(3)业务动态调度智能化水平不高
当前算网业务动态调度主要集中在单领域调度,例如综合资源可用性和算力资源成本信息进行动态算力资源的选择和编排,根据网络时延、丢包、抖动信息进行网络链路选择。尚未建立业务用户体验质量与基础算、网资源指标的映射体系,无法构造端到端的多维业务服务质量模型从而寻求最优解。
因此,基于上述相关技术的局限性,本申请提出了一种面向算网业务的智能化感知-监控-决策一体的网络系统及业务处理方法,通过主被动融合的轻量化算力网络状态感知机制获取算力网络中各个算力节点以及网络链路的状态数据,解决异构网络、跨厂商、分段测量数据不统一等问题,保证数据时效性、跨厂商兼容性、端到端完整性,实现面向租户级的端到端数据感知和多维数据分析能力;基于智能监控模块建立用户业务体验质量与基础算网资源指标的映射体系,通过关键运维指标实时监控用户应用,并配合AI诊断能力,快速发现并定位用户和VPC之间的故障,实现面向算网业务确定性服务质量的控制能力;基于业务SLA指标约束、算力资源与网络性能指标动态变化情况,结合最优化算法,求解并输出推荐算力节点及网络路径,实现多维约束下的多技术要素融合能力供给;最终利用软件定义网络(SDN,Software Defined Network)的智能算路和基于IPv6转发平面的段路由(SRv6,Segment Routing IPv6)的路径灵活编排能力,通过网络层面的调度控制实现对已部署算力服务的高效调用,提供确定性算网业务服务。
图3为本申请实施例的一种面向算网业务的智能化感知-监控-决策一体的网络系统的架构示意图,该网络系统用以解决相关技术中的算网数据感知时效性差、业务故障定位时间较长、业务动态调度智能化水平不高等问题,应用细粒度分布式探针、随流检测(IFIT,In-situ Flow Information Telemetry)、SRv6、QoS评估模型、算力路由等技术,向用户提供安全可靠的算网业务端到端质量感知、监控分析、动态调度一体化服务。其中,该网络系统包括:算网感知数据仓库(对应前述的算网业务感知模块)、智能分析单元(对应前述的算网业务监控模块)、智能决策单元(对应前述的算网业务决策模块)。下面对网络系统的这几个组成部分进行说明。
1、算网感知数据仓库
算网感知数据仓库,主要是以服务业务生命周期管理为目标,针对异构算力、网络、业务资源,从资源、事件、配置、性能等维度制定算网感知体系,并结合主动、被动感知等方式,按需获取算力、网络、业务资源的感知数据,沉淀成为算网感知数据仓库,盘点算网资源,感知业务状态,为上层的智能分析单元、智能决策单元提供统一的数据服务。
这里,针对相关技术的业务质量感知手段缺失的问题,本申请基于随路检测技术部署业务质量探针,通过在业务真实网络路径上配置探测任务,实时掌握业务运行状况,实现端到端的业务质量感知。图4为本申请实施例的一种算力网络中感知探针的部署框架示意图,如图4所示,业务质量采集手段具体为在业务用户侧、网络侧、算力侧均部署业务质量感知探针,通过在业务真实网络路径上配置主动探测任务,实现端到端(跨专业、跨厂商、跨地域网段)的业务质量、算力资源与网络性能实时感知以及检测指标的采集上报。
图5为本申请实施例的主被动融合算网状态感知技术框架示意图,如图5所示,本申请提出一种基于分布式探针的业务主被动感知框架,实现算力资源、网络性能、业务质量的精细化感知。该框架包括部署在各算力节点上的分布式探针,部署在算力网络控制节点的数据汇集模块,以及一套用于进行探测网络质量、传输感知数据的协议。该框架包含分布式探针周期性上报算力网络状态的主动工作模式,以及由数据汇集模块发起查询和探测任务的被动工作模式。
其中,分布式探针是一个可以轻量化运行在算力节点上的代理程序,主要完成以下功能:1)周期性采集节点的计算资源、存储资源和网络状态;2)周期性向数据汇集模块上报算网中各个节点的统计数据;3)邻近分布式探针可以相互发现并相互探测;4)响应数据汇集节点的查询请求。
数据汇集节点是算力网络状态感知的向上接口,所有算网相关状态统一通过该模块提供数据出口,其主要功能包括:1)接受各分布式探针上报的主动感知数据;2)监控各分布式探针状态以及施加控制;3)接受上层的查询请求,生成查询任务并下发分布式探针执行。在具体实现上,数据汇集节点提供可接入各类大数据流处理平台的数据接口以及接收上层查询、控制命令的接口,实现一套探测任务规划和生成的控制器。
其中,通过分布式探针可感知以下数据:
(1)算力资源感知数据,主要包括资源池位置、资源配额(CPU、内存、GPU、存储配额)、资源负荷(计算、存储、网络资源的利用率、存储I/O性能、网络I/O性能)等信息。
(2)网络性能感知数据,主要包括智能专线、云专网等网络资源的物理链路拓扑(业务隧道、传输电路)与容量(云出口带宽、带宽利用率)、资源负荷(时延、丢包、抖动)、预置的传输电路与隧道的网络QOS信息(已分配资源的QOS配置)。
(3)业务质量感知数据,主要包括业务资源信息(应用服务接口地址、应用实例的资源需求规格)、业务应用性能(接口吞吐性能、接口响应性能)、业务质量KPI(TCP质量KPI、DNS质量KPI、HTTP质量KPI)、业务质量KQI(上、下行平均速率,平均丢包率)。
2、智能分析单元
智能分析单元用于基于算网感知数据仓库提供的数据,实时对算力资源、网络资源、业务质量的状态进行分析与理解,为智能决策单元提供分析基础,提升决策质量;通过建立业务用户体验质量与基础算网资源指标的映射体系,实时监控用户关键运维指标,并配合AI诊断能力,快速发现并定位用户和VPC之间的故障,全面保障算网业务SLA。其中,智能分析单元包括业务体验分析、业务故障分析和告警呈现几个部分,下面分别对这几个部分进行说明。
(1)业务体验分析
面向用户体验QoE,根据特定的映射模型,将业务质量KQI、KPI指标转换为对应的QOE分值,快速匹配网络故障处理响应优先级,优先保障算网用户体验。
1)建立QoS评估模型
为判断待部署任务在目标设备中的QoS,结合算力网络资源弹性调度的特点,从设备本地信息和网络状况两方面进行分析。
从网络角度,根据当前相关设备网络是否可用、可用带宽的占比、丢包率等属性定义当前网络在对应设备的QoS;从设备本地信息角度,预先选定CPU、内存、存储、FPGA、GPU等各类算力指标的标准配置,将相应的各项信息参数化,作为衡量各异构设备性能的基础,并以同样的标准参数化待部署的应用或计算任务,通过与目标设备各项参数的加权比之和,估计其在对应异构设备上的实机性能。基于网络和设备本地信息得到的结果,加权计算得到待部署应用在目标设备上的运行期望,即整体的QoS水平。
其中,在计算过程中引入权重,可以有效减小期望结果与实际运行情况之间的差距。对于权重,可以根据待部署任务对各项资源的重视程度划分等级设定梯度,视任务要求具体选择。通过在控制器中实时更新各异构设备的本地信息和网络状态,可以在部署后实时计算各项任务的QoS。
2)结合节点反馈的异常状态判定
相关任务在算力节点上部署后,结合监测得到的网络、设备异常信息和控制器计算得到的期望QoS判定异常状况。异常的判定f通过采用以下公式(1)由QoS的状态期望、网络和设备的健康状态Qn、Qd、任务的运行情况k四项内容计算得到,具体的计算方法基于任务和算力节点的性能决定。Qd和Qn根据故障监测的结果和重要程度选定合适的梯度,若任务正常运行,则k=1,否则k=0。
f=Σk(QoS+αQn+βQd) (1)
实际应用时,异常判定的最终目标是确保任务成功部署于对应的算力节点,并在QoS过低或算力网络出现异常时进行算网资源的重新调度,优化任务部署。当f计算的结果小于预先设定的阈值时,认为当前节点任务分配出现问题,此时对占用资源最多的一个或数个任务进行优化,例如,若同一个设备上并发部署多个任务,将导致QoS快速下降;若存在任意一项结果为0,则对应任务未成功部署,需要重新分配算网资源。
(2)业务故障分析
图6为本申请实施例的业务异常监控和故障诊断分析的框架示意图,针对业务故障,根据IFIT技术以及分布式探针基于专线VPN流量进行随路检测,分析业务丢包或者时延劣化问题;基于网络路径进行群障问题聚合,定界问题位置;其中,可采用随流逐跳方式定界问题的位置。
这里,在诊断分析环节,业务故障发生后会自动关联网络故障,基于网元设备内告警/配置/KPI等指标,使用对应异常检测算法进行异常判断,识别单网元异常;通过多异常事件聚类完成问题识别并进行根因分析;通过将业务路径上各网元的问题进行聚合分析,完成业务故障的根因分析。其中,根因分析可通过以下至少之一的方式得到:根因推理;处理建议;故障画像;相似故障。
(3)告警呈现
实现分钟级性能告警实时展示,对资源池、计算资源、存储资源、网络资源、租户等层次进行实时监控并进行拓扑可视化。其中,告警信息的实时推送,支持SNMP、微信、Email、Webservice等接口。
本申请实施例基于智能分析单元,快速搭建各业务场景的业务体验KQI模型,形成覆盖算力、网络、业务应用的端到端业务质量KPI/KQI体系,基于IFIT随流检测技术以及实时感知数据实现业务质量实时可视、业务故障分钟级定位,用于业务质量评估以及业务问题诊断。
3、智能决策单元
基于上报数据感知算网资源当前运行状态,结合智能分析单元生成的故障定界结果,从用户业务端到端保障角度,重新选择算力节点、网络链路,给出业务调优建议。通过支持策略生命周期管理、策略调度模型设计、策略下发安全管控,实现开通策略、调度策略等统一设计和资源协同。其中,智能决策单元包括业务动态优化、业务策略仿真和业务策略调度几个部分,下面分别对这几个部分进行说明。
(1)业务优化策略(业务动态优化)
基于不同业务的SLA、网络整体负载、可用算力资源池分布等因素,智能、动态地计算出算、网、数的最优协同策略,按需动态生成业务调度策略,将应用请求沿最优路径调度至算力节点,提高算力和网络资源效率,保障用户体验。其中,该建模过程利用图论方法将动态网络抽象为图拓扑结构,利用图论中的点、边权重信息描述算力、网络资源多维度性能指标的动态性,拓扑图中的点、边均根据基础性能指标KPI及任务QoE约束赋予相应权重。
其中,动态网络模型可表示为G(t)=(V,E(t),WV(t),WE(t))其中,V={v1,v2...,vn}(n=|V|)表示节点集,每个节点均代表一个实际的网元设备;E={e1,e2,...,em(t)}(m=|E(t)|)表示边的集合,每一条边代表一条实际物理连接链路;时间t是收集算网信息的时刻;表示节点的权重集,用于量化算力资源状态;表示边的权重集,用于量化网络链路性能。
由于算力路由问题应当同时考虑计算任务的传输过程和计算过程,因此,本申请所提出的动态网络模型同时定义了边缘权重和节点权重。同时,考虑到计算任务提出的QoE约束,Wv(t),WE(t)中的权重与任务相关。通常,一个计算任务τ可能会基于QoE约束对算力资源的可用计算能力、可用内存,网络链路的时延、抖动、丢包等关键KPI提出要求。
其中,对于WE(t),考虑的KPI指标包括链路时延De(t)、抖动时延DVe(t)、丢包率Le(t)及可用带宽Be(t),结合任务的网络链路性能要求,边E的权重计算如下公式(2)所示:
其中,对于wv(t),考虑的KPI指标包括可用计算能力(FLOPS)、可用内存(GB),结合任务的算力资源性能要求,节点i的权重计算如下公式(3)所示:
其中,表示在t时刻时算力节点i根据性能情况给出的任务处理预计时长,Si(t),Ci(t)表示在t时刻时算力节点i可用内存、可用计算能力。
因此,本申请中将算网业务优化问题转变为在动态网络G(t)内为计算任务识别最合适的算力节点vq,并选择从源节点u到目标节点vq的最佳路由路径使得总体成本最小化。优化问题可被建模为:其中,ψ(·)计算了选择算力节点vq及路由路径的路由成本由构成路由路径的对应边ei,j、节点j的权重求和得到,ei,j代表起点为i、端点为j的边。路由成本可通过以下公式(4)计算得到:
(2)业务策略仿真
本申请中的策略仿真支持对算网路径开通、调度时的路由仿真,可以进行通信流程仿真和AI算法模型训练迭代,支持基于关键因子(时延、带宽等)进行路由仿真计算,保障策略执行的准确性。
(3)业务策略调度
本申请中将生成的策略转化为可编排的算力域、网络域系统语言,实现网络能力配置和调度、算力能力配置和调度。开通与调度策略通过该模块对策略实例化执行,输出路由最优的业务实例,策略计算结果以应用程序编程接口(API,Application ProgrammingInterface)等形式对外提供服务。主要包括资源调度(CPU、内存、存储),网络调度(时延、带宽、丢包),应用调度(镜像应用自动部署),流量调度(服务流量自动切换与调整)。
本申请实施例中,在业务动态优化策略中,考虑优选算力节点及路由路径的算力路由优化模型。通过建立算力网络最优化模型,明确了算力路由的主要目标是在动态网络内为计算任务识别最合适的算力节点,并选择从源节点到目标节点的最佳路由路径,使得总体成本最小化。基于上述建模过程,将算力路由问题转换为经典路径规划中的最短路问题。基于该模型求解得到的推荐路由路径可更好地满足算网业务的综合业务质量需求。
图7为本申请实施例的业务处理方法的流程示意图二,如图7所示,该业务处理方法包括以下步骤:
步骤701:算网数据感知。
步骤702:获取算网感知数据以及任务参数信息。
这里,所述算网感知数据包括以下至少之一:算力资源感知数据;网络性能感知数据;业务质量感知数据。
步骤703:根据具体算网业务建立QoS评估模型,利用f=Σk(Qos+αQn+βQd)计算分析结果f。
步骤704:判断分析结果f是否小于目标阈值,如果小于目标阈值,则执行步骤705,否则返回步骤701。
步骤705:业务故障诊断及告警呈现。
步骤706:触发重调度,计算当前算网拓扑中边、点的权重。
步骤707:根据任务参数要求选择候选源节点集合以及候选目标节点集合。
步骤708:确定输出路由成本的最小值。
步骤709:判断优化策略仿真是否达到预期,如果达到预期,则执行步骤710,否则返回步骤706。
步骤710:下发业务优化策略。
与相关技术的方案相比,本申请具有以下有益效果:
(1)针对相关技术的算力网络资源调度框架中,网络感知、业务质量与资源调度呈割裂化态势,难以保障实时、高效、多源约束下的异构资源调度性能。为此需建立一种基于用户业务质量的感知-监控-决策一体的智能系统,最终实现资源配置效率和用户体验的共同提升。
(2)在算网业务感知层面,实现了面向租户级的业务质量感知,解决了异构网络、跨厂商、分段测量数据不统一等问题,保证数据时效性、跨厂商兼容性、端到端完整性。
(3)在算网业务监控层面,实现面向算网业务确定性服务质量的控制能力。建立了业务用户体验质量与基础算网资源指标的映射体系,通过关键运维指标实时监控用户应用,并配合AI诊断能力,快速发现并定位用户和VPC之间的故障,全面保障算网用户体验。
(4)在算网业务决策优化层面,实现面向多维约束的网络路径智能决策能力。亟需基于业务SLA指标约束、算力资源与网络性能指标动态变化情况,结合最优化算法,求解并输出推荐算力节点及网络路径,实现多维约束下的多技术要素融合能力供给。
为了实现本申请实施例的业务处理方法,本申请实施例还提供了一种业务处理装置,图8为本申请实施例的业务处理装置的组成结构示意图,如图8所示,所述业务处理装置包括:
获取单元81,用于获取算网业务中的各算力节点以及算网感知数据;所述算网感知数据包括以下至少之一:算力资源感知数据;网络性能感知数据;业务质量感知数据;
监控单元82,用于基于所述算网感知数据,对所述算网业务的业务质量进行监控,得到监控结果;
决策单元83,用于基于所述监控结果,对所述算网业务进行业务决策优化。
在一实施例中,所述获取单元81包括:部署子单元和接收子单元;其中,
所述部署子单元,用于部署设置在所述各算力节点上的感知探针,所述感知探针用于主动采集相应算力节点的算网感知数据;
所述接收子模块,用于接收各感知探针上报的所述相应算力节点的算网感知数据。
在一实施例中,所述感知探针,还用于接收所述接收子单元下发的查询任务;
其中,所述查询任务基于所述接收子单元的上层业务模块的查询请求生成,所述查询任务中携带有所述查询请求;
所述接收子单元,具体用于:响应于所述查询请求,采集相应算力节点的算网感知数据。
在一实施例中,所述获取单元81还包括:上报子单元;
其中,所述上报子单元,用于将各感知探针采集的所述相应算力节点的算网感知数据周期性上报至所述接收子单元。
在一实施例中,所述监控单元82包括分析子单元和确定子单元;其中,
所述分析子单元,用于基于所述算网感知数据,对所述算网业务的性能指标进行分析,得到分析结果;所述性能指标包括以下至少之一:算力资源的状态;网络资源的状态;业务质量的状态;
所述确定子单元,用于基于所述分析结果,确定所述算网业务是否出现故障。
在一实施例中,所述分析子单元,具体用于:
利用预先建立的服务质量评估模型,确定所述算网业务的服务质量;
基于所述算网感知数据,确定算力网络和目标设备的健康状态,以及所述算网业务的运行情况;所述目标设备为对应部署所述算网业务的设备;
基于所述算网业务的服务质量、所述算力网络和目标设备的健康状态,以及所述算网业务的运行情况,得到所述分析结果。
在一实施例中,所述确定子单元,具体用于:
将所述分析结果与目标阈值进行比较,得到比较结果;
在所述比较结果表征所述分析结果小于所述目标阈值的情况下,确定所述算网业务出现故障;
在所述比较结果表征所述分析结果大于或等于所述目标阈值的情况下,确定所述算网业务未出现故障。
在一实施例中,所述监控单元82还包括处理子单元;
其中,所述处理子单元,用于在所述确定子单元基于所述分析结果,确定所述算网业务出现故障之后,对所述算网业务出现的故障进行诊断分析,以识别出现所述故障的根本原因以及对所述故障进行定位。
在一实施例中,所述监控单元82还包括呈现子单元;
其中,所述呈现子单元,用于在所述确定子单元基于所述分析结果,确定所述算网业务出现故障之后,呈现告警信息。
在一实施例中,所述决策单元83包括:触发子单元和决策子单元;其中,
所述触发子单元,用于在所述监控结果表征所述算网业务出现故障的情况下,触发重调度请求;
所述决策子单元,用于响应于所述重调度请求,利用业务优化策略对所述算网业务进行业务决策优化。
在一实施例中,所述决策子单元,具体用于:
响应于所述重调度请求,判断所述业务优化策略的仿真效果是否满足第一设定条件,得到判断结果;
在所述判断结果表征所述业务优化策略的仿真效果满足所述第一设定条件的情况下,利用所述业务优化策略对所述算网业务进行业务决策优化。
在一实施例中,所述决策单元83还包括生成子单元;
其中,所述生成子单元,用于生成所述业务优化策略。
在一实施例中,所述生成子单元,具体用于:
确定当前算力网络拓扑中各边的权重,以及各算力节点的权重;
基于所述当前算力网络拓扑中各边的权重,以及各算力节点的权重,构建动态网络;
从所述动态网络中选取目标算力节点和目标路由路径,所述目标路由路径为从源算力节点到所述目标算力节点的路由路径,且所述目标路由路径的路由成本满足第二设定条件;
基于所述目标算力节点和所述目标路由路径,生成所述业务优化策略。
实际应用时,获取单元81可由业务处理装置中的通信接口实现;监控单元82和决策单元83可由业务处理装置中的处理器实现。
需要说明的是:上述实施例提供的业务处理装置在进行业务处理时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的业务处理装置与业务处理方法实施例属于同一构思,其具体实现过程详见业务处理方法实施例,这里不再赘述。
基于上述程序模块的硬件实现,且为了实现本申请实施例的业务处理方法,本申请实施例还提供了一种业务处理设备,图9为本申请实施例的业务处理设备的硬件组成结构示意图,如图9所示,该业务处理设备90包括:
通信接口91,能够与其他设备进行信息交互;
处理器92,与所述通信接口91连接,以实现与其他设备进行信息交互,用于运行计算机程序时,执行上述提供的业务处理方法,而所述计算机程序存储在存储器93上。
具体地,所述通信接口91,用于获取算网业务中的各算力节点以及算网感知数据;所述算网感知数据包括以下至少之一:算力资源感知数据;网络性能感知数据;业务质量感知数据;
所述处理器92,用于基于所述算网感知数据,对所述算网业务的业务质量进行监控,得到监控结果;基于所述监控结果,对所述算网业务进行业务决策优化。
在一实施例中,所述处理器92,还用于部署设置在所述各算力节点上的感知探针,所述感知探针用于主动采集相应算力节点的算网感知数据;
所述通信接口91,具体用于:接收各感知探针上报的所述相应算力节点的算网感知数据。
这里,所述感知探针,还用于接收查询任务;
其中,所述查询任务基于查询请求生成,所述查询任务中携带有所述查询请求;
所述通信接口91,具体用于:响应于所述查询请求,采集相应算力节点的算网感知数据。
在一实施例中,所述通信接口91,还用于:将各感知探针采集的所述相应算力节点的算网感知数据周期性上报至所述接收子单元。
在一实施例中,所述处理器92,具体用于:
基于所述算网感知数据,对所述算网业务的性能指标进行分析,得到分析结果;所述性能指标包括以下至少之一:算力资源的状态;网络资源的状态;业务质量的状态;
基于所述分析结果,确定所述算网业务是否出现故障。
在一实施例中,所述处理器92,具体用于:
利用预先建立的服务质量评估模型,确定所述算网业务的服务质量;
基于所述算网感知数据,确定算力网络和目标设备的健康状态,以及所述算网业务的运行情况;所述目标设备为对应部署所述算网业务的设备;
基于所述算网业务的服务质量、所述算力网络和目标设备的健康状态,以及所述算网业务的运行情况,得到所述分析结果。
在一实施例中,所述处理器92,具体用于:
将所述分析结果与目标阈值进行比较,得到比较结果;
在所述比较结果表征所述分析结果小于所述目标阈值的情况下,确定所述算网业务出现故障;
在所述比较结果表征所述分析结果大于或等于所述目标阈值的情况下,确定所述算网业务未出现故障。
在一实施例中,所述处理器92,还用于:
在所述基于所述分析结果,确定所述算网业务出现故障之后,对所述算网业务出现的故障进行诊断分析,以识别出现所述故障的根本原因以及对所述故障进行定位。
在一实施例中,所述处理器92,还用于:
在所述基于所述分析结果,确定所述算网业务出现故障之后,呈现告警信息。
在一实施例中,所述处理器92,具体用于:
在所述监控结果表征所述算网业务出现故障的情况下,触发重调度请求;
响应于所述重调度请求,利用业务优化策略对所述算网业务进行业务决策优化。
在一实施例中,所述处理器92,具体用于:
响应于所述重调度请求,判断所述业务优化策略的仿真效果是否满足第一设定条件,得到判断结果;
在所述判断结果表征所述业务优化策略的仿真效果满足所述第一设定条件的情况下,利用所述业务优化策略对所述算网业务进行业务决策优化。
在一实施例中,所述处理器92,还用于生成所述业务优化策略。
在一实施例中,所述处理器92,具体用于:
确定当前算力网络拓扑中各边的权重,以及各算力节点的权重;
基于所述当前算力网络拓扑中各边的权重,以及各算力节点的权重,构建动态网络;
从所述动态网络中选取目标算力节点和目标路由路径,所述目标路由路径为从源算力节点到所述目标算力节点的路由路径,且所述目标路由路径的路由成本满足第二设定条件;
基于所述目标算力节点和所述目标路由路径,生成所述业务优化策略。
需要说明的是:通信接口91和处理器92的具体处理过程可参照上述业务处理方法而理解。
当然,实际应用时,业务处理设备90中的各个组件通过总线系统94耦合在一起。可以理解的是,总线系统94用于实现这些组件之间的连接通信。总线系统94除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图9中将各种总线都标为总线系统94。
本申请实施例中的存储器93用于存储各种类型的数据以支持业务处理设备90的操作。这些数据的示例包括:用于在业务处理设备90上操作的任何计算机程序。
上述本申请实施例揭示的业务处理方法可以应用于所述处理器92中,或者由所述处理器92实现。所述处理器92可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述业务处理方法的各步骤可以通过所述处理器92中的硬件的集成逻辑电路或者软件形式的指令完成。上述的所述处理器92可以是通用处理器、数字信号处理器(DSP,DigitalSignal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。所述处理器92可以实现或者执行本申请实施例中公开的各业务处理方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本申请实施例所公开的业务处理方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器93,所述处理器92读取存储器93中的信息,结合其硬件完成前述业务处理方法的步骤。
在示例性实施例中,业务处理设备90可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,ProgrammableLogic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable Logic Device)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或者其他电子元件实现,用于执行前述业务处理方法。
可以理解,本申请实施例的存储器93可以是易失性存储器或者非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(FlashMemory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random Access Memory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,Synchronous Dynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random AccessMemory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random AccessMemory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本申请实施例描述的存储器93旨在包括但不限于这些和任意其它适合类型的存储器。
在示例性实施例中,本申请实施例还提供了一种存储介质,即计算机存储介质,具体为计算机可读存储介质,例如包括存储计算机程序的存储器93,上述计算机程序可由业务处理设备90中的处理器92执行,以完成前述本申请实施例所述的业务处理方法的步骤。其中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
需要说明的是:“第一”、“第二”、“第三”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
另外,本申请实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (15)

1.一种网络系统,其特征在于,所述网络系统包括:算网业务感知模块、算网业务监控模块和算网业务决策模块;其中,
所述算网业务感知模块,用于获取算网业务中的各算力节点以及算网感知数据;所述算网感知数据包括以下至少之一:算力资源感知数据;网络性能感知数据;业务质量感知数据;
所述算网业务监控模块,用于基于所述算网感知数据,对所述算网业务的业务质量进行监控,得到监控结果;
所述算网业务决策模块,用于基于所述监控结果,对所述算网业务进行业务决策优化。
2.根据权利要求1所述的网络系统,其特征在于,所述算网业务感知模块包括:第一子模块和第二子模块;其中,
所述第一子模块,用于部署设置在所述各算力节点上的感知探针,所述感知探针用于主动采集相应算力节点的算网感知数据;
所述第二子模块,用于接收各感知探针上报的所述相应算力节点的算网感知数据。
3.根据权利要求2所述的网络系统,其特征在于,所述感知探针,还用于接收所述第二子模块下发的查询任务;
其中,所述查询任务基于所述第二子模块的上层业务模块的查询请求生成,所述查询任务中携带有所述查询请求;
响应于所述查询请求,采集相应算力节点的算网感知数据。
4.根据权利要求1所述的网络系统,其特征在于,所述算网业务监控模块包括:第四子模块和第五子模块;其中,
所述第四子模块,用于基于所述算网感知数据,对所述算网业务的性能指标进行分析,得到分析结果;所述性能指标包括以下至少之一:算力资源的状态;网络资源的状态;业务质量的状态;
所述第五子模块,用于基于所述分析结果,确定所述算网业务是否出现故障。
5.根据权利要求4所述的网络系统,其特征在于,所述第四子模块,具体用于:
利用预先建立的服务质量评估模型,确定所述算网业务的服务质量;
基于所述算网感知数据,确定算力网络和目标设备的健康状态,以及所述算网业务的运行情况;所述目标设备为对应部署所述算网业务的设备;
基于所述算网业务的服务质量、所述算力网络和目标设备的健康状态,以及所述算网业务的运行情况,得到所述分析结果。
6.根据权利要求4所述的网络系统,其特征在于,所述第五子模块,具体用于:
将所述分析结果与目标阈值进行比较,得到比较结果;
在所述比较结果表征所述分析结果小于所述目标阈值的情况下,确定所述算网业务出现故障;
在所述比较结果表征所述分析结果大于或等于所述目标阈值的情况下,确定所述算网业务未出现故障。
7.根据权利要求4所述的网络系统,其特征在于,所述算网业务监控模块还包括:第六子模块;
其中,所述第六子模块,用于在所述第五子模块基于所述分析结果,确定所述算网业务出现故障之后,对所述算网业务出现的故障进行诊断分析,以识别出现所述故障的根本原因以及对所述故障进行定位。
8.根据权利要求1所述的网络系统,其特征在于,所述算网业务决策模块包括:第八子模块和第九子模块;其中,
所述第八子模块,用于在所述监控结果表征所述算网业务出现故障的情况下,触发重调度请求;
所述第九子模块,用于响应于所述重调度请求,利用业务优化策略对所述算网业务进行业务决策优化。
9.根据权利要求8所述的网络系统,其特征在于,所述第九子模块,具体用于:
响应于所述重调度请求,判断所述业务优化策略的仿真效果是否满足第一设定条件,得到判断结果;
在所述判断结果表征所述业务优化策略的仿真效果满足所述第一设定条件的情况下,利用所述业务优化策略对所述算网业务进行业务决策优化。
10.根据权利要求8所述的网络系统,其特征在于,所述算网业务决策模块还包括:第十子模块;
其中,所述第十子模块,用于生成所述业务优化策略。
11.根据权利要求10所述的网络系统,其特征在于,所述第十子模块,具体用于:
确定当前算力网络拓扑中各边的权重,以及各算力节点的权重;
基于所述当前算力网络拓扑中各边的权重,以及各算力节点的权重,构建动态网络;
从所述动态网络中选取目标算力节点和目标路由路径,所述目标路由路径为从源算力节点到所述目标算力节点的路由路径,且所述目标路由路径的路由成本满足第二设定条件;
基于所述目标算力节点和所述目标路由路径,生成所述业务优化策略。
12.一种业务处理方法,其特征在于,所述方法包括:
获取算网业务中的各算力节点以及算网感知数据;所述算网感知数据包括以下至少之一:算力资源感知数据;网络性能感知数据;业务质量感知数据;
基于所述算网感知数据,对所述算网业务的业务质量进行监控,得到监控结果;
基于所述监控结果,对所述算网业务进行业务决策优化。
13.一种业务处理装置,其特征在于,包括:
获取单元,用于获取算网业务中的各算力节点以及算网感知数据;所述算网感知数据包括以下至少之一:算力资源感知数据;网络性能感知数据;业务质量感知数据;
监控单元,用于基于所述算网感知数据,对所述算网业务的业务质量进行监控,得到监控结果;
决策单元,用于基于所述监控结果,对所述算网业务进行业务决策优化。
14.一种业务处理设备,其特征在于,包括:处理器和用于存储能够在所述处理器上运行的计算机程序的存储器;
其中,所述处理器用于运行所述计算机程序时,执行权利要求12所述方法的步骤。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求12所述方法的步骤。
CN202311317111.0A 2023-10-11 2023-10-11 网络系统、业务处理方法、装置、设备及存储介质 Pending CN118827480A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311317111.0A CN118827480A (zh) 2023-10-11 2023-10-11 网络系统、业务处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311317111.0A CN118827480A (zh) 2023-10-11 2023-10-11 网络系统、业务处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN118827480A true CN118827480A (zh) 2024-10-22

Family

ID=93068914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311317111.0A Pending CN118827480A (zh) 2023-10-11 2023-10-11 网络系统、业务处理方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN118827480A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119135554A (zh) * 2024-11-13 2024-12-13 上海玄武信息科技有限公司 基于人工智能的交换机网关控制方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN119135554A (zh) * 2024-11-13 2024-12-13 上海玄武信息科技有限公司 基于人工智能的交换机网关控制方法及系统
CN119135554B (zh) * 2024-11-13 2025-02-07 上海玄武信息科技有限公司 基于人工智能的交换机网关控制方法及系统

Similar Documents

Publication Publication Date Title
US20190028909A1 (en) Adaptive health status scoring for network assurance
US11797883B2 (en) Using raw network telemetry traces to generate predictive insights using machine learning
US12058010B2 (en) Adaptive stress testing of SD-WAN tunnels for what-if scenario model training
US10904125B2 (en) Active probe construction using machine learning for measuring SD-WAN tunnel metrics
US10484255B2 (en) Trustworthiness index computation in a network assurance system based on data source health monitoring
ES2866946T3 (es) Asesor de redes basado en inteligencia artificial
US10346277B2 (en) Adaptive sampling to build accurate application throughput models
Lee et al. Network monitoring: Present and future
US20210281492A1 (en) Determining context and actions for machine learning-detected network issues
US20190138938A1 (en) Training a classifier used to detect network anomalies with supervised learning
US20200389371A1 (en) Predicting network states for answering what-if scenario outcomes
US10212044B2 (en) Sparse coding of hidden states for explanatory purposes
US20140215077A1 (en) Methods and systems for detecting, locating and remediating a congested resource or flow in a virtual infrastructure
Jain et al. Applying big data technologies to manage QoS in an SDN
US10944661B2 (en) Wireless throughput issue detection using coarsely sampled application activity
US10680919B2 (en) Eliminating bad rankers and dynamically recruiting rankers in a network assurance system
CN116170314B (zh) 一种网络切片场景下ai内生的数字孪生网络平台装置
Yu et al. Digital twin driven service self-healing with graph neural networks in 6G edge networks
CN118827480A (zh) 网络系统、业务处理方法、装置、设备及存储介质
Tran et al. Ml kpi prediction in 5g and b5g networks
US10547524B2 (en) Diagnostic transparency for on-premise SaaS platforms
KR20210058468A (ko) 지능형 에지 네트워킹의 인공지능 운용자 지원 시스템 장치 및 방법
US10701546B2 (en) Redrawing roaming boundaries in a wireless network
Xie et al. Joint monitoring and analytics for service assurance of network slicing
Danalis et al. Anemos: An autonomous network monitoring system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination