CN112001622A - 云虚拟网关的健康度评估方法、系统、设备和存储介质 - Google Patents
云虚拟网关的健康度评估方法、系统、设备和存储介质 Download PDFInfo
- Publication number
- CN112001622A CN112001622A CN202010846822.7A CN202010846822A CN112001622A CN 112001622 A CN112001622 A CN 112001622A CN 202010846822 A CN202010846822 A CN 202010846822A CN 112001622 A CN112001622 A CN 112001622A
- Authority
- CN
- China
- Prior art keywords
- cloud virtual
- evaluated
- virtual gateway
- historical
- physical server
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000036541 health Effects 0.000 title claims abstract description 239
- 238000011156 evaluation Methods 0.000 title claims abstract description 84
- 238000012544 monitoring process Methods 0.000 claims abstract description 125
- 238000013210 evaluation model Methods 0.000 claims abstract description 88
- 238000012549 training Methods 0.000 claims abstract description 56
- 238000012360 testing method Methods 0.000 claims abstract description 24
- 238000000034 method Methods 0.000 claims abstract description 23
- 238000004422 calculation algorithm Methods 0.000 claims description 17
- 238000012795 verification Methods 0.000 claims description 14
- 230000006870 function Effects 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000007477 logistic regression Methods 0.000 claims description 8
- 230000000694 effects Effects 0.000 claims description 7
- 238000011478 gradient descent method Methods 0.000 claims description 7
- 230000002776 aggregation Effects 0.000 claims description 4
- 238000004220 aggregation Methods 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000012423 maintenance Methods 0.000 abstract description 22
- 238000012545 processing Methods 0.000 abstract description 16
- 238000013024 troubleshooting Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 8
- 238000010606 normalization Methods 0.000 description 4
- 238000002203 pretreatment Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000004931 aggregating effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000012821 model calculation Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0639—Performance analysis of employees; Performance analysis of enterprise or organisation operations
- G06Q10/06393—Score-carding, benchmarking or key performance indicator [KPI] analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L12/00—Data switching networks
- H04L12/66—Arrangements for connecting between networks having differing types of switching systems, e.g. gateways
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Strategic Management (AREA)
- Educational Administration (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Optimization (AREA)
- Evolutionary Computation (AREA)
- Pure & Applied Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Economics (AREA)
- Computational Mathematics (AREA)
- Software Systems (AREA)
- Development Economics (AREA)
- Mathematical Physics (AREA)
- Mathematical Analysis (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Medical Informatics (AREA)
- Algebra (AREA)
- General Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- Geometry (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
- Environmental & Geological Engineering (AREA)
- Computer Hardware Design (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Marketing (AREA)
- Quality & Reliability (AREA)
- Evolutionary Biology (AREA)
Abstract
本公开提供了一种云虚拟网关的运行健康度评估方法、系统、设备和存储介质。所述评估方法包括:基于待评估云虚拟网关的历史运行健康指标获取样本集;利用预处理后的样本集数据对建立的运行健康度评估模型进行参数值训练和调整,及模型测试;将待评估云虚拟网关的当前监控指标作为该模型的输入值;则该模型的输出值为待评估云虚拟网关的运行健康度的评估值。本公开提供的评估方法根据历史运行健康指标得到的样本集数据获得运行健康度评估模型,并基于该模型和当前监控指标得到健康度评估值,即待评估云虚拟网关当前或未来一段时间内运行健康的概率,进而在运行健康概率低时提醒运维人员排查处理,防止故障发生,可以有效提高网络运维的效率和质量。
Description
技术领域
本发明涉及计算机应用技术领域,更为具体而言,涉及一种云虚拟网关的运行健康度评估方法、系统、设备和存储介质。
背景技术
随着云计算市场规模的不断增大,支撑各种云服务运行的网络面临的压力以及出现故障的机率也不断增大,给网络运维带来了巨大挑战,如何有效提升网络运维的效率和质量这个问题亟待解决。云虚拟网关是云计算网络架构中非常重要的组件,用户可以根据自己的需求,通过NAT(Network Address Translation,网络地址转换)网关、VPN(VirtualPrivate Network,虚拟专用网络)网关、专线网关等各种云虚拟网关产品,搭建自己的云上网络环境,云服务的运行状态和许多网络故障都和云虚拟网关的运行状态有着关联,因此评估云虚拟网关运行健康度有着非常重要的意义,能够在一定程度上预警云服务的运行状态和云数据中心的网络故障,从而提升网络运维的效率和质量。
然而,针对云虚拟网关的运行健康度的评估,目前主要依赖于运维人员的经验来选择一些关键指标例如外网出带宽、外网入带宽、出包量、入包量、连通状态、并发连接数等关键指标进行综合分析判断,但是这种方式存在三大问题:第一,云计算网络架构非常复杂,多个云虚拟网关可能被同一个物理服务器所承载,它们相互之间也存在关联,目前的人工分析方式只考虑了云虚拟网关本身的指标,而没有考虑与该云虚拟网关同在一个物理服务器上的其他云虚拟网关对自己运行健康度的影响,由此评估的云虚拟网关的健康度是不够准确的;第二,人工分析的方式难以捕捉到各个监控指标之间复杂的关联关系,无法给出准确的评估;第三,云计算平台上的每个租户都至少有一个云虚拟网关,云虚拟网关的规模巨大,远远超过了传统数据中心的网关服务器的数量,依靠人工评估云虚拟网关的运行健康度需要耗费巨大的人力资源和时间。此外,云虚拟网关的运行健康度也难以由人工经验从当前对物理服务器的几个监控指标总结出规则。
可见,目前依赖网络运维工程师的人工经验对有限的、关键的监控指标进行综合分析来评估虚拟网关当前的运行健康度的方法,无法分析出各个监控指标之间复杂的关联关系,且人工分析评估很难找到普适的、完整的规律以及未来运行状态相关的潜在的问题。
发明内容
为解决上述现有技术存在的问题或部分问题,本发明实施方式提供了一种云虚拟网关的运行健康度评估方法、系统、设备和存储介质,基于历史运行健康度指标获取的样本集数据得到运行健康度评估模型,并将当前监控指标作为该运行健康度评估模型的输入,以获取待评估云虚拟网关当前以及未来一段时间内的运行健康度的评估值,进而在运行健康度的评估值较低时及时提醒运维人员进行排查处理,避免云虚拟网关的故障。
根据本发明的第一方面,本发明实施方式提供了一种云虚拟网关的运行健康度评估方法,包括:采集待评估云虚拟网关的历史运行健康指标;基于所述历史运行健康指标获取样本集;对所述样本集进行预处理,并将预处理后的样本集中的数据分为训练数据、验证数据、测试数据;采用回归预测算法建立所述待评估云虚拟网关的运行健康度评估模型,并利用所述训练数据训练所述运行健康度评估模型的参数值,利用所述验证数据调整所述参数值,利用所述测试数据测试所述运行健康度评估模型的效果;将实时采集的所述待评估云虚拟网关的当前监控指标作为当前输入值发送至所述运行健康度评估模型;获取所述运行健康度评估模型的输出值作为所述待评估云虚拟网关的当前或未来一段时间运行健康度的评估值。
本发明上述实施方式基于历史运行健康度指标获取的样本集数据对建立的运行健康度评估模型进行参数值训练、调整及模型测试,以得到较为准确的运行健康度评估模型,并将当前监控指标作为该运行健康度评估模型的输入,以获取待评估云虚拟网关当前或未来一段时间内的运行健康度的评估值,进而在运行健康度的评估值较低时及时提醒运维人员主动、提早进行排查处理,避免云虚拟网关的故障对云上业务造成可感知的影响,从而在一定程度上有效地提高网络运维的效率和质量,为用户提供低成本、高效率和高质量的网络服务。
在本发明的一些实施方式中,所述历史运行健康指标包括:所述待评估云虚拟网关的历史监控指标值、历史属性值、历史故障情况;所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值;所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史监控指标值、历史属性值、历史故障情况。
在本发明的一些实施方式中,所述待评估云虚拟网关的历史监控指标值包括:所述待评估云虚拟网关的平均每秒出流量、平均每秒入流量、平均每秒出包量、平均每秒入包量,以及所述待评估云虚拟网关的并发连接数;所述待评估云虚拟网关的历史属性值包括:所述待评估云虚拟网关本身的带宽、所述待评估云虚拟网关本身的并发连接数上限;所述待评估云虚拟网关的历史故障情况包括:网络是否连通、是否丢包;所述待评估云虚拟网关所在的物理服务器的历史监控指标值包括:CPU利用率、内存利用率、I/O繁忙程度、网络连通性、网卡的出流量、网卡的入流量、网卡的丢包数;所述待评估云虚拟网关所在的物理服务器的历史属性值包括:网卡的带宽、所述待评估云虚拟网关所在的物理服务器可承担的并发连接数上限、所述待评估云虚拟网关所在的物理服务器上云虚拟网关的数量;所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史监控指标值包括:所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的平均每秒出流量、平均每秒入流量、平均每秒出包量、平均每秒入包量,以及所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的并发连接数;所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史属性值包括:所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关本身的带宽、所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关本身的并发连接数上限;所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史故障情况包括:网络是否连通、是否丢包。
在本发明的一些实施方式中,基于所述历史运行健康指标获取样本集包括:将所述待评估云虚拟网关的历史监控指标值、历史属性值,所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史监控指标值、历史属性值,以及所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值作为输入值;将所述待评估云虚拟网关的历史故障情况、所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史故障情况作为目标值;将所述输入值和所述目标值进行拼接,得到所述样本集。
本发明上述实施方式通过处理待评估云虚拟网关、与待评估云虚拟网关同在一个物理服务器上的其他云虚拟网关的相关历史指标数据得到样本集,使得基于这样的样本集得到的运行健康度评估模型全面考虑到同一物理服务器上的其他云虚拟网关与待评估云虚拟网关之间的关联关系,以及它们对待评估云虚拟网关的运行健康度的影响,进而得到更加准确的运行健康度的评估值。
在本发明的一些实施方式中,所述预处理包括:去噪、归一化处理。
本发明上述实施方式通过对样本集进行去噪、归一化的预处理,可以提高基于样本集建立的运行健康度评估模型的准确性。
在本发明的一些实施方式中,采用回归预测算法建立所述待评估云虚拟网关的运行健康度评估模型包括:基于所述待评估云虚拟网关的历史监控指标值、历史属性值,以及所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值获取所述待评估云虚拟网关的健康度基础分数;基于所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史监控指标值、历史属性值,以及所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值获取所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的健康度基础分数;获取所述待评估云虚拟网关和所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关对健康度的影响力权重参数;基于所述待评估云虚拟网关的健康度基础分数、所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的健康度基础分数、所述影响力权重参数确定所述运行健康度评估模型的参数值。
本发明上述实施方式通过考虑与待评估云虚拟网关同在一个物理服务器上的其他云虚拟网关对待评估云虚拟网关的运行健康度的影响,能够获取更加准确的运行健康度评估模型,进而得到更加准确的运行健康度的评估值。
在本发明的一些实施方式中,利用所述训练数据训练所述运行健康度评估模型的参数值包括:利用所述训练数据获取基于不同参数值的所述运行健康度评估模型的预测输出值;利用损失函数计算所有基于所述训练数据得到的预测输出值与所述训练数据中的实际输出值之间的偏差之和;采用梯度下降的方法求解所述偏差之和的最小值及其对应的参数值。本发明上述实施方式通过获取运行健康度评估模型的预测输出值与训练数据中的实际输出值之间的偏差之和的最小值对应的参数值,使得基于该参数值的运行健康度评估模型更加准确,从而获取更加准确的运行健康度的评估值。
在本发明的一些实施方式中,所述当前监控指标包括:所述待评估云虚拟网关的当前监控指标值、当前属性值;所述待评估云虚拟网关所在的物理服务器的当前监控指标值、当前属性值;所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的当前监控指标值、当前属性值、当前故障情况。
在本发明的一些实施方式中,采集所述待评估云虚拟网关的历史运行健康指标包括:基于分布式的海量日志采集、聚合和传输的系统Flume采集所述待评估云虚拟网关的历史运行健康指标。
根据本发明的第二方面,本发明实施方式提供了一种云虚拟网关的运行健康度评估系统,包括:历史指标获取模块,用于采集待评估云虚拟网关的历史运行健康指标;样本获取模块,用于基于所述历史运行健康指标获取样本集;预处理模块,用于对所述样本集进行预处理,并将预处理后的样本集中的数据分为训练数据、验证数据、测试数据;模型建立模块,用于采用回归预测算法建立所述待评估云虚拟网关的运行健康度评估模型,并利用所述训练数据训练所述运行健康度评估模型的参数值,利用所述验证数据调整所述参数值,利用所述测试数据测试所述运行健康度评估模型的效果;评估模块,用于将实时采集的所述待评估云虚拟网关的当前监控指标作为当前输入值发送至所述运行健康度评估模型,获取所述运行健康度评估模型的输出值作为所述待评估云虚拟网关的当前或未来一段时间运行健康度的评估值。
本发明上述实施方式基于历史运行健康度指标获取的样本集数据对建立的运行健康度评估模型进行参数值训练、调整及模型测试,以得到较为准确的运行健康度评估模型,并将当前监控指标作为该运行健康度评估模型的输入,以获取待评估云虚拟网关当前或未来一段时间内的运行健康度的评估值,进而在运行健康度的评估值较低时及时提醒运维人员主动、提早进行排查处理,避免云虚拟网关的故障对云上业务造成可感知的影响,从而在一定程度上有效地提高网络运维的效率和质量,为用户提供低成本、高效率和高质量的网络服务。
在本发明的一些实施方式中,所述历史运行健康指标包括:所述待评估云虚拟网关的历史监控指标值、历史属性值、历史故障情况;所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值;所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史监控指标值、历史属性值、历史故障情况。
在本发明的一些实施方式中,所述待评估云虚拟网关的历史监控指标值包括:所述待评估云虚拟网关的平均每秒出流量、平均每秒入流量、平均每秒出包量、平均每秒入包量,以及所述待评估云虚拟网关的并发连接数;所述待评估云虚拟网关的历史属性值包括:所述待评估云虚拟网关本身的带宽、所述待评估云虚拟网关本身的并发连接数上限;所述待评估云虚拟网关的历史故障情况包括:网络是否连通、是否丢包;所述待评估云虚拟网关所在的物理服务器的历史监控指标值包括:CPU利用率、内存利用率、I/O繁忙程度、网络连通性、网卡的出流量、网卡的入流量、网卡的丢包数;所述待评估云虚拟网关所在的物理服务器的历史属性值包括:网卡的带宽、所述待评估云虚拟网关所在的物理服务器可承担的并发连接数上限、所述待评估云虚拟网关所在的物理服务器上云虚拟网关的数量;所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史监控指标值包括:所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的平均每秒出流量、平均每秒入流量、平均每秒出包量、平均每秒入包量,以及所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的并发连接数;所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史属性值包括:所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关本身的带宽、所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关本身的并发连接数上限;所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史故障情况包括:网络是否连通、是否丢包。
在本发明的一些实施方式中,基于所述历史运行健康指标获取样本集包括:将所述待评估云虚拟网关的历史监控指标值、历史属性值,所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史监控指标值、历史属性值,以及所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值作为输入值;将所述待评估云虚拟网关的历史故障情况、所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史故障情况作为目标值;将所述输入值和所述目标值进行拼接,得到所述样本集。
本发明上述实施方式通过处理待评估云虚拟网关、与待评估云虚拟网关同在一个物理服务器上的其他云虚拟网关的相关历史指标数据得到样本集,使得基于这样的样本集得到的运行健康度评估模型全面考虑到同一物理服务器上的其他云虚拟网关与待评估云虚拟网关之间的关联关系,以及它们对待评估云虚拟网关的运行健康度的影响,进而得到更加准确的运行健康度的评估值。
在本发明的一些实施方式中,所述预处理包括:去噪、归一化处理。
本发明上述实施方式通过对样本集进行去噪、归一化的预处理,可以提高基于样本集建立的运行健康度评估模型的准确性。
在本发明的一些实施方式中,采用回归预测算法建立所述待评估云虚拟网关的运行健康度评估模型包括:基于所述待评估云虚拟网关的历史监控指标值、历史属性值,以及所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值按照逻辑回归算法计算所述待评估云虚拟网关的健康度基础分数;基于所述待评估云虚拟网关所在的其他云虚拟网关的历史监控指标值、历史属性值,以及所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值按照逻辑回归算法计算所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的健康度基础分数;获取所述待评估云虚拟网关和所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关对健康度的影响力权重参数;基于所述待评估云虚拟网关的健康度基础分数、所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的健康度基础分数、所述影响力权重参数确定所述运行健康度评估模型的参数值。
本发明上述实施方式通过考虑与待评估云虚拟网关同在一个物理服务器上的其他云虚拟网关对待评估云虚拟网关的运行健康度的影响,能够获取更加准确的运行健康度评估模型,进而得到更加准确的运行健康度的评估值。
在本发明的一些实施方式中,利用所述训练数据训练所述运行健康度评估模型的参数值包括:利用所述训练数据获取基于不同参数值的所述运行健康度评估模型的预测输出值;利用损失函数计算所有基于所述训练数据得到的预测输出值与所述训练数据中的实际输出值之间的偏差之和;采用梯度下降的方法求解所述偏差之和的最小值及其对应的参数值。
本发明上述实施方式通过获取运行健康度评估模型的预测输出值与训练数据中的实际输出值之间的偏差之和的最小值对应的参数值,使得基于该参数值的运行健康度评估模型更加准确,从而获取更加准确的运行健康度的评估值。
在本发明的一些实施方式中,所述当前监控指标包括:所述待评估云虚拟网关的当前监控指标值、当前属性值;所述待评估云虚拟网关所在的物理服务器的当前监控指标值、当前属性值;所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的当前监控指标值、当前属性值、当前故障情况。
在本发明的一些实施方式中,采集所述待评估云虚拟网关的历史运行健康指标包括:基于分布式的海量日志采集、聚合和传输的系统Flume采集所述待评估云虚拟网关的历史运行健康指标。
根据本发明的第三方面,本发明实施方式提供一种计算机存储介质,其上存储有计算机可读指令,所述计算机可读指令被处理器执行时,使得计算机执行如下操作:所述操作包括如上任意一种实施方式所述评估方法所包含的步骤。
根据本发明的第四方面,本发明实施方式提供一种包括存储器和处理器的计算机设备,所述存储器用于存储一条或多条计算机指令,其中,所述一条或多条计算机指令被所述处理器执行时能够实现如上任意一种实施方式所述的评估方法。
由上述可知,本发明实施方式提供的云虚拟网关的运行健康度评估方法、系统、存储介质和设备,基于历史运行健康度指标获取的样本集数据得到运行健康度评估模型,获取待评估云虚拟网关当前或未来一段时间内的运行健康度的评估值,进而在运行健康度的评估值较低时及时提醒运维人员主动、提早进行排查处理,避免云虚拟网关的故障对云上业务造成可感知的影响,从而在一定程度上有效地提高网络运维的效率和质量,为用户提供低成本、高效率和高质量的网络服务。
附图说明
图1是根据本发明一种实施方式的云虚拟网关的运行健康度评估方法的流程示意图;
图2是根据本发明实施方式的基于Flume的agent层采集历史运行健康指标数据的方法可适用的网络架构示意图;
图3是根据本发明实施方式的处理样本集数据的方法可适用的网络架构示意图;
图4是根据本发明实施方式的获取运行健康度的评估值的方法可适用的网络架构示意图;
图5是根据本发明一种实施方式的云虚拟网关的运行健康度评估系统的架构图。
具体实施方式
以下结合附图和具体实施方式对本发明的各个方面进行详细阐述。其中,众所周知的模块、单元及其相互之间的连接、链接、通信或操作没有示出或未作详细说明。并且,所描述的特征、架构或功能可在一个或一个以上实施方式中以任何方式组合。本领域技术人员应当理解,下述的各种实施方式只用于举例说明,而非用于限制本发明的保护范围。还可以容易理解,本文所述和附图所示的各实施方式中的模块或单元或处理方式可以按各种不同配置进行组合和设计。
下面对本文中使用的术语进行简要说明。
Flume:分布式的海量日志采集、聚合和传输的系统。
MapReduce:用于大规模数据集的并行运算的编程模型。
Hadoop:对大量数据进行分布式处理的软件框架。
HDFS:Hadoop Distributed File System,Hadoop分布式文件系统。
Storm:分布式实时计算系统。
Kafka:分布式发布订阅消息系统。
图1是根据本发明一种实施方式的云虚拟网关的运行健康度评估方法的流程示意图。
如图1所示,在本发明的一种实施方式中,所述评估方法可包括:步骤S11、步骤S12、步骤S13、步骤S14、步骤S15和步骤S16,下面对上述步骤进行具体的描述。
在步骤S11中,采集待评估云虚拟网关的历史运行健康指标。
在可选的实施方式中,基于Flume采集所述待评估云虚拟网关的历史运行健康指标。可选的,为便于历史运行健康指标数据的离线分析,采用Flume作为实时日志收集系统来收集与所述待评估云虚拟网关的运行健康度相关的各个指标数据,并将收集到的指标数据存储为海量历史数据。
本发明根据上述云虚拟网关的运行健康度评估方法提供一种采集历史运行健康指标数据的示例,以实现海量历史数据的存储及离线分析:
Flume采用的是三层架构:agent层(代理层)、collector层(收集层)和store层(存储层),每一层均可水平拓展。
图2是根据本发明实施方式的基于Flume的agent层采集历史运行健康指标数据的方法可适用的网络架构示意图。
如图2所示,将agent层部署在云虚拟网关服务器上,其中agent包含source,channel和sink,source用来消费(收集)数据源即云虚拟网关的各种运行健康指标数据到channel组件中,channel作为中间临时存储,保存所有source的组件信息,sink从channel中读取数据,读取成功之后会删除channel中的信息,并对数据进行简单的处理后将数据传送到数据接收方HDFS。
根据上述方法可以采集并存储海量的历史运行健康指标数据便于对所述数据进行离线分析。
在可选的实施方式中,所述历史运行健康指标包括:待评估云虚拟网关的历史监控指标值、历史属性值、历史故障情况;所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值;所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史监控指标值、历史属性值、历史故障情况。其中,所述待评估云虚拟网关的历史监控指标值包括但不限于以下几种:所述待评估云虚拟网关的平均每秒出流量、平均每秒入流量、平均每秒出包量、平均每秒入包量,以及所述待评估云虚拟网关的并发连接数;所述待评估云虚拟网关的历史属性值包括:所述待评估云虚拟网关本身的带宽、所述待评估云虚拟网关本身的并发连接数上限;所述待评估云虚拟网关的历史故障情况包括但不限于:网络是否连通(即是否ping通)、是否丢包;所述待评估云虚拟网关所在的物理服务器的历史监控指标值包括但不限于:CPU利用率、内存利用率、I/O繁忙程度、网络连通性、网卡的出流量、网卡的入流量、网卡的丢包数;所述待评估云虚拟网关所在的物理服务器的历史属性值包括但不限于:网卡的带宽、所述待评估云虚拟网关所在的物理服务器可承担的并发连接数上限、所述待评估云虚拟网关所在的物理服务器上云虚拟网关的数量;所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史监控指标值包括但不限于:所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的平均每秒出流量、平均每秒入流量、平均每秒出包量、平均每秒入包量,以及所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的并发连接数;所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史属性值包括但不限于:所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关本身的带宽、所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关本身的并发连接数上限;所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史故障情况包括但不限于:网络是否连通、是否丢包。
在步骤S12中,基于所述历史运行健康指标获取样本集。在可选的实施方式中,可以通过下述方式获取样本集:
(1)将待评估云虚拟网关的历史监控指标值、历史属性值,所述待评估云虚拟网关所在物理服务器上的其他云虚拟网关的历史监控指标值、历史属性值,以及所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值作为输入值;
(2)将所述待评估云虚拟网关的历史故障情况、所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史故障情况作为目标值;
(3)将所述输入值和所述目标值进行拼接,得到样本集。
通过处理待评估云虚拟网关、与待评估云虚拟网关同在一个物理服务器上的其他云虚拟网关的相关历史指标数据得到样本集,使得基于这样的样本集得到的运行健康度评估模型全面考虑到同一物理服务器上的其他云虚拟网关与待评估云虚拟网关之间的关联关系,以及它们对待评估云虚拟网关的运行健康度的影响,进而得到更加准确的运行健康度的评估值。
在一种具体的实施方式中,将步骤S11中采集到的每一条记录云虚拟网关(包含待评估云虚拟网关,以及与待评估云虚拟网关同在一个物理服务器上的其他云虚拟网关)及待评估云虚拟网关所在的物理服务器的监控指标值、属性值作为输入值。然后,从该条记录开始获取连续预定条数的云虚拟网关(包含待评估云虚拟网关,以及与待评估云虚拟网关同在一个物理服务器上的其他云虚拟网关)的故障情况,该故障情况即是否丢包、是否ping不通(网络是否不通),并以故障情况作为目标值,具体而言,只要获取的预定条数的云虚拟网关的故障情况出现丢包或ping不通,则记该条样本的目标值为0,否则目标值为1。最后,将获取的输入值和目标值拼接为一条样本,由此,可以将所有原始获取的历史运行健康指标数据处理得到样本集。其中,示例性的,可以取该条记录以及下三条记录的云虚拟网关的故障情况。
在步骤S13中,对所述样本集进行预处理,并将预处理后的样本集中的数据分为训练数据、验证数据、测试数据。在可选的实施方式中,所述预处理可以包括但不限于:对所述样本集进行去噪、归一化处理。
可选的,图3是根据本发明实施方式的处理样本集数据的方法可适用的网络架构示意图。如图3所示,通过定制开发MapReduce程序,并运行于Hadoop集群,对样本集中的数据进行去噪、归一化等预处理,并将样本集中的数据分为训练数据、验证数据和测试数据。
在步骤S14中,采用回归预测算法建立所述待评估云虚拟网关的运行健康度评估模型,并利用所述训练数据训练所述运行健康度评估模型的参数值,利用所述验证数据调整所述参数值,利用所述测试数据测试所述运行健康度评估模型的效果。在可选的实施方式中,可以通过下述方式建立待评估云虚拟网关的运行健康度评估模型:
(1)基于待评估云虚拟网关的历史监控指标值、历史属性值,以及所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值获取所述待评估云虚拟网关的健康度基础分数;
(2)基于所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史监控指标值、历史属性值,以及所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值获取所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的健康度基础分数;
(3)获取所述待评估云虚拟网关和所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关对健康度的影响力权重参数;
(4)基于所述待评估云虚拟网关的健康度基础分数、所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的健康度基础分数、所述影响力权重参数确定所述运行健康度评估模型的参数值。
可选的,可以通过下述方式训练运行健康度评估模型的参数值:
(1)利用所述训练数据获取基于不同参数值的所述运行健康度评估模型的预测输出值;
(2)利用损失函数计算所有基于所述训练数据得到的预测输出值与所述训练数据中的实际输出值之间的偏差之和;
(3)采用梯度下降的方法求解所述偏差之和的最小值及其对应的参数值。
通过获取运行健康度评估模型的预测输出值与训练数据中的实际输出值之间的偏差之和的最小值对应的参数值,使得基于该参数值的运行健康度评估模型更加准确,从而获取更加准确的运行健康度的评估值。
本发明根据上述云虚拟网关的运行健康度评估方法提供一种建立待评估云虚拟网关的运行健康度评估模型的示例,以获取所述待评估云虚拟网关的运行健康度的评估值:
(1)构建运行健康度评估模型的预测函数:
其中,θ表示模型中各个监控指标值和属性值的相关性参数,其代表相应云虚拟网关的指标值在运行健康度评估中所占的权重;α表示模型中同一物理服务器上的其他云虚拟网关对待评估云虚拟网关的影响力参数,其代表其它云虚拟网关对待评估云虚拟网关的运行健康的影响程度;x代表模型的所有的输入值,x=(xa,xb),其中,xa由待评估云虚拟网关的监控指标值、属性值以及所述待评估云虚拟网关所在的物理服务器的监控指标值和属性值组成,xb由与待评估云虚拟网关在同一物理服务器上的其他云虚拟网关的监控指标值、属性值以及物理服务器的监控指标值和属性值组成;n表示与待评估云虚拟网关在同一物理服务器上的其他云虚拟网关的数量;hx(θ,α)表示模型的输出值即待评估云虚拟网关的运行健康度的评估值,也可以代表待评估云虚拟网关运行健康的概率。
根据下述逻辑回归算法计算待评估云虚拟网关的健康度基础分数:
同理,计算所述待评估云虚拟网关所在物理服务器上的其他云虚拟网关的健康度基础分数。
基于逻辑回归模型拟合待评估云虚拟网关的健康度基础分数,以及所述待评估云虚拟网关所在物理服务器上的其他云虚拟网关的健康度基础分数,然后把待评估云虚拟网关的基础健康分数和其他云虚拟网关的健康度基础分数对待评估云虚拟网关的影响分数加权求和,影响力权重参数和每个指标的权重参数都是自适应的。
随后即可通过训练数据训练得到模型参数值,利用验证数据调整模型参数值,利用测试数据测试模型的效果。
(2)构建损失函数:
该损失函数表示预测的输出hx(θ,α)与样本集中训练数据真实表示是否出现故障的类别值之间的偏差,以交叉熵损失函数为例:
Cost(hx(θ,α),y)=-yloghx(θ,α)-(1-y)log(1-hx(θ,α))
其中,y表示训练数据真实表示是否出现故障的类别值,综合考虑所有训练数据的损失,将其求和记为J(θ,α)函数,表示所有训练数据预估值与实际类别的偏差。
(3)利用梯度下降的方法求解J(θ,α)函数的最小值以及相应的模型参数值。
通过上述方法建立的待评估云虚拟网关的运行健康度评估模型考虑到了与待评估云虚拟网关同在一个物理服务器上的其他云虚拟网关对待评估云虚拟网关的运行健康度的影响,能够为后续的待评估云虚拟网关的运行健康度的评估值的准确性提供基础。
在步骤S15中,将实时采集的所述待评估云虚拟网关的当前监控指标作为当前输入值发送至所述运行健康度评估模型。在可选的实施方式中,当前监控指标包括:所述待评估云虚拟网关的当前监控指标值、当前属性值;所述待评估云虚拟网关所在的物理服务器的当前监控指标值、当前属性值;所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的当前监控指标值、当前属性值、当前故障情况。
在步骤S16中,获取所述运行健康度评估模型的输出值作为所述待评估云虚拟网关的当前或未来一段时间运行健康度的评估值。
可选的,图4是根据本发明实施方式的获取运行健康度的评估值的方法可适用的网络架构示意图。如图4所示,可以采用Storm作为实时处理、分析流数据、计算当前虚拟网关运行健康度评估值的系统。具体实现方法如下:
(1)Flume将在待评估云虚拟网关上实时采集到以下监控指标:待评估云虚拟网关平均每秒出流量、待评估云虚拟网关平均每秒入流量、待评估云虚拟网关平均每秒出包量、待评估云虚拟网关平均每秒入包量、待评估云虚拟网关的并发连接数、待评估云虚拟网关本身的带宽、待评估云虚拟网关本身的并发连接数上限、待评估云虚拟网关所在的物理服务器的CPU利用率、所述待评估云虚拟网关所在的物理服务器的内存利用率、所述待评估云虚拟网关所在的物理服务器的I/O繁忙程度、网络连通性、网卡的出流量、网卡的入流量、网卡的丢包数、网卡的带宽、所述待评估云虚拟网关所在的物理服务器可承担的并发连接数上限、所述待评估云虚拟网关所在的物理服务器上云虚拟网关的数量,以及所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的监控指标值、属性值和故障情况,并将这些数据发送至Kafka集群。
(2)Storm消费Kafka集群上相应的指标项,对这些指标项进行实时计算:将经过去噪、归一化等预处理后作为模型的输入值。
(3)将输入值送入待评估云虚拟网关的运行健康度评估模型,经模型计算后得到的待评估云虚拟网关的健康度的评估值,即健康概率。
(4)将得到的待评估云虚拟网关运行健康度的评估值以及得到该评估值的各个指标项的权重传输到进行可视化展示。在实时流处理过程中,运维人员可以实时观察到云虚拟网关的健康度的评估值以及它们的变化,从而可以有效地提醒人工预先排查虚拟网关的运行状态,而不是真的出现故障才进行处理,大大促进了网络运维效率和质量的提高。同时,展示的各项指标项的权重等信息还能够对运维人员发现以帮助运维人员尽早解决问题。
采用本发明实施方式的上述方法,可以基于利用海量历史运行健康指标数据建立可靠的、综合性的、预测性的、定量的云虚拟网关运行健康度评估模型,以获取待评估云虚拟网关当前或未来一段时间内的运行健康度的评估值,进而在运行健康度的评估值较低时及时提醒运维人员主动、提早进行排查处理,避免云虚拟网关的故障对云上业务造成可感知的影响,从而在一定程度上有效地提高网络运维的效率和质量,为用户提供低成本、高效率和高质量的网络服务。
图5是根据本发明一种实施方式的云虚拟网关的运行健康度评估系统的架构图。
如图5所示,所述系统包括:
历史指标获取模块510,用于采集待评估云虚拟网关的历史运行健康指标。在可选的实施方式中,所述历史运行健康指标包括:所述待评估云虚拟网关的历史监控指标值、历史属性值、历史故障情况;所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值;所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史监控指标值、历史属性值、历史故障情况。
其中,所述待评估云虚拟网关的历史监控指标值包括但不限于以下几种:所述待评估云虚拟网关的平均每秒出流量、平均每秒入流量、平均每秒出包量、平均每秒入包量,以及所述待评估云虚拟网关的并发连接数;所述待评估云虚拟网关的历史属性值包括:所述待评估云虚拟网关本身的带宽、所述待评估云虚拟网关本身的并发连接数上限;所述待评估云虚拟网关的历史故障情况包括但不限于:网络是否连通(即是否ping通)、是否丢包;所述待评估云虚拟网关所在的物理服务器的历史监控指标值包括但不限于:CPU利用率、内存利用率、I/O繁忙程度、网络连通性、网卡的出流量、网卡的入流量、网卡的丢包数;所述待评估云虚拟网关所在的物理服务器的历史属性值包括但不限于:网卡的带宽、所述待评估云虚拟网关所在的物理服务器可承担的并发连接数上限、待评估云虚拟网关所在的物理服务器上云虚拟网关的数量;所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史监控指标值包括但不限于:所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的平均每秒出流量、平均每秒入流量、平均每秒出包量、平均每秒入包量,以及所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的并发连接数;所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史属性值包括但不限于:所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关本身的带宽、所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关本身的并发连接数上限;所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史故障情况包括但不限于:网络是否连通、是否丢包。
样本获取模块520,用于基于所述历史运行健康指标获取样本集。在可选的实施方式中,可以通过下述方式获取样本集:
(1)将待评估云虚拟网关的历史监控指标值、历史属性值,所述待评估云虚拟网关所在待评估云虚拟网关所在的物理服务器上的其他云虚拟网关的历史监控指标值、历史属性值,以及所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值作为输入值;
(2)将所述待评估云虚拟网关的历史故障情况、所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史故障情况作为目标值;
(3)将所述输入值和所述目标值进行拼接,得到样本集。
通过处理待评估云虚拟网关、与待评估云虚拟网关同在一个物理服务器上的其他云虚拟网关的相关历史指标数据得到样本集,使得基于这样的样本集得到的运行健康度评估模型全面考虑到同一物理服务器上的其他云虚拟网关与待评估云虚拟网关之间的关联关系,以及它们对待评估云虚拟网关的运行健康度的影响,进而得到更加准确的运行健康度的评估值。
预处理模块530,用于对所述样本集进行预处理,并将预处理后的样本集中的数据分为训练数据、验证数据、测试数据。在可选的实施方式中,所述预处理可以包括但不限于:对所述样本集进行去噪、归一化处理。
模型建立模块540,用于采用回归预测算法建立所述待评估云虚拟网关的运行健康度评估模型,并利用所述训练数据训练所述运行健康度评估模型的参数值,利用所述验证数据调整所述参数值,利用所述测试数据测试所述运行健康度评估模型的效果。在可选的实施方式中,可以通过下述方式建立待评估云虚拟网关的运行健康度评估模型:
(1)基于待评估云虚拟网关的历史监控指标值、历史属性值,以及所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值获取所述待评估云虚拟网关的健康度基础分数;
(2)基于所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史监控指标值、历史属性值,以及所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值获取所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的健康度基础分数;
(3)获取所述待评估云虚拟网关和所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关对健康度的影响力权重参数;
(4)基于所述待评估云虚拟网关的健康度基础分数、所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的健康度基础分数、所述影响力权重参数确定所述运行健康度评估模型的参数值。
可选的,可以通过下述方式训练运行健康度评估模型的参数值:
(1)利用所述训练数据获取基于不同参数值的所述运行健康度评估模型的预测输出值;
(2)利用损失函数计算所有基于所述训练数据得到的预测输出值与所述训练数据中的实际输出值之间的偏差之和;
(3)采用梯度下降的方法求解所述偏差之和的最小值及其对应的参数值。
通过获取运行健康度评估模型的预测输出值与训练数据中的实际输出值之间的偏差之和的最小值对应的参数值,使得基于该参数值的运行健康度评估模型更加准确,从而获取更加准确的运行健康度的评估值。
评估模块550,用于将实时采集的所述待评估云虚拟网关的当前监控指标作为当前输入值发送至所述运行健康度评估模型,获取所述运行健康度评估模型的输出值作为所述待评估云虚拟网关的当前或未来一段时间运行健康度的评估值。在可选的实施方式中,当前监控指标包括:所述待评估云虚拟网关的当前监控指标值、当前属性值;所述待评估云虚拟网关所在的物理服务器的当前监控指标值、当前属性值;所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的当前监控指标值、当前属性值、当前故障情况。
采用本发明实施方式的上述系统,基于海量历史运行健康度指标获取的样本集数据得到运行健康度评估模型,同时还过考虑与待评估云虚拟网关同在一个物理服务器上的其他云虚拟网关对待评估云虚拟网关的运行健康度的影响,能够获取更加准确的运行健康度评估模型,以得到待评估云虚拟网关当前或未来一段时间内的运行健康度的评估值,进而在运行健康度的评估值较低时及时提醒运维人员主动、提早进行排查处理,避免云虚拟网关的故障对云上业务造成可感知的影响,从而在一定程度上有效地提高网络运维的效率和质量,为用户提供低成本、高效率和高质量的网络服务。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件结合硬件平台的方式来实现。基于这样的理解,本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施方式或者实施方式的某些部分所述的方法。
对应的,本发明实施方式还提供一种计算机可读存储介质,其上存储有计算机可读指令或程序,所述计算机可读指令或程序被处理器执行时,使得计算机执行如下操作:所述操作包括如上任意一种实施方式所述评估方法所包含的步骤,在此不再赘述。其中,所述存储介质可以包括:例如,光盘、硬盘、软盘、闪存、磁带等。
另外,本发明实施方式还提供一种包括存储器和处理器的计算机设备,所述存储器用于存储一条或多条计算机指令或程序,其中,所述一条或多条计算机指令或程序被所述处理器执行时能够实现如上任意一种实施方式所述的评估方法。所述计算机设备可以是,例如,服务器、台式计算机、笔记本计算机、平板电脑等。
最后应说明的是:以上实施方式仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施方式对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施方式技术方案的精神和范围。因此本发明的保护范围应以权利要求为准。
Claims (20)
1.一种云虚拟网关的运行健康度评估方法,其特征在于,所述评估方法包括:
采集待评估云虚拟网关的历史运行健康指标;
基于所述历史运行健康指标获取样本集;
对所述样本集进行预处理,并将预处理后的样本集中的数据分为训练数据、验证数据、测试数据;
采用回归预测算法建立所述待评估云虚拟网关的运行健康度评估模型,并利用所述训练数据训练所述运行健康度评估模型的参数值,利用所述验证数据调整所述参数值,利用所述测试数据测试所述运行健康度评估模型的效果;
将实时采集的所述待评估云虚拟网关的当前监控指标作为当前输入值发送至所述运行健康度评估模型;
获取所述运行健康度评估模型的输出值作为所述待评估云虚拟网关的当前或未来一段时间运行健康度的评估值。
2.如权利要求1所述的评估方法,其特征在于,所述历史运行健康指标包括:
所述待评估云虚拟网关的历史监控指标值、历史属性值、历史故障情况;
所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值;
所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史监控指标值、历史属性值、历史故障情况。
3.如权利要求2所述的评估方法,其特征在于,
所述待评估云虚拟网关的历史监控指标值包括:所述待评估云虚拟网关的平均每秒出流量、平均每秒入流量、平均每秒出包量、平均每秒入包量,以及所述待评估云虚拟网关的并发连接数;
所述待评估云虚拟网关的历史属性值包括:所述待评估云虚拟网关本身的带宽、所述待评估云虚拟网关本身的并发连接数上限;
所述待评估云虚拟网关的历史故障情况包括:网络是否连通、是否丢包;
所述待评估云虚拟网关所在的物理服务器的历史监控指标值包括:CPU利用率、内存利用率、I/O繁忙程度、网络连通性、网卡的出流量、网卡的入流量、网卡的丢包数;
所述待评估云虚拟网关所在的物理服务器的历史属性值包括:网卡的带宽、所述待评估云虚拟网关所在的物理服务器可承担的并发连接数上限、所述待评估云虚拟网关所在的物理服务器上云虚拟网关的数量;
所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史监控指标值包括:所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的平均每秒出流量、平均每秒入流量、平均每秒出包量、平均每秒入包量,以及所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的并发连接数;
所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史属性值包括:所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关本身的带宽、所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关本身的并发连接数上限;
所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史故障情况包括:网络是否连通、是否丢包。
4.如权利要求3所述的评估方法,其特征在于,基于所述历史运行健康指标获取样本集包括:
将所述待评估云虚拟网关的历史监控指标值、历史属性值,所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史监控指标值、历史属性值,以及所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值作为输入值;
将所述待评估云虚拟网关的历史故障情况、所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史故障情况作为目标值;
将所述输入值和所述目标值进行拼接,得到所述样本集。
5.如权利要求4所述的评估方法,其特征在于,所述预处理包括:去噪、归一化处理。
6.如权利要求5所述的评估方法,其特征在于,采用回归预测算法建立所述待评估云虚拟网关的运行健康度评估模型包括:
基于所述待评估云虚拟网关的历史监控指标值、历史属性值,以及所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值按照逻辑回归算法计算所述待评估云虚拟网关的健康度基础分数;
基于所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史监控指标值、历史属性值,以及所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值按照逻辑回归算法计算所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的健康度基础分数;
获取所述待评估云虚拟网关和所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关对健康度的影响力权重参数;
基于所述待评估云虚拟网关的健康度基础分数、所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的健康度基础分数、所述影响力权重参数确定所述运行健康度评估模型的参数值。
7.如权利要求6所述的评估方法,其特征在于,利用所述训练数据训练所述运行健康度评估模型的参数值包括:
利用所述训练数据获取基于不同参数值的所述运行健康度评估模型的预测输出值;
利用损失函数计算所有基于所述训练数据得到的预测输出值与所述训练数据中的实际输出值之间的偏差之和;
采用梯度下降的方法求解所述偏差之和的最小值及其对应的参数值。
8.如权利要求1所述的评估方法,其特征在于,所述当前监控指标包括:
所述待评估云虚拟网关的当前监控指标值、当前属性值;
所述待评估云虚拟网关所在的物理服务器的当前监控指标值、当前属性值;
所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的当前监控指标值、当前属性值、当前故障情况。
9.如权利要求1所述的评估方法,其特征在于,采集所述待评估云虚拟网关的历史运行健康指标包括:
基于分布式的海量日志采集、聚合和传输的系统Flume采集所述待评估云虚拟网关的历史运行健康指标。
10.一种云虚拟网关的运行健康度评估系统,其特征在于,所述评估系统包括:
历史指标获取模块,用于采集待评估云虚拟网关的历史运行健康指标;
样本获取模块,用于基于所述历史运行健康指标获取样本集;
预处理模块,用于对所述样本集进行预处理,并将预处理后的样本集中的数据分为训练数据、验证数据、测试数据;
模型建立模块,用于采用回归预测算法建立所述待评估云虚拟网关的运行健康度评估模型,并利用所述训练数据训练所述运行健康度评估模型的参数值,利用所述验证数据调整所述参数值,利用所述测试数据测试所述运行健康度评估模型的效果;
评估模块,用于将实时采集的所述待评估云虚拟网关的当前监控指标作为当前输入值发送至所述运行健康度评估模型,获取所述运行健康度评估模型的输出值作为所述待评估云虚拟网关的当前或未来一段时间运行健康度的评估值。
11.如权利要求9所述的评估系统,其特征在于,所述历史运行健康指标包括:
所述待评估云虚拟网关的历史监控指标值、历史属性值、历史故障情况;
所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值;
所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史监控指标值、历史属性值、历史故障情况。
12.如权利要求10所述的评估系统,其特征在于,
所述待评估云虚拟网关的历史监控指标值包括:所述待评估云虚拟网关的平均每秒出流量、平均每秒入流量、平均每秒出包量、平均每秒入包量,以及所述待评估云虚拟网关的并发连接数;
所述待评估云虚拟网关的历史属性值包括:所述待评估云虚拟网关本身的带宽、所述待评估云虚拟网关本身的并发连接数上限;
所述待评估云虚拟网关的历史故障情况包括:网络是否连通、是否丢包;
所述待评估云虚拟网关所在的物理服务器的历史监控指标值包括:CPU利用率、内存利用率、I/O繁忙程度、网络连通性、网卡的出流量、网卡的入流量、网卡的丢包数;
所述待评估云虚拟网关所在的物理服务器的历史属性值包括:网卡的带宽、所述待评估云虚拟网关所在的物理服务器可承担的并发连接数上限、所述待评估云虚拟网关所在的物理服务器上云虚拟网关的数量;
所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史监控指标值包括:所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的平均每秒出流量、平均每秒入流量、平均每秒出包量、平均每秒入包量,以及所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的并发连接数;
所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史属性值包括:所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关本身的带宽、所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关本身的并发连接数上限;
所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史故障情况包括:网络是否连通、是否丢包。
13.如权利要求11所述的评估系统,其特征在于,基于所述历史运行健康指标获取样本集包括:
将所述待评估云虚拟网关的历史监控指标值、历史属性值,所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史监控指标值、历史属性值,以及所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值作为输入值;
将所述待评估云虚拟网关的历史故障情况、所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史故障情况作为目标值;
将所述输入值和所述目标值进行拼接,得到所述样本集。
14.如权利要求12所述的评估系统,其特征在于,所述预处理包括:去噪、归一化处理。
15.如权利要求13所述的评估系统,其特征在于,采用回归预测算法建立所述待评估云虚拟网关的运行健康度评估模型包括:
基于所述待评估云虚拟网关的历史监控指标值、历史属性值,以及所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值按照逻辑回归算法计算所述待评估云虚拟网关的健康度基础分数;
基于所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的历史监控指标值、历史属性值,以及所述待评估云虚拟网关所在的物理服务器的历史监控指标值、历史属性值按照逻辑回归算法计算所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的健康度基础分数;
获取所述待评估云虚拟网关和所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关对健康度的影响力权重参数;
基于所述待评估云虚拟网关的健康度基础分数、所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的健康度基础分数、所述影响力权重参数确定所述运行健康度评估模型的参数值。
16.如权利要求15所述的评估系统,其特征在于,利用所述训练数据训练所述运行健康度评估模型的参数值包括:
利用所述训练数据获取基于不同参数值的所述运行健康度评估模型的预测输出值;
利用损失函数计算所有基于所述训练数据得到的预测输出值与所述训练数据中的实际输出值之间的偏差之和;
采用梯度下降的方法求解所述偏差之和的最小值及其对应的参数值。
17.如权利要求10所述的评估系统,其特征在于,所述当前监控指标包括:
所述待评估云虚拟网关的当前监控指标值、当前属性值;
所述待评估云虚拟网关所在的物理服务器的当前监控指标值、当前属性值;
所述待评估云虚拟网关所在的物理服务器上其他云虚拟网关的当前监控指标值、当前属性值、当前故障情况。
18.如权利要求10所述的评估系统,其特征在于,采集所述待评估云虚拟网关的历史运行健康指标包括:
基于分布式的海量日志采集、聚合和传输的系统Flume采集所述待评估云虚拟网关的历史运行健康指标。
19.一种计算机存储介质,所述计算机存储介质储存计算机软件指令,其特征在于,所述计算机软件指令由处理器执行以实现如权利要求1-9中任一项所述的评估方法。
20.一种计算机设备,其包括存储器和处理器;
其特征在于,所述存储器用于存储一条或多条计算机指令,所述处理器执行所述一条或多条计算机指令以实现如权利要求1-9中任一项所述的评估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010846822.7A CN112001622A (zh) | 2020-08-21 | 2020-08-21 | 云虚拟网关的健康度评估方法、系统、设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010846822.7A CN112001622A (zh) | 2020-08-21 | 2020-08-21 | 云虚拟网关的健康度评估方法、系统、设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112001622A true CN112001622A (zh) | 2020-11-27 |
Family
ID=73473464
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010846822.7A Pending CN112001622A (zh) | 2020-08-21 | 2020-08-21 | 云虚拟网关的健康度评估方法、系统、设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112001622A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114389915A (zh) * | 2021-12-24 | 2022-04-22 | 广西壮族自治区公众信息产业有限公司 | 一种基于震荡抑制的云vpn管理优化方法和系统 |
WO2024055346A1 (zh) * | 2022-09-13 | 2024-03-21 | 武汉理工光科股份有限公司 | 一种车辆状态监测模型训练方法、应用方法、装置和车辆 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130297338A1 (en) * | 2012-05-07 | 2013-11-07 | Ingroove, Inc. | Method for Evaluating the Health of a Website |
CN109886430A (zh) * | 2019-01-24 | 2019-06-14 | 同济大学 | 一种基于工业大数据的设备健康状态评估与预测方法 |
CN110009208A (zh) * | 2019-03-26 | 2019-07-12 | 武汉理工大学 | 一种基于混合智能算法的柱上开关成套设备健康状态评估方法及装置 |
CN110119339A (zh) * | 2019-05-07 | 2019-08-13 | 上海电气集团股份有限公司 | 工业设备的健康状态的评估方法、系统、设备和存储介质 |
-
2020
- 2020-08-21 CN CN202010846822.7A patent/CN112001622A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130297338A1 (en) * | 2012-05-07 | 2013-11-07 | Ingroove, Inc. | Method for Evaluating the Health of a Website |
CN109886430A (zh) * | 2019-01-24 | 2019-06-14 | 同济大学 | 一种基于工业大数据的设备健康状态评估与预测方法 |
CN110009208A (zh) * | 2019-03-26 | 2019-07-12 | 武汉理工大学 | 一种基于混合智能算法的柱上开关成套设备健康状态评估方法及装置 |
CN110119339A (zh) * | 2019-05-07 | 2019-08-13 | 上海电气集团股份有限公司 | 工业设备的健康状态的评估方法、系统、设备和存储介质 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114389915A (zh) * | 2021-12-24 | 2022-04-22 | 广西壮族自治区公众信息产业有限公司 | 一种基于震荡抑制的云vpn管理优化方法和系统 |
CN114389915B (zh) * | 2021-12-24 | 2024-05-14 | 广西壮族自治区公众信息产业有限公司 | 一种基于震荡抑制的云vpn管理优化方法和系统 |
WO2024055346A1 (zh) * | 2022-09-13 | 2024-03-21 | 武汉理工光科股份有限公司 | 一种车辆状态监测模型训练方法、应用方法、装置和车辆 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111212038B (zh) | 基于大数据人工智能的开放数据api网关系统 | |
CN109359385B (zh) | 一种服务质量评估模型的训练方法及装置 | |
CN104160659B (zh) | 用于通信网络的管理和操作的方法和装置 | |
US20220172037A1 (en) | Proactive anomaly detection | |
US8874642B2 (en) | System and method for managing the performance of an enterprise application | |
CN107872457B (zh) | 一种基于网络流量预测进行网络操作的方法及系统 | |
CN110162445A (zh) | 基于主机日志及性能指标的主机健康评价方法及装置 | |
EP4091110A1 (en) | Systems and methods for distributed incident classification and routing | |
CN103532795A (zh) | 一种检测web业务系统可用性的监控系统及方法 | |
CN112001622A (zh) | 云虚拟网关的健康度评估方法、系统、设备和存储介质 | |
WO2021103823A1 (zh) | 模型更新系统、模型更新方法及相关设备 | |
CN112114986A (zh) | 数据异常识别方法、装置、服务器和存储介质 | |
US7617313B1 (en) | Metric transport and database load | |
CN112434178A (zh) | 图像分类方法、装置、电子设备和存储介质 | |
Dinaki et al. | Forecasting video QoE with deep learning from multivariate time-series | |
Taleb et al. | Hybrid machine learning classification and inference of stalling events in mobile videos | |
TWI662809B (zh) | 影像串流服務的障礙定位系統及維運方法 | |
CN114071232B (zh) | 音视频质量可视化方法及其装置、设备、介质、产品 | |
Priovolos et al. | Using anomaly detection techniques for securing 5G infrastructure and applications | |
de Almeida et al. | Using machine learning and in-band network telemetry for service metrics estimation | |
CN115150248B (zh) | 网络流量异常检测方法、装置、电子设备和存储介质 | |
CN113762421A (zh) | 分类模型的训练方法、流量分析方法、装置及设备 | |
CN114071233B (zh) | 音视频质量评价方法及其装置、设备、介质、产品 | |
US20230370350A1 (en) | System and method for outage prediction | |
CN115600478B (zh) | 软件定义广域网分析系统及其操作方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |