CN115766768A - 一种算力网络操作系统中感知中枢设计方法及装置 - Google Patents

一种算力网络操作系统中感知中枢设计方法及装置 Download PDF

Info

Publication number
CN115766768A
CN115766768A CN202211299747.2A CN202211299747A CN115766768A CN 115766768 A CN115766768 A CN 115766768A CN 202211299747 A CN202211299747 A CN 202211299747A CN 115766768 A CN115766768 A CN 115766768A
Authority
CN
China
Prior art keywords
data
perception
analysis
operating system
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211299747.2A
Other languages
English (en)
Inventor
马浩
沈林江
仇树卿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Communication Information System Co Ltd
Original Assignee
Inspur Communication Information System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Communication Information System Co Ltd filed Critical Inspur Communication Information System Co Ltd
Priority to CN202211299747.2A priority Critical patent/CN115766768A/zh
Publication of CN115766768A publication Critical patent/CN115766768A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及算力网络技术领域,具体提供了一种算力网络操作系统中感知中枢设计方法,具有如下步骤:S1、感知接入;S2、感知管理;S3、感知存储;S4、感知分析;S5、感知共享。与现有技术相比,本发明通过感知接入、感知管理、感知存储、感知分析和感知共享模块共同合作,实现动态实时感知计算资源、算网业务、存储资源和网络状态,进而统筹分配和调度计算任务,形成一张计算资源可感知、可分配、可调度、可优化的网络,满足新业务新应用对算力的要求。

Description

一种算力网络操作系统中感知中枢设计方法及装置
技术领域
本发明涉及算力网络技术领域,具体提供一种算力网络操作系统中感知中枢设计方法及装置。
背景技术
算力网络需要连接分布的计算节点,动态、实时感知计算资源、算网业务、存储资源和网络状态,进而统筹分配和调度计算任务,形成一张计算资源可感知、可分配、可调度、可优化的网络,满足新业务、新应用对算力的要求。现有的采控平台虽然可以采集计算资源、存储资源和网络资源的基础数据,但是无法实现资源状态实时动态感知,无法支撑算网新业务、新应用对算力实时、灵活、可扩展的要求。
发明内容
本发明是针对上述现有技术的不足,提供一种实用性强的算力网络操作系统中感知中枢设计方法。
本发明进一步的技术任务是提供一种设计合理,安全适用的算力网络操作系统中感知中枢设计装置。
本发明解决其技术问题所采用的技术方案是:
一种算力网络操作系统中感知中枢设计方法,具有如下步骤:
S1、感知接入;
S2、感知管理;
S3、感知存储;
S4、感知分析;
S5、感知共享。
进一步的,在步骤S1中,进一步包括:
S101、定时器或事件触发数据采集任务,定时器触发;根据业务设置规则触发采集任务,当监控到当前采集任务执行失败后以及检测到当前采集的数据为空后,自动触发数据重新采集任务;
S102、配置统一的适配,采用插件化的方式,通过构建不同适配器来满足不同场景下的数据接入需求;
S103、采用虚拟化探针采集质量域的网络与业务KPI\KQI指标;虚拟化拨测工具采集链路时延、带宽、丢包率指标;终端SDK采集终端设备状态、网络覆盖和业务质量信息;前置机获取已采集的数据方式,进行资源域数据采集;
S104、执行调度任务并且记录调度任务执行的结果。
进一步的,在步骤S2中,进一步包括:
S201、数据采集标准审核,根据算网感知平台南向面对的多源数据类型,分别检查计算资源、网络资源和存储资源分类数据是否满足采集标准;
S202、对采集到的各类资源元数据进行分类管理;
S203、对采集到的敏感数据进行可逆脱敏。
进一步的,在步骤S3中,进一步包括:
S301、对采集到的数据进行清洗,数据清洗是对数据进行重新审查和校验的过程;
S302、对数据清洗后的明细数据通过过划分网络主题域和分层次模型实现数据处理分层解耦,在存储过程中按照配置、性能、业务、任务、告警、日志进行分库存储;
S303、基础数据存储,存储用户配置的分析规则和配置类的数据。
进一步的,在步骤S4中,进一步包括:
S401、对感知接入采集上报的原始数据分域进行基础指标和自定义指标管理;
S402、设置性能门限与容量门限,通过性能门限和容量门限实现实时监控各类算网资源的运行性能状态和使用情况,并及时预警潜在的故障风险和容量风险;
S403、基于步骤S402中性能门限与容量门限结合过去一段时间资源性能与容量使用情况进行分析,并且支持预测未来几天性能和容量的变化趋势;
S404、对南向采集到的多源数据源同时会携带海量告警信息进行过滤规则管理,通过设置告警与业务相关联的规则,展示与业务强相关的告警和事件信息。
进一步的,在步骤S4中,还包括:
S405、对南向采集到的算力资源数据、网络资源数据、存储资源数据分别设定健康度评分规则分别计算当前算力健康度、网络健康度和存储健康度,再以算力健康度、网络健康度和存储健康度为结合业务属性计算出业务健康度;
S406、根据步骤S405得到过滤后的告警与事件信息采用知识推理分析对当前资源和业务产生的影响,对影响程度进行定性和定量分析;
S407、获得的资源容量、性能、门限、告警、事件和指标信息进行跨层级、跨域的多维度分析得到设备健康度分析、资源影响分析、时空关联分析、跨域关联分析、价格组合分析、感知事件分析的分析结果;
S408、对所有分析结果获得的汇总数据进行存储。
进一步的,在步骤S5中,进一步包括:
S501、对数据以API服务的方式发布数据查询和操作接口实现调用;
S502、通过实时消息的方式对外发布数据感知消息,实现数据订阅的方式来实时获取相关数据或者数据变更消息。
一种算力网络操作系统中感知中枢设计装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行一种算力网络操作系统中感知中枢设计方法及装置。
本发明的一种算力网络操作系统中感知中枢设计方法及装置和现有技术相比,具有以下突出的有益效果:
本发明通过感知接入、感知管理、感知存储、感知分析和感知共享模块共同合作,实现动态实时感知计算资源、算网业务、存储资源和网络状态,进而统筹分配和调度计算任务,形成一张计算资源可感知、可分配、可调度、可优化的网络,满足新业务新应用对算力的要求。
具体表现为:
1、实现了动态实时感知算力域、网络域、存储域等各域资源全量采集和动态感知分析,有效支撑新型算网业务的开通和部署。
2、感知分析模块采用性能、容量、规则、健康度等门限和分析方式,提升系统智能化水平,有效降低人工运维工作量。
3、基于知识推理分析和多维度分析的方式,实现提前预判故障,实现故障发生率减小10%。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
附图1是一种算力网络操作系统中感知中枢设计方法的流程示意图。
具体实施方式
为了使本技术领域的人员更好的理解本发明的方案,下面结合具体的实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例都属于本发明保护的范围。
下面给出一个最佳实施例:
如图1所示,本实施例中的一种算力网络操作系统中感知中枢设计方法,具有如下步骤:
S1、感知接入;
进一步包括:
S101、定时器或事件触发数据采集任务,定时器触发:根据业务需要设置定时器每1分钟、每5分钟、每15分钟、每1小时、每天等规则触发一次采集任务,从而实现定期采集底层算网资源信息的目标;事件触发:当监控到当前采集任务执行失败后以及检测到当前采集的数据为空后,自动触发数据重新采集任务。
S102、南向对接的数据来源多样、采集方式和接口协议均有差异,需要统一的适配进行一致性处理,采用插件化的方式,通过构建不同适配器来满足不同场景下的数据接入需求。如告警接入适配器(kafka)、虚拟资源接入适配器(restful)、虚拟机性能接入设配器(sftp)等,接口协议包括:restful、corba、snmp、trap、ftp/sftp、socket、MQ、syslog、webservice等,并且采集端与数据源之间的数据采用加密传递。
S103、采用虚拟化探针采集质量域的网络与业务KPI\KQI指标;虚拟化拨测工具采集链路时延、带宽、丢包率等指标;终端SDK采集终端设备状态、网络覆盖、业务质量等关键信息;前置机获取省公司网管系统已采集的数据方式,共同实现资源域数据采集。
S104、执行调度任务并且记录调度任务执行的结果;
执行调度任务并且记录调度任务执行的结果。包括:调度任务触发方式、调度任务结果、任务开始时间、任务结束时间等。调度任务日志管理支持根据任务名称、任务触发方式、调度任务结果、任务开始时间、任务结束时间等条件查询。
S2、感知管理;
进一步包括:
S201、数据采集标准审核,根据算网感知平台南向面对的多源数据类型,分别检查计算资源、网络资源、存储资源等分类数据是否满足采集标准。
S202、对采集到的各类资源元数据进行分类管理,其中技术元数据是用于开发和日常管理数据仓库时用的数据;业务元数据描述的对象,是数据的业务含义、业务规则等;操作元数据描述了数据的操作属性,比如管理部门、管理责任人等;管理元数据包含了数据管理的信息在其中,例如:表的业务属主、表的技术负责人等。
S203、对采集到的敏感数据进行可逆脱敏,避免敏感信息以明文显示,尽量减少开发人员、运维人员、运营人员对敏感数据的接触,保证敏感数据安全。
S3、感知存储;
进一步包括:
S301、对采集到的数据进行清洗,数据清洗是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。数据清洗是数据预处理的第一步,也是保证后续结果正确的重要一环。
S302、对数据清洗后的明细数据通过过划分网络主题域和分层次模型实现数据处理分层解耦,在存储过程中按照配置、性能、业务、任务、告警、日志进行分库存储,并且采用主从同步、读写分离的方案确保存储数据的可靠性。
S303、基础数据存储,主要存储用户配置的分析规则和配置类的数据,包括门限、规则、模型等数据。
S4、感知分析;
进一步包括:
S401、对感知接入采集上报的原始数据分域进行基础指标和自定义指标管理,其中基础指标包含指标ID、指标实例名、指标唯一名称、指标值类型、时间粒度、中文名称、英文名称等基本属性;自定义指标包含新增自定义指标、指标评价、性能指标展示、添加基础指标和测试公式等。
S402、设置性能门限与容量门限,通过性能门限和容量门限实现实时监控各类算网资源的运行性能状态和使用情况,并及时预警潜在的故障风险和容量风险。
S403、性能分析与容量分析:基于上一步性能门限与容量门限结合过去一段时间资源性能与容量使用情况进行分析,并且支持预测未来几天性能和容量的变化趋势。
S404、对南向采集到的多源数据源同时会携带海量告警信息进行过滤规则管理,通过设置告警与业务相关联的规则,展示与业务强相关的告警和事件信息。
S405、对南向采集到的算力资源数据、网络资源数据、存储资源数据分别设定健康度评分规则分别计算当前算力健康度、网络健康度和存储健康度,再以算力健康度、网络健康度和存储健康度为基础结合业务属性计算出业务健康度。
S406、根据步骤S405得到过滤后的告警与事件信息采用知识推理分析对当前资源和业务产生的影响,以及对影响程度进行定性和定量分析。
在算网资源发生动态变化或故障时会产生海量的信息,如异常日志、告警等,知识推理框架从故障数据中自动分析故障间传播规律,生成推理结果。在这个过程中,算网运维专家经验是重要的知识来源,需要充分利用、有效转化;知识推理利用图存储中的产品知识和规则知识,按策略编排自动执行;规则知识的自动学习发现也对专家经验起到了有效补充作用,进一步提升了知识推理框架的能力,支撑更丰富的故障场景的自动适配;利用NLP知识自动抽取技术抽取产品文档、案例文档等不同数据源中的产品知识,用于知识查询,进一步增强了针对算网资源感知关系知识查询的可解释性。
S407、获得的资源容量、性能、门限、告警、事件和指标等信息进行跨层级、跨域的多维度分析得到设备健康度分析、资源影响分析、时空关联分析、跨域关联分析、价格组合分析、感知事件分析等一系列分析结果。
S408、对所有分析结果获得的汇总数据进行存储,包含感知分析模块内容量分析、资源分析、性能分析、事件分析、多维分析等一系列分析结果数据,实现告警域、质量分析域、运维域和资源域的全域分析结果。
S5、感知共享;
进一步包括:
S501、对数据以API服务(OpenAPI)的方式发布数据查询和操作接口实现调用,外部系统如编排中心、智慧中心,可以通过调用相应的API服务来获取数据以及对数据进行保存变更等操作。
S502、通过实时消息的方式对外发布数据感知消息,实现数据订阅的方式来实时获取相关数据或者数据变更消息。
基于上述方法,本实施例中的一种算力网络操作系统中感知中枢设计装置,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行一种算力网络操作系统中感知中枢设计方法及装置。
上述具体的实施方式仅是本发明具体的个案,本发明的专利保护范围包括但不限于上述具体的实施方式,任何符合本发明的一种算力网络操作系统中感知中枢设计方法及装置权利要求书的且任何所述技术领域普通技术人员对其做出的适当变化或者替换,皆应落入本发明的专利保护范围。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (8)

1.一种算力网络操作系统中感知中枢设计方法,其特征在于,具有如下步骤:
S1、感知接入;
S2、感知管理;
S3、感知存储;
S4、感知分析;
S5、感知共享。
2.根据权利要求1所述的一种算力网络操作系统中感知中枢设计方法,其特征在于,在步骤S1中,进一步包括:
S101、定时器或事件触发数据采集任务,定时器触发;根据业务设置规则触发采集任务,当监控到当前采集任务执行失败后以及检测到当前采集的数据为空后,自动触发数据重新采集任务;
S102、配置统一的适配,采用插件化的方式,通过构建不同适配器来满足不同场景下的数据接入需求;
S103、采用虚拟化探针采集质量域的网络与业务KPI\KQI指标;虚拟化拨测工具采集链路时延、带宽、丢包率指标;终端SDK采集终端设备状态、网络覆盖和业务质量信息;前置机获取已采集的数据方式,进行资源域数据采集;
S104、执行调度任务并且记录调度任务执行的结果。
3.根据权利要求2所述的一种算力网络操作系统中感知中枢设计方法,其特征在于,在步骤S2中,进一步包括:
S201、数据采集标准审核,根据算网感知平台南向面对的多源数据类型,分别检查计算资源、网络资源和存储资源分类数据是否满足采集标准;
S202、对采集到的各类资源元数据进行分类管理;
S203、对采集到的敏感数据进行可逆脱敏。
4.根据权利要求3所述的一种算力网络操作系统中感知中枢设计方法,其特征在于,在步骤S3中,进一步包括:
S301、对采集到的数据进行清洗,数据清洗是对数据进行重新审查和校验的过程;
S302、对数据清洗后的明细数据通过过划分网络主题域和分层次模型实现数据处理分层解耦,在存储过程中按照配置、性能、业务、任务、告警、日志进行分库存储;
S303、基础数据存储,存储用户配置的分析规则和配置类的数据。
5.根据权利要求4所述的一种算力网络操作系统中感知中枢设计方法,其特征在于,在步骤S4中,进一步包括:
S401、对感知接入采集上报的原始数据分域进行基础指标和自定义指标管理;
S402、设置性能门限与容量门限,通过性能门限和容量门限实现实时监控各类算网资源的运行性能状态和使用情况,并及时预警潜在的故障风险和容量风险;
S403、基于步骤S402中性能门限与容量门限结合过去一段时间资源性能与容量使用情况进行分析,并且支持预测未来几天性能和容量的变化趋势;
S404、对南向采集到的多源数据源同时会携带海量告警信息进行过滤规则管理,通过设置告警与业务相关联的规则,展示与业务强相关的告警和事件信息。
6.根据权利要求5所述的一种算力网络操作系统中感知中枢设计方法,其特征在于,在步骤S4中,还包括:
S405、对南向采集到的算力资源数据、网络资源数据、存储资源数据分别设定健康度评分规则分别计算当前算力健康度、网络健康度和存储健康度,再以算力健康度、网络健康度和存储健康度为结合业务属性计算出业务健康度;
S406、根据步骤S405得到过滤后的告警与事件信息采用知识推理分析对当前资源和业务产生的影响,对影响程度进行定性和定量分析;
S407、获得的资源容量、性能、门限、告警、事件和指标信息进行跨层级、跨域的多维度分析得到设备健康度分析、资源影响分析、时空关联分析、跨域关联分析、价格组合分析、感知事件分析的分析结果;
S408、对所有分析结果获得的汇总数据进行存储。
7.根据权利要求6所述的一种算力网络操作系统中感知中枢设计方法,其特征在于,在步骤S5中,进一步包括:
S501、对数据以API服务的方式发布数据查询和操作接口实现调用;
S502、通过实时消息的方式对外发布数据感知消息,实现数据订阅的方式来实时获取相关数据或者数据变更消息。
8.一种算力网络操作系统中感知中枢设计装置,其特征在于,包括:至少一个存储器和至少一个处理器;
所述至少一个存储器,用于存储机器可读程序;
所述至少一个处理器,用于调用所述机器可读程序,执行权利要求1至7中任一所述的方法。
CN202211299747.2A 2022-10-24 2022-10-24 一种算力网络操作系统中感知中枢设计方法及装置 Pending CN115766768A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211299747.2A CN115766768A (zh) 2022-10-24 2022-10-24 一种算力网络操作系统中感知中枢设计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211299747.2A CN115766768A (zh) 2022-10-24 2022-10-24 一种算力网络操作系统中感知中枢设计方法及装置

Publications (1)

Publication Number Publication Date
CN115766768A true CN115766768A (zh) 2023-03-07

Family

ID=85352770

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211299747.2A Pending CN115766768A (zh) 2022-10-24 2022-10-24 一种算力网络操作系统中感知中枢设计方法及装置

Country Status (1)

Country Link
CN (1) CN115766768A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116107727A (zh) * 2023-04-13 2023-05-12 浪潮通信信息系统有限公司 一种基于混合内核架构的算力网络操作系统及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016101638A1 (zh) * 2014-12-23 2016-06-30 国家电网公司 一种电力系统云仿真平台的运营管理方法
WO2019233047A1 (zh) * 2018-06-07 2019-12-12 国电南瑞科技股份有限公司 基于电网调度的运维方法
CN110858354A (zh) * 2018-08-22 2020-03-03 北京航天长峰科技工业集团有限公司 一种城市公共安全服务系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016101638A1 (zh) * 2014-12-23 2016-06-30 国家电网公司 一种电力系统云仿真平台的运营管理方法
WO2019233047A1 (zh) * 2018-06-07 2019-12-12 国电南瑞科技股份有限公司 基于电网调度的运维方法
CN110858354A (zh) * 2018-08-22 2020-03-03 北京航天长峰科技工业集团有限公司 一种城市公共安全服务系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈洪雁等: "航天试验业务网的智慧物联感知体系架构研究与应用", 现代电子技术, vol. 43, no. 13, 1 July 2020 (2020-07-01), pages 21 - 24 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116107727A (zh) * 2023-04-13 2023-05-12 浪潮通信信息系统有限公司 一种基于混合内核架构的算力网络操作系统及电子设备

Similar Documents

Publication Publication Date Title
US20190228296A1 (en) Significant events identifier for outlier root cause investigation
AU2019201687B2 (en) Network device vulnerability prediction
CN109902072A (zh) 一种日志处理系统
CN109947746A (zh) 一种基于etl流程的数据质量管控方法和系统
US11271816B2 (en) Network topology management using network element differential history
CN105323111A (zh) 一种运维自动化系统及方法
CN101095307A (zh) 网络管理设备
CN111339175B (zh) 数据处理方法、装置、电子设备及可读存储介质
CN107544832A (zh) 一种虚拟机进程的监控方法、装置和系统
CN111858251B (zh) 一种基于大数据计算技术的数据安全审计方法及系统
CN101989931A (zh) 一种运维告警处理方法和装置
Diotalevi et al. Collection and harmonization of system logs and prototypal Analytics services with the Elastic (ELK) suite at the INFN-CNAF computing centre
CN113179173A (zh) 一种用于高速公路系统的运维监控系统
CN114356499A (zh) Kubernetes集群告警根因分析方法及装置
CN115766768A (zh) 一种算力网络操作系统中感知中枢设计方法及装置
CN112882892B (zh) 数据处理方法和装置、电子设备及存储介质
CN114756301A (zh) 日志处理方法、装置和系统
KR20100003597A (ko) 통합 성능 모니터링 방법 및 모니터링 시스템
CN113138896A (zh) 一种应用运行情况的监控方法、装置和设备
CN113852199B (zh) 一种多维度的配电自动化巡检系统
Li et al. A sensor-based approach to symptom recognition for autonomic systems
CN117614853A (zh) 云原生环境下的告警监控方法、系统、设备及介质
Kleehaus et al. Multi-layer monitoring and visualization
CN112448840B (zh) 一种通信数据质量监控方法、装置、服务器及存储介质
Suwalska et al. Integration, Processing, Analysis Methodologies and Tools for Ensuring High Data Quality and Rapid Data Access in the TIM* Monitoring System

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination