CN105872068A - 一种云平台以及基于该云平台的自动化运检方法 - Google Patents

一种云平台以及基于该云平台的自动化运检方法 Download PDF

Info

Publication number
CN105872068A
CN105872068A CN201610273953.4A CN201610273953A CN105872068A CN 105872068 A CN105872068 A CN 105872068A CN 201610273953 A CN201610273953 A CN 201610273953A CN 105872068 A CN105872068 A CN 105872068A
Authority
CN
China
Prior art keywords
cloud platform
confidence level
platform
result
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610273953.4A
Other languages
English (en)
Inventor
戚伟强
蒋鸿城
陈顺德
沈潇军
裘炜浩
洪建光
钟俊
钟一俊
倪阳旦
沈志豪
徐柳婧
王红凯
龚小刚
裴旭斌
黄海潮
谢若承
孙歆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
State Grid Zhejiang Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, State Grid Zhejiang Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Zhejiang Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN201610273953.4A priority Critical patent/CN105872068A/zh
Publication of CN105872068A publication Critical patent/CN105872068A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/60Software deployment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/70Software maintenance or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0631Resource planning, allocation, distributing or scheduling for enterprises or organisations
    • G06Q10/06311Scheduling, planning or task assignment for a person or group
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/06Energy or water supply
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Evolutionary Computation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Mathematical Physics (AREA)
  • Tourism & Hospitality (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Water Supply & Treatment (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Primary Health Care (AREA)
  • Game Theory and Decision Science (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明的目的在于提供一种云平台以及基于该云平台的运检方法,通过软硬件结合的方式,提供一种高效的服务平台以及配套的业务流程来克服现有技术中工作效率低的问题。为了实现所述目的,本发明一种云平台,至少包括计算、网络、存储功能模块,还包括运维自动化配套功能模块,以及展示交互UI,所述云平台至少还带有一个具备自我学习的知识库模块以及能够根据知识库模块的定义要求,自动调度指定处理脚本,并进行相应的结果处理和通知、保存的自动处理模块。通过这样的设置,本发明基于云的自动化运检方法提供一个可自我学习的硬件平台,并且能一定程度上进行自动管理的智能化平台。并且基于该平台设计服务流程。

Description

一种云平台以及基于该云平台的自动化运检方法
技术领域
本发明涉及一种电网内部管理系统,尤其涉及一种云平台以及基于该云平台的自动化运检方法。
背景技术
随着科技的发展,各个大公司的信息化逐步向云计算转变。以国家电网为例,数据中心陆续开展软硬件资源池建设,向云计算数据中心演进,以支撑公司信息化发展和智能电网建设。云计算数据中心部署海量的信息设备,提供基础设施服务、平台服务和软件服务三类服务。云计算时代,要求计算服务敏捷、快速部署,高效、按需分配资源,平稳、安全运行,传统的手工安装部署系统、人工对设备监控、操作的工作模式已经无法满足现在信息系统快速部署和高效运行的需要。
随着信息系统规模不断扩大,公司硬件设备及基础设施快速扩充,发展过程中的遇到问题也越来越突出,主要有以下几个方面:
1.硬件资源利用率低,建设和运营成本较高。大部分省市机房占用率超过90%,机柜占用率超过60%,计算资源平均利用率不足15%,存储资源平均利用率不足20%,配套基础设备的建设运营成本和总体能耗持续刚性增长。必须通过资源整合达到资源统一管理、高效利用的目的。
2.信息系统运维人员严重缺乏,不能满足日益增长的业务需求。目前国网浙江信通公司日常运维工作覆盖基础环境、网络、信息系统以及上层业务应用系用的调度、运行和检修工作。由于信息系统的物理位置上比较分散,目前采用的传统运维方式需要大量的运维人员,且所需人员数量与公司定员标准数量存在较大差距,短时间内无法解决结构性缺员问题。而且随着业务拓展,人员缺乏的问题会越来越突出,所以寻找自动化运维方式,减少运维工作量,通过自动化的工具系统提升运维工作价值密度才是解决这个问题的唯一手段。
3.运行检修手段主要是针对传统的IT环境,在云计算、大数据浪潮下,稍显落后,知识经验不够,无法对云计算浪潮下计算环境进行有效的运维,加大了云计算、大数据等新技术的推广运维难度,导致较难满足新业务发展。
4.信息系统上线、升级、恢复周期长,影响工作效率。在信息系统实施部署、软件升级和故障恢复时,人工批量操作存在操作复杂、易出错、施工周期长等问题。必须通过智能化管理运维工作,对信息系统的安装、升级、恢复等工作流程实现自动化,减少运维工作量,提高工作效率。
5.中间件配置管理复杂,容易出错。信息系统使用例如weblogic、数据库、hadoop集群、分布式文件系统等中间件时,由人工进行中间件配置效率低、容易出错,不利于未来信息系统环境的智能化发展。需要建立统一服务平台来提供自动化服务。
6.安全性较差,无法统一实施安全保障措施。由于信息系统的物理位置具有分散性,施工周期也有很大不同,在实施安全措施时往往有不同方案,这给运维造成了极大不便,也存在较大的安全隐患。必须通过统一管理平台,采取集中式管理的方式,对信息系统进行安全策略加固。
7.硬件系统与应用系统的紧耦合,不利于集中式数据中心的建设。现有应用系统主要基于硬件服务器构建,硬件资源与应用系统形成紧密耦合关系,不利于硬件资源向集中式数据中心的快速,平滑迁移。
8.硬件资源建设模式比较粗放,缺少精确量化的管控决策手段。新建应用一般无法分配利用其它应用的服务器富余可用资源,常常需要购置新的服务器,对建设过程中涉及的资源容量增长需求缺乏精确量化的决策依据。
由此可见,我们现在亟需一种高效的服务平台以及配套方案来克服这些问题。
发明内容
本发明的目的在于提供一种云平台以及基于该云平台的运检方法,通过软硬件结合的方式,提供一种高效的服务平台以及配套的业务流程来克服现有技术中工作效率低的问题。
为了实现所述目的,本发明一种云平台,至少包括计算、网络、存储功能模块,还包括运维自动化配套功能模块,以及展示交互UI,所述云平台至少还带有一个具备自我学习的知识库模块以及能够根据知识库模块的定义要求,自动调度指定处理脚本,并进行相应的结果处理和通知、保存的自动处理模块,所述知识库模块的自学习体现在对推理规则置信度CF的调整上,考虑初始置信度CF0、调整前的置信度CF1以及置信度的累计调整次数这三个参数;其中,初始置信度是通过统计得到的固定数值;调整前的置信度为当前的环境下的数值;置信度的累计调整次数体现的是该规则被用来进行巡检调整并获得成功的次数;通过上面的分析,并结合数据拟合,得到调整后的置信度为:
C F = C F 1 + R C F 1 = C F 0 C F 1 + C F 1 - C F 0 C F 1 R C F 1 ≠ C F 0
上式中的R为增长的基数,取值如下:
R = 0.10 C F 1 &le; 0.3 0.08 C F 1 &le; 0.6 0.05 C F 1 &le; 0.8 0.02 C F 1 &le; 0.9 0.01 C F 1 < 1.0 .
优选的,置信度不大于1,调整前置信度是1的规则不再调整置信度;按照上述方案调整后置信度的理论值大于1时,将该规则的置信度设为1,完成自我学习的过程。
优选的,资源申请及分配工作流程、自动巡检工作流程和应用软件自动发布流程。这几个流程的优化能极大提高工作的效率。
优选的,所述资源申请及分配工作流程包括:以下步骤:
步骤1:用户通过ITIL发起请求;
步骤2:云平台通过RestFul协议接受到请求;
步骤3:云平台判断请求所需资源是否满足要求;
步骤4:如果满足,创建分配资源;
步骤5:云平台通过RESTFul协议返回请求结果。
ITIL即IT基础架构库(Information Technology Infrastructure Library,ITIL,信息技术基础架构库)由英国政府部门CCTA(Central Computingand Telecommunications Agency)在20世纪80年代末制订,现由英国商务部OGC(Office of Government Commerce)负责管理,主要适用于IT服务管理(ITSM)。ITIL为企业的IT服务管理实践提供了一个客观、严谨、可量化的标准和规范。
RestFul的关键是定义可表示流程元素/资源的对象。在REST中,每一个对象都是通过URL来表示的,对象用户负责将状态信息打包进每一条消息内,以便对象的处理总是无状态的。同时其还提供了组合管理及流程绑定。基于此,本发明的流程是完全规范而高效的。
优选的,应用软件自动发布流程为:
步骤1:用户通过管理界面设置软件发布的策略、上传软件;
步骤2:软件发布服务执行操作;
步骤3:返回操作结果保存在数据库中;
步骤4:管理界面从数据库中获取结果并展示;
步骤5:用户通过管理界面查看操作结果。
整个自动发布流程遵循便捷高效的理念,并且确保过程可见和可控,相当人性化。
优选的,自动巡检工作流程为:
步骤1:用户通过巡检监控的管理界面设置规则;
步骤2:巡检服务器根据规则在对应对象上进行设置;
步骤3:巡检服务器根据规则周期性采集数据,存入数据库中;
步骤4:实时分析告警模块根据数据库的数据进行分析;
步骤5:根据分析结果到知识库进行查询匹配;
步骤6:根据匹配的结果和已经定义好的自动化处理动作,进
行自动化处理;
步骤7:结果须同时保存在数据库中。
优选的,所述步骤4中分析结果异常如需告警,则把结果通知用户。自动巡检工作流程确保全方位无死角的检查,同时保证发现问题后能及时警告。
优选的,在各个流程中均采用资源自动伸缩工作流程,资源自动伸缩工作流程具体表现为:在所述作业过程中,平台监控采集监控weblogic负载数据;如发现负载过高,创建新节点或者实例,加入集群;如发现负载过低,从集群中删除节点或者实例。这样能根据平台的负载,最大化利用硬件资源。
综上,本发明中自我学习机制通过对实际工作环境中的经验搜集和总结、对运检专家提供的运检方法的归纳,自动生成基于云的运检知识库,不依赖于任何的硬件设备,而是通过算法实现的一种机制。
通过这样的设置,本发明基于云的自动化运检方法提供一个可自我学习的硬件平台,并且能一定程度上进行自动管理的智能化平台。并且基于该平台设计服务流程。这样的高效结合完全可以适应海量的数据管理。
具体实施方式
本发明知识库中的知识采用的是产生式规则表示法,表示形式为:{IF<P>THEN<R>,CF(R,P),CF0(R,P)},表示当P成立时,得到结论R的可信度为CF(R,P)。其中,IF部分称为“前提部分”,也称为“前件”,前件P为合取式。例如,P=P1^P2^P3^…;THEN部分称为“结论部分”,也称为“后件”;CF(R,P)表示规则的置信度,取值区间为[0,1];CF0(R,P)表示规则的初始置信度,取值区间为[0,1]。
所述知识库模块的自学习体现在对推理规则置信度CF的调整上,考虑初始置信度CF0、调整前的置信度CF1以及置信度的累计调整次数这三个参数;其中,初始置信度是通过统计得到的固定数值;调整前的置信度为当前的环境下的数值;置信度的累计调整次数体现的是该规则被用来进行巡检调整并获得成功的次数;通过上面的分析,并结合数据拟合,得到调整后的置信度为:
C F = C F 1 + R C F 1 = C F 0 C F 1 + C F 1 - C F 0 C F 1 R C F 1 &NotEqual; C F 0
上式中的R为增长的基数,取值如下:
R = 0.10 C F 1 &le; 0.3 0.08 C F 1 &le; 0.6 0.05 C F 1 &le; 0.8 0.02 C F 1 &le; 0.9 0.01 C F 1 < 1.0 .
置信度不大于1,调整前置信度是1的规则不再调整置信度;按照上述方案调整后置信度的理论值大于1时,将该规则的置信度设为1,完成自我学习的过程。
涉及云平台的安装。
1.控制/网络节点安装
解压安装文件到root目录
修改install.sh脚本,controller_host为控制节点IP地址,neutron_data_nic为数据网络网卡名字,如eth1
执行./install.sh controller命令,开始安装控制节点
2.计算节点安装
执行./install.sh nova‐compute命令,开始安装计算节点
3.存储节点安装
根据选择的不同存储类型,进行安装设置,这里选择Ceph作为存储,Ceph它是一个分布式文件系统,能够在维护POSIX兼容性的同时加入了复制和容错功能。
安装方法如下:
安装ceph到root目录
配置好所有的物理服务器之间ssh免密码登录,修改install.sh脚本,mon_hosts为所有的monitor节点的IP地址,osd_hosts为所有的osd节点的IP地址。
执行./install.sh命令,开始安装Ceph分布式存储
4.巡检服务端安装配置
安装巡检服务端到root目录
执行./install.sh命令,开始安装和配置Zabbix监控巡检服务端
5.软件自动发布服务端安装配置
安装自动发布服务端到root目录
执行./install.sh命令,开始安装和配置puppet服务端
6.Weblogic服务安装配置
安装Weblogic服务到root目录
配置好所有物理节点之间ssh免密码登录,并在该节点上安装好expect工具,然后修改install.sh脚本,domain_path为域路径,nodes_list为受控节点的IP地址,user为管理WebLogic的用户名,password为密码,其他可以不修改,保留默认配置
执行./install.sh命令,开始安装WebLogic集群。
基于云平台的自动化运检平台集成了weblogic,支持weblogic的所有部署方式。通过集成weblogic,国网的应用服务可以自动化地部署在云平台的weblogic中,云平台将提供如下自动化支持:
自动化部署
云平台通过应用服务模板的方式,按定义自动为国网应用分配weblogic应用服务器进行部署。并且根据配置的不同,可以灵活地配置使用上文中的3种体系架构。
自动伸缩
云平台集成了对weblogic服务的监控体系,根据实时的监控指标以及预定义的处理逻辑,云平台可以实现weblogic服务的自动伸缩。当业务压力激增时,云平台可以动态增加部署在WebLogic Server群集中的应用程序的容量以满足需要。富余时可以动态的回缩。整个过程不会中断服务,应用程序将继续运行而不会影响客户端和最终用户。
高可用
云平台可以自动处理weblogic集群中部署的应用故障,为国网的应用提供自动的故障转移和失败的受管服务自动迁移。当服务器实例失败时应用程序可继续进行处理。云平台自动将应用程序组件部署到群集中的多个服务器实例“群集”。如果在其上运行某个组件的服务器实例失败,则将此组件部署到的其他服务器实例可以继续进行应用程序处理。云平台上群集WebLogic Server实例的选择对于应用程序开发人员和客户端是透明的。
具体而言,集成了weblogic的云平台通过使用“会话复制”和“可识别副本的存根控件”技术,如果某个特定对象意外地停止进行其作业,复制技术将启用此对象的副本将拾取失败对象停止的位置,并完成作业。通过集成自动迁移配置,当受管服务失败时将被自动迁移到另一台计算机。简化重新定位受管服务器的过程以及其承载的所有服务是规划系统管理进程的一部分。服务器迁移过程会将整个受管服务器(包括IP地址和承载的应用程序)重新定位到预先定义的可用主机集中的一个。
负载均衡
云平台通过确保“执行特定作业的对象有多可用个副本”和“所有对象的位置和操作状态的信息必须可用”,保证部署在云平台上的国网应用可以自动地使用weblogic的负载均衡功能,即在环境中跨计算资源与网络资源平均分发作业和关联的通信。
ITIL是工作流系统,新业务上线,或者测试需要等各种情况,需要服务器、存储等物理需要时,通过ITIL系统提出申请,领导审批通过后,再通过IT管理人员创建分配资源,交付给所需业务系统。
用户通过ITTL系统提交资源申请,ITIL系统通过RESTFul协议和云进行交互,并获得云中资源创建的结果;把结果返回给用户。
Zabbix是一个基于web界面的分布式企业级开源监控解决方案,具备丰富的功能,可以监控网络、主机、存储等,并进行告警通知;图形美观,界面易用,容易二次开发和集成,方便对自定义服务进行检查监控。
在openstack云环境中,如果仅是简单的CPU、内存、网络、存储等主机常见性能指标,是不需要zabbix的;当需要更加复杂、灵活的功能时,可集成zabbix。
自动化巡检采集的所有信息,都会发送到zabbix服务器。巡检服务器可以是物理机,也可以是虚拟机;数据对象包括CPU、内存、网络、存储(包含分布式存储)、核心进程、业务系统等。数据更新频率可定义,并可以通过图表展现。Zabbix服务器本身可以是独立的物理服务器,也可以共用openstack控制节点。
1)对象存储。在概念上类似于Amazon S3服务,不过它具有很强的扩展性、冗余和持久性,也兼容S3API。对象存储支持多种应用,比如复制和存档数据、图像或视频服务,存储次级静态数据,开发数据存储整合的新应用,存储容量难以估计的数据,为Web应用创建基于云的弹性存储。
2)虚拟机镜像存储。镜像服务支持多种虚拟机镜像格式,包括VMware(VMDK)、Amazon镜像(AKI、ARI、AMI)以及VirtualBox所支持的各种磁盘格式。镜像元数据的容器格式包括Amazon的AKI、ARI以及AMI信息,标准OVF格式以及二进制大型数据。
3)块存储。类似于Amazon的EBS块存储服务,本方案中的虚拟机实例是不能持久化的,需要挂载volume,在volume中实现持久化。块存储就是提供对volume实际需要的存储块单元的实现管理功能。
基于该云平台,至少可以实现资源申请及分配工作流程、自动巡检工作流程和应用软件自动发布流程。
其中:所述资源申请及分配工作流程包括:以下步骤:
步骤1:用户通过ITIL发起请求;
步骤2:云平台通过RestFul协议接受到请求;
步骤3:云平台判断请求所需资源是否满足要求;
步骤4:如果满足,创建分配资源;
步骤5:云平台通过RESTFul协议返回请求结果。
其中:应用软件自动发布流程为:
步骤1:用户通过管理界面设置软件发布的策略、上传软件;
步骤2:软件发布服务执行操作;
步骤3:返回操作结果保存在数据库中;
步骤4:管理界面从数据库中获取结果并展示;
步骤5:用户通过管理界面查看操作结果。
软件发布流程中的发布策略,指的是软件的全生命周期管理,包括软件安装包管理、软件安装参数管理、安装对象管理、软件初始化、软件升级、软件卸载。以MySQL软件的发布为例,发布策略中包括MySQL软件包、MySQL软件安装命令、安装参数(如安装路径等)、需要安装的节点、初始化操作(如用户名和密码)以及软件的升级和卸载操作。
其中:自动巡检工作流程为:
步骤1:用户通过巡检监控的管理界面设置规则;
步骤2:巡检服务器根据规则在对应对象上进行设置;
步骤3:巡检服务器根据规则周期性采集数据,存入数据库中;
步骤4:实时分析告警模块根据数据库的数据进行分析;
步骤5:根据分析结果到知识库进行查询匹配;
步骤6:根据匹配的结果和已经定义好的自动化处理动作,进行自动化处理;
步骤7:结果须同时保存在数据库中。且所述步骤4中分析结果异常如需告警,则把结果通知用户。
巡检的项目主要包括对服务器性能巡检项目、安全巡检项目以及网络巡检项目等。下表中举例列出常见的巡检规则:
综合性的,在各个流程中均采用资源自动伸缩工作流程,资源自动伸缩工作流程具体表现为:在所述作业过程中,平台监控采集监控weblogic负载数据;如发现负载过高,创建新节点或者实例,加入集群;如发现负载过低,从集群中删除节点或者实例。
负载高低多数情况下指一段时间内CPU上任务队列的长度,或者说一段时间内一共有多少任务在使用或等待使用CPU。系统的负载可以通过执行系统命令获得,如top,uptime等。若用top命令,则会获得如下结果:
19:12:54up 0min,1user,load average:0.19,0.07,0.02
0.19、0.07和0.02分别指的是1分钟、5分钟和15分钟内CPU的平均负载。系统负载的判读标准,因系统不同而不同,但通常情况下,CPU负载小于等于0.7算是一种理想状态。
通过这样的方案,本发明能完全应付国家电网天文数字般的数据处理,并且在处理过程中自身不断学习,在冗余不断增加降低平台效率的同时,通过自身流程的自我完善和优化,确保数据处理的效率。

Claims (8)

1.一种云平台,至少包括计算、网络、存储功能模块,还包括运维自动化配套功能模块,以及展示交互UI,其特征在于,所述云平台至少还带有一个具备自我学习的知识库模块以及能够根据知识库模块的定义要求,自动调度指定处理脚本,并进行相应的结果处理和通知、保存的自动处理模块,所述知识库模块的自学习体现在对推理规则置信度CF的调整上,考虑初始置信度CF0、调整前的置信度CF1以及置信度的累计调整次数这三个参数;通过上面的分析,并结合数据拟合,得到调整后的置信度为:
C F = C F 1 + R C F 1 = C F 0 C F 1 + C F 1 - C F 0 C F 1 R C F 1 &NotEqual; C F 0
上式中的R为增长的基数,取值如下:
R = 0.10 C F 1 &le; 0.3 0.08 C F 1 &le; 0.6 0.05 C F 1 &le; 0.8 0.02 C F 1 &le; 0.9 0.01 C F 1 < 1.0 .
2.如权利要求1所述的云平台,其特征在于:置信度不大于1,调整前置信度是1的规则不再调整置信度;按照上述方案调整后置信度的理论值大于1时,将该规则的置信度设为1,完成自我学习的过程。
3.一种基于权利要求1或2所述云平台的自动化运检方法,其特征在于,包括:资源申请及分配工作流程、自动巡检工作流程和应用软件自动发布流程。
4.根据权利要求3所述基于云平台的自动化运检方法,其特征在于,所述资源申请及分配工作流程包括:以下步骤:
步骤1:用户通过ITIL发起请求;
步骤2:云平台通过RestFul协议接受到请求;
步骤3:云平台判断请求所需资源是否满足要求;
步骤4:如果满足,创建分配资源;
步骤5:云平台通过RESTFul协议返回请求结果。
5.根据权利要求3所述基于云平台的自动化运检方法,其特征在于,应用软件自动发布流程为:
步骤1:用户通过管理界面设置软件发布的策略、上传软件;
步骤2:软件发布服务执行操作;
步骤3:返回操作结果保存在数据库中;
步骤4:管理界面从数据库中获取结果并展示;
步骤5:用户通过管理界面查看操作结果。
6.根据权利要求3所述基于云平台的自动化运检方法,其特征在于,自动巡检工作流程为:
步骤1:用户通过巡检监控的管理界面设置规则;
步骤2:巡检服务器根据规则在对应对象上进行设置;
步骤3:巡检服务器根据规则周期性采集数据,存入数据库中;
步骤4:实时分析告警模块根据数据库的数据进行分析;
步骤5:根据分析结果到知识库进行查询匹配;
步骤6:根据匹配的结果和已经定义好的自动化处理动作,进行自动化处理;
步骤7:结果须同时保存在数据库中。
7.根据权利要求6所述基于云平台的自动化运检方法,其特征在于,
所述步骤4中分析结果异常如需告警,则把结果通知用户。
8.根据权利要求3-7其中任一所述基于云平台的自动化运检方法,其特征在于,在各个流程中均采用资源自动伸缩工作流程,资源自动伸缩工作流程具体表现为:在所述作业过程中,平台监控采集监控weblogic负载数据;如发现负载过高,创建新节点或者实例,加入集群;如发现负载过低,从集群中删除节点或者实例。
CN201610273953.4A 2016-04-28 2016-04-28 一种云平台以及基于该云平台的自动化运检方法 Pending CN105872068A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610273953.4A CN105872068A (zh) 2016-04-28 2016-04-28 一种云平台以及基于该云平台的自动化运检方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610273953.4A CN105872068A (zh) 2016-04-28 2016-04-28 一种云平台以及基于该云平台的自动化运检方法

Publications (1)

Publication Number Publication Date
CN105872068A true CN105872068A (zh) 2016-08-17

Family

ID=56629611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610273953.4A Pending CN105872068A (zh) 2016-04-28 2016-04-28 一种云平台以及基于该云平台的自动化运检方法

Country Status (1)

Country Link
CN (1) CN105872068A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106331092A (zh) * 2016-08-23 2017-01-11 浪潮电子信息产业股份有限公司 一种基于hadoop大数据平台的应用服务系统及部署方法
CN106329726A (zh) * 2016-08-26 2017-01-11 中国电力科学研究院 一种基于Hadoop平台的光伏电站远程运行管理系统的架构方法
CN106982141A (zh) * 2017-04-13 2017-07-25 中国联合网络通信集团有限公司 Weblogic实例监控方法及装置
CN107070720A (zh) * 2017-04-26 2017-08-18 深圳市神云科技有限公司 云平台异常事件的监控及自动处理的方法和框架
CN107680194A (zh) * 2017-09-22 2018-02-09 国网天津市电力公司 一种电力企业信息系统自动化巡检系统
CN107800565A (zh) * 2017-08-31 2018-03-13 平安科技(深圳)有限公司 巡检方法、装置、系统、计算机设备和存储介质
CN107948259A (zh) * 2017-11-14 2018-04-20 郑州云海信息技术有限公司 一种云服务器资源的配置方法和配置系统
CN108712306A (zh) * 2018-05-10 2018-10-26 国网宁夏电力有限公司信息通信公司 一种信息系统自动化巡检平台和巡检方法
CN108924217A (zh) * 2018-06-29 2018-11-30 中山大学 一种分布式云系统自动化部署方法
CN109327343A (zh) * 2018-11-27 2019-02-12 武汉烽火信息集成技术有限公司 用于openstack云环境的自动化巡检方法及系统
CN109632293A (zh) * 2018-12-29 2019-04-16 河南理工大学 一种基于云平台的齿轮云测量系统及齿轮云测量方法
CN109800133A (zh) * 2019-01-28 2019-05-24 浪潮软件集团有限公司 一种统一监控告警的方法、一站式监控告警平台及系统
CN110971642A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 云计算平台数据处理方法和装置
CN112749053A (zh) * 2020-12-14 2021-05-04 北京同有飞骥科技股份有限公司 一种基于云平台的智能故障监听及智能修复管理系统
CN113419923A (zh) * 2021-07-21 2021-09-21 成都晶宝星云科技有限公司 自动化平台巡检方法
CN114356442A (zh) * 2021-12-22 2022-04-15 中核武汉核电运行技术股份有限公司 一种面向核电厂软件运维的分布式系统的巡检系统和方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102724057A (zh) * 2012-02-23 2012-10-10 北京市计算中心 一种面向云计算平台的分布式层次化自主管理方法
CN103079219A (zh) * 2011-10-26 2013-05-01 艾默生网络能源有限公司 基站自动巡检数字管理系统和方法
CN104463492A (zh) * 2014-12-23 2015-03-25 国家电网公司 一种电力系统云仿真平台的运营管理方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103079219A (zh) * 2011-10-26 2013-05-01 艾默生网络能源有限公司 基站自动巡检数字管理系统和方法
CN102724057A (zh) * 2012-02-23 2012-10-10 北京市计算中心 一种面向云计算平台的分布式层次化自主管理方法
CN104463492A (zh) * 2014-12-23 2015-03-25 国家电网公司 一种电力系统云仿真平台的运营管理方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张艳辉: "云平台运维管理探析", 《信息技术与标准化》 *
陈秀英: "基于自学习机制的网络故障诊断专家系统研究", 《指挥信息系统与技术》 *

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106331092A (zh) * 2016-08-23 2017-01-11 浪潮电子信息产业股份有限公司 一种基于hadoop大数据平台的应用服务系统及部署方法
CN106329726A (zh) * 2016-08-26 2017-01-11 中国电力科学研究院 一种基于Hadoop平台的光伏电站远程运行管理系统的架构方法
CN106329726B (zh) * 2016-08-26 2021-01-15 中国电力科学研究院有限公司 一种基于Hadoop平台的光伏电站远程运行管理系统
CN106982141A (zh) * 2017-04-13 2017-07-25 中国联合网络通信集团有限公司 Weblogic实例监控方法及装置
CN107070720A (zh) * 2017-04-26 2017-08-18 深圳市神云科技有限公司 云平台异常事件的监控及自动处理的方法和框架
CN107800565A (zh) * 2017-08-31 2018-03-13 平安科技(深圳)有限公司 巡检方法、装置、系统、计算机设备和存储介质
CN107800565B (zh) * 2017-08-31 2020-03-06 平安科技(深圳)有限公司 巡检方法、装置、系统、计算机设备和存储介质
CN107680194A (zh) * 2017-09-22 2018-02-09 国网天津市电力公司 一种电力企业信息系统自动化巡检系统
CN107948259A (zh) * 2017-11-14 2018-04-20 郑州云海信息技术有限公司 一种云服务器资源的配置方法和配置系统
CN108712306A (zh) * 2018-05-10 2018-10-26 国网宁夏电力有限公司信息通信公司 一种信息系统自动化巡检平台和巡检方法
CN108924217B (zh) * 2018-06-29 2020-12-22 中山大学 一种分布式云系统自动化部署方法
CN108924217A (zh) * 2018-06-29 2018-11-30 中山大学 一种分布式云系统自动化部署方法
CN110971642B (zh) * 2018-09-30 2022-07-29 北京国双科技有限公司 云计算平台数据处理方法和装置
CN110971642A (zh) * 2018-09-30 2020-04-07 北京国双科技有限公司 云计算平台数据处理方法和装置
CN109327343B (zh) * 2018-11-27 2022-03-18 武汉烽火信息集成技术有限公司 用于openstack云环境的自动化巡检方法及系统
CN109327343A (zh) * 2018-11-27 2019-02-12 武汉烽火信息集成技术有限公司 用于openstack云环境的自动化巡检方法及系统
CN109632293A (zh) * 2018-12-29 2019-04-16 河南理工大学 一种基于云平台的齿轮云测量系统及齿轮云测量方法
CN109800133A (zh) * 2019-01-28 2019-05-24 浪潮软件集团有限公司 一种统一监控告警的方法、一站式监控告警平台及系统
CN112749053A (zh) * 2020-12-14 2021-05-04 北京同有飞骥科技股份有限公司 一种基于云平台的智能故障监听及智能修复管理系统
CN113419923A (zh) * 2021-07-21 2021-09-21 成都晶宝星云科技有限公司 自动化平台巡检方法
CN114356442A (zh) * 2021-12-22 2022-04-15 中核武汉核电运行技术股份有限公司 一种面向核电厂软件运维的分布式系统的巡检系统和方法
CN114356442B (zh) * 2021-12-22 2024-02-13 中核武汉核电运行技术股份有限公司 一种面向核电厂软件运维的分布式系统的巡检系统和方法

Similar Documents

Publication Publication Date Title
CN105872068A (zh) 一种云平台以及基于该云平台的自动化运检方法
Coutinho et al. Elasticity in cloud computing: a survey
CN105677486B (zh) 数据并行处理方法及系统
US11544288B2 (en) Systems and methods for managing distributed database deployments
US20190065241A1 (en) Orchestration service for multi-step recipe composition with flexible, topology-aware, and massive parallel execution
US20210141900A1 (en) Methods and systems for troubleshooting applications using streaming anomaly detection
US20190102384A1 (en) Autonomous multitenant database cloud service framework
US20170286518A1 (en) Systems and methods for managing distributed database deployments
US8943372B2 (en) Systems and methods for open and extensible integration of management domains in computation and orchestration of resource placement
WO2016101638A1 (zh) 一种电力系统云仿真平台的运营管理方法
CN105843182A (zh) 一种基于oms的电力调度事故预案系统及方法
CN107786616A (zh) 基于云端的主机智能监控系统
CN106844198A (zh) 一种分布式调度自动化测试平台及方法
US20180329812A1 (en) Conducting Automated Software Testing Using Centralized Controller And Distributed Test Host Servers
CN105786611A (zh) 一种分布式集群的任务调度方法及装置
CN107645410A (zh) 一种基于OpenStack云平台的虚拟机管理系统及方法
CN111026602A (zh) 一种云平台的健康巡检调度管理方法、装置及电子设备
US20170270024A1 (en) On-demand profiling based on event streaming architecture
CN110502213A (zh) 一种人工智能能力开发平台
CN107992392A (zh) 一种用于云渲染系统的自动监控修复系统和方法
CN105592122A (zh) 一种云平台监控方法以及云平台监控系统
CN108563455A (zh) 一种k-ux操作系统上中间件部署方法、系统及设备
CN102929769A (zh) 一种基于代理服务的虚拟机内部数据采集方法
CN112148578A (zh) 基于机器学习的it故障缺陷预测方法
CN113312145A (zh) 一种容器调度方法、装置、电子设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160817