CN112506625A - 一种业务自动启停控制方法 - Google Patents

一种业务自动启停控制方法 Download PDF

Info

Publication number
CN112506625A
CN112506625A CN202011280936.6A CN202011280936A CN112506625A CN 112506625 A CN112506625 A CN 112506625A CN 202011280936 A CN202011280936 A CN 202011280936A CN 112506625 A CN112506625 A CN 112506625A
Authority
CN
China
Prior art keywords
software
executing
service
starting
stop
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011280936.6A
Other languages
English (en)
Other versions
CN112506625B (zh
Inventor
张战云
赵现纲
林曼筠
卫兰
谢利子
国鹏
范存群
张玺
张宇
吴强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Satellite Meteorological Center
Original Assignee
National Satellite Meteorological Center
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Satellite Meteorological Center filed Critical National Satellite Meteorological Center
Priority to CN202011280936.6A priority Critical patent/CN112506625B/zh
Publication of CN112506625A publication Critical patent/CN112506625A/zh
Application granted granted Critical
Publication of CN112506625B publication Critical patent/CN112506625B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/485Task life-cycle, e.g. stopping, restarting, resuming execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Stored Programmes (AREA)

Abstract

本发明公开了一种业务自动启停控制方法,该方法包括:业务系统停止;支撑系统停止;支撑系统启动流程;业务系统启动。通过该方法,降低了业务系统和支撑软件及支撑软件之间的复杂性;增加了业务系统和支撑软件的确定性;实现了脚本变更的快速部署。

Description

一种业务自动启停控制方法
技术领域
本发明涉及风云二号F星和风云二号H星技术领域,具体来说,涉及一种业务自动启停控制方法。
背景技术
静止气象卫星风云二号F星、G星、H星业务启停,涉及到3个HMC(HardwareManagement Console)上面的6台服务器里的15个分区。业务系统涵盖多家公司开发和维护的SOCC、DPC、PDS等三大系统。支撑软件包括HA、JFD、LSF、GPFS、Sybase数据库、HMC等。
上述业务系统和支撑软件以及支撑软件之间有比较复杂的依赖关系。需要按照一定的顺序启动和停止相应的业务系统和支撑软件。
由于业务系统和支撑软件的复杂性和不确定性,执行启停脚本或者命令,并不能确保能按照预想完成。
发明内容
针对相关技术中的上述技术问题,本发明提出一种业务自动启停控制方法,能够克服现有技术的上述不足。
为实现上述技术目的,本发明的技术方案是这样实现的:
一种业务自动启停控制方法,该方法包括:
S1:业务系统停止;
所述步骤S1包括:
S11:以串行嵌套并行的方式在6台SOCC服务器上执行HA软件停止,在HA软件停止时,调用SOCC业务停止脚本,停止SOCC业务;
S12:以串行嵌套并行的方式在4台DPC服务器上执行业务停止脚本和HA停止命令,停止DPC业务;
S13:在2台PDS服务器上执行业务停止脚本和HA停止命令,停止PDS业务,其中,HA为支撑软件;
S2:支撑系统停止;
S3:支撑系统启动;
S4:业务系统启动;
所述步骤S2包括:
S21:以串行嵌套并行的方式在3台DPC服务器上执行JFD软件停止命令;
S22:在5台DPC服务器上执行LSF软件停止命令;
S23:调用Sybase数据库停止脚本,在2台Sybase服务器上停止HA软件;
S24:在SOCC2G的2台服务器上先卸载定标文件系统,再以串行嵌套并行的方式在13台服务器上执行GPFS软件停止命令:
S25:HMC分区关闭;
所述步骤S3包括:
S31:HMC分区启动;
S32:以并行方式在15台服务器上分别执行NTP服务启动命令和NTP服务启动检查脚本;
S33:以串行嵌套并行的方式在13台服务器上执行GPFS软件启动命令;
S34:调用Sybase数据库启动脚本在HA软件,在2台Sybase服务器上执行HA软件启动:
S35:以并行方式在3台DPC服务器上执行sendmail服务停止命令;
S36:在5台DPC服务器上执行LSF软件启动命令,启动LSF软件:
S37:以串行嵌套并行的方式在3台DPC服务器上执行JFD软件启动命令,启动JFD软件;
所述步骤S4包括:
S41:调用SOCC业务启动脚本,在6台SOCC服务器上执行HA软件启动:
S42:在2台PDS服务器上执行HA启动命令:
S43:以串行方式在4台DPC服务器上执行HA启动命令,再单独的执行DPC业务启动脚本,启动DPC业务:
所述步骤S23包括:
S231:以串行方式执行HA停止的系统命令,HA软件同时会调用Sybase数据库停止脚本,其中,服务器上运行的是不同的数据库;
S232:延时60秒;
S233:以并行方式在2台服务器上执行Sybase数据库停止检查脚本,检查Syabse数据库相关进程已停止,相关资源已释放;
S234:Sybase数据库停止人工检查;
所述步骤S24包括:
S241:在SOCC2G的2台服务器上先卸载定标文件系统;
S242:以并行方式在13台服务器上执行GPFS软件停止命令;
S243:延时60秒;
S244:以并行方式在13台服务器上执行GPFS软件停止检查脚本,检查GPFS软件相关进程和挂载的文件系统;
S245:GPFS软件停止人工检查;
所述步骤S33包括:
S331:以并行方式在13台服务器上分别执行GPFS软件启动命令;
S332:延时60秒;
S333:以并行方式在13台服务器上分别执行GPFS软件启动检查脚本,检查并确认GPFS软件相关进程存在,确认文件系统正确挂载;
S334:GPFS软件启动人工检查;
所述步骤S34包括:
S341:以串行方式按照顺序执行HA启动的系统命令,HA软件同时会调用Sybase数据库启动脚本;
S342:延时60秒;
S343:以并行方式在2台服务器上分别执行Sybase数据库启动检查脚本,检查并确认Syabse数据库相关进程启动;
S344:Sybase数据库启动人工检查;
S345:启动Websphere软件;
S346:执行Websphere软件启动检查脚本,检查Websphere软件相关进程已启动;
所述步骤S36包括:
S361:以串行方式按照顺序执行LSF软件启动命令;
S362:延时60秒;
S363:以并行方式在5台服务器上分别执行LSF软件启动检查脚本,检查并确认LSF软件相关进程启动;
S364:LSF软件启动人工检查;
所述步骤S37包括:
S371:以并行方式分别执行FGH星的JFD软件启动命令;
S372:延时60秒;
S373:以并行方式分别执行FGH星的JFD软件启动检查命令,检查并确认JFD软件进程启动;
S374:JFD软件启动人工检查;
所述步骤S41包括:
S411:以串行方式按照顺序执行HA启动的系统命令调用SOCC业务启动脚本;
S412:执行SOCC业务启动脚本,启动SOCC业务;
S413:延时60秒;
S414:以并行方式在3台集群中的1机上执行SOCC业务启动检查脚本,检查并确认SOCC业务相关进程启动;
S415:服务器上检查定标文件系统;
S416:挂载定标文件系统。
S417:以并行的方式在2台服务器执行文件系统挂载检查脚本;
S418:SOCC业务启动人工检查;
所述步骤S42包括:
S421:以串行方式按照顺序执行HA启动的系统命令,HA软件调用PDS业务启动脚本;
S422:时60秒;
S423:执行PDS业务启动检查脚本,检查并确认PDS业务相关进程启动;
S424:PDS业务启动人工检查;
所述步骤S43包括:
S431:以串行方式按照顺序执行HA启动的系统命令,HA软件同时调用SOCC业务启动脚本;
S432:以串行方式装载静态内存;
S433:延时60秒;
S434:以串行方式分别执行DPC业务启动脚本;
S435:延时60秒;
S436:以并行方式分别执行DPC业务启动检查脚本,检查并确认DPC业务相关进程已启动;
S437:DPC业务启动人工检查。
进一步的,所述步骤S11包括:
S111:以并行方式在3台集群中的2机上执行HA停止的系统命令;
S112:延时30秒;
S113:以并行方式在3台集群中的1机上执行HA停止的系统命令,HA软件调用SOCC业务停止脚本;
S114:在2H1机上执行SOCC业务停止脚本,停止H星的SOCC业务;
S115:延时60秒;
S116:以并行的方式在6台服务器执行SOCC业务停止检查脚本;
S117:SOCC业务停止人工检查。
进一步的,所述步骤S12包括:
S121:以并行方式执行FGH星的DPC业务停止脚本;
S122:延时60秒;
S123:以并行方式执行FGH星的DPC业务停止检查脚本;
S124:以串行方式按照顺序执行HA停止的系统命令;
S125:DPC业务停止人工检查。
进一步的,所述步骤S13包括:
S131:以串行方式按照顺序执行HA停止的系统命令,HA软件同时会调用PDS业务停止脚本;
S132:延时60秒;
S133:以并行方式执行PDS业务停止检查脚本,检查PDS业务相关进程已停止,相关资源已释放;
S134:PDS业务停止人工检查。
进一步的,所述步骤S21包括:
S211:以并行方式执行FGH星的JFD软件停止命令;
S212:延时300秒;
S213:以并行方式执行FGH星的JFD软件停止检查命令,检查JFD软件进程已停止,相关资源已释放;
S214:JFD软件停止人工检查。
进一步的,所述步骤S22包括:
S221:以串行方式按照顺序执行LSF软件停止命令;
S222:延时60秒;
S223:以并行方式在5台服务器上分别执行LSF软件停止检查脚本,检查LSF软件相关进程已停止,相关资源已释放;
S224:LSF软件停止人工检查。
本发明的有益效果:通过该方法,降低了业务系统和支撑软件及支撑软件之间的复杂性;增加了业务系统和支撑软件的确定性;实现了脚本变更的快速部署。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例所述的一种业务自动启停控制方法的流程框图;
图2是根据本发明实施例所述的业务系统停止的流程框图;
图3是根据本发明实施例所述的支撑系统停止的流程框图;
图4是根据本发明实施例所述的支撑系统启动的流程框图;
图5是根据本发明实施例所述的业务系统启动的流程框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员所获得的所有其他实施例,都属于本发明保护的范围。
如图1-5所示,根据本发明实施例所述的一种业务自动启停控制方法,包括:
S1:业务系统停止;
步骤S1包括:
S11:以串行嵌套并行的方式在6台SOCC服务器上执行HA软件停止,在HA软件停止时,调用SOCC业务停止脚本,停止SOCC业务;
S12:以串行嵌套并行的方式在4台DPC服务器上执行业务停止脚本和HA停止命令,停止DPC业务:
S13:在2台PDS服务器上执行业务停止脚本和HA停止命令,停止PDS业务,其中,HA为支撑软件:
S2:支撑系统停止;
S3:支撑系统启动;
S4:业务系统启动;
步骤S2包括:
S21:以串行嵌套并行的方式在3台DPC服务器上执行JFD软件停止命令;
S22:在5台DPC服务器上执行LSF软件停止命令;
S23:调用Sybase数据库停止脚本,在2台Sybase服务器上停止HA软件;
S24:在SOCC2G的2台服务器上先卸载定标文件系统,再以串行嵌套并行的方式在13台服务器上执行GPFS软件停止命令;
S25:HMC分区关闭;
步骤S3包括:
S31:HMC分区启动;
S32:以并行方式在15台服务器上分别执行NTP服务启动命令和NTP服务启动检查脚本;
S33:以串行嵌套并行的方式在13台服务器上执行GPFS软件启动命令;
S34:调用Sybase数据库启动脚本在HA软件,在2台Sybase服务器上执行HA软件启动;
S35:以并行方式在3台DPC服务器上执行sendmail服务停止命令;
S36:在5台DPC服务器上执行LSF软件启动命令,启动LSF软件;
S37:以串行嵌套并行的方式在3台DPC服务器上执行JFD软件启动命令,启动JFD软件;
所述步骤S4包括:
S41:调用SOCC业务启动脚本,在6台SOCC服务器上执行HA软件启动:
S42:在2台PDS服务器上执行HA启动命令;
S43:以串行方式在4台DPC服务器上执行HA启动命令,再单独的执行DPC业务启动脚本,启动DPC业务;
步骤S23包括:
S231:以串行方式执行HA停止的系统命令,HA软件同时会调用Sybase数据库停止脚本,其中,服务器上运行的是不同的数据库;
S232:延时60秒;
S233:以并行方式在2台服务器上执行Sybase数据库停止检查脚本,检查Syabse数据库相关进程已停止,相关资源已释放;
S234:Sybase数据库停止人工检查;
步骤S24包括:
S241:在SOCC2G的2台服务器上先卸载定标文件系统;
S242:以并行方式在13台服务器上执行GPFS软件停止命令;
S243:延时60秒;
S244:以并行方式在13台服务器上执行GPFS软件停止检查脚本,检查GPFS软件相关进程和挂载的文件系统;
S245:GPFS软件停止人工检查;
步骤S33包括:
S331:以并行方式在13台服务器上分别执行GPFS软件启动命令;
S332:延时60秒;
S333:以并行方式在13台服务器上分别执行GPFS软件启动检查脚本,检查并确认GPFS软件相关进程存在,确认文件系统正确挂载;
S334:GPFS软件启动人工检查;
步骤S34包括:
S341:以串行方式按照顺序执行HA启动的系统命令,HA软件同时会调用Sybase数据库启动脚本;
S342:延时60秒;
S343:以并行方式在2台服务器上分别执行Sybase数据库启动检查脚本,检查并确认Syabse数据库相关进程启动;
S344:Sybase数据库启动人工检查;
S345:启动Websphere软件;
S346:执行Websphere软件启动检查脚本,检查Websphere软件相关进程已启动;
步骤S36包括:
S361:以串行方式按照顺序执行LSF软件启动命令;
S362:延时60秒;
S363:以并行方式在5台服务器上分别执行LSF软件启动检查脚本,检查并确认LSF软件相关进程启动;
S364:LSF软件启动人工检查;
步骤S37包括:
S371:以并行方式分别执行FGH星的JFD软件启动命令;
S372:延时60秒;
S373:以并行方式分别执行FGH星的JFD软件启动检查命令,检查并确认JFD软件进程启动;
S374:JFD软件启动人工检查;
步骤S41包括:
S411:以串行方式按照顺序执行HA启动的系统命令调用SOCC业务启动脚本;
S412:执行SOCC业务启动脚本,启动SOCC业务;
S413:延时60秒;
S414:以并行方式在3台集群中的1机上执行SOCC业务启动检查脚本,检查并确认SOCC业务相关进程启动;
S415:服务器上检查定标文件系统;
S416:挂载定标文件系统。
S417:以并行的方式在2台服务器执行文件系统挂载检查脚本;
S418:SOCC业务启动人工检查;
步骤S42包括:
S421:以串行方式按照顺序执行HA启动的系统命令,HA软件调用PDS业务启动脚本;
S422:时60秒;
S423:执行PDS业务启动检查脚本,检查并确认PDS业务相关进程启动;
S424:PDS业务启动人工检查;
步骤S43包括:
S431:以串行方式按照顺序执行HA启动的系统命令,HA软件同时调用SOCC业务启动脚本;
S432:以串行方式装载静态内存;
S433:延时60秒;
S434:以串行方式分别执行DPC业务启动脚本;
S435:延时60秒;
S436:以并行方式分别执行DPC业务启动检查脚本,检查并确认DPC业务相关进程已启动;
S437:DPC业务启动人工检查。
步骤S11包括:
S111:以并行方式在3台集群中的2机上执行HA停止的系统命令;
S112:延时30秒;
S113:以并行方式在3台集群中的1机上执行HA停止的系统命令,HA软件调用SOCC业务停止脚本;
S114:在2H1机上执行SOCC业务停止脚本,停止H星的SOCC业务;
S115:延时60秒;
S116:以并行的方式在6台服务器执行SOCC业务停止检查脚本;
S117:SOCC业务停止人工检查。
步骤S12包括:
S121:以并行方式执行FGH星的DPC业务停止脚本;
S122:延时60秒;
S123:以并行方式执行FGH星的DPC业务停止检查脚本;
S124:以串行方式按照顺序执行HA停止的系统命令;
S125:DPC业务停止人工检查。
步骤S13包括:
S131:以串行方式按照顺序执行HA停止的系统命令,HA软件同时会调用PDS业务停止脚本;
S132:延时60秒;
S133:以并行方式执行PDS业务停止检查脚本,检查PDS业务相关进程已停止,相关资源已释放;
S134:PDS业务停止人工检查。
步骤S21包括:
S211:以并行方式执行FGH星的JFD软件停止命令;
S212:延时300秒;
S213:以并行方式执行FGH星的JFD软件停止检查命令,检查JFD软件进程已停止,相关资源已释放;
S214:JFD软件停止人工检查。
步骤S22包括:
S221:以串行方式按照顺序执行LSF软件停止命令;
S222:延时60秒;
S223:以并行方式在5台服务器上分别执行LSF软件停止检查脚本,检查LSF软件相关进程已停止,相关资源已释放;
S224:LSF软件停止人工检查。
为了方便理解本发明的上述技术方案,以下对本发明的上述技术方案进行详细说明。
复杂性
1、为了降低复杂性,依据风云二号启停操作手册梳理FGH星的启停规范,优化启停的全过程。共分为4个流程:业务系统停止、支撑软件停止、支撑软件启动、业务系统启动。设计停止步骤92个,启动步骤114个,增加延时节点16个,人工干预节点18个。并根据业务特点采用相应串联或并联方式执行。
2、将复杂的流程最后分解为一个个的节点(作业)。单个节点(作业)就是在目标机上以指定的用户运行脚本或者程序。
不确定性
“自动处理/人工处理”模式和节点的“重新运行”或“强制完成”两项功能配合处理流程中的不确定性。
1、编排开始执行后,进入自动处理模式,当某个作业执行失败时,进入人工处理模式。
2、对于执行失败的作业,可以“重新运行”或者“强制完成”。且可以多次“重新运行”。
3、编排在人工处理模式下,可以手动的处理当前可运行的作业(类似debug的单步调试)。
4、当所有的错误作业,通过“重新运行”或者“强制完成”状态变为成功后,也可以切换到自动处理模式,由引擎根据流程来自动执行。
便利性
1、目标机批量账号管理,维护在多个目标机上都存在且密码相同的账号,并应用到多个目标机上。如果密码变更,则只需要修改一次。
2、通过作业克隆及作业模板等功能能将相同的作业在大量的目标机上快速创建,如HA的启停在很多服务器上都会执行。
a)对于运行于少量目标机上的作业,可以使用作业克隆来实现,将现有的作业克隆,重新选择目标,保存后就可以快速生成作业。
b)对于运行于大量目标机上的作业,可以通过作业模板来实现,作业目标信息与作业基本相同,但是不选择目标,只输入账号名,生成作业时可以选择所有具有账号的目标机来生成作业。作业模板变更后也可以同步到上述作业。
3、通过发布管理可以快速的将脚本发布到目标机上实现脚本变更的快速部署。
算法
1、作业超时判断的HashedWheelTimer算法:环形结构可以根据超时时间的hash值(这个hash值实际上就是ticks&mask)将task分布到不同的槽位中,当tick到那个槽位时,只需要遍历那个槽位的task即可知道哪些任务会超时(而使用线性结构,你每次tick都需要遍历所有task),所以,我们任务量大的时候,相应的增加wheel的ticksPerWheel值,可以减少tick时遍历任务的个数。
2、同集群中的作业执行代理的Leader选举算法:
a)最早启动算法:集群中最早启动的代理作为Leader;
b)最小负载算法;集群中当前负载最小的代理作为Leader;
c)FastLeaderElection算法:所有的代理进行投票,经过多轮投票(选票PK、选票归档、统计投票),当前过半数代理作为Leader;
3、同集群中的作业分配给作业执行代理的算法:
a)随机法;将作业随机分配给一个作业执行代理;
b)轮训法;将作业按照顺序轮流分配给作业执行代理;
c)加权负载轮训法:根据服务器的配置计算出作业执行代理的权重,根据作业的历史执行时间计算出作业的权重,根据作业执行代理的权重和所有正在执行作业的权重,计算出作业执行代理当前的负载,将作业分配给当前负载最小的作业执行代理;
风云二号FGH星业务系统停止流程
SOCC业务
以串行嵌套并行的方式在6台SOCC服务器上执行HA软件停止,SOCC业务停止脚本在HA软件停止时调用,以便达到停止SOCC业务的目的:
1.以并行方式在3台集群中的2机上执行HA停止的系统命令(如果先在1机上执行会发生业务切换到2机上)。
2.延时30秒。
3.以并行方式在3台集群中的1机上执行HA停止的系统命令,HA软件同时会调用SOCC业务停止脚本。(H星的业务停止未配置到HA软件中,只会停止HA软件)
4.在2H1机上执行SOCC业务停止脚本,停止H星的SOCC业务,H星的业务停止未配置到HA软件中。
5.延时60秒。
6.以并行的方式在6台服务器执行SOCC业务停止检查脚本,检查SOCC业务相关进程已停止,相关资源已释放。
7.SOCC业务停止人工检查。
DPC业务
以串行嵌套并行的方式在4台DPC服务器上执行业务停止脚本和HA停止命令,来停止DPC业务:
1.以并行方式分别执行FGH星的DPC业务停止脚本。
2.延时60秒。
3.以并行方式分别执行FGH星的DPC业务停止检查脚本,检查DPC业务相关进程已停止,相关资源已释放。
4.以串行方式按照2f2、2f1、2h2、2h1的顺序执行HA停止的系统命令。
5.DPC业务停止人工检查。
PDS业务
在2台PDS服务器上执行业务停止脚本和HA停止命令,来停止PDS业务:
1.以串行方式按照2f2、2f1的顺序执行HA停止的系统命令,HA软件同时会调用PDS业务停止脚本。
2.延时60秒。
3.以并行方式分别执行PDS业务停止检查脚本,检查PDS业务相关进程已停止,相关资源已释放。
4.PDS业务停止人工检查。
风云二号FGH星支撑系统停止流程
JFD软件
以串行嵌套并行的方式在3台DPC服务器上执行JFD软件停止命令,来停止JFD软件:
1.以并行方式分别执行FGH星的JFD软件停止命令。
2.延时300秒。
3.以并行方式分别执行FGH星的JFD软件停止检查命令,检查JFD软件进程已停止,相关资源已释放。
4.JFD软件停止人工检查。
LSF软件
在5台DPC服务器上执行LSF软件停止命令,来停止LSF软件:
1.以串行方式按照2f1、2f2、2fr2、2h1、2h2的顺序执行LSF软件停止命令。
2.延时60秒。
3.以并行方式在5台服务器上分别执行LSF软件停止检查脚本,检查LSF软件相关进程已停止,相关资源已释放。
4.LSF软件停止人工检查。
Sybase数据库
在2台Sybase服务器上执行HA软件停止,Sybase数据库停止脚本在HA软件停止时调用:
1.以串行方式按照2f1、2f2的顺序执行HA停止的系统命令,HA软件同时会调用Sybase数据库停止脚本,2台服务器上跑的是不同的数据库,不存在HA切换的问题。
2.延时60秒。
3.以并行方式在2台服务器上分别执行Sybase数据库停止检查脚本,检查Syabse数据库相关进程已停止,相关资源已释放。
4.Sybase数据库停止人工检查。
GPFS软件
在SOCC2G的2台服务器上先卸载定标文件系统,再以串行嵌套并行的方式在13台服务器上执行GPFS软件停止命令,来停止GPFS软件:
1.在SOCC2G的2台服务器上先卸载定标文件系统。
2.以并行方式在13台服务器上分别执行GPFS软件停止命令。
3.延时60秒
4.以并行方式在13台服务器上分别执行GPFS软件停止检查脚本,检查GPFS软件相关进程已停止,挂载的文件系统已卸载。
5.GPFS软件停止人工检查。
HMC分区关闭
共涉及到3个HMC(160.14,160.16,240.3)管理的6台服务器的15个分区。
通过自主开发的HMC控制程序:
1.实现了查看分区状态、分区关闭、分区启动、查看主机、主机加电、主机下单等功能。
2.适配了3个不同的HMC版本。
3.通过自有的加密算法,HMC控制程序在验证启停系统传入的安全码有效的情况下,才会执行相应的操作。安全码具有过期失效,使用过失效等功能。
4.以并行方式在3个HMC上关闭15个分区。分区关闭后,以循环的方式获取HMC分区的状态,直到分区状态变为关闭。
风云二号FGH星支撑系统启动流程
HMC分区启动
共涉及到3个HMC(160.14,160.16,240.3)管理的6台服务器的15个分区。
通过自主开发的HMC控制程序:
1.实现了查看分区状态、分区关闭、分区启动、查看主机、主机加电、主机下单等功能。
2.适配了3个不同的HMC版本。
3.通过自有的加密算法,HMC控制程序在验证启停系统传入的安全码有效的情况下,才会执行相应的操作。安全码具有过期失效,使用过失效等功能。
4.以并行方式在3个HMC上启动15个分区。分区启动后,以循环的方式获取HMC分区的状态,直到分区状态变为启动。
5.延时300秒。
6.HMC状态正常后,还需要再等待一段时间,操作系统才正常。
7.HMC分区启动人工检查。
NTP服务
1.以并行方式在15台服务器上分别执行NTP服务启动命令和NTP服务启动检查脚本。
GPFS软件
以串行嵌套并行的方式在13台服务器上执行GPFS软件启动命令,来启动GPFS软件:
1.以并行方式在13台服务器上分别执行GPFS软件启动命令。
2.延时60秒
3.以并行方式在13台服务器上分别执行GPFS软件启动检查脚本,检查GPFS软件相关进程已存在,文件系统已正确挂载。
4.GPFS软件启动人工检查。
Sybase数据库和WebSphere软件
在2台Sybase服务器上执行HA软件启动,Sybase数据库启动脚本在HA软件启动时调用:
1.以串行方式按照2f1、2f2的顺序执行HA启动的系统命令,HA软件同时会调用Sybase数据库启动脚本,2台服务器上跑的是不同的数据库,不存在HA切换的问题。
2.延时60秒。
3.以并行方式在2台服务器上分别执行Sybase数据库启动检查脚本,检查Syabse数据库相关进程已启动。
4.Sybase数据库启动人工检查。
5.在2f1上启动Websphere软件。
6.在2f1上执行Websphere软件启动检查脚本,检查Websphere软件相关进程已启动。
sendmail服务
1.以并行方式在3台DPC服务器上执行sendmail服务停止命令。LSF软件在5台DPC服务器上执行LSF软件启动命令,来启动LSF软件:以串行方式按照2f1、2f2、2fr2、2h1、2h2的顺序执行LSF软件启动命令。
2.延时60秒。
3.以并行方式在5台服务器上分别执行LSF软件启动检查脚本,检查LSF软件相关进程已启动。
4.LSF软件启动人工检查。
JFD软件
以串行嵌套并行的方式在3台DPC服务器上执行JFD软件启动命令,来启动JFD软件:
1.以并行方式分别执行FGH星的JFD软件启动命令。
2.延时60秒。
3.以并行方式分别执行FGH星的JFD软件启动检查命令,检查JFD软件进程已启动。
4.JFD软件启动人工检查。
风云二号FGH星业务系统启动流程
SOCC业务
在6台SOCC服务器上执行HA软件启动,SOCC业务启动脚本在HA软件启动时调用,以便达到启动SOCC业务的目的:
1.以串行方式按照2f1、2f2、2g1、2g2、2h1、2h2的顺序执行HA启动的系统命令(先启动1机再启动2机),HA软件同时会调用SOCC业务启动脚本。
2.在2H1机上执行SOCC业务启动脚本,启动H星的SOCC业务,H星的业务启动未配置到HA软件中。
3.延时60秒。
4.以并行方式在3台集群中的1机上执行SOCC业务启动检查脚本,检查SOCC业务相关进程已启动。
5.DPC2F2服务器上检查定标文件系统。
6.SOCC2G1和SOCC2G2分别挂载定标文件系统。
7.以并行的方式在2台服务器执行文件系统挂载检查脚本,确保定标文件系统正确挂载。
8.SOCC业务启动人工检查。
PDS业务
在2台PDS服务器上执行HA启动命令,来启动PDS业务:
1.以串行方式按照2f1、2f2的顺序执行HA启动的系统命令,HA软件同时会调用PDS业务启动脚本。
2.延时60秒。
3.在pfs2f1上执行PDS业务启动检查脚本,检查PDS业务相关进程已启动。
4.PDS业务启动人工检查。
DPC业务
以串行方式在4台DPC服务器上执行HA启动命令,再单独的执行DPC业务启动脚本,来启动DPC业务:
1.以串行方式按照2f1、2h1、2f2、2h2的顺序执行HA启动的系统命令,HA软件同时会调用SOCC业务启动脚本。
2.以串行方式装载静态内存,DPC2F1装载2F,DPC2F2装载2G,DPC2FR2装载2G,DPC2H1装载2H,DPC2H2装载2H。
3.延时60秒。
4.以串行方式分别执行FGH星的DPC业务启动脚本。
5.延时60秒。
6.以并行方式分别执行FGH星的DPC业务启动检查脚本,检查DPC业务相关进程已启动。
7.DPC业务启动人工检查。
名词解释:
序号 英文缩写 中文
1. SOCC 系统运行控制中心
2. DPC 资料处理中心
3. PDS 产品分发系统
4. GPFS 并行文件系统
5. JFD 工作流进程
6. LSF 高性能负载管理软件
7. HMC 硬件管理控制台
8. NTP 网络时间协议
9. Websphere IBM软件平台
10. Sybase 数据库
综上所述,借助于本发明的上述技术方案,通过该方法,降低了业务系统和支撑软件及支撑软件之间的复杂性;增加了业务系统和支撑软件的确定性;实现了脚本变更的快速部署。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (7)

1.一种业务自动启停控制方法,其特征在于,包括:
S1:业务系统停止;
所述步骤S1包括:
S11:以串行嵌套并行的方式在6台SOCC服务器上执行HA软件停止,在HA软件停止时,调用SOCC业务停止脚本,停止SOCC业务;
S12:以串行嵌套并行的方式在4台DPC服务器上执行业务停止脚本和HA停止命令,停止DPC业务;
S13:在2台PDS服务器上执行业务停止脚本和HA停止命令,停止PDS业务,其中,HA为支撑软件;
S2:支撑系统停止;
S3:支撑系统启动;
S4:业务系统启动;
所述步骤S2包括:
S21:以串行嵌套并行的方式在3台DPC服务器上执行JFD软件停止命令;
S22:在5台DPC服务器上执行LSF软件停止命令;
S23:调用Sybase数据库停止脚本,在2台Sybase服务器上停止HA软件;
S24:在SOCC2G的2台服务器上先卸载定标文件系统,再以串行嵌套并行的方式在13台服务器上执行GPFS软件停止命令;
S25:HMC分区关闭;
所述步骤S3包括:
S31:HMC分区启动;
S32:以并行方式在15台服务器上分别执行NTP服务启动命令和NTP服务启动检查脚本;
S33:以串行嵌套并行的方式在13台服务器上执行GPFS软件启动命令;
S34:调用Sybase数据库启动脚本在HA软件,在2台Sybase服务器上执行HA软件启动;
S35:以并行方式在3台DPC服务器上执行sendmail服务停止命令;
S36:在5台DPC服务器上执行LSF软件启动命令,启动LSF软件;
S37:以串行嵌套并行的方式在3台DPC服务器上执行JFD软件启动命令,启动JFD软件;
所述步骤S4包括:
S41:调用SOCC业务启动脚本,在6台SOCC服务器上执行HA软件启动;
S42:在2台PDS服务器上执行HA启动命令;
S43:以串行方式在4台DPC服务器上执行HA启动命令,再单独的执行DPC业务启动脚本,启动DPC业务;
所述步骤S23包括:
S231:以串行方式执行HA停止的系统命令,HA软件同时会调用Sybase数据库停止脚本,其中,服务器上运行的是不同的数据库;
S232:延时60秒;
S233:以并行方式在2台服务器上执行Sybase数据库停止检查脚本,检查Syabse数据库相关进程已停止,相关资源已释放;
S234:Sybase数据库停止人工检查;
所述步骤S24包括:
S241:在SOCC2G的2台服务器上先卸载定标文件系统;
S242:以并行方式在13台服务器上执行GPFS软件停止命令;
S243:延时60秒;
S244:以并行方式在13台服务器上执行GPFS软件停止检查脚本,检查GPFS软件相关进程和挂载的文件系统;
S245:GPFS软件停止人工检查;
所述步骤S33包括:
S331:以并行方式在13台服务器上分别执行GPFS软件启动命令;
S332:延时60秒;
S333:以并行方式在13台服务器上分别执行GPFS软件启动检查脚本,检查并确认GPFS软件相关进程存在,确认文件系统正确挂载;
S334:GPFS软件启动人工检查;
所述步骤S34包括:
S341:以串行方式按照顺序执行HA启动的系统命令,HA软件同时会调用Sybase数据库启动脚本;
S342:延时60秒;
S343:以并行方式在2台服务器上分别执行Sybase数据库启动检查脚本,检查并确认Syabse数据库相关进程启动;
S344:Sybase数据库启动人工检查;
S345:启动Websphere软件;
S346:执行Websphere软件启动检查脚本,检查Websphere软件相关进程已启动;
所述步骤S36包括:
S361:以串行方式按照顺序执行LSF软件启动命令;
S362:延时60秒;
S363:以并行方式在5台服务器上分别执行LSF软件启动检查脚本,检查并确认LSF软件相关进程启动;
S364:LSF软件启动人工检查;
所述步骤S37包括:
S371:以并行方式分别执行FGH星的JFD软件启动命令;
S372:延时60秒;
S373:以并行方式分别执行FGH星的JFD软件启动检查命令,检查并确认JFD软件进程启动;
S374:JFD软件启动人工检查;
所述步骤S41包括:
S411:以串行方式按照顺序执行HA启动的系统命令调用SOCC业务启动脚本;
S412:执行SOCC业务启动脚本,启动SOCC业务;
S413:延时60秒;
S414:以并行方式在3台集群中的1机上执行SOCC业务启动检查脚本,检查并确认SOCC业务相关进程启动;
S415:服务器上检查定标文件系统;
S416:挂载定标文件系统。
2.S417:以并行的方式在2台服务器执行文件系统挂载检查脚本;
S418:SOCC业务启动人工检查;
所述步骤S42包括:
S421:以串行方式按照顺序执行HA启动的系统命令,HA软件调用PDS业务启动脚本;
S422:时60秒;
S423:执行PDS业务启动检查脚本,检查并确认PDS业务相关进程启动;
S424:PDS业务启动人工检查;
所述步骤S43包括:
S431:以串行方式按照顺序执行HA启动的系统命令,HA软件同时调用SOCC业务启动脚本;
S432:以串行方式装载静态内存;
S433:延时60秒;
S434:以串行方式分别执行DPC业务启动脚本;
S435:延时60秒;
S436:以并行方式分别执行DPC业务启动检查脚本,检查并确认DPC业务相关进程已启动;
S437:DPC业务启动人工检查。
3.根据权利要求1所述的一种业务自动启停控制方法,其特征在于,所述步骤S11包括:
S111:以并行方式在3台集群中的2机上执行HA停止的系统命令;
S112:延时30秒;
S113:以并行方式在3台集群中的1机上执行HA停止的系统命令,HA软件调用SOCC业务停止脚本;
S114:在2H1机上执行SOCC业务停止脚本,停止H星的SOCC业务;
S115:延时60秒;
S116:以并行的方式在6台服务器执行SOCC业务停止检查脚本;
S117:SOCC业务停止人工检查。
4.根据权利要求1所述的一种业务自动启停控制方法,其特征在于,所述步骤S12包括:
S121:以并行方式执行FGH星的DPC业务停止脚本;
S122:延时60秒;
S123:以并行方式执行FGH星的DPC业务停止检查脚本;
S124:以串行方式按照顺序执行HA停止的系统命令;
S125:DPC业务停止人工检查。
5.根据权利要求1所述的一种业务自动启停控制方法,其特征在于,所述步骤S13包括:
S131:以串行方式按照顺序执行HA停止的系统命令,HA软件同时会调用PDS业务停止脚本;
S132:延时60秒;
S133:以并行方式执行PDS业务停止检查脚本,检查PDS业务相关进程已停止,相关资源已释放;
S134:PDS业务停止人工检查。
6.根据权利要求1所述的一种业务自动启停控制方法,其特征在于,所述步骤S21包括:
S211:以并行方式执行FGH星的JFD软件停止命令;
S212:延时300秒;
S213:以并行方式执行FGH星的JFD软件停止检查命令,检查JFD软件进程已停止,相关资源已释放;
S214:JFD软件停止人工检查。
7.根据权利要求1所述的一种业务自动启停控制方法,其特征在于,所述步骤S22包括:
S221:以串行方式按照顺序执行LSF软件停止命令;
S222:延时60秒;
S223:以并行方式在5台服务器上分别执行LSF软件停止检查脚本,检查LSF软件相关进程已停止,相关资源已释放;
S224:LSF软件停止人工检查。
CN202011280936.6A 2020-11-16 2020-11-16 一种业务自动启停控制方法 Active CN112506625B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011280936.6A CN112506625B (zh) 2020-11-16 2020-11-16 一种业务自动启停控制方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011280936.6A CN112506625B (zh) 2020-11-16 2020-11-16 一种业务自动启停控制方法

Publications (2)

Publication Number Publication Date
CN112506625A true CN112506625A (zh) 2021-03-16
CN112506625B CN112506625B (zh) 2024-03-12

Family

ID=74956385

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011280936.6A Active CN112506625B (zh) 2020-11-16 2020-11-16 一种业务自动启停控制方法

Country Status (1)

Country Link
CN (1) CN112506625B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040249914A1 (en) * 2003-05-21 2004-12-09 Flocken Philip A. Computer service using automated local diagnostic data collection and automated remote analysis
CN101166208A (zh) * 2006-10-20 2008-04-23 北京直真节点技术开发有限公司 一种维护作业自动化的方法及系统
CN102055606A (zh) * 2009-11-10 2011-05-11 中国移动通信集团广西有限公司 一种业务支撑系统中的业务处理方法、系统及设备
CN102571393A (zh) * 2010-12-14 2012-07-11 中国移动通信集团江苏有限公司 业务支撑生产系统与应急系统间的切换方法及装置
CN104010034A (zh) * 2014-05-28 2014-08-27 浪潮电子信息产业股份有限公司 一种高可用集群关于组依赖的管理方法
CN104579741A (zh) * 2013-10-16 2015-04-29 株式会社日立制作所 业务管理系统
CN104601378A (zh) * 2015-01-26 2015-05-06 四川中电启明星信息技术有限公司 结合应用性能指标监控数据的虚拟资源弹性调度实现方法
CN106250179A (zh) * 2016-07-26 2016-12-21 北京北森云计算股份有限公司 通过多语言云编译实现系统动态功能拦截扩展的方法
CN108958708A (zh) * 2017-05-25 2018-12-07 河南理工大学 一种基于组件的软件系统架构及软件实现方法

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040249914A1 (en) * 2003-05-21 2004-12-09 Flocken Philip A. Computer service using automated local diagnostic data collection and automated remote analysis
CN101166208A (zh) * 2006-10-20 2008-04-23 北京直真节点技术开发有限公司 一种维护作业自动化的方法及系统
CN102055606A (zh) * 2009-11-10 2011-05-11 中国移动通信集团广西有限公司 一种业务支撑系统中的业务处理方法、系统及设备
CN102571393A (zh) * 2010-12-14 2012-07-11 中国移动通信集团江苏有限公司 业务支撑生产系统与应急系统间的切换方法及装置
CN104579741A (zh) * 2013-10-16 2015-04-29 株式会社日立制作所 业务管理系统
CN104010034A (zh) * 2014-05-28 2014-08-27 浪潮电子信息产业股份有限公司 一种高可用集群关于组依赖的管理方法
CN104601378A (zh) * 2015-01-26 2015-05-06 四川中电启明星信息技术有限公司 结合应用性能指标监控数据的虚拟资源弹性调度实现方法
CN106250179A (zh) * 2016-07-26 2016-12-21 北京北森云计算股份有限公司 通过多语言云编译实现系统动态功能拦截扩展的方法
CN108958708A (zh) * 2017-05-25 2018-12-07 河南理工大学 一种基于组件的软件系统架构及软件实现方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
孟岩;李佳;: "卫星信号控守指挥调度系统设计与实现", 无线电工程, no. 01 *
李文明;崔俊交;贾宏举;: "业务支撑能力开放平台的设计与实现", 电信工程技术与标准化, no. 07 *
石俊;徐小伟;蔡富强;刘晓洁;陈恩;: "Linux高可用性系统的改进方案", 计算机安全, no. 08, 15 August 2008 (2008-08-15) *
陈轶;: "业务支撑网运营管理系统研究", 电信网技术, no. 02 *
陈轶;: "业务支撑网运营管理系统研究", 电信网技术, no. 02, 15 February 2010 (2010-02-15) *
马志强, 史如章, 赵刚, 刘瑞兰, 吴占华: "地、县气象业务现代化建设实用技术应用中有关问题的解决办法", 山西气象, no. 02 *

Also Published As

Publication number Publication date
CN112506625B (zh) 2024-03-12

Similar Documents

Publication Publication Date Title
US11689638B2 (en) Embedded database as a microservice for distributed container cloud platform
US9229707B2 (en) Zero downtime mechanism for software upgrade of a distributed computer system
US6226784B1 (en) Reliable and repeatable process for specifying developing distributing and monitoring a software system in a dynamic environment
US7703091B1 (en) Methods and apparatus for installing agents in a managed network
US10635473B2 (en) Setting support program, setting support method, and setting support device
US20180143856A1 (en) Flexible job management for distributed container cloud platform
US10915314B2 (en) Autonomous upgrade of deployed resources in a distributed computing environment
US9485151B2 (en) Centralized system management on endpoints of a distributed data processing system
CN106970880B (zh) 一种分布式自动化软件测试方法及系统
US20050262501A1 (en) Software distribution method and system supporting configuration management
CN106708740B (zh) 脚本测试方法及装置
CN113569987A (zh) 模型训练方法和装置
US20070206611A1 (en) Effective high availability cluster management and effective state propagation for failure recovery in high availability clusters
EP1978443A2 (en) Verifying method for implementing management software
US20090144743A1 (en) Mailbox Configuration Mechanism
US20080172579A1 (en) Test Device For Verifying A Batch Processing
CN112434008A (zh) 分布式数据库升级方法、设备及介质
CN115048205A (zh) Etl调度平台及其部署方法、计算机可读存储介质
Zhong et al. Speeding up Paulson’s procedure for large-scale problems using parallel computing
CN113835742A (zh) 持续集成方法及软件开发系统
CN108345497A (zh) Gnss离线定位模拟的执行方法及系统、定位装置
CN112506625B (zh) 一种业务自动启停控制方法
CN112379934B (zh) 一种云计算平台的部署方法及装置、存储介质
CN113672521A (zh) 一种程序测试方法、装置及电子设备
US20220326925A1 (en) Application deployment platform

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant