CN113839823B - 一种异构运算单元运行管理的方法 - Google Patents

一种异构运算单元运行管理的方法 Download PDF

Info

Publication number
CN113839823B
CN113839823B CN202111412255.5A CN202111412255A CN113839823B CN 113839823 B CN113839823 B CN 113839823B CN 202111412255 A CN202111412255 A CN 202111412255A CN 113839823 B CN113839823 B CN 113839823B
Authority
CN
China
Prior art keywords
unit
message
configuration
management scheduling
cleaned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111412255.5A
Other languages
English (en)
Other versions
CN113839823A (zh
Inventor
张富军
陈霞
李艳红
王利强
沈文君
周正平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Lab
Original Assignee
Zhejiang Lab
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Lab filed Critical Zhejiang Lab
Priority to CN202111412255.5A priority Critical patent/CN113839823B/zh
Publication of CN113839823A publication Critical patent/CN113839823A/zh
Application granted granted Critical
Publication of CN113839823B publication Critical patent/CN113839823B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/08Configuration management of networks or network elements
    • H04L41/0803Configuration setting
    • H04L41/0813Configuration setting characterised by the conditions triggering a change of settings

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及异构运算单元管理领域,具体涉及一种异构运算单元运行管理的方法,应用于具备异构运行能力的多运算单元系统中,使用系统中的管理调度单元对多个异构运算单元进行管理,通过与异构运算单元进行报文交互,完成异构运算单元上线、系统清洗和应用程序清洗。本发明可以通过对异构运算单元的运行管理,实现确保整个异构系统稳定运行。

Description

一种异构运算单元运行管理的方法
技术领域
本发明涉及异构运算单元管理领域,具体涉及一种异构运算单元运行管理的方法。
背景技术
在具备异构运行能力的多运算单元系统中,包含有多个功能相同或不同的运算单元,运算单元常常采用不同的硬件结构、操作系统和程序运行环境。
其中,高并行、高密集的多个异构运算单元在同时工作的场景,如何进行运算单元的管理,如何进行运算单元的上线、功能恢复、配置下发、程序清洗和运算单元重启等操作的管理,是目前重点讨论研究的问题。
发明内容
为了解决现有技术中存在的上述技术问题,本发明提出了一种异构运算单元运行管理的方法,其具体技术方案如下:
一种异构运算单元运行管理的方法,应用于具备异构运行能力的多运算单元系统中,使用系统中的管理调度单元对多个异构运算单元进行管理,通过与异构运算单元进行报文交互,完成异构运算单元上线、系统清洗和应用程序清洗。
进一步的,所述异构运算单元的上线,其流程具体为:运算单元上线后,以2秒每次的频率向管理调度单元发送上线信息;管理调度单元等待多个运算单元同时上线后,向多个运算单元回复应答消息;应答消息经过分发给各运算单元后,完成上线流程;然后各运算单元同时向管理调度单元发送配置获取报文,管理调度单元收到后向所有运算单元发送配置返回报文,配置返回报文携带有配置信息;运算单元获取配置信息后,开始下发配置结果,下发配置结束后,管理调度单元向所有运算单元发送配置结果报文,到此,整体系统开机,运算单元上线流程完成。
进一步的,所述异构运算单元系统清洗,其流程具体为:首先完成被清洗运算单元的上线流程;然后完成被清洗运算单元的配置获取;最后对清洗运算单元的进行状态重置,完成清洗。
进一步的,所述完成被清洗运算单元的上线流程,具体为:管理调度单元发送清洗消息给被清洗的运算单元后等待对应的运算单元发送上线消息;各运算单元上线后,以2秒每次的频率向管理调度单元发送上线信息;管理调度单元等待被清洗的所有运算单元上线后,向运算单元回复应答消息,完成上线流程。
进一步的,所述完成被清洗运算单元的配置获取,具体为:被清洗运算单元同时向管理调度单元发送配置获取报文,管理调度单元收到后向所有被清洗运算单元发送配置返回报文,配置返回报文携带配置信息;被清洗运算单元发送配置下发报文,管理调度单元获取配置信息后,开始下发配置结果,下发配置结束后,管理调度单元会向被清洗的运算单元发送配置结果报文。
进一步的,所述对清洗运算单元的进行状态重置,完成清洗,具体为:被清洗的运算单元向管理调度单元发送状态恢复报文,管理调度单元向所有运算单元发送状态重置报文;所有运算单元状态重置成功后,向管理调度单元发送状态重置成功报文;然后管理调度单元回复重置成功的应答报文,系统清洗流程完成,运算单元成功被清洗上线。
进一步的,所述异构运算单元应用程序清洗,其流程具体为:管理调度单元发送清洗消息给对应的运算单元;运算单元收到清洗消息后,停止原来的应用程序,同时向管理调度单元发送配置获取报文,管理调度单元收到后向被清洗的运算单元发送配置返回报文,配置返回报文携带配置信息;运算单元获取配置信息后,开始下发配置结果,下发配置结束后,被清洗运算单元向管理调度单元发送状态恢复报文,管理调度单元向所有运算单元发送状态重置报文;所有运算单元状态重置成功后,向管理调度单元发送状态重置成功报文;然后管理调度单元回复重置成功的应答报文,应用清洗流程完成,运算单元的新的应用成功被清洗上线。
本发明的有益效果是,可以通过对异构运算单元的运行管理,实现对异构多运算单元的每个运算单元进行管理,管理包括运算单元的上线、功能恢复、配置下发、程序清洗和运算单元重启等操作,确保整个异构系统稳定运行。
附图说明
图1是本发明的异构运算单元运行管理模块示意图;
图2是本发明实现异构运算单元上线的报文交互图;
图3是本发明实现异构运算单元上线的报文通信格式;
图4是本发明实现异构运算单元系统清洗时被清洗运算单元的报文交互图;
图5是本发明实现异构运算单元系统清洗时所有运算单元的报文交互图;
图6是本发明实现异构运算单元系统清洗的报文通信格式;
图7是本发明实现异构运算单元应用程序清洗时被清洗运算单元的的报文交互图;
图8是本发明实现异构运算单元应用程序清洗时所有运算单元的报文交互图;
图9是本发明实现异构运算单元应用程序清洗的报文通信格式。
具体实施方式
为了使本发明的目的、技术方案和技术效果更加清楚明白,以下结合说明书附图和实施例,对本发明作进一步详细说明。
本发明的一种异构运算单元运行管理的方法,对异构多运算单元的每一个运算单元进行管理,管理运算单元需要管理运算单元的启动上线通知,管理运算单元的功能恢复,管理运算单元的配置下发,管理运算单元的程序清洗,和管理运算单元的的重启等操作,从而确保整个异构系统能够稳定运行。
如图1所示,在异构系统中,包含三个异构运算单元和一个管理调度单元,每个异构运算单元相互独立,且采用不同架构:X86、ARM或MIPS,或不同操作系统:Windows、Ubuntu或Centos,并承载应用程序,共同构成异构运算单元的资源池。管理调度单元实现管理调度功能,通过与三个异构运算单元的报文交互,完成对异构运算单元的上线、系统清洗及应用程序清洗等操作。
如图2所示,为异构运算单元上线的报文交互图。异构运算单元上线流程为:运算单元上线后,以2秒每次的频率向管理调度单元发送上线信息;管理调度单元等待3个运算单元同时上线后,向运算单元回复应答消息;应答消息经过分发给各运算单元后,完成上线流程;然后各运算单元同时向管理调度单元发送配置获取报文,管理调度单元收到后向所有运算单元发送配置返回报文,配置返回报文会携带配置信息。运算单元获取配置信息后,开始下发配置结果,下发配置结束后,管理调度单元会向所有运算单元发送配置结果报文。到此,整体系统开机,运算单元上线流程完成。如图3所示的是运算单元上线时的报文通信格式。
如图4所示,为异构运算单元系统清洗时被清洗运算单元的报文交互图;如图5所示,为异构运算单元系统清洗时所有运算单元的报文交互图。异构运算单元系统清洗的流程为:运算单元被清洗时,管理调度单元首先发送清洗消息给对应的运算单元;然后管理调度单元等待运算单元发送上线消息。各运算单元上线后,以2秒每次的频率向管理调度单元发送上线信息;管理调度单元等待被清洗的所有运算单元上线后,向运算单元回复应答消息;应答消息发给运算单元后,完成上线流程;然后运算单元同时向管理调度单元发送配置获取报文,管理调度单元收到后向所有被清洗运算单元发送配置返回报文,配置返回报文会携带配置信息。被清洗运算单元发送配置下发报文,管理调度单元获取配置信息后,开始下发配置结果,下发配置结束后,管理调度单元会向被清洗的运算单元发送配置结果报文。接着,被清洗的运算单元向管理调度单元发送状态恢复报文,管理调度单元向所有运算单元发送状态重置报文;所有运算单元状态重置成功后,向管理调度单元发送状态重置成功报文;然后管理调度单元回复重置成功的应答报文,系统清洗流程完成,运算单元成功被清洗上线。如图6所示,为异构运算单元系统清洗时的报文通信格式。
如图7所示,为异构运算单元应用程序清洗时被清洗运算单元的报文交互图;如图8所示,为异构运算单元应用程序清洗时所有运算单元的报文交互图。异构运算单元应用清洗的流程为:管理调度单元首先发送清洗消息给对应的运算单元;运算单元收到清洗消息后,停止原来的应用程序,同时向管理调度单元发送配置获取报文,管理调度单元收到后向被清洗的运算单元发送配置返回报文,配置返回报文会携带配置信息。运算单元获取配置信息后,开始下发配置结果,下发配置结束后,被清洗运算单元向管理调度单元发送状态恢复报文,管理调度单元向所有运算单元发送状态重置报文;所有运算单元状态重置成功后,向管理调度单元发送状态重置成功报文;然后管理调度单元回复重置成功的应答报文,应用清洗流程完成,运算单元的新的应用成功被清洗上线。如图9所示,为异构运算单元应用程序清洗时的报文通信格式。
以上所述,仅为本发明的优选实施案例,并非对本发明做任何形式上的限制。虽然前文对本发明的实施过程进行了详细说明,对于熟悉本领域的人员来说,其依然可以对前述各实例记载的技术方案进行修改,或者对其中部分技术特征进行同等替换。凡在本发明精神和原则之内所做修改、同等替换等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种异构运算单元运行管理的方法,应用于具备异构运行能力的多运算单元系统中,其特征在于,使用系统中的管理调度单元对多个异构运算单元进行管理,通过与异构运算单元进行报文交互,完成异构运算单元上线、系统清洗和应用程序清洗;
所述异构运算单元的上线,其流程具体为:运算单元上线后,以2秒每次的频率向管理调度单元发送上线信息;管理调度单元等待多个运算单元同时上线后,向多个运算单元回复应答消息;应答消息分发给各运算单元,然后各运算单元同时向管理调度单元发送配置获取报文,管理调度单元收到后向所有运算单元发送配置返回报文,配置返回报文携带有配置信息;运算单元获取配置信息后,开始下发配置,下发配置结束后,管理调度单元向所有运算单元发送配置结果报文,到此,整体系统开机,运算单元上线流程完成;
所述异构运算单元系统清洗,其流程具体为:首先完成被清洗运算单元的上线流程;然后完成被清洗运算单元的配置获取;最后对所有运算单元进行状态重置,完成清洗;
所述异构运算单元应用程序清洗,其流程具体为:管理调度单元发送清洗消息给对应的运算单元;运算单元收到清洗消息后,停止原来的应用程序,同时向管理调度单元发送配置获取报文,管理调度单元收到后向被清洗运算单元发送配置返回报文,配置返回报文携带配置信息;运算单元获取配置信息后,开始下发配置,下发配置结束后,被清洗运算单元向管理调度单元发送状态恢复报文,管理调度单元向所有运算单元发送状态重置报文;所有运算单元状态重置成功后,向管理调度单元发送状态重置成功报文;然后管理调度单元回复重置成功的应答报文,应用清洗流程完成,运算单元的新的应用成功被清洗上线。
2.如权利要求1所述的一种异构运算单元运行管理的方法,其特征在于,所述完成被清洗运算单元的上线流程,具体为:管理调度单元发送清洗消息给被清洗运算单元后等待对应的运算单元发送上线信息 ;各运算单元上线后,以2秒每次的频率向管理调度单元发送上线信息;管理调度单元等待被清洗的所有运算单元上线后,向运算单元回复应答消息,完成上线流程。
3.如权利要求2所述的一种异构运算单元运行管理的方法,其特征在于,所述完成被清洗运算单元的配置获取,具体为:被清洗运算单元同时向管理调度单元发送配置获取报文,管理调度单元收到后向所有被清洗运算单元发送配置返回报文,配置返回报文携带配置信息;被清洗运算单元发送配置下发报文,管理调度单元会向被清洗运算单元发送配置结果报文。
4.如权利要求3所述的一种异构运算单元运行管理的方法,其特征在于,所述对所有运算单元进行状态重置,完成清洗,具体为:被清洗运算单元向管理调度单元发送状态恢复报文,管理调度单元向所有运算单元发送状态重置报文;所有运算单元状态重置成功后,向管理调度单元发送状态重置成功报文;然后管理调度单元回复重置成功的应答报文,系统清洗流程完成,运算单元成功被清洗上线。
CN202111412255.5A 2021-11-25 2021-11-25 一种异构运算单元运行管理的方法 Active CN113839823B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111412255.5A CN113839823B (zh) 2021-11-25 2021-11-25 一种异构运算单元运行管理的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111412255.5A CN113839823B (zh) 2021-11-25 2021-11-25 一种异构运算单元运行管理的方法

Publications (2)

Publication Number Publication Date
CN113839823A CN113839823A (zh) 2021-12-24
CN113839823B true CN113839823B (zh) 2022-03-25

Family

ID=78971361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111412255.5A Active CN113839823B (zh) 2021-11-25 2021-11-25 一种异构运算单元运行管理的方法

Country Status (1)

Country Link
CN (1) CN113839823B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874755A (zh) * 2017-01-22 2017-06-20 中国人民解放军信息工程大学 基于拟态安全防御零日攻击的多数一致逃逸错误处理装置及其方法
CN110380961A (zh) * 2019-07-05 2019-10-25 中国人民解放军战略支援部队信息工程大学 一种传统路由器拟态化改造的装置及方法
CN110545260A (zh) * 2019-08-05 2019-12-06 上海拟态数据技术有限公司 一种基于拟态构造的云管理平台构建方法
CN111049677A (zh) * 2019-11-27 2020-04-21 网络通信与安全紫金山实验室 拟态交换机异构执行体的清洗恢复方法和装置
CN113282661A (zh) * 2021-05-31 2021-08-20 河南信大网御科技有限公司 异构执行体可信配置同步方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120158451A1 (en) * 2010-12-16 2012-06-21 International Business Machines Corporation Dispatching Tasks in a Business Process Management System
CN107360135B (zh) * 2017-06-09 2020-07-24 中国人民解放军信息工程大学 拟态化网络操作系统、构建装置及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106874755A (zh) * 2017-01-22 2017-06-20 中国人民解放军信息工程大学 基于拟态安全防御零日攻击的多数一致逃逸错误处理装置及其方法
CN110380961A (zh) * 2019-07-05 2019-10-25 中国人民解放军战略支援部队信息工程大学 一种传统路由器拟态化改造的装置及方法
CN110545260A (zh) * 2019-08-05 2019-12-06 上海拟态数据技术有限公司 一种基于拟态构造的云管理平台构建方法
CN111049677A (zh) * 2019-11-27 2020-04-21 网络通信与安全紫金山实验室 拟态交换机异构执行体的清洗恢复方法和装置
CN113282661A (zh) * 2021-05-31 2021-08-20 河南信大网御科技有限公司 异构执行体可信配置同步方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向云应用的拟态云服务架构;普黎明等;《网络与信息安全学报》;20210203;第7卷(第1期);第101-112页 *

Also Published As

Publication number Publication date
CN113839823A (zh) 2021-12-24

Similar Documents

Publication Publication Date Title
CN109684057B (zh) 任务处理方法、装置和存储介质
JP2020518926A (ja) 分散コンピューティングシステムのための、バックアップおよび復元フレームワーク
CN106844017B (zh) 用于网站服务器处理事件的方法和设备
CN113656175B (zh) 基于分布式系统训练模型的方法及设备
WO2017193737A1 (zh) 一种软件测试方法及系统
CN106469069B (zh) 一种版本升级方法及系统
CN110716793A (zh) 一种分布式事务的执行方法、装置、设备及存储介质
CN111210340B (zh) 一种自动任务处理方法、装置、服务器及存储介质
CN113791888A (zh) Linux应用进程管理方法及装置
CN113658351B (zh) 一种产品生产的方法、装置、电子设备及存储介质
CN113839823B (zh) 一种异构运算单元运行管理的方法
CN105938490B (zh) 一种web应用系统连接数据源智能切换方法及系统
CN112925811B (zh) 数据处理的方法、装置、设备、存储介质及程序产品
CN109725916B (zh) 流处理的拓扑结构更新系统和方法
CN107943567B (zh) 一种基于amqp协议的高可靠性任务调度方法和系统
EP1410168B1 (en) An efficient timer management system
CN104516745A (zh) 一种运行定时任务的方法及系统
CN109062686A (zh) 多进程管理方法、存储介质、电子设备及系统
CN101971562B (zh) 控制自动运行过程执行的方法、装置及系统
CN114691781A (zh) 一种数据同步方法、系统、装置、设备及介质
CN114816614A (zh) 一种流程自动化机器人控制浏览器的实现方法
CN110377298B (zh) 一种分布式集群升级方法及分布式集群
CN112162840A (zh) 一种基于中断重入机制的协程处理及管理方法
CN113448695A (zh) 一种实现进程持续存在的方法、装置、电子设备和介质
CN110727898B (zh) Ota网站事件协助的处理方法、系统、设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant