CN114647549A - 异构加速芯片的管理方法、装置、设备和介质 - Google Patents
异构加速芯片的管理方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN114647549A CN114647549A CN202210233815.9A CN202210233815A CN114647549A CN 114647549 A CN114647549 A CN 114647549A CN 202210233815 A CN202210233815 A CN 202210233815A CN 114647549 A CN114647549 A CN 114647549A
- Authority
- CN
- China
- Prior art keywords
- heterogeneous acceleration
- chip
- heterogeneous
- index data
- dynamic link
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000001133 acceleration Effects 0.000 title claims abstract description 182
- 238000007726 management method Methods 0.000 title claims abstract description 119
- 238000012544 monitoring process Methods 0.000 claims abstract description 41
- 238000000034 method Methods 0.000 claims abstract description 34
- 238000012216 screening Methods 0.000 claims abstract description 12
- 230000006870 function Effects 0.000 claims description 41
- 230000015654 memory Effects 0.000 claims description 27
- 238000012795 verification Methods 0.000 claims description 19
- 238000004590 computer program Methods 0.000 claims description 11
- 230000004044 response Effects 0.000 claims description 5
- 201000004037 congenital amegakaryocytic thrombocytopenia Diseases 0.000 abstract 1
- 238000004891 communication Methods 0.000 description 8
- 230000004048 modification Effects 0.000 description 6
- 238000012986 modification Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000011161 development Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000005291 magnetic effect Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 101100498818 Arabidopsis thaliana DDR4 gene Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000005294 ferromagnetic effect Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3003—Monitoring arrangements specially adapted to the computing system or computing system component being monitored
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3065—Monitoring arrangements determined by the means or processing involved in reporting the monitored data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/3089—Monitoring arrangements determined by the means or processing involved in sensing the monitored data, e.g. interfaces, connectors, sensors, probes, agents
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Debugging And Monitoring (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请公开了一种异构加速芯片的管理方法、装置、设备和介质,涉及计算机技术领域。所述方法包括:接入一个或多个异构加速芯片的驱动,所述驱动包括所述异构加速芯片的动态链接库文件;响应于首次加载通用管理工具,遍历至少一个所述异构加速芯片的动态链接库文件,筛选出能够实现指标数据获取函数的所述动态链接库文件以及对应的所述异构加速芯片;对筛选出的所述异构加速芯片通过所述指标数据获取函数调用所述异构加速芯片的指标数据;将所述指标数据上报至监控系统和/或数据库中。本申请能够让异构加速芯片的厂商通过很少的代码改动就可以进行接入,从而由通用加速芯片管理工具CAMT实现集中的监控和管理。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种异构加速芯片的管理方法、装置、设备和介质。
背景技术
随着人工智能技术的发展,越来越多的厂商投入到异构加速芯片的研发中,市场中也出现各种类型的加速芯片。目前,例如芯片厂商Nvidia的产品成熟度较高,对于自己的芯片有单独的管理工具(nvidia-smi);但是对于产品成熟度不高的厂商来说,并没有自己的异构加速芯片的管理工具,从而导致给使用用户带来不变。
现有的异构加速芯片的管理方法是通过板卡BMC(Baseboard ManagementController,基板管理控制器)先收集监控数据,然后通过USB接口向上位机发送数据,从而实现对异构加速芯片的监控和管理。
但是现有技术存在以下缺陷:
1、不具备通用性:例如,在多异构加速芯片的场景下,现有的技术方案需要对每种芯片进行定制化适配,才能对加速芯片进行管理,而不能直接适配多厂商的不同芯片;
2、对异构加速芯片的监控管理需要依赖于其他组件,例如:现有的技术方案对异构加速芯片的监控和管理依赖于板卡BMC和USB接口,对外部组件的依赖性较强;
3、现有的技术方案对接多种异构加速芯片,需要的开发量很大。
基于此,目前急需一种通用加速芯片管理工具(Common Accelerator ManagementTool,简称CAMT),能够让异构加速芯片的厂商通过很少的代码改动就可以进行接入,从而由通用加速芯片管理工具CAMT实现集中的监控和管理。
发明内容
为了解决上述背景技术中提到的至少一个问题,本申请提供了一种异构加速芯片的管理方法、装置、设备和介质,能够适配多种异构加速芯片,实现异构加速芯片的集中监控和管理。
本申请实施例提供的具体技术方案如下:
第一方面,提供一种异构加速芯片的管理方法,包括:
接入一个或多个异构加速芯片的驱动,所述驱动包括所述异构加速芯片的动态链接库文件;
响应于首次加载通用管理工具,遍历至少一个所述异构加速芯片的动态链接库文件,筛选出能够实现指标数据获取函数的所述动态链接库文件以及对应的所述异构加速芯片;
对筛选出的所述异构加速芯片通过所述指标数据获取函数调用所述异构加速芯片的指标数据;
将所述指标数据上报至监控系统和/或数据库中。
进一步的,所述响应于首次加载通用管理工具,遍历一个或多个异构加速芯片的动态链接库文件,筛选出能够实现指标数据获取函数的所述动态链接库文件以及对应的所述异构加速芯片,包括:
响应于首次加载通用管理工具,遍历一个或多个异构加速芯片的动态链接库文件;
所述通用管理工具自动匹配系统中所述动态链接库文件的特征值,若匹配成功,将所述动态链接库文件对应的所述异构加速芯片纳入异构芯片候选;
对纳入所述异构芯片候选的所述异构加速芯片进行指标数据获取函数的数据结构的校验并返回检验结果,若所述校验结果为通过,将校验通过的所述异构加速芯片纳入所述通用管理工具中进行监控。
进一步的,所述方法还包括:
根据校验通过的所述异构加速芯片对应的动态链接库文件地址,生成第一通用管理配置文件;
响应于所述通用管理工具非首次加载,在运行时直接读取所述第一通用管理配置文件,以读取到校验通过的所述异构加速芯片对应的所述动态链接库文件。
进一步的,在响应于所述通用管理工具非首次加载,在运行时直接读取所述第一通用管理配置文件,以读取到校验通过的所述异构加速芯片对应的所述动态链接库文件之后,所述方法还包括:
判断系统中是否存在未进行校验的新增异构加速芯片;
若存在,执行增量芯片扫描。
进一步的,所述增量芯片扫描包括以下至少一种:
删除所述第一通用管理配置文件,重新遍历所有所述异构加速芯片的动态链接库文件,重新筛选出能够实现指标数据获取函数的所述动态链接库文件以及对应的所述异构加速芯片,根据重新筛选出的所述动态链接库文件的地址生成第二通用管理配置文件;以及
对所述未进行校验的新增异构加速芯片进行所述指标数据获取函数的数据结构的校验并返回检验结果,若所述校验结果为通过,将校验通过的所述新增异构加速芯片纳入所述通用管理工具中进行监控,并修改所述第一通用管理配置文件,得到修改后的第一通用管理配置文件,以供所述通用管理工具重新读取。
进一步的,在所述对筛选出的所述异构加速芯片通过所述指标数据获取函数调用所述异构加速芯片的指标数据之后,所述方法还包括:
在所述异构加速芯片所在的系统中配置命令行,以便于用户通过所述命令行查看所述指标数据。
进一步的,所述异构加速芯片包括至少一个异构芯片卡,所述指标数据包括所述异构加速芯片的基本信息、所述异构加速芯片所在的节点信息和异构芯片卡信息中的至少一种;
所述异构芯片卡信息包括异构芯片卡的性能信息、资源信息以及进程信息中的至少一种。
进一步的,所述将所述指标数据上报至监控系统和/或数据库中,包括:
通过主动上报和/或被动拉取的方式将所述指标数据上报至监控系统中;
将所述指标数据直接写入数据库中;
其中,所述监控系统包括ZABBIX系统和Prometheus系统中的至少一种;
所述数据库包括关系型数据库、非关系型数据库以及时序数据库中的至少一种。
第二方面,提供一种异构加速芯片的管理装置,所述装置包括:
芯片部署模块,用于接入一个或多个异构加速芯片的驱动,所述驱动包括所述异构加速芯片的动态链接库文件;
通用管理模块,用于响应于首次加载通用管理工具,遍历至少一个所述异构加速芯片的动态链接库文件,筛选出能够实现指标数据获取函数的所述动态链接库文件以及对应的所述异构加速芯片;
数据获取模块,用于对筛选出的所述异构加速芯片通过所述指标数据获取函数调用所述异构加速芯片的指标数据;
数据上报模块,用于将所述指标数据上报至监控系统和/或数据库中。
第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述异构加速芯片的管理方法。
第四方面,提供一种计算机可读存储介质,存储有计算机可执行指令,所述计算机可执行指令用于执行所述异构加速芯片的管理方法。
本申请实施例具有如下有益效果:
本申请实施例提供的一种异构加速芯片的管理方法、装置、设备和介质,能够集成一种通用管理工具,通过匹配到能够实现指标数据获取函数的异构加速芯片,将校验通过的多种异构加速芯片纳入通用管理工具中进行监控,其通用性强,能够对接不同厂商的多种芯片,而无需外部的其他设备组件;还能够通过配置的命令行查看异构加速芯片的各项指标和运行数据,对接各种监控系统和数据库,以对监控指标进行暴露,便于对异常情况的快速处理。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出本申请实施例提供的异构加速芯片的管理方法的总流程图;
图2示出根据本申请一个实施例的异构加速芯片的管理方法的具体架构示意图;
图3示出本申请实施例提供的异构加速芯片的管理装置的结构示意图;
图4示出可被用于实施本申请中所述的各个实施例的示例性系统。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要注意的是,术语“S1”、“S2”等仅用于步骤的描述目的,并非特别指称次序或顺位的意思,亦非用以限定本申请,其仅仅是为了方便描述本申请的方法,而不能理解为指示步骤的先后顺序。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
实施例一
本申请提供了一种异构加速芯片的管理方法,参照图1,包括:
S1、接入一个或多个异构加速芯片的驱动,驱动包括异构加速芯片的动态链接库文件。
S2、响应于首次加载通用管理工具,遍历至少一个异构加速芯片的动态链接库文件,筛选出能够实现指标数据获取函数的动态链接库文件以及对应的异构加速芯片。
S3、对筛选出的异构加速芯片通过指标数据获取函数调用异构加速芯片的指标数据。
S4、将指标数据上报至监控系统和/或数据库中。
具体的,通用管理工具是基于动态链接库的异构加速芯片的通用管理工具(Common Accelerator Management Tool,简称CAMT),可以运行在部署着异构加速芯片的每一个节点上。通用管理工具需要接入异构加速芯片,主要通过调用指标数据获取函数GetMetrics()来对异构加速芯片进行管理和监控。因此,就至少需要异构加速芯片能够包含对指标数据获取函数GetMetrics()的实现。示例性的,可以通过部署一个或多个异构加速芯片厂商的驱动,而一般驱动中的动态链接库的后缀.so文件会包含对指标获取函数GetMetrics()的实现。那么就需要先遍历系统中的动态链接库so文件,匹配出能够实现指标获取函数GetMetrics()的so文件,将其作为其对应的异构加速芯片能够纳入本通用管理工具的依据。然后通用管理工具可以通过指标数据获取函数的数据结构GetMetrics(DynaticLib)拉取动态库,returns(MetricsInfo)并返回异构加速芯片的信息,最后将获取到的数据信息通过主动上报或被动拉取的方式对接监控系统或数据库。其中,一个异构加速芯片对应一个so动态链接库,减少对异构加速芯片的依赖。同时,不需要对外部的板卡BMC或USB接口等外部组件依赖,仅需调用异构加速芯片的指标获取函数GetMetrics()。
下面结合图2进行进一步的阐述:
在一些实施方式中,S2具体包括:
S21、响应于首次加载通用管理工具,遍历一个或多个异构加速芯片的动态链接库文件;
S22、通用管理工具自动匹配系统中动态链接库文件的特征值,若匹配成功,将动态链接库文件对应的异构加速芯片纳入异构芯片候选;
S23、对纳入异构芯片候选的异构加速芯片进行指标数据获取函数的数据结构的校验并返回检验结果,若校验结果为通过,将校验通过的异构加速芯片纳入通用管理工具中进行监控。
具体的,通用管理工具CAMT只依赖于系统(以linux操作系统为例)中对于环境变量LD_LIBRARY_PATH的设置,不需要额外的系统配置。CAMT工具在首次加载时,会自动匹配系统中so文件的特征值,若匹配到特征值相同的,会首先将符合要求的加入异构芯片候选;然后对纳入异构芯片候选在进行返回数据结构的校验,即指标数据获取函数的数据结构的校验,校验通过的话则正式纳管到管理工具中。
示例性的,指标数据获取函数GetMetrics()的数据结构示例如下:
具体的,ServiceMonitor是由异构加速芯片或者OAMtool进行实现,用于返回所在节点上异构加速芯片的信息。
具体的,异构加速芯片包括至少一个异构芯片卡,指标数据包括异构加速芯片的基本信息、异构加速芯片所在的节点信息和异构芯片卡信息中的至少一种;异构芯片卡信息包括异构芯片卡的性能信息、资源信息以及进程信息中的至少一种。
示例性的,返回的异构加速芯片的信息metricsinfo主要包括所在节点信息nodeinfo和异构芯片卡信息accekeratormode,accekeratormode又包括aminfo和acceleratormodulecard,即Accelerator Module基本信息,例如厂商、版本、型号等等,以及Accelerator Module性能信息、Accelerator Module资源信息等。而nodeinfo包括host_name、host_ip、cpu以及memory等信息。
在一些实施方式中,所述方法还包括:
S51、根据校验通过的异构加速芯片对应的动态链接库文件地址,生成第一通用管理配置文件;
S52、响应于通用管理工具非首次加载,在运行时直接读取第一通用管理配置文件,以读取到校验通过的异构加速芯片对应的动态链接库文件。
具体的,通过这样的方式可以避免重新遍历,仅添加增量的异构加速芯片的配置,也可以对已经纳入通用管理工具的异构加速芯片生成配置文件,以便于下次加载时直接读取配置文件。示例性的,参照图2,一种异构加速芯片对应一个动态链接库.so文件,还可以将已校验通过的异构加速芯片对应的动态链接库文件集成动态链接库组,对对应的动态链接库文件添加标识,以识别校验通过的异构加速芯片,以便于进行存储和调用。
在一些实施方式中,在S52之后,方法还包括:
判断系统中是否存在未进行校验的新增异构加速芯片;
若存在,执行增量芯片扫描。
具体的,在通用管理工具首次加载时,会全量遍历整个系统中的动态链接库文件;而在再次加载时,仅需要调用之前缓存的配置文件,但是这种方式会存在若出现新增的异构加速芯片未校验识别的场景,因此,还需要进行增量芯片扫描。
在一些实施方式中,增量芯片扫描包括以下至少一种:
删除第一通用管理配置文件,重新遍历所有异构加速芯片的动态链接库文件,重新筛选出能够实现指标数据获取函数的动态链接库文件以及对应的异构加速芯片,根据重新筛选出的动态链接库文件的地址生成第二通用管理配置文件;以及
对未进行校验的新增异构加速芯片进行指标数据获取函数的数据结构的校验并返回检验结果,若校验结果为通过,将校验通过的新增异构加速芯片纳入通用管理工具中进行监控,并修改第一通用管理配置文件,得到修改后的第一通用管理配置文件,以供通用管理工具重新读取。
具体的,重新进行遍历可以重复上述步骤S21~S23,相当于重新遍历系统内的全量异构加速芯片,而增量修改是通过直接修改配置文件的方式。
在一些实施方式中,在S3之后,方法还包括:
在异构加速芯片所在的系统中配置命令行,以便于用户通过命令行查看指标数据。
具体的,用户可以通过linux系统的命令行,直观的看到所用异构加速芯片的各项指标以及运行数据,快速的定位问题,节省时间,提高效率。
在一些实施方式中,S4还包括:
S41、通过主动上报和/或被动拉取的方式将指标数据上报至监控系统中;
S42、将指标数据直接写入数据库中。
其中,监控系统包括ZABBIX系统和Prometheus系统中的至少一种;数据库包括关系型数据库、非关系型数据库以及时序数据库中的至少一种。
示例性的,主动上报方式可以快速对接到ZABBIX系统中;被动拉取的方式可以对接至Prometheus系统中;或者将监控指标直接写入到关系型数据库、非关系型数据库或时序数据库中,将监控指标进行暴露,以对异常情况快速进行处理。
在本实施例中,能够集成一种通用管理工具,通过匹配到能够实现指标数据获取函数的异构加速芯片,将校验通过的多种异构加速芯片纳入通用管理工具中进行监控,其通用性强,能够对接不同厂商的多种芯片,而无需外部的其他设备组件;还能够通过配置的命令行查看异构加速芯片的各项指标和运行数据,对接各种监控系统和数据库,以对监控指标进行暴露,便于对异常情况的快速处理。
实施例二
对应上述实施例,本申请还提供了一种异构加速芯片的管理装置,参照图3,装置包括芯片部署模块、通用管理模块、数据获取模块以及数据上报模块。
其中,芯片部署模块,用于接入一个或多个异构加速芯片的驱动,所述驱动包括所述异构加速芯片的动态链接库文件;通用管理模块,用于响应于首次加载通用管理工具,遍历至少一个所述异构加速芯片的动态链接库文件,筛选出能够实现指标数据获取函数的动态链接库文件以及对应的异构加速芯片;数据获取模块,用于对筛选出的异构加速芯片通过指标数据获取函数调用异构加速芯片的指标数据;数据上报模块,用于将指标数据上报至监控系统和/或数据库中。
进一步的,通用管理模块还用于响应于首次加载通用管理工具,遍历一个或多个异构加速芯片的动态链接库文件;以及用于所述通用管理工具自动匹配系统中所述动态链接库文件的特征值,若匹配成功,将所述动态链接库文件对应的所述异构加速芯片纳入异构芯片候选;还用于对纳入所述异构芯片候选的所述异构加速芯片进行指标数据获取函数的数据结构的校验并返回检验结果,若所述校验结果为通过,将校验通过的所述异构加速芯片纳入所述通用管理工具中进行监控。
进一步的,通用管理模块还用于根据校验通过的所述异构加速芯片对应的动态链接库文件地址,生成第一通用管理配置文件;以及用于响应于所述通用管理工具非首次加载,在运行时直接读取所述第一通用管理配置文件,以读取到校验通过的所述异构加速芯片对应的所述动态链接库文件。
进一步的,通用管理模块还用于判断系统中是否存在未进行校验的新增异构加速芯片;若存在,通用管理模块还用于执行增量芯片扫描。
进一步的,通用管理模块还用于删除所述第一通用管理配置文件,重新遍历所有所述异构加速芯片的动态链接库文件,重新筛选出能够实现指标数据获取函数的所述动态链接库文件以及对应的所述异构加速芯片,根据重新筛选出的所述动态链接库文件的地址生成第二通用管理配置文件;以及用于对所述未进行校验的新增异构加速芯片进行所述指标数据获取函数的数据结构的校验并返回检验结果,若所述校验结果为通过,将校验通过的所述新增异构加速芯片纳入所述通用管理工具中进行监控,并修改所述第一通用管理配置文件,得到修改后的第一通用管理配置文件,以供所述通用管理工具重新读取。
进一步的,装置还包括数据监控模块,用于在所述异构加速芯片所在的系统中配置命令行,以便于用户通过所述命令行查看所述指标数据。
进一步的,所述异构加速芯片包括至少一个异构芯片卡,所述指标数据包括所述异构加速芯片的基本信息、所述异构加速芯片所在的节点信息和异构芯片卡信息中的至少一种;
所述异构芯片卡信息包括异构芯片卡的性能信息、资源信息以及进程信息中的至少一种。
进一步的,数据上报模块还用于通过主动上报和/或被动拉取的方式将所述指标数据上报至监控系统中;以及用于将所述指标数据直接写入数据库中。其中,所述监控系统包括ZABBIX系统和Prometheus系统中的至少一种;所述数据库包括关系型数据库、非关系型数据库以及时序数据库中的至少一种。
关于异构加速芯片的管理装置的具体限定可以参见上文中对于异构加速芯片的管理方法的限定,在此不再赘述。上述异构加速芯片的管理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
实施例三
对应上述实施例,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时可以实现上述异构加速芯片的管理方法。
如图4所示,在一些实施例中,系统能够作为各所述实施例中的任意一个用于异构加速芯片的管理方法的上述电子设备。在一些实施例中,系统可包括具有指令的一个或多个计算机可读介质(例如,系统存储器或NVM/存储设备)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本申请中所述的动作的一个或多个处理器(例如,(一个或多个)处理器)。
对于一个实施例,系统控制模块可包括任意适当的接口控制器,以向(一个或多个)处理器中的至少一个和/或与系统控制模块通信的任意适当的设备或组件提供任意适当的接口。
系统控制模块可包括存储器控制器模块,以向系统存储器提供接口。存储器控制器模块可以是硬件模块、软件模块和/或固件模块。
系统存储器可被用于例如为系统加载和存储数据和/或指令。对于一个实施例,系统存储器可包括任意适当的易失性存储器,例如,适当的DRAM。在一些实施例中,系统存储器可包括双倍数据速率类型四同步动态随机存取存储器(DDR4SDRAM)。
对于一个实施例,系统控制模块可包括一个或多个输入/输出(I/O)控制器,以向NVM/存储设备及(一个或多个)通信接口提供接口。
例如,NVM/存储设备可被用于存储数据和/或指令。NVM/存储设备可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(HDD)、一个或多个光盘(CD)驱动器和/或一个或多个数字通用光盘(DVD)驱动器)。
NVM/存储设备可包括在物理上作为系统被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,NVM/存储设备可通过网络经由(一个或多个)通信接口进行访问。
(一个或多个)通信接口可为系统提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。
对于一个实施例,(一个或多个)处理器中的至少一个可与系统控制模块的一个或多个控制器(例如,存储器控制器模块)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器中的至少一个可与系统控制模块的一个或多个控制器的逻辑封装在一起以形成系统级封装(SiP)。对于一个实施例,(一个或多个)处理器中的至少一个可与系统控制模块的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器中的至少一个可与系统控制模块的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(SoC)。
在各个实施例中,系统可以但不限于是:服务器、工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,系统可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,系统包括一个或多个摄像机、键盘、液晶显示器(LCD)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(ASIC)和扬声器。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。本领域技术人员应能理解,计算机程序指令在计算机可读介质中的存在形式包括但不限于源文件、可执行文件、安装包文件等,相应地,计算机程序指令被计算机执行的方式包括但不限于:该计算机直接执行该指令,或者该计算机编译该指令后再执行对应的编译后程序,或者该计算机读取并执行该指令,或者该计算机读取并安装该指令后再执行对应的安装后程序。在此,计算机可读介质可以是可供计算机访问的任意可用的计算机可读存储介质或通信介质。
通信介质包括藉此包含例如计算机可读指令、数据结构、程序模块或其他数据的通信信号被从一个系统传送到另一系统的介质。通信介质可包括有导的传输介质(诸如电缆和线(例如,光纤、同轴等))和能传播能量波的无线(未有导的传输)介质,诸如声音、电磁、RF、微波和红外。计算机可读指令、数据结构、程序模块或其他数据可被体现为例如无线介质(诸如载波或诸如被体现为扩展频谱技术的一部分的类似机制)中的已调制数据信号。术语“已调制数据信号”指的是其一个或多个特征以在信号中编码信息的方式被更改或设定的信号。调制可以是模拟的、数字的或混合调制技术。
在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
实施例四
对应上述实施例,本申请还提供了一种计算机可读存储介质,存储有计算机可执行指令,计算机可执行指令用于执行异构加速芯片的管理方法。
在本实施例中,计算机可读存储介质可包括以用于存储诸如计算机可读指令、数据结构、程序模块或其它数据的信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动的介质。例如,计算机可读存储介质包括,但不限于,易失性存储器,诸如随机存储器(RAM,DRAM,SRAM);以及非易失性存储器,诸如闪存、各种只读存储器(ROM,PROM,EPROM,EEPROM)、磁性和铁磁/铁电存储器(MRAM,FeRAM);以及磁性和光学存储设备(硬盘、磁带、CD、DVD);或其它现在已知的介质或今后开发的能够存储供计算机系统使用的计算机可读信息/数据。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (10)
1.一种异构加速芯片的管理方法,其特征在于,包括:
接入一个或多个异构加速芯片的驱动,所述驱动包括所述异构加速芯片的动态链接库文件;
响应于首次加载通用管理工具,遍历至少一个所述异构加速芯片的动态链接库文件,筛选出能够实现指标数据获取函数的所述动态链接库文件以及对应的所述异构加速芯片;
对筛选出的所述异构加速芯片通过所述指标数据获取函数调用所述异构加速芯片的指标数据;
将所述指标数据上报至监控系统和/或数据库中。
2.根据权利要求1所述的异构加速芯片的管理方法,其特征在于,所述响应于首次加载通用管理工具,遍历一个或多个异构加速芯片的动态链接库文件,筛选出能够实现指标数据获取函数的所述动态链接库文件以及对应的所述异构加速芯片,包括:
响应于首次加载通用管理工具,遍历一个或多个异构加速芯片的动态链接库文件;
所述通用管理工具自动匹配系统中所述动态链接库文件的特征值,若匹配成功,将所述动态链接库文件对应的所述异构加速芯片纳入异构芯片候选;
对纳入所述异构芯片候选的所述异构加速芯片进行指标数据获取函数的数据结构的校验并返回检验结果,若所述校验结果为通过,将校验通过的所述异构加速芯片纳入所述通用管理工具中进行监控。
3.根据权利要求2所述的异构加速芯片的管理方法,其特征在于,所述方法还包括:
根据校验通过的所述异构加速芯片对应的动态链接库文件地址,生成第一通用管理配置文件;
响应于所述通用管理工具非首次加载,在运行时直接读取所述第一通用管理配置文件,以读取到校验通过的所述异构加速芯片对应的所述动态链接库文件。
4.根据权利要求3所述的异构加速芯片的管理方法,其特征在于,在响应于所述通用管理工具非首次加载,在运行时直接读取所述第一通用管理配置文件,以读取到校验通过的所述异构加速芯片对应的所述动态链接库文件之后,所述方法还包括:
判断系统中是否存在未进行校验的新增异构加速芯片;
若存在,执行增量芯片扫描。
5.根据权利要求4所述的异构加速芯片的管理方法,其特征在于,所述增量芯片扫描包括以下至少一种:
删除所述第一通用管理配置文件,重新遍历所有所述异构加速芯片的动态链接库文件,重新筛选出能够实现指标数据获取函数的所述动态链接库文件以及对应的所述异构加速芯片,根据重新筛选出的所述动态链接库文件的地址生成第二通用管理配置文件;以及
对所述未进行校验的新增异构加速芯片进行所述指标数据获取函数的数据结构的校验并返回检验结果,若所述校验结果为通过,将校验通过的所述新增异构加速芯片纳入所述通用管理工具中进行监控,并修改所述第一通用管理配置文件,得到修改后的第一通用管理配置文件,以供所述通用管理工具重新读取。
6.根据权利要求1所述的异构加速芯片的管理方法,其特征在于,在所述对筛选出的所述异构加速芯片通过所述指标数据获取函数调用所述异构加速芯片的指标数据之后,所述方法还包括:
在所述异构加速芯片所在的系统中配置命令行,以便于用户通过所述命令行查看所述指标数据。
7.根据权利要求1所述的异构加速芯片的管理方法,其特征在于,所述将所述指标数据上报至监控系统和/或数据库中,包括:
通过主动上报和/或被动拉取的方式将所述指标数据上报至监控系统中;
将所述指标数据直接写入数据库中;
其中,所述监控系统包括ZABBIX系统和Prometheus系统中的至少一种;
所述数据库包括关系型数据库、非关系型数据库以及时序数据库中的至少一种。
8.一种异构加速芯片的管理装置,其特征在于,所述装置包括:
芯片部署模块,用于接入一个或多个异构加速芯片的驱动,所述驱动包括所述异构加速芯片的动态链接库文件;
通用管理模块,用于响应于首次加载通用管理工具,遍历至少一个所述异构加速芯片的动态链接库文件,筛选出能够实现指标数据获取函数的所述动态链接库文件以及对应的所述异构加速芯片;
数据获取模块,用于对筛选出的所述异构加速芯片通过所述指标数据获取函数调用所述异构加速芯片的指标数据;
数据上报模块,用于将所述指标数据上报至监控系统和/或数据库中。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任意一项所述异构加速芯片的管理方法。
10.一种计算机可读存储介质,存储有计算机可执行指令,其特征在于,所述计算机可执行指令用于执行权利要求1至7中任意一项所述异构加速芯片的管理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210233815.9A CN114647549B (zh) | 2022-03-10 | 2022-03-10 | 异构加速芯片的管理方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210233815.9A CN114647549B (zh) | 2022-03-10 | 2022-03-10 | 异构加速芯片的管理方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114647549A true CN114647549A (zh) | 2022-06-21 |
CN114647549B CN114647549B (zh) | 2024-07-05 |
Family
ID=81994048
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210233815.9A Active CN114647549B (zh) | 2022-03-10 | 2022-03-10 | 异构加速芯片的管理方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114647549B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116167437A (zh) * | 2023-04-18 | 2023-05-26 | 之江实验室 | 一种芯片管理系统、方法、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140304720A1 (en) * | 2013-04-03 | 2014-10-09 | Tencent Technology (Shenzhen) Company Limited | Method for starting process of application and computer system |
CN113886198A (zh) * | 2021-09-30 | 2022-01-04 | 苏州浪潮智能科技有限公司 | 一种告警方法、系统、设备以及介质 |
CN114048463A (zh) * | 2021-11-10 | 2022-02-15 | 北京沃东天骏信息技术有限公司 | 程序运行校验方法、装置、存储介质及电子设备 |
-
2022
- 2022-03-10 CN CN202210233815.9A patent/CN114647549B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140304720A1 (en) * | 2013-04-03 | 2014-10-09 | Tencent Technology (Shenzhen) Company Limited | Method for starting process of application and computer system |
CN113886198A (zh) * | 2021-09-30 | 2022-01-04 | 苏州浪潮智能科技有限公司 | 一种告警方法、系统、设备以及介质 |
CN114048463A (zh) * | 2021-11-10 | 2022-02-15 | 北京沃东天骏信息技术有限公司 | 程序运行校验方法、装置、存储介质及电子设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116167437A (zh) * | 2023-04-18 | 2023-05-26 | 之江实验室 | 一种芯片管理系统、方法、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN114647549B (zh) | 2024-07-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20110191630A1 (en) | Diagnosing a fault incident in a data center | |
CN111258563A (zh) | 一种接口文档的生成方法、装置、存储介质及电子设备 | |
CN110968477B (zh) | 一种获取备用bmc版本信息的方法、设备及介质 | |
CN112445692B (zh) | 一种用例测试方法及终端 | |
CN114647549B (zh) | 异构加速芯片的管理方法、装置、设备和介质 | |
CN115662489A (zh) | 硬盘测试方法、装置、电子设备和存储介质 | |
CN104298589A (zh) | 一种性能测试方法和设备 | |
CN110968339B (zh) | 前端构建工具的方法、装置以及电子设备 | |
CN110147313B (zh) | 一种日志输出方法及装置 | |
CN111367710B (zh) | 一种eMMC问题还原方法和装置 | |
CN114443337B (zh) | 一种基于js的日志分析方法、装置、电子设备和介质 | |
CN112905422B (zh) | 基于搜索服务器的告警规则管理方法和设备 | |
CN111880078A (zh) | 一种自动化指令测试的方法及设备 | |
CN114449370B (zh) | 交换机组装部件一体化管理方法、装置及存储介质 | |
CN110736920A (zh) | 一种基于工程管理测试脚本的卡片测试方法及系统 | |
US20240160559A1 (en) | Automated decoupling of unit tests | |
CN116150012A (zh) | 一种服务器集成开发环境测试方法、装置、设备和介质 | |
CN116204206A (zh) | 一种网卡固件批量刷新方法、装置、电子设备和存储介质 | |
US11816451B2 (en) | Method and system for identifying common requirements from applications | |
CN118503139B (zh) | 一种三维cad系统的自动化测试方法、设备及介质 | |
CN115129355B (zh) | 页面修复方法及其系统、计算机设备 | |
CN114301926B (zh) | 服务器节点之间分布式数据传输方法、系统及存储介质 | |
CN114463095A (zh) | 一种服务器订单检查方法、装置、电子设备和介质 | |
CN113935592A (zh) | 一种合同管理方法、装置、设备及存储介质 | |
CN115454823A (zh) | 一种自动化测试方法、装置、电子设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |