CN117389841B - 加速器资源监控方法、装置、集群设备及存储介质 - Google Patents

加速器资源监控方法、装置、集群设备及存储介质 Download PDF

Info

Publication number
CN117389841B
CN117389841B CN202311670347.2A CN202311670347A CN117389841B CN 117389841 B CN117389841 B CN 117389841B CN 202311670347 A CN202311670347 A CN 202311670347A CN 117389841 B CN117389841 B CN 117389841B
Authority
CN
China
Prior art keywords
accelerator
job
calling
information
monitoring
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311670347.2A
Other languages
English (en)
Other versions
CN117389841A (zh
Inventor
朱飞
胡东瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hexin Technology Co ltd
Hexin Technology Suzhou Co ltd
Original Assignee
Hexin Technology Co ltd
Hexin Technology Suzhou Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hexin Technology Co ltd, Hexin Technology Suzhou Co ltd filed Critical Hexin Technology Co ltd
Priority to CN202311670347.2A priority Critical patent/CN117389841B/zh
Priority to CN202410373629.4A priority patent/CN118277198A/zh
Publication of CN117389841A publication Critical patent/CN117389841A/zh
Application granted granted Critical
Publication of CN117389841B publication Critical patent/CN117389841B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3024Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a central processing unit [CPU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3438Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment monitoring of user actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Computer Hardware Design (AREA)
  • Mathematical Physics (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明涉及集群设备技术领域,公开了加速器资源监控方法、装置、集群设备及存储介质,包括:定期获取所有加速器的状态;若存在被调用状态的加速器,则获取加速器的信息和调用加速器进行作业的作业号,作业号用于唯一表示所进行作业内容;判断调用加速器的作业是否存在于监控池中,监控池内记录有所有调用加速器的作业;若调用加速器的作业不在监控池中,则将调用加速器的作业放入监控池;定期判断调用加速器的作业是否结束;在调用加速器的作业结束时,将调用加速器的作业的开始时间和结束时间以及对应的加速器的信息和作业号记入预先设置的服务数据库,本发明便于用户获取所需的加速器使用信息,便于对加速器资源使用情况进行报告输出统计。

Description

加速器资源监控方法、装置、集群设备及存储介质
技术领域
本发明涉及集群设备技术领域,具体涉及加速器资源监控方法、装置、集群设备及存储介质。
背景技术
加速器旨在满足现代数据中心不断变化的需求,为重要工作负载(包括机器学习推断、视频转码和数据库搜索与分析)提供比 CPU 和 GPU 更高的性能。可为金融计算、机器学习、计算存储以及数据搜索与分析工作负载提供优化加速。出于不同的使用目的时,在使用集群管理的方式使用加速器的所有用户中,都只能通过加速器厂商自带的工具,实时去看每个加速器最小可用资源,记为domain,的使用的情况,并没有对加速器历史的使用情况进行一个收集。
相关技术中,在查看加速器集群的详细信息的同时,无法收集到每一个用户提交的作业对应的用到的加速器资源单元的信息,集群作业信息和加速器使用信息无法集合关联对应,导致了管理员无法查看加速器在集群中的历史使用情况以及实时的使用状态。同时也无法批量的查看某个时间段内,一个或者多个用户的详细使用情况,从而无法得出加速器的历史使用分析报告。
发明内容
有鉴于此,本发明提供了一种加速器资源监控方法、装置、集群设备及存储介质,以解决无法掌握加速器集群中加速器单元的实时作业情况的问题。
第一方面,本发明提供了一种加速器资源监控方法,方法包括:
按照第一预设周期定期获取所有加速器的状态;
若存在被调用状态的加速器,则获取加速器的信息和调用加速器进行作业的作业号,作业号用于唯一表示所进行作业内容;
基于作业号,判断调用加速器的作业是否存在于监控池中,监控池内记录有所有调用加速器的作业;
若调用加速器的作业不在监控池中,则将调用加速器的作业放入监控池;
按照第二预设周期定期判断调用加速器的作业是否结束;
在调用加速器的作业结束时,将调用加速器的作业移出监控池,并将加速器的状态变更为空闲状态;
将调用加速器的作业的开始时间和结束时间以及对应的加速器的信息和作业号记入预先设置的服务数据库。
在本发明中,通过在集群设备中对所有加速器的状态进行获取整理,建立了计算集群管理和加速器资源使用的统计桥梁。通过对调用加速器的作业进行监控,便于对加速器使用情况进行实时收集和后续的查询。通过利用监控池进行监控,同时实现对多个用户使用加速器的情况进行高效的实时收集和查询。通过预设服务器收集加速器的使用信息,便于用户获取所需的加速器的使用信息,进一步便于对加速器资源的使用情况进行报告输出与统计。
在一种可选的实施方式中,获取调用加速器进行作业的作业号,包括:
获取调用加速器的用户信息和调用加速器的进程号;
基于调用加速器的用户信息,从服务数据库中查询用户信息对应的所有作业的进程号,其中,服务数据库中存储有用户信息对应的作业及作业调用的加速器信息;
基于调用加速器的进程号,从服务数据库中获取用户信息对应的所有作业中与加速器相关的进程号,并与调用加速器的进程号进行比对,根据比对结果,调用加速器进行作业的作业号。
在该方式中,通过进程号与用户信息,查询到用户集群的所有作业信息,进一步查询到加速器运行中的是哪个用户的哪个作业,便于后续用户查询加速器及进行的作业等信息。
在一种可选的实施方式中,判断调用加速器的作业是否存在于监控池中,包括:
从服务数据库中查询作业号,判断服务数据库中是否存在作业号对应的作业信息;若存在作业号对应的作业信息,则确定调用加速器的作业存在于监控池。
在该方式中,通过判断服务数据库中是否有作业号对应的作业信息,在服务数据库中有对应作业号时确认加速器作业存在与监控池,将作业信息与加速器信息进一步连接,便于后续对加速器使用情况进行统计。
在一种可选的实施方式中,将调用加速器的作业放入监控池,包括:
将调用加速器的作业号添加至监控池,并将调用加速器的作业的开始时间以及对应的加速器的信息、运行状态和作业号记入服务数据库。
在该方式中,通过在将作业添加至监控池同时将作业信息记入服务数据库,进一步确保每一被监控的作业信息都可以在服务器中存档,便于后续对加速器的使用情况进行统计。
在一种可选的实施方式中,若不存在被调用状态的加速器,按照第一预设周期定期获取所有加速器的状态。
在该方式中,在用户没有调用加速器进行作业时,仍旧定时进行加速器监控,保障了监控的连贯性与可靠性。
在一种可选的实施方式中,方法还包括:
从服务数据库中获取服务数据库中所有作业信息,并将作业信息生成对应的报告。
在该方式中,通过服务数据库,用户可以更为清楚地掌握加速器资源的使用情况,便于用户查看加速器的使用信息。
在一种可选的实施方式中,在获取服务数据库中所有作业信息之后,方法还包括:
获取匹配条件,匹配条件包括作业状态、作业用户和作业的起止时间中至少一条;
基于匹配条件,筛选得到目标作业信息,并生成目标作业信息对应的目标报告。
在该方式中,通过利用匹配条件进行筛选,更为清楚地掌握了具体每一加速器的信息,更加方便用户根据自身需要获取想要的加速器的信息,进一步提高了用户的使用体验。
第二方面,本发明提供了一种加速器资源监控装置,装置包括:
状态获取模块,用于按照第一预设周期定期获取所有加速器的状态;
作业号获取模块,用于若存在被调用状态的加速器,则获取加速器的信息和调用加速器进行作业的作业号,作业号用于唯一表示所进行作业内容;
监控判断模块,用于基于作业号,判断调用加速器的作业是否存在于监控池中,监控池内记录有所有调用加速器的作业;
监控执行模块,用于若调用加速器的作业不在监控池中,则将调用加速器的作业放入监控池;
作业结束判断模块,用于按照第二预设周期定期判断调用加速器的作业是否结束;
监控移出模块,用于在调用加速器的作业结束时,将调用加速器的作业移出监控池,并将加速器的状态变更为空闲状态;
数据记录模块,用于将调用加速器的作业的开始时间和结束时间以及对应的加速器的信息和作业号记入预先设置的服务数据库。
第三方面,本发明提供了一种集群设备,包括:存储器和处理器,存储器和处理器之间互相通信连接,存储器中存储有计算机指令,处理器通过执行计算机指令,从而执行上述第一方面或其对应的任一实施方式的加速器资源监控方法。
第四方面,本发明提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机指令,计算机指令用于使计算机执行上述第一方面或其对应的任一实施方式的加速器资源监控方法。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的加速器资源监控方法的流程示意图。
图2是根据本发明实施例的一种加速器的监控服务的流程示意图。
图3是根据本发明实施例的另一加速器资源监控方法的流程示意图。
图4是根据本发明实施例的又一加速器资源监控方法的流程示意图。
图5是根据本发明实施例的监控报告生成的流程示意图。
图6是根据本发明实施例的加速器资源监控装置的结构框图。
图7是本发明实施例的集群设备的硬件结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
相关技术中,在查看加速器集群的详细信息的同时,无法收集到每一个用户提交的作业对应的用到的加速器资源单元的信息,集群作业信息和加速器使用信息无法集合关联对应,导致了管理员无法查看加速器在集群中的历史使用情况以及实时的使用状态。同时也无法批量的查看某个时间段内,一个或者多个用户的详细使用情况,从而无法得出加速器的历史使用分析报告。
为解决上述问题,本发明实施例中提供一种加速器资源监控方法,用于集群设备中,需要说明的是,其执行主体可以是加速器资源监控装置,该装置可以通过软件、硬件或者软硬件结合的方式实现成为集群设备的部分或者全部,其中,该集群设备可以是终端或客户端或服务器,服务器可以是一台服务器,也可以为由多台服务器组成的服务器集群,本申请实施例中的终端可以是智能手机、个人电脑、平板电脑等其他智能硬件设备。下述方法实施例中,均以执行主体是集群设备为例来进行说明。
本实施例中的集群设备,适用于对加速器的使用状况进行监控并进行统计报告的使用场景。通过本发明提供加速器资源监控方法,通过在集群设备中对所有加速器的状态进行获取整理,建立了计算集群管理和加速器资源使用的统计桥梁。通过对调用加速器的作业进行监控,便于对加速器使用情况进行实时收集和后续的查询。通过利用监控池进行监控,同时实现对多个用户使用加速器的情况进行高效的实时收集和查询。通过预设服务器收集加速器的使用信息,便于用户获取所需的加速器的使用信息,进一步便于对加速器资源的使用情况进行报告输出与统计。
根据本发明实施例,提供了一种加速器资源监控方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
在本实施例中提供了一种加速器资源监控方法,可用于上述的集群设备,图1是根据本发明实施例的加速器资源监控方法的流程图,如图1所示,该流程包括如下步骤:
步骤S101,按照第一预设周期定期获取所有加速器的状态。
在一示例中,通过集群化管理的加速器资源监控系统,启动监控服务,定时获取加速器的实时状态,拿到每个可使用的加速器最小可用资源domain的实时状态。第一预设周期的设定可以根据需要改变,第一预设周期具体时长在本发明中不做限定。
步骤S102,若存在被调用状态的加速器,则获取加速器的信息和调用加速器进行作业的作业号。
在本发明实施例中,作业号用于唯一表示所进行作业内容。
在一示例中,通过获取实时状态中的调用资源单元的进程号以及使用的用户信息。拿到进程号和用户信息后,通过集群管理系统中的指令集,获取到此用户的相关的所有作业的信息。获取到所有作业信息后,匹配每个作业的详细信息后,寻找作业使用的进程号,找出与加速器匹配的作业的进程号,得出与加速器相关的作业号等相关信息。
步骤S103,基于作业号,判断调用加速器的作业是否存在于监控池中。
在本发明实施例中,监控池内记录有所有调用加速器的作业。
在一示例中,通过加速器资源监控池,对作业是否被监控进行判断。
步骤S104,若调用加速器的作业不在监控池中,则将调用加速器的作业放入监控池。
在一示例中,调用加速器的作业不在监控池中是,在加速器资源监控池中添加定时监控此作业信息对应的作业号,与此同时,将作业号以及其使用的加速器的domain详细信息和运行状态,以及耗时情况添加存入预设的服务数据库中,并将此作业号的耗时和运行状态更新到数据库中,直到此作业结束。
步骤S105,按照第二预设周期定期判断调用加速器的作业是否结束。
在一示例中,定时监控作业信息对应的作业号,判断调用加速器的作业是否结束,第二预设周期的设定可以根据需要改变,第二预设周期具体时长在本发明中不做限定。
步骤S106,在调用加速器的作业结束时,将调用加速器的作业移出监控池,并将加速器的状态变更为空闲状态。
在一示例中,在调用加速器的作业结束时,在监控池中移除此作业对应的定时监控任务,并将此作业对应的加速器的状态改为空闲状态。
步骤S107,将调用加速器的作业的开始时间和结束时间以及对应的加速器的信息和作业号记入预先设置的服务数据库。
在一示例中,获取此作业的开始时间和结束时间,将此作业的开始时间和结束时间这两条信息更新到服务数据库中,同时将作业的运行状态改为结束状态。
在一实施场景中,加速器的实时状态是定时触发运行的,由于采用监控池进行监控,因此,对不同加速器的监控服务可以多个并行执行,以其中某一用户的某一作业为例,图2是根据本发明实施例的一种加速器的监控服务的流程示意图,如图2所示,通过集群化管理的加速器资源监控系统,启动监控服务,定时获取加速器的实时状态,拿到每个可使用的domain的实时状态。获取实时状态中的调用加速器资源单元domain的进程号以及使用的用户信息。拿到进程号和用户信息后,通过集群管理系统中的指令集,获取到此用户的相关的所有作业的信息。获取到此用户的相关的所有作业的信息后,匹配每个作业的详细信息,寻找作业使用的进程号,找出与加速器匹配的作业的进程号,得出与加速器相关的作业号等相关信息,使用此方式可以获取到其他使用此进程的其他加速器的domain号。经过统计后,根据作业号到监控服务所对应的服务数据库中查找是否存在此作业信息:若服务数据库中存在此作业信息,则将domain详细信息和运行状态,以及耗时情况更新到服务数据库;若服务数据库中不存在此作业信息,则将此作业号以及其使用的加速器的domain详细信息、运行状态以及耗时情况存入服务数据库中,与此同时,在加速器资源监控池中添加定时监控此作业信息对应的作业号,直到此作业结束。在此作业结束后,获取此作业的开始时间和结束时间,将作业的开始时间和结束时间这两条信息更新到服务数据库中,同时将作业的运行状态改为结束状态,在监控池中移除作业对应的定时监控任务。
本实施例提供的加速器资源监控方法,通过在集群设备中对所有加速器的状态进行获取整理,建立了计算集群管理和加速器资源使用的统计桥梁。通过对调用加速器的作业进行监控,便于对加速器使用情况进行实时收集和后续的查询。通过利用监控池进行监控,同时实现对多个用户使用加速器的情况进行高效的实时收集和查询。通过预设服务器收集加速器的使用信息,便于用户获取所需的加速器的使用信息,进一步便于对加速器资源的使用情况进行报告输出与统计。
在本实施例中提供了一种加速器资源监控方法,可用于上述的集群设备,图3是根据本发明实施例的加速器资源监控方法的流程图,如图3所示,该流程包括如下步骤:
步骤S301,按照第一预设周期定期获取所有加速器的状态。详细请参见图1所示实施例的步骤S101,在此不再赘述。
步骤S302,若存在被调用状态的加速器,则获取加速器的信息和调用加速器进行作业的作业号,作业号用于唯一表示所进行作业内容。
具体地,上述步骤S302包括:
步骤S3021,获取调用加速器的用户信息和调用加速器的进程号。
步骤S3022,基于调用加速器的用户信息,从服务数据库中查询用户信息对应的所有作业的进程号。
在本发明实施例中,服务数据库中存储有用户信息对应的作业及作业调用的加速器信息。
步骤S3023,基于调用加速器的进程号,从服务数据库中获取用户信息对应的所有作业中与加速器相关的进程号,并与调用加速器的进程号进行比对,根据比对结果,调用加速器进行作业的作业号。
在一示例中,详细解释该步骤。
在该方式中,通过进程号与用户信息,查询到用户集群的所有作业信息,进一步查询到加速器运行中的是哪个用户的哪个作业,便于后续用户查询加速器及进行的作业等信息。
步骤S303,基于作业号,判断调用加速器的作业是否存在于监控池中。
具体地,上述步骤S303包括:
步骤S3031,从服务数据库中查询作业号,判断服务数据库中是否存在作业号对应的作业信息;若存在作业号对应的作业信息,则确定调用加速器的作业存在于监控池。
在一示例中,获取实时状态中的调用加速器资源单元domain的进程号以及使用的用户信息。拿到进程号和用户信息后,通过集群管理系统中的指令集,获取到此用户的相关的所有作业的信息。获取到此用户的相关的所有作业的信息后,匹配每个作业的详细信息,寻找作业使用的进程号,找出与加速器匹配的作业的进程号,得出与加速器相关的作业号等相关信息,使用此方式可以获取到其他使用此进程的其他加速器的domain号。经过统计后,根据作业号到监控服务所对应的服务数据库中查找是否存在此作业信息:若服务数据库中存在此作业信息,则将domain详细信息和运行状态,以及耗时情况更新到服务数据库。
在该方式中,通过判断服务数据库中是否有作业号对应的作业信息,在服务数据库中有对应作业号时确认加速器作业存在与监控池,将作业信息与加速器信息进一步连接,便于后续对加速器使用情况进行统计。
步骤S304,若调用加速器的作业不在监控池中,则将调用加速器的作业放入监控池。
具体地,上述步骤S304包括:
步骤S3041,将调用加速器的作业号添加至监控池,并将调用加速器的作业的开始时间以及对应的加速器的信息、运行状态和作业号记入服务数据库。
在一示例中,若服务数据库中不存在此作业信息,则将此作业号以及其使用的加速器的domain详细信息、运行状态以及耗时情况存入服务数据库中,与此同时,在加速器资源监控池中添加定时监控此作业信息对应的作业号,直到此作业结束。在此作业结束后,获取此作业的开始时间和结束时间,将作业的开始时间和结束时间这两条信息更新到服务数据库中,同时将作业的运行状态改为结束状态,在监控池中移除作业对应的定时监控任务。
在该方式中,通过在将作业添加至监控池同时将作业信息记入服务数据库,进一步确保每一被监控的作业信息都可以在服务器中存档,便于后续对加速器的使用情况进行统计。
步骤S305,按照第二预设周期定期判断调用加速器的作业是否结束。详细请参见图1所示实施例的步骤S105,在此不再赘述。
步骤S306,在调用加速器的作业结束时,将调用加速器的作业移出监控池,并将加速器的状态变更为空闲状态。详细请参见图1所示实施例的步骤S105,在此不再赘述。
步骤S307,将调用加速器的作业的开始时间和结束时间以及对应的加速器的信息和作业号记入预先设置的服务数据库。详细请参见图1所示实施例的步骤S105,在此不再赘述。
具体地,上述步骤S307之后,加速器资源监控方法还包括:
步骤S308,按照第二预设周期定期判断调用加速器的作业是否结束。
在一示例中,定时获取加速器的实时状态,拿到每个可使用的domain的实时状态。
本实施例提供的加速器资源监控方法,通过进程号与用户信息,查询到用户集群的所有作业信息,进一步查询到加速器运行中的是哪个用户的哪个作业,便于后续用户查询加速器及进行的作业等信息。通过判断服务数据库中是否有作业号对应的作业信息,在服务数据库中有对应作业号时确认加速器作业存在与监控池,将作业信息与加速器信息进一步连接,便于后续对加速器使用情况进行统计。通过在将作业添加至监控池同时将作业信息记入服务数据库,进一步确保每一被监控的作业信息都可以在服务器中存档,便于后续对加速器的使用情况进行统计。在用户没有调用加速器进行作业时,仍旧定时进行加速器监控,保障了监控的连贯性与可靠性。
在本实施例中提供了一种加速器资源监控方法,可用于上述的集群设备,图4是根据本发明实施例的加速器资源监控方法的流程图,如图4所示,该流程包括如下步骤:
步骤S401,按照第一预设周期定期获取所有加速器的状态。详细请参见图3所示实施例的步骤S301,在此不再赘述。
步骤S402,若存在被调用状态的加速器,则获取加速器的信息和调用加速器进行作业的作业号。详细请参见图3所示实施例的步骤S302,在此不再赘述。
步骤S403,基于作业号,判断调用加速器的作业是否存在于监控池中。详细请参见图3所示实施例的步骤S303,在此不再赘述。
步骤S404,若调用加速器的作业不在监控池中,则将调用加速器的作业放入监控池。详细请参见图3所示实施例的步骤S304,在此不再赘述。
步骤S405,按照第二预设周期定期判断调用加速器的作业是否结束。详细请参见图3所示实施例的步骤S305,在此不再赘述。
步骤S406,在调用加速器的作业结束时,将调用加速器的作业移出监控池,并将加速器的状态变更为空闲状态。详细请参见图3所示实施例的步骤S306,在此不再赘述。
步骤S407,将调用加速器的作业的开始时间和结束时间以及对应的加速器的信息和作业号记入预先设置的服务数据库。详细请参见图3所示实施例的步骤S307,在此不再赘述。
具体地,上述步骤S407之后,加速器资源监控方法还包括:
步骤S408,从服务数据库中获取服务数据库中所有作业信息,并将作业信息生成对应的报告。
在该方式中,通过服务数据库,用户可以更为清楚地掌握加速器资源的使用情况,便于用户查看加速器的使用信息。
具体地,上述步骤S408之后,加速器资源监控方法还包括:
步骤S409,获取匹配条件。
在本发明实施例中,匹配条件包括作业状态、作业用户和作业的起止时间中至少一条。具体地,可以通过一条匹配条件进行筛选,也可以通过多条匹配条件的组合进行筛选。
步骤S410,基于匹配条件,筛选得到目标作业信息,并生成目标作业信息对应的目标报告。
在一示例中,图5是根据本发明实施例的监控报告生成的流程示意图。如图5所示,用户可以通过集群化管理的加速器资源监控系统配套的监控软件系统,查看运行的作业信息以及其对应的加速器的资源。通过连接服务对应的服务数据库,获取正在运行的以及结束的所有作业信息,将每一个作业的作业号、用户、耗时情况、开始结束时间、使用到的所有domain,以列表的形式显示出来。同时监控软件系统还可以筛选指定用户的所有作业信息、指定状态的所有作业信息、指定开始时间或者结束时间的所有信息等方式来应对用户的不同需要。通过监控软件系统,可以根据指定的条件,获取到匹配条件的所有的作业信息后,统计所有的作业的详细情况,包括总耗时,使用到的所有domain,以及每个作业的具体提交,生成对应的报告,提供给有需要的用户。
本实施例提供的加速器资源监控方法,通过服务数据库,用户可以更为清楚地掌握加速器资源的使用情况,便于用户查看加速器的使用信息。通过利用匹配条件进行筛选,更为清楚地掌握了具体每一加速器的信息,更加方便用户根据自身需要获取想要的加速器的信息,进一步提高了用户的使用体验。
在本实施例中还提供了一种加速器资源监控装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
本实施例提供一种加速器资源监控装置,如图6所示,包括:
状态获取模块601,用于按照第一预设周期定期获取所有加速器的状态。详细请参见图1所示实施例的步骤S101,在此不再赘述。
作业号获取模块602,用于若存在被调用状态的加速器,则获取加速器的信息和调用加速器进行作业的作业号,作业号用于唯一表示所进行作业内容。详细请参见图1所示实施例的步骤S102,在此不再赘述。
监控判断模块603,用于基于作业号,判断调用加速器的作业是否存在于监控池中,监控池内记录有所有调用加速器的作业。详细请参见图1所示实施例的步骤S103,在此不再赘述。
监控执行模块604,用于若调用加速器的作业不在监控池中,则将调用加速器的作业放入监控池。详细请参见图1所示实施例的步骤S104,在此不再赘述。
作业结束判断模块605,用于按照第二预设周期定期判断调用加速器的作业是否结束。详细请参见图1所示实施例的步骤S105,在此不再赘述。
监控移出模块606,用于在调用加速器的作业结束时,将调用加速器的作业移出监控池,并将加速器的状态变更为空闲状态。详细请参见图1所示实施例的步骤S106,在此不再赘述。
数据记录模块607,用于将调用加速器的作业的开始时间和结束时间以及对应的加速器的信息和作业号记入预先设置的服务数据库。详细请参见图1所示实施例的步骤S107,在此不再赘述。
在一些可选的实施方式中,作业号获取模块602包括:
进程号获取单元,用于获取调用加速器的用户信息和调用加速器的进程号。
作业进程号获取单元,用于基于调用加速器的用户信息,从服务数据库中查询用户信息对应的所有作业的进程号,其中,服务数据库中存储有用户信息对应的作业及作业调用的加速器信息。
进程号比对单元,用于基于调用加速器的进程号,从服务数据库中获取用户信息对应的所有作业中与加速器相关的进程号,并与调用加速器的进程号进行比对,根据比对结果,调用加速器进行作业的作业号。
在一些可选的实施方式中,监控判断模块603包括:
监控判断单元,用于从服务数据库中查询作业号,判断服务数据库中是否存在作业号对应的作业信息;若存在作业号对应的作业信息,则确定调用加速器的作业存在于监控池。
在一些可选的实施方式中,监控执行模块604包括:
监控执行单元,用于将调用加速器的作业号添加至监控池,并将调用加速器的作业的开始时间以及对应的加速器的信息、运行状态和作业号记入服务数据库。
在一些可选的实施方式中,加速器资源监控装置还包括:
定时监控单元,用于若不存在被调用状态的加速器,按照第一预设周期定期获取所有加速器的状态。
在一些可选的实施方式中,加速器资源监控装置还包括:
报告生成单元,用于从服务数据库中获取服务数据库中所有作业信息,并将作业信息生成对应的报告。
在一些可选的实施方式中,报告生成单元包括:
条件获取子单元,用于获取匹配条件,匹配条件包括作业状态、作业用户和作业的起止时间中至少一条。
报告生成子单元,用于基于匹配条件,筛选得到目标作业信息,并生成目标作业信息对应的目标报告。
上述各个模块和单元的更进一步的功能描述与上述对应实施例相同,在此不再赘述。
本实施例中的加速器资源监控装置是以功能单元的形式来呈现,这里的单元是指ASIC(Application Specific Integrated Circuit,专用集成电路)电路,执行一个或多个软件或固定程序的处理器和存储器,和/或其他可以提供上述功能的器件。
本发明实施例还提供一种集群设备,具有上述图6所示的加速器资源监控装置。
请参阅图7,图7是本发明可选实施例提供的一种集群设备的结构示意图,如图7所示,该集群设备包括:一个或多个处理器10、存储器20,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相通信连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在集群设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在一些可选的实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个集群设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图7中以一个处理器10为例。
处理器10可以是中央处理器,网络处理器或其组合。其中,处理器10还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路,可编程逻辑器件或其组合。上述可编程逻辑器件可以是复杂可编程逻辑器件,现场可编程逻辑门阵列,通用阵列逻辑或其任意组合。
其中,所述存储器20存储有可由至少一个处理器10执行的指令,以使所述至少一个处理器10执行实现上述实施例示出的方法。
存储器20可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据集群设备的使用所创建的数据等。此外,存储器20可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些可选的实施方式中,存储器20可选包括相对于处理器10远程设置的存储器,这些远程存储器可以通过网络连接至该集群设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
存储器20可以包括易失性存储器,例如,随机存取存储器;存储器也可以包括非易失性存储器,例如,快闪存储器,硬盘或固态硬盘;存储器20还可以包括上述种类的存储器的组合。
该集群设备还包括通信接口30,用于该集群设备与其他设备或通信网络通信。
本发明实施例还提供了一种计算机可读存储介质,上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可记录在存储介质,或者被实现通过网络下载的原始存储在远程存储介质或非暂时机器可读存储介质中并将被存储在本地存储介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件的存储介质上的这样的软件处理。其中,存储介质可为磁碟、光盘、只读存储记忆体、随机存储记忆体、快闪存储器、硬盘或固态硬盘等;进一步地,存储介质还可以包括上述种类的存储器的组合。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件,当软件或计算机代码被计算机、处理器或硬件访问且执行时,实现上述实施例示出的方法。
虽然结合附图描述了本发明的实施例,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (9)

1.一种加速器资源监控方法,其特征在于,所述方法包括:
按照第一预设周期定期获取所有加速器的状态;
若存在被调用状态的加速器,则获取所述加速器的信息和调用所述加速器进行作业的作业号,所述作业号用于唯一表示进行的作业内容;所述获取调用所述加速器进行作业的作业号,包括:获取调用所述加速器的用户信息和调用所述加速器的进程号;基于所述调用所述加速器的用户信息,从预先设置的服务数据库中查询所述用户信息对应的所有作业的进程号,其中,所述服务数据库中存储有用户信息对应的作业及所述作业调用的加速器信息;基于所述调用所述加速器的进程号,从所述服务数据库中获取所述用户信息对应的所有作业中与加速器相关的进程号,并与所述调用所述加速器的进程号进行比对,根据比对结果,调用所述加速器进行作业的作业号;
基于所述作业号,判断调用所述加速器的作业是否存在于监控池中,所述监控池内记录有所有调用加速器的作业;
若调用所述加速器的作业不在所述监控池中,则将调用所述加速器的作业放入所述监控池;
按照第二预设周期定期判断调用所述加速器的作业是否结束;
在所述调用所述加速器的作业结束时,将所述调用所述加速器的作业移出所述监控池,并将所述加速器的状态变更为空闲状态;
将调用所述加速器的作业的开始时间和结束时间以及对应的加速器的信息和作业号记入所述服务数据库。
2.根据权利要求1所述的方法,其特征在于,所述判断调用所述加速器的作业是否存在于监控池中,包括:
从所述服务数据库中查询所述作业号,判断所述服务数据库中是否存在所述作业号对应的作业信息;若存在所述作业号对应的作业信息,则确定调用所述加速器的作业存在于监控池。
3.根据权利要求1所述的方法,其特征在于,所述将调用所述加速器的作业放入所述监控池,包括:
将所述调用所述加速器的作业号添加至所述监控池,并将所述调用所述加速器的作业的开始时间以及对应的加速器的信息、运行状态和作业号记入所述服务数据库。
4.根据权利要求1所述的方法,其特征在于,若不存在被调用状态的加速器,按照第一预设周期定期获取所有加速器的状态。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:
从所述服务数据库中获取所述服务数据库中所有作业信息,并将所述作业信息生成对应的报告。
6.根据权利要求5所述的方法,其特征在于,在所述获取所述服务数据库中所有作业信息之后,所述方法还包括:
获取匹配条件,所述匹配条件包括作业状态、作业用户和所述作业的起止时间中至少一条;
基于所述匹配条件,筛选得到目标作业信息,并生成所述目标作业信息对应的目标报告。
7.一种加速器集群资源监控装置,其特征在于,所述装置包括:
状态获取模块,用于按照第一预设周期定期获取所有加速器的状态;
作业号获取模块,用于若存在被调用状态的加速器,则获取所述加速器的信息和调用所述加速器进行作业的作业号,所述作业号用于唯一表示进行的作业内容;所述获取调用所述加速器进行作业的作业号,包括:获取调用所述加速器的用户信息和调用所述加速器的进程号;基于所述调用所述加速器的用户信息,从预先设置的服务数据库中查询所述用户信息对应的所有作业的进程号,其中,所述服务数据库中存储有用户信息对应的作业及所述作业调用的加速器信息;基于所述调用所述加速器的进程号,从所述服务数据库中获取所述用户信息对应的所有作业中与加速器相关的进程号,并与所述调用所述加速器的进程号进行比对,根据比对结果,调用所述加速器进行作业的作业号;
监控判断模块,用于基于所述作业号,判断调用所述加速器的作业是否存在于监控池中,所述监控池内记录有所有调用加速器的作业;
监控执行模块,用于若调用所述加速器的作业不在所述监控池中,则将调用所述加速器的作业放入所述监控池;
作业结束判断模块,用于按照第二预设周期定期判断调用所述加速器的作业是否结束;
监控移出模块,用于在所述调用所述加速器的作业结束时,将所述调用所述加速器的作业移出所述监控池,并将所述加速器的状态变更为空闲状态;
数据记录模块,用于将调用所述加速器的作业的开始时间和结束时间以及对应的加速器的信息和作业号记入所述服务数据库。
8.一种集群设备,其特征在于,包括:
存储器和处理器,所述存储器和所述处理器之间互相通信连接,所述存储器中存储有计算机指令,所述处理器通过执行所述计算机指令,从而执行权利要求1至6任一项所述的加速器资源监控。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至6任一项所述的加速器资源监控。
CN202311670347.2A 2023-12-07 2023-12-07 加速器资源监控方法、装置、集群设备及存储介质 Active CN117389841B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202311670347.2A CN117389841B (zh) 2023-12-07 2023-12-07 加速器资源监控方法、装置、集群设备及存储介质
CN202410373629.4A CN118277198A (zh) 2023-12-07 2023-12-07 加速器资源监控方法、装置、集群设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311670347.2A CN117389841B (zh) 2023-12-07 2023-12-07 加速器资源监控方法、装置、集群设备及存储介质

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202410373629.4A Division CN118277198A (zh) 2023-12-07 2023-12-07 加速器资源监控方法、装置、集群设备及存储介质

Publications (2)

Publication Number Publication Date
CN117389841A CN117389841A (zh) 2024-01-12
CN117389841B true CN117389841B (zh) 2024-04-19

Family

ID=89437580

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202410373629.4A Pending CN118277198A (zh) 2023-12-07 2023-12-07 加速器资源监控方法、装置、集群设备及存储介质
CN202311670347.2A Active CN117389841B (zh) 2023-12-07 2023-12-07 加速器资源监控方法、装置、集群设备及存储介质

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202410373629.4A Pending CN118277198A (zh) 2023-12-07 2023-12-07 加速器资源监控方法、装置、集群设备及存储介质

Country Status (1)

Country Link
CN (2) CN118277198A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052144A (zh) * 2020-09-15 2020-12-08 曙光信息产业(北京)有限公司 信息管理方法、装置、电子设备及存储介质
CN112346926A (zh) * 2020-10-16 2021-02-09 北京金山云网络技术有限公司 资源状态监控方法、装置及电子设备
CN113674131A (zh) * 2021-07-21 2021-11-19 山东海量信息技术研究院 硬件加速器设备管理方法、装置及电子设备和存储介质
CN117077594A (zh) * 2023-08-22 2023-11-17 合芯科技有限公司 一种仿真加速器监控的方法、系统、计算机设备及介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112052144A (zh) * 2020-09-15 2020-12-08 曙光信息产业(北京)有限公司 信息管理方法、装置、电子设备及存储介质
CN112346926A (zh) * 2020-10-16 2021-02-09 北京金山云网络技术有限公司 资源状态监控方法、装置及电子设备
CN113674131A (zh) * 2021-07-21 2021-11-19 山东海量信息技术研究院 硬件加速器设备管理方法、装置及电子设备和存储介质
CN117077594A (zh) * 2023-08-22 2023-11-17 合芯科技有限公司 一种仿真加速器监控的方法、系统、计算机设备及介质

Also Published As

Publication number Publication date
CN117389841A (zh) 2024-01-12
CN118277198A (zh) 2024-07-02

Similar Documents

Publication Publication Date Title
CN110245078B (zh) 一种软件的压力测试方法、装置、存储介质和服务器
US10116534B2 (en) Systems and methods for WebSphere MQ performance metrics analysis
CN111400186B (zh) 性能测试方法及系统
WO2018184420A1 (zh) 软件测试方法、装置、电子设备及介质
CN111125444A (zh) 大数据任务调度管理方法、装置、设备及存储介质
CN111522728A (zh) 自动化测试用例的生成方法、电子设备及可读存储介质
US9706005B2 (en) Providing automatable units for infrastructure support
CN111026602A (zh) 一种云平台的健康巡检调度管理方法、装置及电子设备
CN109033188A (zh) 一种元数据采集方法、装置、服务器和计算机可读介质
CN111782452A (zh) 接口对比测试的方法、系统、设备和介质
CN113360581A (zh) 数据处理方法、装置及存储介质
CN112559525B (zh) 数据检查系统、方法、装置和服务器
CN113760677A (zh) 异常链路分析方法、装置、设备及存储介质
CN111901405B (zh) 一种多节点监控方法、装置、电子设备及存储介质
CN112463549A (zh) 云平台的审计方法、装置、设备及计算机可读存储介质
CN111381940B (zh) 分布式数据处理方法及装置
CN112162960A (zh) 一种卫生健康政务信息共享方法、装置及系统
CN112988679A (zh) 日志采集控制方法、装置、存储介质及服务器
CN115392501A (zh) 数据采集方法、装置、电子设备及存储介质
CN107193749B (zh) 测试方法、装置及设备
CN107330031B (zh) 一种数据存储的方法、装置及电子设备
CN117389841B (zh) 加速器资源监控方法、装置、集群设备及存储介质
CN112671878A (zh) 一种区块链的信息订阅方法、装置、服务器和存储介质
CN117149406A (zh) 资源调度方法、装置、系统、计算机设备及存储介质
US11216352B2 (en) Method for automatically analyzing bottleneck in real time and an apparatus for performing the method

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant