CN116126628A - 数据采集的方法、装置、电子设备及存储介质 - Google Patents

数据采集的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN116126628A
CN116126628A CN202211639400.8A CN202211639400A CN116126628A CN 116126628 A CN116126628 A CN 116126628A CN 202211639400 A CN202211639400 A CN 202211639400A CN 116126628 A CN116126628 A CN 116126628A
Authority
CN
China
Prior art keywords
data
display card
container
display
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211639400.8A
Other languages
English (en)
Inventor
杨腾飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202211639400.8A priority Critical patent/CN116126628A/zh
Publication of CN116126628A publication Critical patent/CN116126628A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3041Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is an input/output interface
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computing Systems (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Indexing, Searching, Synchronizing, And The Amount Of Synchronization Travel Of Record Carriers (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本公开提供了一种数据采集的方法、装置、电子设备及存储介质,涉及计人工智能领域,具体涉及云计算、基础架构技术,可应用在智慧城市场景下。具体实现方案为:获取数据采集任务;根据所述数据采集任务,采集节点的显卡数据;根据预设的显卡分配信息,对所述显卡数据进行解析处理,以获得所述节点中容器的显卡使用数据,所述方法由部署在集群的节点上的采集服务执行,每个所述节点具有对应的显卡类型标识。

Description

数据采集的方法、装置、电子设备及存储介质
技术领域
本公开涉及人工智能领域,具体涉及云计算、基础架构技术,可应用在智慧城市场景下。
背景技术
在容器集群管理系统中,一个算子服务可以生成多个服务镜像,并将不同的服务镜像部署在不同显卡的算力资源上。每种显卡都通过独自的采集器或采集组件,来采集显卡的相关数据。
目前,容器级别的显卡数据采集方案通常是利用特定的组件工具,例如cadvisor,采集某一类型的显卡的相关数据。
发明内容
本公开提供了一种数据采集的方法、装置、电子设备及存储介质。
根据本公开的一方面,提供了一种数据采集的方法,所述方法由部署在集群的节点上的采集服务执行,每个所述节点具有对应的显卡类型标识,包括:
获取数据采集任务;
根据所述数据采集任务,采集所述节点的显卡数据;
根据预设的显卡分配信息,对所述显卡数据进行解析处理,以获得所述节点中容器的显卡使用数据。
根据本公开的另一方面,提供了一种数据采集的装置,所述装置位于由部署在集群的节点上的采集服务,每个所述节点具有对应的显卡类型标识,包括:
获取单元,用于获取数据采集任务;
采集单元,用于根据所述数据采集任务,采集所述节点的显卡数据;
获得单元,用于根据预设的显卡分配信息,对所述显卡数据进行解析处理,以获得所述节点中容器的显卡使用数据。
根据本公开的再一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方面和任一可能的实现方式的方法。
根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方面和任一可能的实现方式的方法。
根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方面和任一可能的实现方式的方法。
由上述技术方案可知,本公开实施例通过采集服务获取数据采集任务,进而可以根据所述数据采集任务,采集所述节点的显卡数据,使得能够根据预设的显卡分配信息,对所述显卡数据进行解析处理,以获得所述节点中容器的显卡使用数据,采集服务可以部署在集群的节点上,每个所述节点具有对应的显卡类型标识,由于集群中每个具有显卡类型标识的节点均可以通过部署的采集服务进行该节点的显卡数据采集,可以实现在集群中通过一个采集服务对多类型的显卡进行显卡数据和容器级别的显卡使用数据进行采集,从而保证集群中数据采集的通用性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是根据本公开第一实施例的示意图;
图2是根据本公开第二实施例的示意图;
图3是根据本公开第二实施例的采集服务的架构示意图;
图4是根据本公开第二实施例的数据采集的方法的应用场景的示意图;
图5是根据本公开第三实施例的示意图;
图6是用来实现本公开实施例的数据采集的方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的全部其他实施例,都属于本公开保护的范围。
需要说明的是,本公开实施例中所涉及的终端设备可以包括但不限于手机、个人数字助理(Personal Digital Assistant,PDA)、无线手持设备、平板电脑(TabletComputer)等智能设备;显示设备可以包括但不限于个人电脑、电视等具有显示功能的设备。
另外,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
容器编排引擎Kubernetes,简称k8s作为容器应用的管理中心,可以对集群内部所有的容器进行管理。一个算子服务生成多个服务镜像,并将不同的服务镜像部署在不同显卡的算力资源中。每种显卡在k8s集群下有与之对应的采集器或组件,可以通过容器形式运行在有显卡的节点,即机器上,实现对机器显卡数据的采集。
目前,通常是利用容器监控组件cadvisor对英伟达显卡的算子容器进行算力数据采集,同时算子在k8s集群下是非特权模式运行的,cadvisor通过获取容器所使用的GPU序号,进而获取容器的算力数据,例如,容器的显卡使用数据。但是cadvisor组件不支持对其他显卡算子容器的算力数据采集。换言之,每种显卡的采集器只能对自身的显卡进行数据采集,不支持对其他显卡的数据采集,同时每种采集器提供的数据指标也不统一。
而且,在异构环境下多种显卡需要部署多种采集器,容器的算力数据采集也要分别部署对应的采集器,无法实现一种采集器对多种显卡的数据采集以及对显卡算子容器算力数据的采集,部署运维成本太高。
因此,亟需提供一种数据采集的方法,实现通过一个采集服务对多种显卡进行容器级别算力数据进行采集,从而保证集群中数据采集的通用性。
图1是根据本公开第一实施例的示意图,如图1所示。
101、获取数据采集任务。
102、根据所述数据采集任务,采集所述节点的显卡数据。
103、根据预设的显卡分配信息,对所述显卡数据进行解析处理,以获得所述节点中容器的显卡使用数据。
需要说明的是,可以由部署在集群的节点上的采集服务执行步骤101至步骤103的方法,每个节点可以具有对应的显卡类型标识。
需要说明的是,集群的节点可以包括物理机,例如,服务器等。采集服务可以包括采集服务软件、采集应用程序等
需要说明的是,显卡类型标识具体可以是kubectl label node xpuCardType={显卡类型}。采集服务可以通过chart方式进行安装,部署在打有xpuCardType标识的节点上。
需要说明的是,显卡类型可以是根据不同品牌的不同系列所划分的。例如,某一品牌同一个系列的显卡可以是同一个显卡类型。
需要说明的是,101~103的执行主体的部分或全部可以为位于网络侧服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。
这样,可以通过采集服务获取数据采集任务,进而可以根据所述数据采集任务,采集所述节点的显卡数据,使得能够根据预设的显卡分配信息,对所述显卡数据进行解析处理,以获得所述节点中容器的显卡使用数据,采集服务可以部署在集群的节点上,每个所述节点具有对应的显卡类型标识,由于集群中每个具有显卡类型标识的节点均可以通过部署的采集服务进行该节点的显卡数据采集,可以实现在集群中通过一个采集服务对多类型的显卡进行显卡数据和容器级别的显卡使用数据进行采集,从而保证集群中数据采集的通用性。
可选地,在本实施例的一个可能的实现方式中,在102中,具体可以确定所述数据采集任务对应的数据采集方式,进而可以利用所述数据采集方式,采集所述节点的显卡数据。
在该实现方式中,数据采集任务可以是基于预设的数据采集频率所创建的。在执行102之前,可以获取所创建的数据采集任务。
在该实现方式中,显卡数据可以包括但不限于AI芯片使用率、显存使用量、显存总量、显卡功率、显卡温度等。
在该实现方式的一个具体实现过程中,可以根据数据采集任务,获得数据采集任务对应的节点上显卡的显卡类型,进而根据该显卡类型,确定所述数据采集任务对应的数据采集方式。
在该实现方式中,数据采集方式可以是根据业务需求所预先配置的。数据采集方式可以包括基于显卡驱动的方式、基于执行命令行的方式、以及基于已有采集组件的方式。
在该实现方式的另一个具体实现过程中,在确数据采集方式是基于显卡驱动的方式之后,可以调用显卡的驱动接口,采集显卡所在节点的显卡数据。
这样,在本实现方式中,可以通过利用数据采集任务对应的数据采集方式,采集节点的显卡数据,可以更加有效地采集到不同类型显卡的显卡数据,从而提升了显卡数据采集的针对性和灵活性。
可选地,在本实施例的一个可能的实现方式中,所述预设的显卡分配信息包括所述节点中容器和显卡的映射关系,在103中,具体可以根据所述节点中容器和显卡的映射关系,对所述显卡数据进行解析处理,进而可以根据所述解析处理的结果,获得所述节点中容器的显卡使用数据。
在本实现方式中,预设的显卡分配信息可以是预设的资源文件。预设的资源文件包括节点中容器和显卡的映射关系。
具体地,k8s可以根据节点中的容器预先声明的所需的显卡资源和对应的显卡数量,为容器分配对应的可用显卡,进而可以获得节点中容器和显卡的映射关系的资源文件,即预设的资源文件。
在该实现方式的一个具体实现过程中,获得节点的显卡数据后,可以根据节点中容器和显卡的映射关系,对节点的显卡数据进行解析处理,以过滤掉没有显卡使用数据的容器与运行异常的容器,将剩余的容器的显卡使用数据作为最终的节点中容器的显卡使用数据。
这样,在本实现方式中,可以通过根据节点中容器和显卡的映射关系,对显卡数据进行解析处理,以获得节点中容器的显卡使用数据,可以准确有效地获得容器级别的显卡使用数据,从而提升了数据采集的可靠性。
需要说明的是,本实现方式中所提供的获得所述节点中容器的显卡使用数据的多种具体实现过程,可以结合前述实现方式中所提供的采集所述节点的显卡数据的多种具体实现过程,来实现本实施例的数据采集的方法。详细的描述可以参见前述实现方式中的相关内容,此处不再赘述。
可选地,在本实施例的一个可能的实现方式中,在103之后,进一步地可以对所述显卡数据进行数据转换处理,以获得显卡数据指标,以及对所述容器的显卡使用数据进行数据转换处理,以获得容器的显卡使用数据指标。
在该实现方式的一个具体实现过程中,可以基于第一指标标签,对所述显卡数据进行数据转换处理,以获得显卡数据指标。
在该实现方式的另一个具体实现过程中,可以基于第二指标标签,对所述容器的显卡使用数据进行数据转换处理,以获得容器的显卡使用数据指标。
在该实现方式中,显卡数据指标可以包括AI芯片使用率、显存使用量、显存总量、显卡功率、显卡温度中的至少一个、以及第一指标标签。容器的显卡使用数据指标可以包括AI芯片使用率、显存使用量、显存总量中的至少一个、以及第二指标标签。
具体地,第一指标标签可以包括节点ip、显卡类型、显卡序号、显卡唯一id。其中,节点ip、显卡类型和显卡序号可以存储文件中直接获取得到。显卡唯一id可以是基于节点ip、显卡类型和显卡序号所生成的显卡唯一标识。第一指标标签可以用于统一显卡数据指标的标识信息。
具体地,第二指标标签可以包括节点ip、显卡类型、显卡序号、显卡唯一id,容器id,算子名称。其中,容器id和算子名称可以是从k8s所分配的信息中直接获取。节点ip、显卡类型和显卡序号可以存储文件中直接获取得到。显卡唯一id可以是基于节点ip、显卡类型和显卡序号所生成的显卡唯一标识。第二指标标签可以用于统一容器的显卡使用数据指标的标识信息。
这样,可以利用指标标签将采集的数据转换成基于相应指标标签的统一的数据指标,以便于后续对采集的数据指标进行数据分析和应用,从而进一步地优化用户使用体验。
在该实现方式的另一个具体实现过程中,进一步地可以根据所述显卡数据指标和所述容器的显卡使用数据指标,利用预设的可视化工具,输出可视化处理后的所述显卡数据指标和所述容器的显卡使用数据指标。
在该具体实现过程中,预设的可视化工具可以包括但不限于Grafana。
该具体实现过程的一种情况,可以利用Grafana,对所述显卡数据指标和所述容器的显卡使用数据指标进行可视化处理,以输出可视化处理后的所述显卡数据指标和所述容器的显卡使用数据指标。
该具体实现过程的另一种情况,首先,可以将所述显卡数据指标和所述容器的显卡使用数据指标存储至时序数据库。其次,响应于用户的查看请求,从时序数据库获取显卡数据指标和所述容器的显卡使用数据指标,并利用Grafana,对所述显卡数据指标和所述容器的显卡使用数据指标进行可视化处理,以输出可视化处理后的所述显卡数据指标和所述容器的显卡使用数据指标。
这样,可以通过预设的可视化工具,对显卡数据指标和容器的显卡使用数据指标进行可视化输出处理,可以优化数据指标输出效果,从而优化了用户使用体验。
可以理解的是,也可以利用其他现有方式,对采集的数据指标进行可视化输出,在此可以不做具体限定。
这样,在本实现方式中,可以通过分别对显卡数据和容器的显卡使用数据进行数据转换处理,得到显卡数据指标和容器的显卡使用数据指标,可以实现将所采集的不同类型的显卡的相关数据转换为统一的数据指标,即实现了所输出的数据指标的统一,以便于后续对采集的数据指标进行数据分析和应用,从而优化了用户使用体验。
需要说明的是,本实现方式中所提供的多种具体实现过程,可以结合前述实现方式中所提供的多种具体实现过程,来实现本实施例的数据采集的方法。详细的描述可以参见前述实现方式中的相关内容,此处不再赘述。
本实施例中,可以通过采集服务获取数据采集任务,进而可以根据所述数据采集任务,采集所述节点的显卡数据,使得能够根据预设的显卡分配信息,对所述显卡数据进行解析处理,以获得所述节点中容器的显卡使用数据,采集服务可以部署在集群的节点上,每个所述节点具有对应的显卡类型标识,由于集群中每个具有显卡类型标识的节点均可以通过部署的采集服务进行该节点的显卡数据采集,可以实现在集群中通过一个采集服务对多类型的显卡进行显卡数据和容器级别的显卡使用数据进行采集,从而保证集群中数据采集的通用性。
另外,采用本实施例所提供的技术方案,可以通过利用数据采集任务对应的数据采集方式,采集节点的显卡数据,可以更加有效地采集到不同类型显卡的显卡数据,从而提升了显卡数据采集的针对性和灵活性。
另外,采用本实施例所提供的技术方案,可以通过根据节点中容器和显卡的映射关系,对显卡数据进行解析处理,以获得节点中容器的显卡使用数据,可以准确有效地获得容器级别的显卡使用数据,从而提升了数据采集的可靠性。
另外,采用本实施例所提供的技术方案,可以通过分别对显卡数据和容器的显卡使用数据进行数据转换处理,得到显卡数据指标和容器的显卡使用数据指标,可以实现将所采集的不同类型的显卡的相关数据转换为统一的数据指标,即实现了所输出的数据指标的统一,以便于后续对采集的数据指标进行数据分析和应用,从而优化了用户使用体验。
另外,采用本实施例所提供的技术方案,可以通过预设的可视化工具,对显卡数据指标和容器的显卡使用数据指标进行可视化输出处理,可以优化数据指标输出效果,从而优化了用户使用体验。
另外,采用本实施例所提供的技术方案,可以利用指标标签将采集的数据转换成基于相应指标标签的统一的数据指标,以便于后续对采集的数据指标进行数据分析和应用,从而进一步地优化用户使用体验。
图2是根据本公开第二实施例的示意图,如图2所示。
在本实施例中,图3是根据本公开第二实施例的采集服务的架构示意图。如图3所示,采集服务300的架构可以包括调度器301、适配器302、采集器303、解析器304、过滤器305、指标生成器306和存储307等组件。
具体地,调度器301可以控制着采集服务采集数据的采集频率、创建采集任务。适配器302根据节点的显卡类型,来获取显卡对应的采集逻辑。采集器303执行显卡数据的采集。解析器304解析出k8s资源调度时为算子容器所分配资源的信息。过滤器305筛选出可采集的算子容器。指标生成器306将采集的数据转换成数据指标,产生的指标包括显卡数据指标和容器的显卡使用数据,即容器的算力指标。最后,可以将数据指标进行存储307。
现结合图2和图3,对本实施例中的数据采集的方法进行详细的说明。
201、调度器启动数据采集任务。
202、适配器根据数据采集任务,读取机器的显卡信息,以根据用户配置的采集方式选择对应的采集器。
在本实施例中,该机器可以是集群中具有显卡类型标识的节点。
具体地,默认的采集方式可以是调用显卡的驱动接口的采集方式。
203、通过所选择的采集器,执行对应的采集方式,获取显卡数据。
在本实施例中,调度器定时启动采集任务,采集的方式可以根据自己的需求自行进行配置。采集服务支持对多种显卡进行数据采集。通过调用显卡的驱动接口、执行命令等方式获取显卡数据。采集的数据有使用率、显存总量、显存使用量等。
204、解析器获取k8s进行调度时,使用当前机器的显卡资源,以及使用显卡资源的容器。
在本实施例中,k8s集群中的算子容器组(Pod)可以通过配置.spec.containers.resources.limits声明请求的显卡资源和显卡的数量,再通过kubectl create命令完成算子的部署。k8s根据声明请求的显卡资源、显卡的数量等数据,委托内部的Device PluginManager模块,从内部持有的显卡列表中选择一个可用的显卡分配给请求的容器。
具体地,在数据采集的过程中,可以通过解析器解析出当前机器运行的算子容器与显卡的关系,以及容器的资源分配信息。
205、获取当前机器运行的容器,并对容器进行过滤处理,以过滤掉不使用显卡资源的容器,以及运行异常的容器。
在本实施例中,当前机器运行的容器可以包括算子容器。
206、根据采集的显卡数据、过滤处理后的容器、预设的显卡和容器的关系,整合输出显卡数据指标和容器的显卡使用数据指标。
在本实施例中,容器的显卡使用指标即为容器算力指标。
具体地,通过采集的显卡数据、过滤处理后的容器、预设的显卡和容器的关系,获得容器的显卡使用数据。
例如,通过采集到的显卡资源,获取与之对应的容器,进行数据整合,可以计算出算子容器的显卡使用数据。
进一步地,可以分别对显卡数据和容器的显卡使用数据进行数据转换处理,以整合输出显卡数据指标、容器的显卡使用数据指标。
这里,不同类型显卡可以使用相同格式的指标、相同的指标名称,并通过指标标签(label)来进行区分。例如,label 1,label 2,……,label N。
具体地,显卡数据指标可以包括AI芯片使用率、显存使用量、显存总量、显卡功率、显卡温度、以及第一指标标签。容器的显卡使用数据指标可以包括AI芯片使用率、显存使用量、显存总量、以及第二指标标签。
具体地,第一指标标签可以包括机器ip、显卡类型、显卡序号、显卡唯一id。其中,机器ip、显卡类型和显卡序号可以存储文件中直接获取得到。显卡唯一id可以是基于机器ip、显卡类型和显卡序号所生成的显卡唯一标识。第一指标标签可以用于统一显卡数据指标的标识信息。
具体地,第二指标标签可以包括机器ip、显卡类型、显卡序号、显卡唯一id,容器id,算子名称。其中,容器id和算子名称可以是从k8s所分配的信息中直接获取。机器ip、显卡类型和显卡序号可以存储文件中直接获取得到。显卡唯一id可以是基于机器ip、显卡类型和显卡序号所生成的显卡唯一标识。第二指标标签可以用于统一容器的显卡使用数据指标的标识信息。
可以理解的是,这里,机器ip即为具有显卡的节点的节点ip。
207、存储显卡数据指标和容器的显卡使用指标。
在本实施例中,图4是根据本公开第二实施例的数据采集的方法的应用场景的示意图。
如图4所示,本实施例中的数据采集的方法的应用场景可以是k8s异构算力环境。该应用场景可以包括k8s集群400、Grafana401、客户端402(Client)、时序数据库普罗米修斯(Prometheus)403、节点(node)404,以及节点中的采集服务4041、算子容器4042、以及显卡4043。采集服务的调度依赖k8s集群。k8s集群中具有至少有一台装有显卡的机器,即节点(node)404。
在本实施例中,机器上需要安装有显卡驱动以及显卡对应的Deviceplugin插件。采集服务通过chart进行安装,采集服务部署在打有xpuCardType标识的机器上。
具体地,首先,基于kubectl label node xpuCardType={显卡类型},为k8s集群中装有显卡的机器打标识,即每个机器可以具有对应的显卡类型标识。其次,基于chart安装方式和k8s集群亲和性,将采集服务安装部署在有xpuCardType标识的机器上。
具体地,对于数据存储而言,采集服务通过ServiceMonitor方式将采集服务暴露给时序数据库普罗米修斯,普罗米修斯拉取数据进行存储。
具体地,对于采集数据的查看,通过在Grafana配置数据指标,以输出可视化的数据指标。或者,客户端可以请求普罗米修斯数据查询接口,以获取要查看的数据指标。
本实施例中,在k8s的异构算力环境下,可以实现一个采集服务实现对多种显卡的数据采集,同时实现对不同类别显卡的算子容器的显卡使用数据的采集。由此,保证集群中数据采集的通用性,并且不用针对不同的显卡安装不同的采集组件,从而降低了运维成本。
另外,采用本实施例所提供的技术方案,可以输出统一的数据指标,统一了监控的数据指标,降低了业务侧适配成本。
另外,采用本实施例所提供的技术方案,可以解决了异构算力数据采集的问题,并且可以对多种国产显卡的算子容器算力进行采集和监控,以及以便于后续对国产算子扩缩容进行处理。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本公开所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
图5是根据本公开第三实施例的示意图,如图5所示。本实施例的数据采集的装置500可以包括获取单元501、采集单元502、和获得单元503。其中,获取单元501,用于获取数据采集任务;采集单元502,用于根据所述数据采集任务,采集所述节点的显卡数据;获得单元503,用于根据预设的显卡分配信息,对所述显卡数据进行解析处理,以获得所述节点中容器的显卡使用数据。其中,数据采集的装置500位于由部署在集群的节点上的采集服务,每个所述节点具有对应的显卡类型标识。
需要说明的是,本实施例的数据采集的装置的部分或全部可以为位于网络侧服务器中的处理引擎,或者还可以为位于网络侧的分布式系统,本实施例对此不进行特别限定。
可选地,在本实施例的一个可能的实现方式中,所述采集单元502,具体可以用于确定所述数据采集任务对应的数据采集方式;利用所述数据采集方式,采集所述节点的显卡数据。
可选地,在本实施例的一个可能的实现方式中,所述预设的显卡分配信息包括所述节点中容器和显卡的映射关系,所述获得单元503,具体可以用于根据所述节点中容器和显卡的映射关系,对所述显卡数据进行解析处理;根据所述解析处理的结果,获得所述节点中容器的显卡使用数据。
可选地,在本实施例的一个可能的实现方式中,所述获得单元503,还可以用于对所述显卡数据进行数据转换处理,以获得显卡数据指标,对所述容器的显卡使用数据进行数据转换处理,以获得容器的显卡使用数据指标。
可选地,在本实施例的一个可能的实现方式中,所述获得单元503,还可以用于根据所述显卡数据指标和所述容器的显卡使用数据指标,利用预设的可视化工具,输出可视化处理后的所述显卡数据指标和所述容器的显卡使用数据指标。
可选地,在本实施例的一个可能的实现方式中,所述显卡数据指标包括AI芯片使用率、显存使用量、显存总量、显卡功率、显卡温度、以及第一指标标签,以及,所述容器的显卡使用数据指标包括AI芯片使用率、显存使用量、显存总量、以及第二指标标签。
本实施例中,可以通过获取单元获取数据采集任务,进而采集单元可以根据所述数据采集任务,采集所述节点的显卡数据,使得获得单元能够根据预设的显卡分配信息,对所述显卡数据进行解析处理,以获得所述节点中容器的显卡使用数据,由于集群中每个具有显卡类型标识的节点均可以通过部署的采集服务进行数据采集,可以实现在集群中通过一个采集服务对多类型的显卡进行显卡数据和容器级别的显卡使用数据进行采集,从而保证集群中数据采集的通用性。
另外,采用本实施例所提供的技术方案,可以通过利用数据采集任务对应的数据采集方式,采集节点的显卡数据,可以更加有效地采集到不同类型显卡的显卡数据,从而提升了显卡数据采集的针对性和灵活性。
另外,采用本实施例所提供的技术方案,可以通过根据节点中容器和显卡的映射关系,对显卡数据进行解析处理,以获得节点中容器的显卡使用数据,可以准确有效地获得容器级别的显卡使用数据,从而提升了数据采集的可靠性。
另外,采用本实施例所提供的技术方案,可以通过分别对显卡数据和容器的显卡使用数据进行数据转换处理,得到显卡数据指标和容器的显卡使用数据指标,可以实现将所采集的不同类型的显卡的相关数据转换为统一的数据指标,即实现了所输出的数据指标的统一,以便于后续对采集的数据指标进行数据分析和应用,从而优化了用户使用体验。
另外,采用本实施例所提供的技术方案,可以通过预设的可视化工具,对显卡数据指标和容器的显卡使用数据指标进行可视化输出处理,可以优化数据指标输出效果,从而优化了用户使用体验。
另外,采用本实施例所提供的技术方案,可以利用指标标签将采集的数据转换成基于相应指标标签的统一的数据指标,以便于后续对采集的数据指标进行数据分析和应用,从而进一步地优化用户使用体验。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图6示出了可以用来实施本公开的实施例的示例电子设备600的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,电子设备600包括计算单元601,其可以根据存储在只读存储器(ROM)602中的计算机程序或者从存储单元608加载到随机访问存储器(RAM)603中的计算机程序,来执行各种适当的动作和处理。在RAM 603中,还可存储电子设备600操作所需的各种程序和数据。计算单元601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
电子设备600中的多个部件连接至I/O接口605,包括:输入单元606,例如键盘、鼠标等;输出单元607,例如各种类型的显示器、扬声器等;存储单元608,例如磁盘、光盘等;以及通信单元609,例如网卡、调制解调器、无线通信收发机等。通信单元609允许电子设备600通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元601可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元601的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元601执行上文所描述的各个方法和处理,例如数据采集的方法。例如,在一些实施例中,目标检测模型的训练方法、缺陷检测的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元608。在一些实施例中,计算机程序的部分或者全部可以经由ROM 602和/或通信单元609而被载入和/或安装到电子设备600上。当计算机程序加载到RAM 603并由计算单元601执行时,可以执行上文描述的数据采集的方法的一个或多个步骤。备选地,在其他实施例中,计算单元601可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行数据采集的方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,也可以为分布式系统的服务器,或者是结合了区块链的服务器。

Claims (15)

1.一种数据采集的方法,所述方法由部署在集群的节点上的采集服务执行,每个所述节点具有对应的显卡类型标识,包括:
获取数据采集任务;
根据所述数据采集任务,采集所述节点的显卡数据;
根据预设的显卡分配信息,对所述显卡数据进行解析处理,以获得所述节点中容器的显卡使用数据。
2.根据权利要求1所述的方法,其中,所述根据所述数据采集任务,采集所述节点的显卡数据,包括:
确定所述数据采集任务对应的数据采集方式;
利用所述数据采集方式,采集所述节点的显卡数据。
3.根据权利要求1或2所述的方法,其中,所述预设的显卡分配信息包括所述节点中容器和显卡的映射关系,所述根据预设的显卡分配信息,对所述显卡数据进行解析处理,以获得所述节点中容器的显卡使用数据,包括:
根据所述节点中容器和显卡的映射关系,对所述显卡数据进行解析处理;
根据所述解析处理的结果,获得所述节点中容器的显卡使用数据。
4.根据权利要求1-3中任一项所述的方法,其中,所述获得所述节点中容器的显卡使用数据之后,还包括:
对所述显卡数据进行数据转换处理,以获得显卡数据指标;
对所述容器的显卡使用数据进行数据转换处理,以获得容器的显卡使用数据指标。
5.根据权利要求4所述的方法,其中,所述方法,还包括:
根据所述显卡数据指标和所述容器的显卡使用数据指标,利用预设的可视化工具,输出可视化处理后的所述显卡数据指标和所述容器的显卡使用数据指标。
6.根据权利要求4或5所述的方法,其中,
所述显卡数据指标包括AI芯片使用率、显存使用量、显存总量、显卡功率、显卡温度中的至少一个、以及第一指标标签;
所述容器的显卡使用数据指标包括AI芯片使用率、显存使用量、显存总量中的至少一个、以及第二指标标签。
7.一种数据采集的装置,所述装置位于由部署在集群的节点上的采集服务,每个所述节点具有对应的显卡类型标识,包括:
获取单元,用于获取数据采集任务;
采集单元,用于根据所述数据采集任务,采集所述节点的显卡数据;
获得单元,用于根据预设的显卡分配信息,对所述显卡数据进行解析处理,以获得所述节点中容器的显卡使用数据。
8.根据权利要求7所述的装置,其中,所述采集单元,具体用于:
确定所述数据采集任务对应的数据采集方式;
利用所述数据采集方式,采集所述节点的显卡数据。
9.根据权利要求7或8所述的装置,其中,所述预设的显卡分配信息包括所述节点中容器和显卡的映射关系,所述获得单元,具体用于:
根据所述节点中容器和显卡的映射关系,对所述显卡数据进行解析处理;
根据所述解析处理的结果,获得所述节点中容器的显卡使用数据。
10.根据权利要求7-9中任一项所述的装置,其中,所述获得单元,还用于:
对所述显卡数据进行数据转换处理,以获得显卡数据指标;
对所述容器的显卡使用数据进行数据转换处理,以获得容器的显卡使用数据指标。
11.根据权利要求10所述的装置,其中,所述获得单元,还用于:
根据所述显卡数据指标和所述容器的显卡使用数据指标,利用预设的可视化工具,输出可视化处理后的所述显卡数据指标和所述容器的显卡使用数据指标。
12.根据权利要求10或11所述的装置,其中,
所述显卡数据指标包括AI芯片使用率、显存使用量、显存总量、显卡功率、显卡温度中的至少一个、以及第一指标标签;
所述容器的显卡使用数据指标包括AI芯片使用率、显存使用量、显存总量中的至少一个、以及第二指标标签。
13.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行根据权利要求1-6中任一项所述的方法。
14.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。
CN202211639400.8A 2022-12-19 2022-12-19 数据采集的方法、装置、电子设备及存储介质 Pending CN116126628A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211639400.8A CN116126628A (zh) 2022-12-19 2022-12-19 数据采集的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211639400.8A CN116126628A (zh) 2022-12-19 2022-12-19 数据采集的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN116126628A true CN116126628A (zh) 2023-05-16

Family

ID=86296497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211639400.8A Pending CN116126628A (zh) 2022-12-19 2022-12-19 数据采集的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN116126628A (zh)

Similar Documents

Publication Publication Date Title
CN109660397B (zh) 用于采集日志的系统、方法和装置
CN110659109A (zh) 一种openstack集群虚拟机监控系统及方法
US10009220B2 (en) In-vehicle information system and information processing method thereof
CN111625419A (zh) 一种日志采集方法、系统、设备及计算机可读存储介质
CN110245759A (zh) 一种巡检方法、系统、服务器及设备
CN114090366A (zh) 一种监控数据的方法、装置和系统
CN114020581A (zh) 基于拓扑优化FP-Growth算法的告警关联方法
CN114785690A (zh) 基于服务网格的监控方法及相关设备
CN112152874A (zh) 分布式系统中应用监控数据的采集与分析系统及方法
CN109656783A (zh) 系统平台监控方法及装置
CN115809119A (zh) 容器编排引擎的监控方法、系统及装置
CN115883407A (zh) 一种数据采集方法、系统、设备及存储介质
CN117176802B (zh) 一种业务请求的全链路监控方法、装置、电子设备及介质
CN110380902B (zh) 拓扑关系生成方法、装置、电子设备及存储介质
CN117370053A (zh) 一种面向信息系统业务运行全景监测方法及系统
CN116126628A (zh) 数据采集的方法、装置、电子设备及存储介质
CN113377610B (zh) 性能监测方法、装置、计算机设备及存储介质
CN114034972B (zh) 基于图像数据的智能电缆故障确定方法和装置
CN115202973A (zh) 应用运行状态的确定方法、装置、电子设备和介质
CN111597026B (zh) 用于获取信息的方法及装置
CN114546780A (zh) 数据监控方法、装置、设备、系统及存储介质
CN113114612B (zh) 分布式系统调用链的确定方法和装置
CN113485860B (zh) 一种数据处理方法、设备、存储介质及故障定位系统
CN117097635B (zh) 调用链路采样方法、装置、存储介质及设备
CN116932332B (zh) Dpu运行状态监控方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination