CN117459376A - 一种日志收集方法、装置、设备及可读存储介质 - Google Patents
一种日志收集方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN117459376A CN117459376A CN202311434894.0A CN202311434894A CN117459376A CN 117459376 A CN117459376 A CN 117459376A CN 202311434894 A CN202311434894 A CN 202311434894A CN 117459376 A CN117459376 A CN 117459376A
- Authority
- CN
- China
- Prior art keywords
- log
- model training
- resource entity
- cloud platform
- logs
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000012549 training Methods 0.000 claims abstract description 125
- 238000007726 management method Methods 0.000 claims description 55
- 238000004590 computer program Methods 0.000 claims description 38
- 238000013500 data storage Methods 0.000 claims description 9
- 230000000977 initiatory effect Effects 0.000 claims 1
- 238000012545 processing Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 7
- 238000013473 artificial intelligence Methods 0.000 description 5
- 238000012423 maintenance Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000009877 rendering Methods 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000004321 preservation Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/069—Management of faults, events, alarms or notifications using logs of notifications; Post-processing of notifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/219—Managing data history or versioning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computational Linguistics (AREA)
- Debugging And Monitoring (AREA)
Abstract
本申请公开了计算机技术领域内的一种日志收集方法、装置、设备及可读存储介质。本申请在云平台的管理节点中部署日志管理器,在云平台的各个被管节点中部署日志采集器,并通过日志管理器控制各个日志采集器采集本节点中的资源实体日志和模型训练日志;通过日志管理器将各个日志采集器采集的资源实体日志和模型训练日志存储至具有对外访问接口的同一目的端,从而可使各被管节点中的资源实体日志和模型训练日志存储在一起,能够全面收集用于人工智能模型训练的云平台上的日志数据,后续可通过对外访问接口访问目的端,从而对云平台的全局日志信息进行统一管理,也有利于进行模型训练任务和资源实体的问题定位。
Description
技术领域
本申请涉及计算机技术领域,特别涉及一种日志收集方法、装置、设备及可读存储介质。
背景技术
在用于人工智能模型训练的云平台上,当前只能把模型训练任务的任务执行日志输出到指定的一个路径下面,但云平台中实际执行模型训练任务的资源实体的相关日志存在缺失。若模型训练任务执行过程中出现问题,仅基于任务执行日志难以进行问题定位。
因此,如何全面收集用于人工智能模型训练的云平台上的日志数据,是本领域技术人员需要解决的问题。
发明内容
有鉴于此,本申请的目的在于提供一种日志收集方法、装置、设备及可读存储介质,以全面收集用于人工智能模型训练的云平台上的日志数据。其具体方案如下:
第一方面,本申请提供了一种日志收集方法,包括:
在云平台的管理节点中部署日志管理器;
在所述云平台的各个被管节点中部署日志采集器;
通过所述日志管理器,控制各个日志采集器采集本节点中的资源实体日志和模型训练日志;其中,每一被管节点包括:多个用于执行模型训练任务的资源实体;
通过所述日志管理器,将各个日志采集器采集的资源实体日志和模型训练日志存储至具有对外访问接口的同一目的端。
可选地,所述在云平台的管理节点中部署日志管理器,包括:
在所述管理节点部署所述日志管理器作为控制器;
为所述控制器配置所在的资源实体和命名空间,并将所述控制器和所述云平台进行日志管理服务的绑定;
为所述控制器配置日志管理文件;所述日志管理文件包括:存储时申请的块大小及块刷新信息、是否压缩信息、写入速率和日志查询配置;
依赖所述日志管理文件为所述控制器配置数据存储位置。
可选地,所述在所述云平台的各个被管节点中部署日志采集器,包括:
在每一被管节点部署所述日志采集器作为控制对象;
为所述控制对象配置所在的资源实体和命名空间,并将所述控制对象和所述云平台进行日志采集服务的绑定;
为所述控制对象配置日志采集文件;所述日志采集文件包括:采集频率和单次上报的数据大小;
为所述控制对象配置端口号、命名空间、资源实体启动信息源路径、模型训练信息源路径和上报路径。
可选地,所述为所述控制对象配置端口号、命名空间、资源实体启动信息源路径、模型训练信息源路径和上报路径之后,还包括:
将日志产生时间、被管节点标识、命名空间标识和/或资源实体标识配置于采集标签,以使所述控制对象按照所述采集标签采集资源实体日志和模型训练日志。
可选地,还包括:
利用网络文件系统访问所述外访问接口,以访问所述目的端中的资源实体日志和模型训练日志。
可选地,所述利用网络文件系统访问所述外访问接口,以访问所述目的端中的资源实体日志和模型训练日志,包括:
接收日志查询请求;
提取所述日志查询请求中的查询关键字;所述查询关键字包括:日志产生时间、被管节点标识、命名空间标识和/或资源实体标识;
在所述目的端查询与所述查询关键字匹配的资源实体日志和/或模型训练日志。
可选地,所述通过所述日志管理器,将各个日志采集器采集的资源实体日志和模型训练日志存储至具有对外访问接口的同一目的端,包括:
按照被管节点标识对各个日志采集器采集的资源实体日志和模型训练日志进行分类;
将分类结果存储至所述目的端。
可选地,还包括:
通过分析目的端中的日志数据来定位模型训练任务中的错误信息和/或定位各个被管节点中用于执行模型训练任务的资源实体的故障。
第二方面,本申请提供了一种日志收集装置,包括:
第一部署模块,用于在云平台的管理节点中部署日志管理器;
第二部署模块,用于在所述云平台的各个被管节点中部署日志采集器;
采集模块,用于通过所述日志管理器,控制各个日志采集器采集本节点中的资源实体日志和模型训练日志;其中,每一被管节点包括:多个用于执行模型训练任务的资源实体;
存储模块,用于通过所述日志管理器,将各个日志采集器采集的资源实体日志和模型训练日志存储至具有对外访问接口的同一目的端。
可选地,所述第一部署模块具体用于:
在所述管理节点部署所述日志管理器作为控制器;
为所述控制器配置所在的资源实体和命名空间,并将所述控制器和所述云平台进行日志管理服务的绑定;
为所述控制器配置日志管理文件;所述日志管理文件包括:存储时申请的块大小及块刷新信息、是否压缩信息、写入速率和日志查询配置;
依赖所述日志管理文件为所述控制器配置数据存储位置。
可选地,所述第二部署模块具体用于:
在每一被管节点部署所述日志采集器作为控制对象;
为所述控制对象配置所在的资源实体和命名空间,并将所述控制对象和所述云平台进行日志采集服务的绑定;
为所述控制对象配置日志采集文件;所述日志采集文件包括:采集频率和单次上报的数据大小;
为所述控制对象配置端口号、命名空间、资源实体启动信息源路径、模型训练信息源路径和上报路径。
可选地,所述第二部署模块还用于:
将日志产生时间、被管节点标识、命名空间标识和/或资源实体标识配置于采集标签,以使所述控制对象按照所述采集标签采集资源实体日志和模型训练日志。
可选地,还包括:
访问模块,用于利用网络文件系统访问所述外访问接口,以访问所述目的端中的资源实体日志和模型训练日志。
可选地,所述访问模块具体用于:
接收日志查询请求;
提取所述日志查询请求中的查询关键字;所述查询关键字包括:日志产生时间、被管节点标识、命名空间标识和/或资源实体标识;
在所述目的端查询与所述查询关键字匹配的资源实体日志和/或模型训练日志。
可选地,所述存储模块具体用于:
按照被管节点标识对各个日志采集器采集的资源实体日志和模型训练日志进行分类;
将分类结果存储至所述目的端。
第三方面,本申请提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现前述公开的日志收集方法。
第四方面,本申请提供了一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述公开的日志收集方法。
通过以上方案可知,本申请提供了一种日志收集方法,包括:在云平台的管理节点中部署日志管理器;在所述云平台的各个被管节点中部署日志采集器;通过所述日志管理器,控制各个日志采集器采集本节点中的资源实体日志和模型训练日志;其中,每一被管节点包括:多个用于执行模型训练任务的资源实体;通过所述日志管理器,将各个日志采集器采集的资源实体日志和模型训练日志存储至具有对外访问接口的同一目的端。
可见,本申请在云平台的管理节点中部署日志管理器,在云平台的各个被管节点中部署日志采集器,并通过日志管理器控制各个日志采集器采集本节点中的资源实体日志和模型训练日志;通过日志管理器将各个日志采集器采集的资源实体日志和模型训练日志存储至具有对外访问接口的同一目的端,从而可使各被管节点中的资源实体日志和模型训练日志存储在一起,能够全面收集用于人工智能模型训练的云平台上的日志数据,后续可通过对外访问接口访问目的端,从而对云平台的全局日志信息进行统一管理,也有利于进行模型训练任务和资源实体的问题定位。
相应地,本申请提供的一种日志收集装置、设备及可读存储介质,也同样具有上述技术效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请公开的一种日志收集方法流程图;
图2为本申请公开的另一种日志收集方法流程图;
图3为本申请公开的一种日志收集装置示意图;
图4为本申请公开的一种电子设备示意图;
图5为本申请提供的一种服务器结构图;
图6为本申请提供的一种终端结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
目前,在用于人工智能模型训练的云平台上,当前只能把模型训练任务的任务执行日志输出到指定的一个路径下面,但云平台中实际执行模型训练任务的资源实体的相关日志存在缺失。若模型训练任务执行过程中出现问题,仅基于任务执行日志难以进行问题定位。为此,本申请提供了一种日志收集方案,能够全面收集用于人工智能模型训练的云平台上的日志数据。
下面先对本申请涉及的专业术语进行介绍:
Kubernetes:Kubernetes是一个开源的,用于管理云平台中多个主机上的容器化的应用,目标是让部署容器化的应用简单并且高效,Kubernetes提供了应用部署,规划,更新,维护的一种机制。Promtail:用于日志采集的工具。loki:用来存储日志数据的存储工具。kubernetes_sd_config:promtail中的配置标签。namespace:kubernetes中的命名空间。loki-configmap.yaml:kubernetes的pod配置文件。loki-rbac.yaml:kubernetes的pod配置文件。loki-statefulset.yaml:kubernetes的pod配置文件。promtail-configmap.yaml:kubernetes的pod配置文件。promtail-rbac.yaml:kubernetes的pod配置文件。promtail-daemonset.yaml:kubernetes的pod配置文件。
参见图1所示,本申请实施例公开了一种日志收集方法,包括:
S101、在云平台的管理节点中部署日志管理器。
需要说明的是,本实施例中的云平台用于完成各种人工智能模型的训练及更新任务,该云平台包括一个管理节点和若干被管节点,每个节点上可以部署容器。具体的,每个被管节点上部署有多个用于执行模型训练任务的资源实体。Pod(资源实体)可以将多个容器的存储资源作为一个实体来管理。
在一种实施方式中,在云平台的管理节点中部署日志管理器,包括:在管理节点部署日志管理器作为控制器;为控制器配置所在的资源实体和命名空间,并将控制器和云平台进行日志管理服务的绑定;为控制器配置日志管理文件;日志管理文件包括:存储时申请的块大小及块刷新信息、是否压缩信息、写入速率和日志查询配置;依赖日志管理文件为控制器配置数据存储位置。可见,日志管理器可以运行于容器中,且是各个被管节点中的日志采集器的控制器,各个日志采集器是控制对象。
在一种示例中,日志管理器具体采用loki服务实现,loki服务类似数据库,是用来保存日志的服务。相应地,若云平台基于Kubernetes实现,那么基于loki服务实现的控制器的配置是通过三个配置文件:loki-configmap.yaml、loki-rbac.yaml和loki-statefulset.yaml实现的。其中,loki-statefulset.yaml用于创建loki的Pod的配置,配置信息包括:控制器所在的资源实体的端口号和命名空间以及数据存储位置。存储位置依赖loki-configmap.yaml的配置,使得其挂载的路径,loki-configmap.yaml有读写权限,方便读写日志文件的数据。其中,loki-rbac.yaml是loki的角色配置,配置信息包括:控制器所在的资源实体名称(Pod名称)和命名空间,控制器和云平台的日志管理服务的绑定。其中,loki-configmap.yaml(即日志管理文件)是loki的相关参数的配置,配置信息包括:存储时申请的块大小及块刷新信息、是否压缩信息、写入速率和日志查询配置等,具体可参照表1。
表1
S102、在云平台的各个被管节点中部署日志采集器。
在一种实施方式中,在云平台的各个被管节点中部署日志采集器,包括:在每一被管节点部署日志采集器作为控制对象;为控制对象配置所在的资源实体和命名空间,并将控制对象和云平台进行日志采集服务的绑定;为控制对象配置日志采集文件;日志采集文件包括:采集频率和单次上报的数据大小;为控制对象配置端口号、命名空间、资源实体启动信息源路径、模型训练信息源路径和上报路径。可见,日志采集器可以运行于容器中,且各个日志采集器是日志管理器的控制对象。一个被管节点部署一个控制对象,并采取daemonset部署。
在一种示例中,日志采集器具体采用promtail服务实现,promtail服务类似数据库,是用来保存日志的服务。相应地,若云平台基于Kubernetes实现,那么基于promtail服务实现的控制对象的配置是通过三个配置文件:promtail-configmap.yaml、promtail-rbac.yaml、promtail-daemonset.yaml实现的。
其中,promtail-daemonset.yaml是Kubernetes创建promtail的pod的配置,包括:为控制对象配置端口号、命名空间、资源实体启动信息源路径、模型训练信息源路径和上报路径等。资源实体启动信息源路径中用于存储资源实体启动过程中的相关信息,模型训练信息源路径中用于存储模型训练任务执行过程中的相关信息。
其中,promtail-rbac.yaml是promtail的角色配置,配置信息包括:控制对象所在的资源实体和命名空间,控制对象和云平台的日志采集服务的绑定。
其中,promtail-configmap.yaml(即日志采集文件)是promtail的相关参数的配置,配置信息包括采集频率和单次上报的数据大小等,具体可参照表2。
表2
在一种实施方式中,为控制对象配置端口号、命名空间、资源实体启动信息源路径、模型训练信息源路径和上报路径之后,还包括:将日志产生时间、被管节点标识、命名空间标识和/或资源实体标识配置于采集标签,以使控制对象按照采集标签采集资源实体日志和模型训练日志。由此可实现日志数据的个性化收集,降低收集数据量。采集标签如:kubernetes_sd_config标签。
S103、通过日志管理器,控制各个日志采集器采集本节点中的资源实体日志和模型训练日志。
其中,每一被管节点包括:多个用于执行模型训练任务的资源实体。
S104、通过日志管理器,将各个日志采集器采集的资源实体日志和模型训练日志存储至具有对外访问接口的同一目的端。
其中,目的端可以是日志管理器中指定的存储路径,如:依赖日志管理文件为控制器配置数据存储位置。
在一种实施方式中,还可以利用网络文件系统访问外访问接口,以访问目的端中的资源实体日志和模型训练日志,实现日志共享;必要时,还可以对目的端中的日志进行加密和备份存储。其中,利用网络文件系统访问外访问接口,以访问目的端中的资源实体日志和模型训练日志,包括:接收日志查询请求;提取日志查询请求中的查询关键字;查询关键字包括:日志产生时间、被管节点标识、命名空间标识和/或资源实体标识;在目的端查询与查询关键字匹配的资源实体日志和/或模型训练日志。
在本实施例中,通过分析目的端中的日志数据来定位模型训练任务中的错误信息和/或定位各个被管节点中用于执行模型训练任务的资源实体的故障。例如:对目的端中的各个日志采集器采集的资源实体日志进行全面分析,以定位各个被管节点中相应资源实体是否故障;或者对目的端中的各个日志采集器采集的模型训练日志进行全面分析,以定位模型训练任务中是否存在逻辑错误或运算错误。
在一种示例中,通过日志管理器,将各个日志采集器采集的资源实体日志和模型训练日志存储至具有对外访问接口的同一目的端,包括:按照被管节点标识对各个日志采集器采集的资源实体日志和模型训练日志进行分类;将分类结果存储至目的端。相应地,还可以按照模型训练任务的处理逻辑对目的端中各个日志采集器采集的模型训练日志进行划分,并根据划分结果对模型训练任务的处理逻辑进行错误定位、逻辑优化等操作。如果发现模型训练任务的任一处理逻辑发生错误,则进一步确定该处理逻辑所运行的资源实体,并在目的端中各个日志采集器采集的资源实体日志中查询该资源实体启动过程中的信息,以确定该资源实体启动过程是否对发生错误的处理逻辑产生影响。由此对同一资源实体中的资源实体日志和模型训练日志进行数据分析,能够发现同一资源实体中的资源实体日志和模型训练日志之间的影响关系,从而更精确地进行错误定位和故障定位,判断错误原因和故障原因。
可见,本实施例在云平台的管理节点中部署日志管理器,在云平台的各个被管节点中部署日志采集器,并通过日志管理器控制各个日志采集器采集本节点中的资源实体日志和模型训练日志;通过日志管理器将各个日志采集器采集的资源实体日志和模型训练日志存储至具有对外访问接口的同一目的端,从而可使各被管节点中的资源实体日志和模型训练日志存储在一起,能够全面收集用于人工智能模型训练的云平台上的日志数据,后续可通过对外访问接口访问目的端,从而对云平台的全局日志信息进行统一管理,也有利于进行模型训练任务和资源实体的问题定位。统一管理如:日志分析、日志分类和日志压缩等。
请参见图2,一种日志收集过程包括:在Kubernetes云平台执行模型训练任务之前,部署loki服务(日志管理服务)和promtail服务(日志采集服务);在Kubernetes云平台执行模型训练任务的过程中,利用promtail服务采集日志并上报至loki服务。并且,用户可以通过日志产生时间、被管节点标识、命名空间标识和资源实体标识(如pod名称)等关键字在loki服务中查询日志。
其中,loki服务的配置是通过三个配置文件:loki-configmap.yaml、loki-rbac.yaml和loki-statefulset.yaml实现的,其中,loki-statefulset.yaml是Kubernetes创建loki的pod的配置,loki-rbac.yaml是loki的角色配置,loki-configmap.yaml是loki的相关参数的配置。
其中,Promtail服务的配置也是通过三个配置文件实现,包括:promtail-configmap.yaml、promtail-rbac.yaml和promtail-daemonset.yaml,其中,promtail-daemonset.yaml是Kubernetes创建promtail的pod的配置,promtail-rbac.yaml是promtail的角色配置,promtail-configmap.yaml是promtail的相关参数的配置。
进一步地,通过<kubernetes_sd_config>配置可以实现一系列标签配置。例如:在promtail中通过kubernetes_sd_config标签配置相关参数,promtail解析到kubernetes_sd_config标签之后,会对kubernetes_sd_config标签指定的相关日志数据进行采集,并定时上报到loki中。
在本实施例中,promtail既能采集pod的日志,又能采集训练任务的日志,收集的日志比较全,并且集中管理,存储在loki中,方便维护。不仅能收集到pod日志,也可以收集其他组件的日志,为平台的运维功能提供了支撑,使平台的易用性更加方便,无需登录底层终端查看日志。存储在loki中的日志还可以共享存储到其他端,如:搭建NFS服务进行日志的共享。
进一步地,还可以通过http协议请求loki中的日志数据,请求入参参数包括:时间段、节点名称、namespace、pod、container(pod中运行的容器)等参数。查询loki中的日志数据的过程包括:
GET/loki/api/v1/query_range
核心参数:
{
node_name="xxx",
namespace="xxxxxx",
pod="xxxxxxx",
container="xxxxxxx"
}
当然,可以根据实际场景和需要设置自己需要的参数,比如:节点名称、命名空间、pod、container等信息,还可以输入关键字进行关键字匹配,最后根据这些参数查询日志。
可见,本实施例的实现过程包括:下载loki、promtail的镜像。创建日志的Kubernetes命名空间,例如:logging。配置loki的配置文件loki-statefulset.yaml、loki-rbac.yaml、loki-configmap.yaml。配置promtail的配置文件promtail-daemonset.yaml、promtail-rbac.yaml、promtail-configmap.yaml。Promtail以daemonset的形式配置。Loki以statefulset的形式配置。切换到loki配置文件目录,然后执行kubectl apply-f。切换到promtail配置文件目录,然后执行kubectl apply-f。通过loki接口查询任务日志。
通过本实施例能采集到pod的日志以及训练任务的日志,能在云平台查询详细的训练任务的日志以及pod的启动日志;NFS日志共享可便于用户查询,还可以采取冗余保存。最终使得:查询日志更方便,提高了用户的体验。减少日志错误的排查时间,提高了用户的工作效率。增强了平台系统的功能多样性和兼容性。
下面对本申请实施例提供的一种日志收集装置进行介绍,下文描述的一种日志收集装置与本文描述的其他实施例可以相互参照。
参见图3所示,本申请实施例公开了一种日志收集装置,包括:
第一部署模块301,用于在云平台的管理节点中部署日志管理器;
第二部署模块302,用于在云平台的各个被管节点中部署日志采集器;
采集模块303,用于通过日志管理器,控制各个日志采集器采集本节点中的资源实体日志和模型训练日志;其中,每一被管节点包括:多个用于执行模型训练任务的资源实体;
存储模块304,用于通过日志管理器,将各个日志采集器采集的资源实体日志和模型训练日志存储至具有对外访问接口的同一目的端。
在一种实施方式中,第一部署模块具体用于:
在管理节点部署日志管理器作为控制器;
为控制器配置所在的资源实体和命名空间,并将控制器和云平台进行日志管理服务的绑定;
为控制器配置日志管理文件;日志管理文件包括:存储时申请的块大小及块刷新信息、是否压缩信息、写入速率和日志查询配置;
依赖日志管理文件为控制器配置数据存储位置。
在一种实施方式中,第二部署模块具体用于:
在每一被管节点部署日志采集器作为控制对象;
为控制对象配置所在的资源实体和命名空间,并将控制对象和云平台进行日志采集服务的绑定;
为控制对象配置日志采集文件;日志采集文件包括:采集频率和单次上报的数据大小;
为控制对象配置端口号、命名空间、资源实体启动信息源路径、模型训练信息源路径和上报路径。
在一种实施方式中,第二部署模块还用于:
将日志产生时间、被管节点标识、命名空间标识和/或资源实体标识配置于采集标签,以使控制对象按照采集标签采集资源实体日志和模型训练日志。
在一种实施方式中,还包括:
访问模块,用于利用网络文件系统访问外访问接口,以访问目的端中的资源实体日志和模型训练日志。
在一种实施方式中,访问模块具体用于:
接收日志查询请求;
提取日志查询请求中的查询关键字;查询关键字包括:日志产生时间、被管节点标识、命名空间标识和/或资源实体标识;
在目的端查询与查询关键字匹配的资源实体日志和/或模型训练日志。
在一种实施方式中,存储模块具体用于:
按照被管节点标识对各个日志采集器采集的资源实体日志和模型训练日志进行分类;
将分类结果存储至目的端。
其中,关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
可见,本实施例提供了一种日志收集装置,能够全面收集用于人工智能模型训练的云平台上的日志数据,后续可通过对外访问接口访问目的端,从而对云平台的全局日志信息进行统一管理,也有利于进行模型训练任务和资源实体的问题定位。
下面对本申请实施例提供的一种电子设备进行介绍,下文描述的一种电子设备与本文描述的其他实施例可以相互参照。
参见图4所示,本申请实施例公开了一种电子设备,包括:
存储器401,用于保存计算机程序;
处理器402,用于执行所述计算机程序,以实现上述任意实施例公开的方法。
在本实施例中,处理器执行存储器中保存的计算机程序时,可以具体实现以下步骤:在云平台的管理节点中部署日志管理器;在云平台的各个被管节点中部署日志采集器;通过日志管理器,控制各个日志采集器采集本节点中的资源实体日志和模型训练日志;其中,每一被管节点包括:多个用于执行模型训练任务的资源实体;通过日志管理器,将各个日志采集器采集的资源实体日志和模型训练日志存储至具有对外访问接口的同一目的端。
在本实施例中,处理器执行存储器中保存的计算机程序时,可以具体实现以下步骤:在管理节点部署日志管理器作为控制器;为控制器配置所在的资源实体和命名空间,并将控制器和云平台进行日志管理服务的绑定;为控制器配置日志管理文件;日志管理文件包括:存储时申请的块大小及块刷新信息、是否压缩信息、写入速率和日志查询配置;依赖日志管理文件为控制器配置数据存储位置。
在本实施例中,处理器执行存储器中保存的计算机程序时,可以具体实现以下步骤:在每一被管节点部署日志采集器作为控制对象;为控制对象配置所在的资源实体和命名空间,并将控制对象和云平台进行日志采集服务的绑定;为控制对象配置日志采集文件;日志采集文件包括:采集频率和单次上报的数据大小;为控制对象配置端口号、命名空间、资源实体启动信息源路径、模型训练信息源路径和上报路径。
在本实施例中,处理器执行存储器中保存的计算机程序时,可以具体实现以下步骤:将日志产生时间、被管节点标识、命名空间标识和/或资源实体标识配置于采集标签,以使控制对象按照采集标签采集资源实体日志和模型训练日志。
在本实施例中,处理器执行存储器中保存的计算机程序时,可以具体实现以下步骤:利用网络文件系统访问外访问接口,以访问目的端中的资源实体日志和模型训练日志。
在本实施例中,处理器执行存储器中保存的计算机程序时,可以具体实现以下步骤:接收日志查询请求;提取日志查询请求中的查询关键字;查询关键字包括:日志产生时间、被管节点标识、命名空间标识和/或资源实体标识;在目的端查询与查询关键字匹配的资源实体日志和/或模型训练日志。
在本实施例中,处理器执行存储器中保存的计算机程序时,可以具体实现以下步骤:按照被管节点标识对各个日志采集器采集的资源实体日志和模型训练日志进行分类;将分类结果存储至目的端。
在本实施例中,处理器执行存储器中保存的计算机程序时,可以具体实现以下步骤:通过分析目的端中的日志数据来定位模型训练任务中的错误信息和/或定位各个被管节点中用于执行模型训练任务的资源实体的故障。
进一步的,本申请实施例还提供了一种电子设备。其中,上述电子设备既可以是如图5所示的服务器,也可以是如图6所示的终端。图5和图6均是根据一示例性实施例示出的电子设备结构图,图中的内容不能被认为是对本申请的使用范围的任何限制。
图5为本申请实施例提供的一种服务器的结构示意图。该服务器具体可以包括:至少一个处理器、至少一个存储器、电源、通信接口、输入输出接口和通信总线。其中,所述存储器用于存储计算机程序,所述计算机程序由所述处理器加载并执行,以实现前述任一实施例公开的日志收集中的相关步骤。
本实施例中,电源用于为服务器上的各硬件设备提供工作电压;通信接口能够为服务器创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统、计算机程序及数据等,存储方式可以是短暂存储或者永久存储。
其中,操作系统用于管理与控制服务器上的各硬件设备以及计算机程序,以实现处理器对存储器中数据的运算与处理,其可以是Windows Server、Netware、Unix、Linux等。计算机程序除了包括能够用于完成前述任一实施例公开的日志收集方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。数据除了可以包括应用程序的更新信息等数据外,还可以包括应用程序的开发商信息等数据。
图6为本申请实施例提供的一种终端的结构示意图,该终端具体可以包括但不限于智能手机、平板电脑、笔记本电脑或台式电脑等。
通常,本实施例中的终端包括有:处理器和存储器。
其中,处理器可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器还可以包括AI(ArtificialIntelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。本实施例中,存储器至少用于存储以下计算机程序,其中,该计算机程序被处理器加载并执行之后,能够实现前述任一实施例公开的由终端侧执行的日志收集方法中的相关步骤。另外,存储器所存储的资源还可以包括操作系统和数据等,存储方式可以是短暂存储或者永久存储。其中,操作系统可以包括Windows、Unix、Linux等。数据可以包括但不限于应用程序的更新信息。
在一些实施例中,终端还可包括有显示屏、输入输出接口、通信接口、传感器、电源以及通信总线。
本领域技术人员可以理解,图6中示出的结构并不构成对终端的限定,可以包括比图示更多或更少的组件。
下面对本申请实施例提供的一种可读存储介质进行介绍,下文描述的一种可读存储介质与本文描述的其他实施例可以相互参照。
一种可读存储介质,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现前述实施例公开的日志收集方法。其中,可读存储介质为计算机可读存储介质,其作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源包括操作系统、计算机程序及数据等,存储方式可以是短暂存储或者永久存储。
在本实施例中,处理器执行的计算机程序,可以具体实现以下步骤:在云平台的管理节点中部署日志管理器;在云平台的各个被管节点中部署日志采集器;通过日志管理器,控制各个日志采集器采集本节点中的资源实体日志和模型训练日志;其中,每一被管节点包括:多个用于执行模型训练任务的资源实体;通过日志管理器,将各个日志采集器采集的资源实体日志和模型训练日志存储至具有对外访问接口的同一目的端。
在本实施例中,处理器执行的计算机程序,可以具体实现以下步骤:在管理节点部署日志管理器作为控制器;为控制器配置所在的资源实体和命名空间,并将控制器和云平台进行日志管理服务的绑定;为控制器配置日志管理文件;日志管理文件包括:存储时申请的块大小及块刷新信息、是否压缩信息、写入速率和日志查询配置;依赖日志管理文件为控制器配置数据存储位置。
在本实施例中,处理器执行的计算机程序,可以具体实现以下步骤:在每一被管节点部署日志采集器作为控制对象;为控制对象配置所在的资源实体和命名空间,并将控制对象和云平台进行日志采集服务的绑定;为控制对象配置日志采集文件;日志采集文件包括:采集频率和单次上报的数据大小;为控制对象配置端口号、命名空间、资源实体启动信息源路径、模型训练信息源路径和上报路径。
在本实施例中,处理器执行的计算机程序,可以具体实现以下步骤:将日志产生时间、被管节点标识、命名空间标识和/或资源实体标识配置于采集标签,以使控制对象按照采集标签采集资源实体日志和模型训练日志。
在本实施例中,处理器执行的计算机程序,可以具体实现以下步骤:利用网络文件系统访问外访问接口,以访问目的端中的资源实体日志和模型训练日志。
在本实施例中,处理器执行的计算机程序,可以具体实现以下步骤:接收日志查询请求;提取日志查询请求中的查询关键字;查询关键字包括:日志产生时间、被管节点标识、命名空间标识和/或资源实体标识;在目的端查询与查询关键字匹配的资源实体日志和/或模型训练日志。
在本实施例中,处理器执行的计算机程序,可以具体实现以下步骤:按照被管节点标识对各个日志采集器采集的资源实体日志和模型训练日志进行分类;将分类结果存储至目的端。
在本实施例中,处理器执行的计算机程序,可以具体实现以下步骤:通过分析目的端中的日志数据来定位模型训练任务中的错误信息和/或定位各个被管节点中用于执行模型训练任务的资源实体的故障。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的可读存储介质中。
本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种日志收集方法,其特征在于,包括:
在云平台的管理节点中部署日志管理器;
在所述云平台的各个被管节点中部署日志采集器;
通过所述日志管理器,控制各个日志采集器采集本节点中的资源实体日志和模型训练日志;其中,每一被管节点包括:多个用于执行模型训练任务的资源实体;
通过所述日志管理器,将各个日志采集器采集的资源实体日志和模型训练日志存储至具有对外访问接口的同一目的端。
2.根据权利要求1所述的方法,其特征在于,所述在云平台的管理节点中部署日志管理器,包括:
在所述管理节点部署所述日志管理器作为控制器;
为所述控制器配置所在的资源实体和命名空间,并将所述控制器和所述云平台进行日志管理服务的绑定;
为所述控制器配置日志管理文件;所述日志管理文件包括:存储时申请的块大小及块刷新信息、是否压缩信息、写入速率和日志查询配置;
依赖所述日志管理文件为所述控制器配置数据存储位置。
3.根据权利要求1所述的方法,其特征在于,所述在所述云平台的各个被管节点中部署日志采集器,包括:
在每一被管节点部署所述日志采集器作为控制对象;
为所述控制对象配置所在的资源实体和命名空间,并将所述控制对象和所述云平台进行日志采集服务的绑定;
为所述控制对象配置日志采集文件;所述日志采集文件包括:采集频率和单次上报的数据大小;
为所述控制对象配置端口号、命名空间、资源实体启动信息源路径、模型训练信息源路径和上报路径。
4.根据权利要求3所述的方法,其特征在于,所述为所述控制对象配置端口号、命名空间、资源实体启动信息源路径、模型训练信息源路径和上报路径之后,还包括:
将日志产生时间、被管节点标识、命名空间标识和/或资源实体标识配置于采集标签,以使所述控制对象按照所述采集标签采集资源实体日志和模型训练日志。
5.根据权利要求1至4任一项所述的方法,其特征在于,还包括:
利用网络文件系统访问所述外访问接口,以访问所述目的端中的资源实体日志和模型训练日志。
6.根据权利要求5所述的方法,其特征在于,所述利用网络文件系统访问所述外访问接口,以访问所述目的端中的资源实体日志和模型训练日志,包括:
接收日志查询请求;
提取所述日志查询请求中的查询关键字;所述查询关键字包括:日志产生时间、被管节点标识、命名空间标识和/或资源实体标识;
在所述目的端查询与所述查询关键字匹配的资源实体日志和/或模型训练日志。
7.根据权利要求1至4任一项所述的方法,其特征在于,所述通过所述日志管理器,将各个日志采集器采集的资源实体日志和模型训练日志存储至具有对外访问接口的同一目的端,包括:
按照被管节点标识对各个日志采集器采集的资源实体日志和模型训练日志进行分类;
将分类结果存储至所述目的端。
8.一种日志收集装置,其特征在于,包括:
第一部署模块,用于在云平台的管理节点中部署日志管理器;
第二部署模块,用于在所述云平台的各个被管节点中部署日志采集器;
采集模块,用于通过所述日志管理器,控制各个日志采集器采集本节点中的资源实体日志和模型训练日志;其中,每一被管节点包括:多个用于执行模型训练任务的资源实体;
存储模块,用于通过所述日志管理器,将各个日志采集器采集的资源实体日志和模型训练日志存储至具有对外访问接口的同一目的端。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序,以实现如权利要求1至7任一项所述的方法。
10.一种可读存储介质,其特征在于,用于保存计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311434894.0A CN117459376A (zh) | 2023-10-31 | 2023-10-31 | 一种日志收集方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311434894.0A CN117459376A (zh) | 2023-10-31 | 2023-10-31 | 一种日志收集方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117459376A true CN117459376A (zh) | 2024-01-26 |
Family
ID=89585012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311434894.0A Pending CN117459376A (zh) | 2023-10-31 | 2023-10-31 | 一种日志收集方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117459376A (zh) |
-
2023
- 2023-10-31 CN CN202311434894.0A patent/CN117459376A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3709227B1 (en) | System and method for interoperable communication of an automation system component with multiple information sources | |
US8812627B2 (en) | System and method for installation and management of cloud-independent multi-tenant applications | |
US20150378721A1 (en) | Methods for managing applications using semantic modeling and tagging and devices thereof | |
WO2015126409A1 (en) | Migrating cloud resources | |
CN108964968A (zh) | 一种容器云环境下的服务接入管理方法和系统 | |
CN104268143B (zh) | Xml数据的处理方法和装置 | |
US20140123142A1 (en) | System and method for providing data analysis service in cloud environment | |
US8849947B1 (en) | IT discovery of virtualized environments by scanning VM files and images | |
US10721120B2 (en) | Infrastructure management device | |
CN109213498A (zh) | 一种互联网web前端的配置方法及服务器 | |
CN104468274A (zh) | 一种集群监控管理方法及系统 | |
CN105095103A (zh) | 用于云环境下的存储设备管理方法和装置 | |
Copie et al. | Benchmarking cloud databases for the requirements of the internet of things | |
US20190140894A1 (en) | System and method for enabling hybrid integration platform through runtime auto-scalable deployment model for varying integration | |
CN110825395B (zh) | 多插件分层部署系统、设备及介质 | |
CN113127526A (zh) | 一种基于Kubernetes的分布式数据存储和检索系统 | |
US20200311003A1 (en) | Infrastructure management device | |
CN117459376A (zh) | 一种日志收集方法、装置、设备及可读存储介质 | |
CN115357198A (zh) | 存储卷的挂载方法及装置、存储介质及电子设备 | |
CN115293365A (zh) | 机器学习模型的管理方法、装置、管理平台和存储介质 | |
CN107547607B (zh) | 一种集群迁移方法及装置 | |
CN109710487A (zh) | 一种监控方法和装置 | |
CN114969199A (zh) | 遥感数据的处理方法、装置、系统以及存储介质 | |
CN107436790A (zh) | 一种组件升级管理方法及装置 | |
CN108604226A (zh) | 用于跨平台使对电子文档的评论同步的系统和方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |