CN113010377B - 一种作业的运行日志的采集方法及装置 - Google Patents

一种作业的运行日志的采集方法及装置 Download PDF

Info

Publication number
CN113010377B
CN113010377B CN202110233004.4A CN202110233004A CN113010377B CN 113010377 B CN113010377 B CN 113010377B CN 202110233004 A CN202110233004 A CN 202110233004A CN 113010377 B CN113010377 B CN 113010377B
Authority
CN
China
Prior art keywords
job
identifier
cluster
application
log
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110233004.4A
Other languages
English (en)
Other versions
CN113010377A (zh
Inventor
刘旺森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110233004.4A priority Critical patent/CN113010377B/zh
Publication of CN113010377A publication Critical patent/CN113010377A/zh
Application granted granted Critical
Publication of CN113010377B publication Critical patent/CN113010377B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6227Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioethics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Quality & Reliability (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明提供一种作业的运行日志的采集方法及装置,涉及大数据技术领域。所述方法包括:接收第一终端发送的运行日志获取请求;根据作业标识和对应的作业集群标识以及作业应用关系表,获得应用标识,并根据作业标识对应的作业集群标识,查询获得路径信息和集群类型标识;根据应用标识、路径信息和集群类型标识,获得分布式系统临时路径;根据分布式系统临时路径,下载作业标识对应的作业在作业集群下的运行日志,并将所述作业标识对应的作业在作业集群下的运行日志发送给所述第一终端。所述装置用于执行上述方法。本发明实施例提供的作业的运行日志的采集方法及装置,提高了作业的运行日志的采集效率。

Description

一种作业的运行日志的采集方法及装置
技术领域
本发明涉及大数据技术领域,具体涉及一种作业的运行日志的采集方法及装置。
背景技术
Hadoop是一个由Apache基金会所开发的分布式生态系统基础架构,集群规模视不同应用场景有数十节点至几千节点不等,应用者可以利用其多节点、分布式的特点进行存储与计算。
基于Hadoop的集群进行业务逻辑作业加工时,由于其分布式的特点,作业是分散在不同节点上通过spark引擎或Mareduce引擎运行计算的,作业的运行日志也会分布在各个不同的节点上。作业的运行日志可以用于对作业性能容量的评测和报错作业诊断工作。在实际的运维使用过程中,尚无集群作业运行日志采集工具来采集作业的运行日志。因此,如何提供一种作业的运行日志的采集方法,成为本领域需要解决的重要课题。
发明内容
针对现有技术中的问题,本发明实施例提供一种作业的运行日志的采集方法及装置,能够至少部分地解决现有技术中存在的问题。
一方面,本发明提出一种作业的运行日志的采集方法,包括:
接收第一终端发送的运行日志获取请求,所述运行日志获取请求包括作业标识和所述作业标识对应的作业集群标识;
根据所述作业标识和对应的作业集群标识以及作业应用关系表,获得所述作业标识与作业集群标识对应的应用标识,并根据所述作业标识对应的作业集群标识,查询获得所述作业集群标识对应的路径信息和集群类型标识;其中,所述作业集群标识对应的路径信息和集群类型标识是预设的;
根据所述应用标识、所述作业集群标识对应的路径信息和集群类型标识,获得所述作业标识在作业集群下对应的分布式系统临时路径;
根据所述作业标识在作业集群下对应的分布式系统临时路径,下载所述作业标识对应的作业在作业集群下的运行日志,并将所述作业标识对应的作业在作业集群下的运行日志发送给所述第一终端。
另一方面,本发明提供一种作业的运行日志的采集装置,包括:
接收模块,用于接收第一终端发送的运行日志获取请求,所述运行日志获取请求包括作业标识和所述作业标识对应的作业集群标识;
第一获得模块,用于根据所述作业标识和对应的作业集群标识以及作业应用关系表,获得所述作业标识与作业集群标识对应的应用标识,并根据所述作业标识对应的作业集群标识,查询获得所述作业集群标识对应的路径信息和集群类型标识;其中,所述作业集群标识对应的路径信息和集群类型标识是预设的;
第二获得模块,用于根据所述应用标识、所述作业集群标识对应的路径信息和集群类型标识,获得所述作业标识在作业集群下对应的分布式系统临时路径;
下载模块,用于根据所述作业标识在作业集群下对应的分布式系统临时路径,下载所述作业标识对应的作业在作业集群下的运行日志,并将所述作业标识对应的作业在作业集群下的运行日志发送给所述第一终端。
再一方面,本发明提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一实施例所述的作业的运行日志的采集方法的步骤。
又一方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一实施例所述的作业的运行日志的采集方法的步骤。
本发明实施例提供的作业的运行日志的采集方法及装置,能够接收第一终端发送的运行日志获取请求,运行日志获取请求包括作业标识和作业标识对应的作业集群标识,根据作业标识和对应的作业集群标识以及作业应用关系表,获得作业标识与作业集群标识对应的应用标识,并根据作业标识对应的作业集群标识,查询获得作业集群标识对应的路径信息和集群类型标识,根据应用标识、作业集群标识对应的路径信息和集群类型标识,获得作业标识在作业集群下对应的分布式系统临时路径,根据作业标识在作业集群下对应的分布式系统临时路径,下载作业标识对应的作业在作业集群下的运行日志,并将作业标识对应的作业在作业集群下的运行日志发送给第一终端,实现了作业的运行日志的采集,提高了作业的运行日志的采集效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1是本发明一实施例提供的作业的运行日志的采集方法的流程示意图。
图2是本发明另一实施例提供的作业的运行日志的采集方法的流程示意图。
图3是本发明一实施例提供的作业的运行日志的采集装置的结构示意图。
图4是本发明另一实施例提供的作业的运行日志的采集装置的结构示意图。
图5是本发明又一实施例提供的作业的运行日志的采集装置的结构示意图。
图6是本发明再一实施例提供的作业的运行日志的采集装置的结构示意图。
图7是本发明一实施例提供的电子设备的实体结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
为了便于理解本申请提供的技术方案,下面先对本申请技术方案的相关内容进行说明。作业在作业集群上运行时,会产生作业的运行日志,并将作业的运行日志存储到作业集群分布式系统临时路径中,可以从作业集群分布式系统临时路径中获得作业的运行日志。
图1是本发明一实施例提供的作业的运行日志的采集方法的流程示意图,如图1所示,本发明实施例提供的作业的运行日志的采集方法,包括:
S101、接收第一终端发送的运行日志获取请求,所述运行日志获取请求包括作业标识和所述作业标识对应的作业集群标识;
具体地,第一终端向服务器发送运行日志获取请求,所述运行日志获取请求包括作业标识和所述作业标识对应的作业集群标识。所述服务器会接收所述运行日志获取请求。其中,所述作业标识对应的作业集群标识可以是一个作业集群标识,也可以是两个或两个以上的作业集群标识。作业集群标识与作业集群一一对应。作业标识与作业一一对应。作业标识和作业集群标识根据实际需要进行设置,本发明实施例不做限定。所述第一终端包括但不限于台式机、笔记本电脑等设备。本发明实施例提供的作业的运行日志的采集方法的执行主体包括但不限于服务器。
例如,用户想要查看作业A在作业集群B中的运行日志,那么可以在笔记本电脑a提供的界面上选择作业A的作业标识和作业集群B的作业集群标识,然后点击获取运行日志的虚拟按键,笔记本电脑a会向服务器b发送运行日志获取请求,上述运行日志获取请求包括作业A的作业标识和作业集群B的作业集群标识。其中,作业集群B可以是hadoop集群。
例如,作业标识包括作业组名、作业名和批量日期,作业名与作业对应,作业名隶属于一个作业组名,批量日期可以是人为设定的。
S102、根据所述作业标识和对应的作业集群标识以及作业应用关系表,获得所述作业标识与作业集群标识对应的应用标识,并根据所述作业标识对应的作业集群标识,查询获得所述作业集群标识对应的路径信息和集群类型标识;其中,所述作业集群标识对应的路径信息是预设的;
具体地,所述服务器在接收到所述运行日志获取请求之后,会获取作业应用关系表,然后根据所述作业标识和对应的作业集群标识在所述作业应用关系表中查询与所述作业标识与作业集群标识对应的应用标识,如果查询到所述作业标识与作业集群标识对应的应用标识,那么可以获得所述作业标识与作业集群标识对应的应用标识。其中,所述作业应用关系表是预先获得的,包括作业标识、作业集群标识和应用标识,一个作业标识和一个作业集群标识唯一对应一个应用标识。
所述服务器可以根据所述作业标识对应作业集群标识,查询获得所述作业集群标识对应的路径信息和集群类型标识。所述作业集群标识对应的路径信息和集群类型标识是预设的。
S103、根据所述应用标识、所述作业集群标识对应的路径信息和集群类型标识,获得所述作业标识在作业集群下对应的分布式系统临时路径;
具体地,所述服务器在获得应用标识、所述作业集群对应的路径信息和集群类型标识之后,可以根据所述应用标识、所述作业集群标识对应的路径信息和集群类型标识,组合出所述作业标识在作业集群下对应的分布式系统临时路径。所述作业标识在作业集群下对应的分布式系统临时路径是所述作业标识对应的作业的运行日志在作业集群下的存储路径。
例如,作业A在作业集群B中的运行日志的存储路径包括路径信息+应用标识C+作业集群B的集群类型标识。上述路径信息和集群类型标识是预设的,并与作业集群B的作业集群标识对应。所述服务器根据作业集群B的作业集群标识,可以查询获得作业集群B的作业集群标识对应的路径信息和集群类型标识,然后将作业集群B的作业集群标识对应的路径信息、应用标识C和作业集群B对应的集群类型标识进行组合,获得作业A的作业标识在作业集群B下对应的分布式系统临时路径,即作业集群B下存储作业A的运行日志的存储路径。比如作业A的作业标识在作业集群B下对应的分布式系统临时路径为:hadoopB/TEMP//应用标识C/作业集群B对应的集群类型标识,hadoopB/TEMP为路径信息。
S104、根据所述作业标识在作业集群下对应的分布式系统临时路径,下载所述作业标识对应的作业在作业集群下的运行日志,并将所述作业标识对应的作业在作业集群下的运行日志发送给所述第一终端。
具体地,所述服务器在获得所述作业标识在作业集群下对应的分布式系统临时路径之后,可以访问所述作业标识在作业集群下对应的分布式系统临时路径,根据所述作业标识与作业集群标识对应的应用标识可以从所述作业标识在作业集群下对应的分布式系统临时路径下查询获得所述作业标识对应的作业在作业集群下的运行日志,并下载到本地,然后将所述作业标识对应的作业在作业集群下的运行日志发送给所述第一终端。所述第一终端会接收所述作业标识对应的作业在作业集群下的运行日志,以便于运维人员查看上述运行日志,并基于运行日志对作业集群运行的作业进行分析和诊断。
本发明实施例提供的作业的运行日志的采集方法,能够接收第一终端发送的运行日志获取请求,运行日志获取请求包括作业标识和作业标识对应的作业集群标识,根据作业标识和对应的作业集群标识以及作业应用关系表,获得作业标识与作业集群标识对应的应用标识,并根据作业标识对应的作业集群标识,查询获得作业集群标识对应的路径信息和集群类型标识,根据应用标识、作业集群标识对应的路径信息和集群类型标识,获得作业标识在作业集群下对应的分布式系统临时路径,根据作业标识在作业集群下对应的分布式系统临时路径,下载作业标识对应的作业在作业集群下的运行日志,并将作业标识对应的作业在作业集群下的运行日志发送给第一终端,实现了作业的运行日志的采集,提高了作业的运行日志的采集效率。
在上述各实施例的基础上,进一步地,所述根据所述作业标识和对应的作业集群标识以及作业应用关系表,获得所述作业标识与作业集群标识对应的应用标识包括:
从数据库中获取所述作业应用关系表,并根据所述作业标识和对应的作业集群标识从所述作业应用关系表中查询获得所述作业标识与作业集群标识对应的应用标识;其中,所述作业应用关系表是预先存储到所述数据库中的。
具体地,所述作业应用关系表预先存储到数据库中,所述服务器可以访问数据库,从数据库中获取所述作业应用关系表,然后根据所述作业标识和对应的作业集群标识,从所述作业应用关系表中查询获得所述作业标识与作业集群标识对应的应用标识。
图2是本发明另一实施例提供的作业的运行日志的采集方法的流程示意图,如图2所示,在上述各实施例的基础上,进一步地,所述作业应用关系表存储到所述数据库的步骤包括:
S201、接收第二终端定时发送的应用报告信息获取请求;
具体地,第二终端定时向所述服务器发送应用报告信息获取请求,所述服务器会接收所述应用报告信息获取请求。其中,所述定时根据实际需要进行设置,例如每10分钟一次。所述第二终端包括但不限于服务器、台式机、笔记本电脑等设备。
S202、获取每个作业集群的应用报告信息,每个作业集群的应用报告信息包括所述作业标识和对应的应用标识;
具体地,所述服务器在接收到所述应用报告信息获取请求之后,会从每个作业集群中获取应用报告信息,所述应用报告信息包括作业标识和对应的应用标识。其中,每个作业集群下的作业标识和应用标识一一对应。
例如,作业集群为Hadoop集群,所述服务器可以通过构建Hadoop集群的YarnApplicationStates的枚举集合对象,使用YarnClient.getApplications方法获取所有应用的报告集合对象,作为该作业集群的应用报告信息。
S203、向所述第二终端返回每个作业集群的应用报告信息,以使得所述第二终端基于每个作业集群的应用报告信息包括的作业标识和对应的应用标识建立所述作业应用关系表并存储到所述数据库中。
具体地,所述服务器在获得每个作业集群的应用报告信息之后,会将每个作业集群的应用报告信息发送给所述第二终端。所述第二终端接收到每个作业集群的应用报告信息之后,会遍历每个作业集群的应用报告信息,从中获取每个作业标识以及与每个作业标识对应的应用标识,然后根据每个作业集群的作业集群标识、每个作业标识以及与每个作业标识对应的应用标识建立所述作业应用关系表,并将所述作业应用关系表存储到数据库中。
在上述各实施例的基础上,进一步地,所述将所述作业标识对应的作业在作业集群下的运行日志发送给所述第一终端包括:
对所述作业标识对应的作业在作业集群下的运行日志进行压缩,并将压缩后的运行日志发送给所述第一终端。
具体地,为了节约存储空间和加快传输速度,所述服务器在下载完所述作业标识对应的作业在作业集群下的运行日志之后,对所述作业标识对应的作业在作业集群下的运行日志进行压缩,然后将压缩后的运行日志发送给所述第一终端。
例如,所述服务器将下载完的所述作业标识对应的运行日志的文件以文件流的形式进行打包,利用ZipOutputStream的putNextEntry方法对要打包后的文件进行压缩。
在上述各实施例的基础上,进一步地,所述运行日志获取请求包括用户名、密码和密钥;相应的,在根据所述作业标识和对应的作业集群标识以及作业应用关系表,获得所述作业标识与作业集群标识对应的应用标识之前,还包括:
根据所述用户名、密码和密钥判断所述运行日志获取请求是否通过验证。
具体地,为了保证数据的安全,会对运行日志获取请求进行验证。所述第一终端发送的运行日志获取请求可以携带用户名、密码和密钥。所述服务器在根据所述作业标识和对应的作业集群标识以及作业应用关系表,获得所述作业标识与作业集群标识对应的应用标识之前,会根据所述用户名、密码和密钥对所述运行日志获取请求进行验证,如果验证通过,那么进行后续根据所述作业标识和对应的作业集群标识以及作业应用关系表,获得所述作业标识与作业集群标识对应的应用标识的步骤;如果没有通过验证,那么会拒绝所述运行日志获取请求。
例如,所述服务器根据所述用户名和密码,查询到对应的用户名和密码,并且所述运行日志获取请求包括的密钥与本地密钥相匹配,那么所述运行日志获取请求通过验证。
在上述各实施例的基础上,进一步地,所述作业标识对应的作业集群标识有多个。
具体地,所述作业标识对应的作业集群标识有多个,即所述作业标识对应两个或两个以上的作业集群标识。对于每个作业集群标识,所述服务器会执行步骤S102、S103和S104,以获得所述作业标识对应的作业在作业集群下的运行日志。
在上述各实施例的基础上,进一步地,本发明实施例提供的作业的运行日志的采集方法还包括:
若根据所述作业标识和对应的作业集群标识以及作业应用关系表无法获得所述作业标识与作业集群标识对应的应用标识,则向所述第一终端返回运行日志获取失败提示信息。
具体地,所述服务器根据所述作业标识和作业集群标识在所述作业应用关系表中查询与所述作业标识和所述作业集群标识对应的应用标识,如果没有查询到与所述作业标识和所述作业集群标识对应的应用标识,说明无法进行运行日志的获取,那么可以向所述第一终端返回运行日志获取失败提示信息。
本发明实施例提供的作业的运行日志的采集方法能够实现多套Hadoop集群的作业的运行日志灵活下载,从集群认证到作业日志下载实现,可以由以下步骤实现:
(1)yarn_application表数据准备:该步骤为Yarn日志(作业的运行日志)下载的数据准备阶段,为下一步通过前台传入的环境和作业标识(作业组名+作业名+批量日期)获取应用标识(applicationID)打下基础。
实现原理为首先将JAVA程序数据持久化的功能封装成jar包(jar包以主方法作为程序入口启动),然后以java-jar的形式在Linux的shell脚本中进行调用,最后写成对应的定时任务进行定期的数据采集,将数据写入到数据库中。数据持久化程序的实现步骤大致可分为集群认证、获取全部作业和插库三步。
①集群认证:通过读取本地的keytab、krb5文件和用户进行安全登录验证,并通过Configuration对象间接读取对应的xml配置文件进行集群连接。
②获取所有的应用报告信息:集群认证成功后,通过构建YarnApplicationStates的枚举集合对象,使用YarnClient.getApplications方法获取所有应用的报告集合对象。
③插库:通过遍历第②步返回的应用报告信息集合,将每一个应用报告通过JDBC连接数据库的方式插入到数据库的表中,至此作业标识和应用标识的对应关系建立完毕,形成作业应用关系表。对于多套Hadoop集群,每套Hadoop集群具有唯一对应的作业集群标识,在作业应用关系表中加入作业集群标识,使作业应用关系表中的每个应用标识与作业标识和作业集群标识唯一对应。
(2)通过作业标识获取对应的应用标识:通过第(1)步建立的作业应用关系表进行作业标识yarnappid的查询,如果查询到对应的applicationID,那么获得对应的applicationID;如果没有查询到对应的applicationID,那么返回空的集合。
(3)多套集群认证:得到applicationid的值后,进行集群的认证,同第(1)步中集群认证类似,唯一不同的是这里进行多套集群的灵活认证。
利用HBaseConfiguration的create方法将读取的配置文件以addResource的形式添加到Configuration对象中,由于两套环境配置文件名相同,使用create方法可以将后添加的配置文件对另一套环境的配置文件进行覆盖。从而达到每次初始化认证最新的环境配置文件的目的。
(4)HDFS临时路径下载:根据第(3)步获得的applicationid到HDFS临时路径进行yarn日志的下载,利用FileSystem对象的copyLocalFile方法进行文件的拷贝下载。
(5)打包:将下载好的文件以文件流的形式进行打包,利用ZipOutputStream的putNextEntry方法对要打包的文件进行压缩,通过传入的输出路径参数值写到指定的路径文件内。
(6)前后台传输:将压缩后的Yarn日志的zip包以字节流的形式读取到前台。并将前台传入的环境、作业名、作业组名、批量日期字段信息在后台获取,以Servlet的形式完成后台Yarn日志下载的封装。
本发明实施例提供的作业的运行日志的采集方法创造性的实现了多套Hadoop集群的作业运行日志灵活下载功能,为Hadoop集群运维人员排查报错作业,定位分析与诊断工作提供了一种便捷工具,填充了Hadoop集群日志获取装置领域的空白。
图3是本发明一实施例提供的作业的运行日志的采集装置的结构示意图,如图3所示,本发明实施例提供的作业的运行日志的采集装置包括接收模块301、第一获得模块302、第二获得模块303和下载模块304,其中:
接收模块301用于接收第一终端发送的运行日志获取请求,所述运行日志获取请求包括作业标识和所述作业标识对应的作业集群标识;第一获得模块302用于根据所述作业标识和对应的作业集群标识以及作业应用关系表,获得所述作业标识与作业集群标识对应的应用标识,并根据所述作业标识对应的作业集群标识,查询获得所述作业集群标识对应的路径信息和集群类型标识;其中,所述作业集群标识对应的路径信息和集群类型标识是预设的;第二获得模块303用于根据所述应用标识、所述作业集群标识对应的路径信息和集群类型标识,获得所述作业标识在作业集群下对应的分布式系统临时路径;下载模块304用于根据所述作业标识在作业集群下对应的分布式系统临时路径,下载所述作业标识对应的作业在作业集群下的运行日志,并将所述作业标识对应的作业在作业集群下的运行日志发送给所述第一终端。
具体地,第一终端向接收模块301发送运行日志获取请求,所述运行日志获取请求包括作业标识和所述作业标识对应的作业集群标识。接收模块301会接收所述运行日志获取请求。其中,所述作业标识对应的作业集群标识可以是一个作业集群标识,也可以是两个或两个以上的作业集群标识。作业集群标识与作业集群一一对应。作业标识与作业一一对应。作业标识和作业集群标识根据实际需要进行设置,本发明实施例不做限定。所述第一终端包括但不限于台式机、笔记本电脑等设备。
在接收到所述运行日志获取请求之后,第一获得模块302会获取作业应用关系表,然后根据所述作业标识和对应的作业集群标识在所述作业应用关系表中查询与所述作业标识与作业集群标识对应的应用标识,如果查询到所述作业标识与作业集群标识对应的应用标识,那么可以获得所述作业标识与作业集群标识对应的应用标识。其中,所述作业应用关系表是预先获得的,包括作业标识、作业集群标识和应用标识,一个作业标识和一个作业集群标识唯一对应一个应用标识。
第一获得模块302可以根据所述作业标识对应作业集群标识,查询获得所述作业集群标识对应的路径信息和集群类型标识。所述作业集群标识对应的路径信息和集群类型标识是预设的。
在获得应用标识、所述作业集群对应的路径信息和集群类型标识之后,第二获得模块303可以根据所述应用标识、所述作业集群标识对应的路径信息和集群类型标识,组合出所述作业标识在作业集群下对应的分布式系统临时路径。所述作业标识在作业集群下对应的分布式系统临时路径是所述作业标识对应的作业的运行日志在作业集群下的存储路径。
在获得所述作业标识在作业集群下对应的分布式系统临时路径之后,下载模块304可以访问所述作业标识在作业集群下对应的分布式系统临时路径,根据所述作业标识与作业集群标识对应的应用标识可以从所述作业标识在作业集群下对应的分布式系统临时路径下查询获得所述作业标识对应的作业在作业集群下的运行日志,并下载到本地,然后将所述作业标识对应的作业在作业集群下的运行日志发送给所述第一终端。所述第一终端会接收所述作业标识对应的作业在作业集群下的运行日志,以便于运维人员查看上述运行日志,并基于运行日志对作业集群运行的作业进行分析和诊断。
本发明实施例提供的作业的运行日志的采集装置,能够接收第一终端发送的运行日志获取请求,运行日志获取请求包括作业标识和作业标识对应的作业集群标识,根据作业标识和对应的作业集群标识以及作业应用关系表,获得作业标识与作业集群标识对应的应用标识,并根据作业标识对应的作业集群标识,查询获得作业集群标识对应的路径信息和集群类型标识,根据应用标识、作业集群标识对应的路径信息和集群类型标识,获得作业标识在作业集群下对应的分布式系统临时路径,根据作业标识在作业集群下对应的分布式系统临时路径,下载作业标识对应的作业在作业集群下的运行日志,并将作业标识对应的作业在作业集群下的运行日志发送给第一终端,实现了作业的运行日志的采集,提高了作业的运行日志的采集效率。
在上述各实施例的基础上,进一步地,第一获得模块302具体用于:
从数据库中获取所述作业应用关系表,并根据所述作业标识和对应的作业集群标识从所述作业应用关系表中查询获得所述作业标识与作业集群标识对应的应用标识;其中,所述作业应用关系表是预先存储到所述数据库中的。
图4是本发明另一实施例提供的作业的运行日志的采集装置的结构示意图,如图4所示,在上述各实施例的基础上,进一步地,本发明实施例提供的作业的运行日志的采集装置还包括请求接收模块305、获取模块306和第一返回模块307,其中:
请求接收模块305用于接收第二终端定时发送的应用报告信息获取请求;获取模块306用于获取每个作业集群的应用报告信息,每个作业集群的应用报告信息包括所述作业标识和对应的应用标识;返回模块307用于向所述第二终端返回每个作业集群的应用报告信息,以使得所述第二终端基于每个作业集群的应用报告信息包括的作业标识和对应的应用标识建立所述作业应用关系表并存储到所述数据库中。
在上述各实施例的基础上,进一步地,下载模块304具体用于:
对所述作业标识对应的作业在作业集群下的运行日志进行压缩,并将压缩后的运行日志发送给所述第一终端。
图5是本发明又一实施例提供的作业的运行日志的采集装置的结构示意图,如图5所示,在上述各实施例的基础上,进一步地,所述运行日志获取请求包括用户名、密码和密钥;相应的,本发明实施例提供的作业的运行日志的采集装置还包括验证模块308,其中:
验证模块308用于根据所述用户名、密码和密钥判断所述运行日志获取请求是否通过验证。
在上述各实施例的基础上,进一步地,所述作业标识对应的作业集群标识有多个。
图6是本发明再一实施例提供的作业的运行日志的采集装置的结构示意图,如图6所示,在上述各实施例的基础上,进一步地,本发明实施例提供的作业的运行日志的采集装置还包括第二返回模块309,其中:
第二返回模块309用于在根据所述作业标识和对应的作业集群标识以及作业应用关系表无法获得所述作业标识与作业集群标识对应的应用标识之后,向所述第一终端返回运行日志获取失败提示信息。
本发明实施例提供的装置的实施例具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。
图7是本发明一实施例提供的电子设备的实体结构示意图,如图7所示,该电子设备可以包括:处理器(processor)701、通信接口(Communications Interface)702、存储器(memory)703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信。处理器701可以调用存储器703中的逻辑指令,以执行如下方法:接收第一终端发送的运行日志获取请求,所述运行日志获取请求包括作业标识和所述作业标识对应的作业集群标识;根据所述作业标识和对应的作业集群标识以及作业应用关系表,获得所述作业标识与作业集群标识对应的应用标识,并根据所述作业标识对应的作业集群标识,查询获得所述作业集群标识对应的路径信息和集群类型标识;其中,所述作业集群标识对应的路径信息和集群类型标识是预设的;根据所述应用标识、所述作业集群标识对应的路径信息和集群类型标识,获得所述作业标识在作业集群下对应的分布式系统临时路径;根据所述作业标识在作业集群下对应的分布式系统临时路径,下载所述作业标识对应的作业在作业集群下的运行日志,并将所述作业标识对应的作业在作业集群下的运行日志发送给所述第一终端。
此外,上述的存储器703中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:接收第一终端发送的运行日志获取请求,所述运行日志获取请求包括作业标识和所述作业标识对应的作业集群标识;根据所述作业标识和对应的作业集群标识以及作业应用关系表,获得所述作业标识与作业集群标识对应的应用标识,并根据所述作业标识对应的作业集群标识,查询获得所述作业集群标识对应的路径信息和集群类型标识;其中,所述作业集群标识对应的路径信息和集群类型标识是预设的;根据所述应用标识、所述作业集群标识对应的路径信息和集群类型标识,获得所述作业标识在作业集群下对应的分布式系统临时路径;根据所述作业标识在作业集群下对应的分布式系统临时路径,下载所述作业标识对应的作业在作业集群下的运行日志,并将所述作业标识对应的作业在作业集群下的运行日志发送给所述第一终端。
本实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储计算机程序,所述计算机程序使所述计算机执行上述各方法实施例所提供的方法,例如包括:接收第一终端发送的运行日志获取请求,所述运行日志获取请求包括作业标识和所述作业标识对应的作业集群标识;根据所述作业标识和对应的作业集群标识以及作业应用关系表,获得所述作业标识与作业集群标识对应的应用标识,并根据所述作业标识对应的作业集群标识,查询获得所述作业集群标识对应的路径信息和集群类型标识;其中,所述作业集群标识对应的路径信息和集群类型标识是预设的;根据所述应用标识、所述作业集群标识对应的路径信息和集群类型标识,获得所述作业标识在作业集群下对应的分布式系统临时路径;根据所述作业标识在作业集群下对应的分布式系统临时路径,下载所述作业标识对应的作业在作业集群下的运行日志,并将所述作业标识对应的作业在作业集群下的运行日志发送给所述第一终端。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (10)

1.一种作业的运行日志的采集方法,其特征在于,包括:
接收第一终端发送的运行日志获取请求,所述运行日志获取请求包括作业标识和所述作业标识对应的作业集群标识;
根据所述作业标识和对应的作业集群标识以及作业应用关系表,获得所述作业标识与作业集群标识对应的应用标识,并根据所述作业标识对应的作业集群标识,查询获得所述作业集群标识对应的路径信息和集群类型标识;其中,所述作业集群标识对应的路径信息和集群类型标识是预设的;所述作业应用关系表是预先获得的,包括作业标识、作业集群标识和应用标识,一个作业标识和一个作业集群标识唯一对应一个应用标识;
根据所述应用标识、所述作业集群标识对应的路径信息和集群类型标识,获得所述作业标识在作业集群下对应的分布式系统临时路径;
根据所述作业标识在作业集群下对应的分布式系统临时路径,下载所述作业标识对应的作业在作业集群下的运行日志,并将所述作业标识对应的作业在作业集群下的运行日志发送给所述第一终端。
2.根据权利要求1所述的方法,其特征在于,所述根据所述作业标识和对应的作业集群标识以及作业应用关系表,获得所述作业标识与作业集群标识对应的应用标识包括:
从数据库中获取所述作业应用关系表,并根据所述作业标识和对应的作业集群标识从所述作业应用关系表中查询获得所述作业标识与作业集群标识对应的应用标识;其中,所述作业应用关系表是预先存储到所述数据库中的。
3.根据权利要求2所述的方法,其特征在于,所述作业应用关系表存储到所述数据库的步骤包括:
接收第二终端定时发送的应用报告信息获取请求;
获取每个作业集群的应用报告信息,每个作业集群的应用报告信息包括所述作业标识和对应的应用标识;
向所述第二终端返回每个作业集群的应用报告信息,以使得所述第二终端基于每个作业集群的应用报告信息包括的作业标识和对应的应用标识建立所述作业应用关系表并存储到所述数据库中。
4.根据权利要求1所述的方法,其特征在于,所述将所述作业标识对应的作业在作业集群下的运行日志发送给所述第一终端包括:
对所述作业标识对应的作业在作业集群下的运行日志进行压缩,并将压缩后的运行日志发送给所述第一终端。
5.根据权利要求1所述的方法,其特征在于,所述运行日志获取请求包括用户名、密码和密钥;相应的,在根据所述作业标识和对应的作业集群标识以及作业应用关系表,获得所述作业标识与作业集群标识对应的应用标识之前,还包括:
根据所述用户名、密码和密钥判断所述运行日志获取请求是否通过验证。
6.根据权利要求1所述的方法,其特征在于,所述作业标识对应的作业集群标识有多个。
7.根据权利要求1至6任一项所述的方法,其特征在于,还包括:
若根据所述作业标识和对应的作业集群标识以及作业应用关系表无法获得所述作业标识与作业集群标识对应的应用标识,则向所述第一终端返回运行日志获取失败提示信息。
8.一种作业的运行日志的采集装置,其特征在于,包括:
接收模块,用于接收第一终端发送的运行日志获取请求,所述运行日志获取请求包括作业标识和所述作业标识对应的作业集群标识;
第一获得模块,用于根据所述作业标识和对应的作业集群标识以及作业应用关系表,获得所述作业标识与作业集群标识对应的应用标识,并根据所述作业标识对应的作业集群标识,查询获得所述作业集群标识对应的路径信息和集群类型标识;其中,所述作业集群标识对应的路径信息和集群类型标识是预设的;所述作业应用关系表是预先获得的,包括作业标识、作业集群标识和应用标识,一个作业标识和一个作业集群标识唯一对应一个应用标识;
第二获得模块,用于根据所述应用标识、所述作业集群标识对应的路径信息和集群类型标识,获得所述作业标识在作业集群下对应的分布式系统临时路径;
下载模块,用于根据所述作业标识在作业集群下对应的分布式系统临时路径,下载所述作业标识对应的作业在作业集群下的运行日志,并将所述作业标识对应的作业在作业集群下的运行日志发送给所述第一终端。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述方法的步骤。
CN202110233004.4A 2021-03-03 2021-03-03 一种作业的运行日志的采集方法及装置 Active CN113010377B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110233004.4A CN113010377B (zh) 2021-03-03 2021-03-03 一种作业的运行日志的采集方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110233004.4A CN113010377B (zh) 2021-03-03 2021-03-03 一种作业的运行日志的采集方法及装置

Publications (2)

Publication Number Publication Date
CN113010377A CN113010377A (zh) 2021-06-22
CN113010377B true CN113010377B (zh) 2024-06-14

Family

ID=76403143

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110233004.4A Active CN113010377B (zh) 2021-03-03 2021-03-03 一种作业的运行日志的采集方法及装置

Country Status (1)

Country Link
CN (1) CN113010377B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114500582A (zh) * 2022-02-11 2022-05-13 浙江大华技术股份有限公司 日志的采集方法、装置、存储介质及电子装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077328A (zh) * 2013-03-29 2014-10-01 百度在线网络技术(北京)有限公司 MapReduce分布式系统的作业诊断方法及设备
CN108737467A (zh) * 2017-04-19 2018-11-02 腾讯科技(深圳)有限公司 一种服务器日志查看方法、装置和系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5834661B2 (ja) * 2011-09-13 2015-12-24 株式会社リコー 情報処理システム、情報処理装置、及び情報処理方法
US20170054590A1 (en) * 2015-08-21 2017-02-23 Rohit Agarwal Multi-Tenant Persistent Job History Service for Data Processing Centers
CN107908697B (zh) * 2017-11-03 2022-01-14 中国银行股份有限公司 主机批处理作业结果的自动采集方法及装置
CN108459939B (zh) * 2018-01-08 2020-06-23 平安科技(深圳)有限公司 一种日志收集方法、装置、终端设备及存储介质
CN111274090A (zh) * 2020-01-16 2020-06-12 泰康保险集团股份有限公司 作业处理方法、装置、介质及电子设备
CN111522714A (zh) * 2020-04-20 2020-08-11 京东数字科技控股有限公司 日志查询方法、装置、电子设备及存储介质
CN111506367B (zh) * 2020-04-20 2023-09-22 东云睿连(武汉)计算技术有限公司 多集群式人工智能在线服务方法及系统
CN111737088B (zh) * 2020-06-30 2024-05-31 中国工商银行股份有限公司 日志获取方法和装置、电子设备、及介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104077328A (zh) * 2013-03-29 2014-10-01 百度在线网络技术(北京)有限公司 MapReduce分布式系统的作业诊断方法及设备
CN108737467A (zh) * 2017-04-19 2018-11-02 腾讯科技(深圳)有限公司 一种服务器日志查看方法、装置和系统

Also Published As

Publication number Publication date
CN113010377A (zh) 2021-06-22

Similar Documents

Publication Publication Date Title
US9996333B2 (en) Apparatus and method for automating the installation and configuration of infrastructure
US8819488B1 (en) Architecture for end-to-end testing of long-running, multi-stage asynchronous data processing services
CN110011952B (zh) 一种数据传输的方法、服务集群及客户端
CN110995513A (zh) 物联网系统中的数据发送、接收方法、物联网设备及平台
CN111683066A (zh) 异构系统集成方法、装置、计算机设备和存储介质
CN112769706B (zh) 组件化路由方法及系统
CN113220431A (zh) 跨云的分布式数据任务调度方法、设备及存储介质
CN110830567A (zh) 一种数据传输方法及装置
CN113010377B (zh) 一种作业的运行日志的采集方法及装置
US10606730B2 (en) Networked digital data processor log file viewer
CN111736923A (zh) 数据处理方法、装置、电子设备及可读存储介质
CN114253798A (zh) 指标数据采集方法和装置、电子设备、存储介质
CN112363997B (zh) 数据版本管理方法、装置及存储介质
CN116048533B (zh) 一种运行Flink任务解决依赖隔离的实现方法及系统
CN110287070B (zh) Esb专用协议接口测试方法、服务器及计算机可读存储介质
CN103197920A (zh) 一种并发控制方法、控制节点及系统
CN112699000A (zh) 数据处理方法、装置、可读存储介质和电子设备
CN114221971B (zh) 数据同步方法、装置、服务器、存储介质及产品
CN111159142A (zh) 一种数据处理方法及装置
CN112115118A (zh) 数据库压测的优化方法及装置、存储介质、电子设备
CN113704120A (zh) 数据传输方法、装置、设备及存储介质
US10623492B2 (en) Service processing method, related device, and system
CN116720818B (zh) 基于区块链的仓储处理方法、装置、计算机设备
CN112965740B (zh) 一种资产信息的导出方法及装置
CN114416106B (zh) 更新编译计数值的方法、系统、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant