CN113590445A - 数据处理任务运行的检测方法、计算机设备和存储介质 - Google Patents

数据处理任务运行的检测方法、计算机设备和存储介质 Download PDF

Info

Publication number
CN113590445A
CN113590445A CN202110870055.8A CN202110870055A CN113590445A CN 113590445 A CN113590445 A CN 113590445A CN 202110870055 A CN202110870055 A CN 202110870055A CN 113590445 A CN113590445 A CN 113590445A
Authority
CN
China
Prior art keywords
data processing
processing task
data
running
detecting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110870055.8A
Other languages
English (en)
Inventor
史校忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Daishu Technology Co ltd
Original Assignee
Hangzhou Daishu Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Daishu Technology Co ltd filed Critical Hangzhou Daishu Technology Co ltd
Priority to CN202110870055.8A priority Critical patent/CN113590445A/zh
Publication of CN113590445A publication Critical patent/CN113590445A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据处理任务运行的检测方法、计算机设备和存储介质,数据处理任务运行的检测方法包括以下步骤:部署待检测的数据处理任务,其中,所述数据处理任务的脚本文件包含源表、结果表和预设逻辑;将所述数据处理任务提交至Hadoop YARN;判断所述数据处理任务是否处于运行状态;如果所述数据处理任务处于运行状态,则向所述源表写入数据,并通过所述数据处理任务对写入的数据进行处理;在所述源表的数据写入和处理结束后,将处理结果写入所述结果表,并通过所述结果表判断所述处理结果是否符合所述预设逻辑,以确定所述数据处理任务是否正常运行。本发明能够方便、快速、有效地实现数据处理任务运行的检测。

Description

数据处理任务运行的检测方法、计算机设备和存储介质
技术领域
本发明涉及数据处理技术领域,具体涉及一种数据处理任务运行的检测方法、一种计算机设备和一种非临时性计算机可读存储介质。
背景技术
随着大数据技术的发展,相关的应用、产品日渐完善。对于数据的处理和海量数据的分析,离不开对数据的依赖,而数据的集成依托于数据仓库的建设。数据仓库可以由两种方式构建:离线计算和实时计算。
在面对诸如Spark、Flink、Storm等框架的百万级数据处理任务时,人工进行数据检测的操作显得费时费力。若任务运行环节中出现数据丢失、数据采集错误、脏数据等问题,会导致生产业务库数据混乱、服务不可用等情况,影响严重。
因此,亟需提出一种检测策略,以方便、快速、有效地检测数据处理任务的运行是否异常。
发明内容
本发明为解决上述技术问题,提供了一种数据处理任务运行的检测方法、计算机设备和存储介质,能够方便、快速、有效地实现数据处理任务运行的检测。
本发明采用的技术方案如下:
一种数据处理任务运行的检测方法,包括以下步骤:部署待检测的数据处理任务,其中,所述数据处理任务的脚本文件包含源表、结果表和预设逻辑;将所述数据处理任务提交至Hadoop YARN;判断所述数据处理任务是否处于运行状态;如果所述数据处理任务处于运行状态,则向所述源表写入数据,并通过所述数据处理任务对写入的数据进行处理;在所述源表的数据写入和处理结束后,将处理结果写入所述结果表,并通过所述结果表判断所述处理结果是否符合所述预设逻辑,以确定所述数据处理任务是否正常运行。
如果所述数据处理任务处于未运行状态,且处于未运行状态的持续时间达到预设时间阈值,则发出告警。
通过钉钉或邮件发出告警。
所述数据处理任务的脚本文件为预设的SQL脚本,或自定义的SQL脚本。
批量数据处理任务异步执行所述数据处理任务运行的检测方法。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述数据处理任务运行的检测方法。
一种非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述数据处理任务运行的检测方法。
本发明的有益效果:
本发明通过部署脚本文件包含源表、结果表和预设逻辑的数据处理任务,并提交数据处理任务,在数据处理任务处于运行状态时向源表写入数据,并通过数据处理任务对写入的数据进行处理,在源表的数据写入和处理结束后,通过结果表判断处理结果是否符合预设逻辑,以确定数据处理任务是否正常运行,由此,能够方便、快速、有效地实现数据处理任务运行的检测。
附图说明
图1为本发明实施例的数据处理任务运行的检测方法的流程图;
图2为本发明一个实施例的数据处理任务运行的检测方法的流程图;
图3为本发明一个实施例的数据处理任务运行的检测方法中的数据流向示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例的数据处理任务运行的检测方法包括以下步骤:
S1,部署待检测的数据处理任务,其中,数据处理任务的脚本文件包含源表、结果表和预设逻辑。
本发明实施例的数据处理任务的脚本文件为预设的SQL脚本,即预先设置并存储,供用户直接调用的SQL脚本,或者为自定义的SQL脚本。
本发明实施例的数据处理任务运行的检测方法支持大部分主流数据库的数据处理任务运行检测,例如Spark、Flink、Storm、MySQL、Oracle、Kafka、PostgreSQL、Hbase、Hive等。首先,针对待检测的数据库可部署SQL脚本,例如部署FlinkSQL或SparkSQL脚本,SQL脚本必须包含源表、结果表信息和待执行的SQL逻辑,也可包含维表,SQL脚本以扩展名为.sql的文件形式存储。
S2,将数据处理任务提交至Hadoop YARN。
通过Hadoop YARN提供的任务提交接口,可将SQL脚本自动提交至Hadoop YARN。
S3,判断数据处理任务是否处于运行状态。
在本发明的一个实施例中,Hadoop YARN可直接获知SQL脚本是否成功被调度运行,即是否处于运行状态。
S4,如果数据处理任务处于运行状态,则向源表写入数据,并通过数据处理任务对写入的数据进行处理。
如果SQL脚本处于运行状态,则可与源表建立连接,并向源表持续发送数据,发送的数据量可由用户自行定义。数据写入到源表后,由于SQL脚本在运行,SQL脚本会对数据进行处理。
S5,在源表的数据写入和处理结束后,将处理结果写入结果表,并通过结果表判断处理结果是否符合预设逻辑,以确定数据处理任务是否正常运行。
处理结果包含SQL脚本运行的相关信息,如SQL脚本运行的开始时间和结束时间、运行时传递的参数、错误日志等,因此能够表示出处理结果是否符合SQL脚本中的预设逻辑。如果符合预设逻辑,则可判定SQL脚本正常运行,如果不符合预设逻辑,则可判定SQL脚本未正常运行。
在本发明的一个实施例中,在判定数据处理任务未正常运行时,可发出告警,例如可调用钉钉提供的web hook发送钉钉告警,或通过邮件发出告警。
进一步地,如图2所示,数据处理任务运行的检测方法还可包括:
S6,如果数据处理任务处于未运行状态,且处于未运行状态的持续时间达到预设时间阈值,则发出告警。
也就是说,如果数据处理任务在预设时间阈值内未运行,例如5分钟内还未运行,则可判定数据处理任务运行超时,此时可调用钉钉提供的web hook发送钉钉告警,或通过邮件发出告警。
此外,批量数据处理任务可异步执行本发明实施例的数据处理任务运行的检测方法,即多个数据库的多个数据处理任务,可异步执行上述步骤S1~S5,或异步执行上述步骤S1~S6,实现批量数据处理任务的异步检测。
在本发明的一个具体实施例中,源表kafka(MyTable)、维表mysql(SideTable)、数据处理任务FlinkSQL(join_constant_ArgexRft)及结果表mysql(MyRsult)间的数据流向如图3所示,在数据写入源表kafka(MyTable)后,数据处理任务FlinkSQL(join_constant_ArgexRft)会对数据进行计算处理,处理结果写入结果表mysql(MyRsult)。
本发明一个具体实施例的FlinkSQL脚本如下:
Figure BDA0003188775270000041
Figure BDA0003188775270000051
Figure BDA0003188775270000061
Figure BDA0003188775270000071
其中,CREATE TABLE MyTable即对应图3中的源表kafka(MyTable),CREATE TABLEMyResult即对应图3中的结果表mysql(MyRsult)。从Insert InTo开始的SQL语句,即为预设逻辑。
根据本发明实施例的数据处理任务运行的检测方法,通过部署脚本文件包含源表、结果表和预设逻辑的数据处理任务,并提交数据处理任务,在数据处理任务处于运行状态时向源表写入数据,并通过数据处理任务对写入的数据进行处理,在源表的数据写入和处理结束后,通过结果表判断处理结果是否符合预设逻辑,以确定数据处理任务是否正常运行,由此,能够方便、快速、有效地实现数据处理任务运行的检测。
对应上述实施例,本发明还提出一种计算机设备。
本发明实施例的计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行该计算机程序时,可实现根据本发明上述实施例所述的数据处理任务运行的检测方法。
根据本发明实施例的计算机设备,处理器执行存储在存储器上的计算机程序时,通过部署脚本文件包含源表、结果表和预设逻辑的数据处理任务,并提交数据处理任务,在数据处理任务处于运行状态时向源表写入数据,并通过数据处理任务对写入的数据进行处理,在源表的数据写入和处理结束后,通过结果表判断处理结果是否符合预设逻辑,以确定数据处理任务是否正常运行,由此,能够方便、快速、有效地实现数据处理任务运行的检测。
对应上述实施例,本发明还提出一种非临时性计算机可读存储介质。
本发明实施例的非临时性计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时可实现根据本发明上述实施例所述的数据处理任务运行的检测方法。
根据本发明实施例的非临时性计算机可读存储介质,处理器执行存储在其上的计算机程序时,通过部署脚本文件包含源表、结果表和预设逻辑的数据处理任务,并提交数据处理任务,在数据处理任务处于运行状态时向源表写入数据,并通过数据处理任务对写入的数据进行处理,在源表的数据写入和处理结束后,通过结果表判断处理结果是否符合预设逻辑,以确定数据处理任务是否正常运行,由此,能够方便、快速、有效地实现数据处理任务运行的检测。
在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必针对相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本发明各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (7)

1.一种数据处理任务运行的检测方法,其特征在于,包括以下步骤:
部署待检测的数据处理任务,其中,所述数据处理任务的脚本文件包含源表、结果表和预设逻辑;
将所述数据处理任务提交至Hadoop YARN;
判断所述数据处理任务是否处于运行状态;
如果所述数据处理任务处于运行状态,则向所述源表写入数据,并通过所述数据处理任务对写入的数据进行处理;
在所述源表的数据写入和处理结束后,将处理结果写入所述结果表,并通过所述结果表判断所述处理结果是否符合所述预设逻辑,以确定所述数据处理任务是否正常运行。
2.根据权利要求1所述的数据处理任务运行的检测方法,其特征在于,如果所述数据处理任务处于未运行状态,且处于未运行状态的持续时间达到预设时间阈值,则发出告警。
3.根据权利要求2所述的数据处理任务运行的检测方法,其特征在于,通过钉钉或邮件发出告警。
4.根据权利要求1-3中任一项所述的数据处理任务运行的检测方法,其特征在于,所述数据处理任务的脚本文件为预设的SQL脚本,或自定义的SQL脚本。
5.根据权利要求4所述的数据处理任务运行的检测方法,其特征在于,批量数据处理任务异步执行所述数据处理任务运行的检测方法。
6.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现根据权利要求1-5中任一项所述的数据处理任务运行的检测方法。
7.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现根据权利要求1-5中任一项所述的数据处理任务运行的检测方法。
CN202110870055.8A 2021-07-30 2021-07-30 数据处理任务运行的检测方法、计算机设备和存储介质 Pending CN113590445A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110870055.8A CN113590445A (zh) 2021-07-30 2021-07-30 数据处理任务运行的检测方法、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110870055.8A CN113590445A (zh) 2021-07-30 2021-07-30 数据处理任务运行的检测方法、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN113590445A true CN113590445A (zh) 2021-11-02

Family

ID=78252555

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110870055.8A Pending CN113590445A (zh) 2021-07-30 2021-07-30 数据处理任务运行的检测方法、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN113590445A (zh)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425762A (zh) * 2013-08-05 2013-12-04 南京邮电大学 基于Hadoop平台的电信运营商海量数据处理方法
CN107273390A (zh) * 2016-04-09 2017-10-20 上海久畅信息技术有限公司 基于sql脚本流媒体数据库的管理方法
CN110069335A (zh) * 2019-05-07 2019-07-30 江苏满运软件科技有限公司 任务处理系统、方法、计算机设备和存储介质
CN110377429A (zh) * 2019-07-24 2019-10-25 深圳乐信软件技术有限公司 一种实时任务计算的控制方法、装置、服务器及存储介质
CN110647564A (zh) * 2019-08-14 2020-01-03 中国平安财产保险股份有限公司 Hive建表方法、电子装置及计算机可读存储介质
CN110784374A (zh) * 2019-10-25 2020-02-11 上海中通吉网络技术有限公司 业务系统运行状态的监控方法、装置、设备和系统
CN111026779A (zh) * 2019-12-19 2020-04-17 厦门安胜网络科技有限公司 一种基于Flink SQL的数据处理方法、装置、存储介质
CN112783874A (zh) * 2019-11-08 2021-05-11 北京沃东天骏信息技术有限公司 一种数据分析方法、装置和系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103425762A (zh) * 2013-08-05 2013-12-04 南京邮电大学 基于Hadoop平台的电信运营商海量数据处理方法
CN107273390A (zh) * 2016-04-09 2017-10-20 上海久畅信息技术有限公司 基于sql脚本流媒体数据库的管理方法
CN110069335A (zh) * 2019-05-07 2019-07-30 江苏满运软件科技有限公司 任务处理系统、方法、计算机设备和存储介质
CN110377429A (zh) * 2019-07-24 2019-10-25 深圳乐信软件技术有限公司 一种实时任务计算的控制方法、装置、服务器及存储介质
CN110647564A (zh) * 2019-08-14 2020-01-03 中国平安财产保险股份有限公司 Hive建表方法、电子装置及计算机可读存储介质
CN110784374A (zh) * 2019-10-25 2020-02-11 上海中通吉网络技术有限公司 业务系统运行状态的监控方法、装置、设备和系统
CN112783874A (zh) * 2019-11-08 2021-05-11 北京沃东天骏信息技术有限公司 一种数据分析方法、装置和系统
CN111026779A (zh) * 2019-12-19 2020-04-17 厦门安胜网络科技有限公司 一种基于Flink SQL的数据处理方法、装置、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
章锡平: "hive批量执行sql脚本文件 跳过异常语句", pages 1, Retrieved from the Internet <URL:https://blog.csdn.net/qq_24393347/article/details/103068461> *

Similar Documents

Publication Publication Date Title
CN107193750B (zh) 一种脚本录制方法和装置
CN110164104B (zh) 基于故障分级的故障预警方法、装置及设备
CN107025224B (zh) 一种监控任务运行的方法和设备
CN109299052B (zh) 日志切割方法、装置、计算机设备及存储介质
CN107102929A (zh) 故障的检测方法及装置
CN110597695A (zh) 报警方法、装置、计算机设备和可读存储介质
CN110674149B (zh) 业务数据处理方法、装置、计算机设备和存储介质
CN111026794A (zh) 一种基于数据源的数据管理方法、装置、设备及介质
CN113590445A (zh) 数据处理任务运行的检测方法、计算机设备和存储介质
CN111953569B (zh) 状态信息上报方法、装置、设备及介质
CN111640012A (zh) 一种区块链交易追溯的方法及装置
WO2020224218A1 (zh) 基于hbase的数据写入方法、系统、装置及可读存储介质
CN110752972A (zh) 一种网卡状态监控方法、装置、设备及介质
CN106980555B (zh) 一种超时线程处理方法及装置
CN210376598U (zh) 基于单片机的故障检测系统
CN113238901B (zh) 多设备的自动化测试方法及装置、存储介质、计算机设备
CN112749164A (zh) 数据质量分析方法、装置及电子设备
CN110399258B (zh) 一种服务器系统的稳定性测试方法、系统及装置
CN112131082A (zh) 一种软件系统状态检测的实现方法、装置及存储介质
CN114553748B (zh) 一种产品巡检方法、装置及计算机程序
CN113192228B (zh) 集群自动化巡检方法及装置
CN112905479B (zh) 一种基于云平台报警事故根因最佳路径确定方法及系统
CN112027923B (zh) 一种油耗报警方法、装置及起重机
JP2870202B2 (ja) プロセッサ間相互監視方法及びその装置
CN113285817A (zh) 报警方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination