CN117421171B - 一种大数据任务监控方法、系统、装置及存储介质 - Google Patents

一种大数据任务监控方法、系统、装置及存储介质 Download PDF

Info

Publication number
CN117421171B
CN117421171B CN202311337049.1A CN202311337049A CN117421171B CN 117421171 B CN117421171 B CN 117421171B CN 202311337049 A CN202311337049 A CN 202311337049A CN 117421171 B CN117421171 B CN 117421171B
Authority
CN
China
Prior art keywords
data
determining
anomaly
preset
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311337049.1A
Other languages
English (en)
Other versions
CN117421171A (zh
Inventor
成文
邓琛
丁家文
邹京辰
赵子颖
黄毓铭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianyi Digital Life Technology Co Ltd
Original Assignee
Tianyi Digital Life Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianyi Digital Life Technology Co Ltd filed Critical Tianyi Digital Life Technology Co Ltd
Priority to CN202311337049.1A priority Critical patent/CN117421171B/zh
Publication of CN117421171A publication Critical patent/CN117421171A/zh
Application granted granted Critical
Publication of CN117421171B publication Critical patent/CN117421171B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0709Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a distributed system consisting of a plurality of standalone computer nodes, e.g. clusters, client-server systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Hardware Design (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Testing And Monitoring For Control Systems (AREA)

Abstract

本发明公开了一种大数据任务监控方法、系统、装置及存储介质,包括采集任务数据,对任务数据预处理后输入第一预设模型,得到任务数据的第一特征向量,根据第一特征向量和第二预设模型计算异常分数,根据异常分数确定异常阈值,根据异常分数和异常阈值确定异常数据,根据预设规则监控异常数据,在预设规则满足时执行相应的操作,根据任务执行的参数对第二预设模型进行更新,根据预设算法、第三预设模型以及第四预设模型确定目标异常数据及对应的上下文信息,将目标异常数据及对应的上下文信息输入预设的知识图谱和推理引擎,得到目标异常数据的故障诊断报告和对应的解决方案。本发明实施例实现自动化监控,提高监控效率,可广泛应用于大数据领域。

Description

一种大数据任务监控方法、系统、装置及存储介质
技术领域
本发明涉及大数据领域,尤其涉及一种大数据任务监控方法、系统、装置及存储介质。
背景技术
大数据时代下数据分析脚本的数量越来越多,任务的链路因此变得复杂冗长,一些历史的数据分析脚本没有制定开发标准,也没有接入调度系统进行统一调度,只是简单的依赖CRONTAB进行定时调度,各个任务之间的依赖仅靠简单的串行来实现,对于任务的运行情况难以进行统一的监控与管理分析。
现有的对任务监控的方案通常由运维人员或数据开发人员根据实际的需求不断迭代任务监控的对象,人工调整任务监控的参数,修改任务监控的代码,对任务监控服务进行更新,以保持对任务执行的数据采集、同步、跟踪和分析,从而保证任务监控服务在任务监控对象迭代后的正常运行;但这种方法依赖人工,任务监控效率低,对技术人员的负担大。
发明内容
有鉴于此,本发明实施例的目的是提供一种大数据任务监控方法、系统、装置及存储介质,可实现自动化监控,提高监控效率。
第一方面,本发明实施例提供了一种大数据任务监控方法,包括以下步骤:
采集任务数据,并对所述任务数据进行预处理,得到三维张量数据;其中,所述任务数据包括数据中台中各个集群的任务信息及对应的资源信息,所述三维张量数据包括执行时间时间序列数据、资源利用率时间序列数据和调度信息时间序列数据;
将所述三维张量数据输入训练好的第一预设模型,得到第一特征向量;其中,所述第一特征向量表征各所述任务数据的隐藏状态;
根据所述第一特征向量与训练好的第二预设模型确定异常分数,并根据所述异常分数确定异常阈值,将所述异常分数与所述异常阈值进行比较,确定异常数据;其中,所述异常数据表征所述异常分数大于所述异常阈值的第一特征向量;
根据预设规则对所述异常数据进行监控,若所述异常数据满足所述预设规则,执行所述预设规则对应的操作;
根据所述异常数据确定异常数据的特征向量,将所述异常数据输入训练好的第四预设模型得到异常数据的上下文信息特征向量,根据所述异常数据的特征向量与所述异常数据的上下文信息特征向量确定目标异常数据;
根据所述目标异常数据、预设图谱与推理引擎确定故障诊断报告和解决方案。
可选地,所述根据所述第一特征向量与训练好的第二预设模型确定异常分数,具体包括:
对所述第一特征向量进行标准化处理,得到第一标准数据;
将所述第一标准数据输入所述第二预设模型,并对所述第二预设模型进行遍历,得到第一路径数据;其中,所述第一路径数据表征所述第一标准数据在所述第二预设模型中的路径长度;
计算所述第一路径数据的均值,根据第一预设公式与预设参数确定第二路径数据,并根据所述均值、第二路径数据以及第二预设公式确定异常分数;其中,所述预设参数包括所述第二预设模型的叶子节点数。
可选地,所述根据所述异常分数确定异常阈值,具体包括:
计算所述异常分数的欧氏距离,并根据所述欧氏距离、预设数量以及最近邻算法确定各所述异常分数的第一均值;其中,所述第一均值为各所述异常分数和预设数量的近邻异常分数的欧氏距离均值;
将各所述异常分数的第一均值的均值作为异常阈值。
可选地,所述根据所述异常数据确定异常数据的特征向量,将所述异常数据输入训练好的第四预设模型得到异常数据的上下文信息特征向量,根据所述异常数据的特征向量与所述异常数据的上下文信息特征向量确定目标异常数据,具体包括:
对所述异常数据进行文本处理,得到第一文本集合;其中,所述第一文本集合包括若干个文本,每个所述文本包括若干个词组;
根据第一预设算法与所述第一文本集合确定第一向量,并将所述第一文本集合输入训练好的第三预设模型得到第二向量;其中,所述第一向量表征异常数据的向量,所述第二向量表征异常数据的上下文信息的向量;
将所述第一向量与所述第二向量进行叠加,得到第三向量,并根据所述异常数据与训练好的第四预设模型确定第四向量;其中,所述第三向量表征所述异常数据的特征向量,所述第四向量表征所述异常数据的上下文信息特征向量;
计算所述第三向量与所述第四向量的相似值,并根据所述相似值与预设阈值确定目标异常数据。
可选地,所述根据第一预设算法与所述第一文本集合确定第一向量,具体包括:
在所述第一文本集合中的每个文本中,确定每个词组在文本中的出现次数以及文本的总词数,根据每个词组在文本中的出现次数以及文本的总词数确定第一数组,所述第一数组表征每个所述词组在所述文本中的出现概率;
在所述第一文本集合中,确定第一文本集合中包含每个所述词组的文本数以及第一文本集合中文本总数,根据包含每个所述词组的文本数以及文本总数确定第二数组,所述第二数组表征每个所述词组关于所述第一文本集合的重要性;
将所述第一数组与所述第二数组的乘积作为第一向量。
可选地,所述根据所述目标异常数据、预设图谱与推理引擎确定故障诊断报告和解决方案,具体包括:
根据所述目标异常数据确定目标异常数据的特征向量与目标异常数据的上下文信息特征向量;
将所述目标异常数据的特征向量与所述目标异常数据的上下文信息特征向量输入推理引擎,得到第一标识符;其中,所述第一标识符表征与所述目标异常数据相关的知识点的标识符;
根据所述第一标识符与预设图谱确定第二标识符;其中,所述第二标识符表征与所述目标异常数据相关的知识点关联的原因节点的标识符;
根据所述第二标识符确定第一节点;其中,所述第一节点表征所述原因节点中的根本原因节点;
根据所述第一节点与所述预设图谱确定第一信息,并根据所述第一信息确定故障诊断报告和解决方案;其中,所述第一信息包括所述根本原因节点的描述信息与相应的解决方案。
可选地,所述方法还包括:
获取第一参数与第二参数;其中,所述第一参数表征历史监控数据的样本数量,所述第二参数表征所述第二预设模型的更新参数;
根据所述第一参数与所述第二参数对所述第二预设模型进行更新。
第二方面,本发明实施例提供了一种大数据任务监控系统,包括:
第一模块,用于采集任务数据,并对所述任务数据进行预处理,得到三维张量数据;其中,所述任务数据包括数据中台中各个集群的任务信息及对应的资源信息,所述三维张量数据包括执行时间时间序列数据、资源利用率时间序列数据和调度信息时间序列数据;
第二模块,用于将所述三维张量数据输入训练好的第一预设模型,得到第一特征向量;其中,所述第一特征向量表征各所述任务数据的隐藏状态;
第三模块,用于根据所述第一特征向量与训练好的第二预设模型确定异常分数,并根据所述异常分数确定异常阈值,将所述异常分数与所述异常阈值进行比较,确定异常数据;其中,所述异常数据表征所述异常分数大于所述异常阈值的第一特征向量;
第四模块,用于根据预设规则对所述异常数据进行监控,若所述异常数据满足所述预设规则,执行所述预设规则对应的操作;
第五模块,用于根据所述异常数据确定异常数据的特征向量,将所述异常数据输入训练好的第四预设模型得到异常数据的上下文信息特征向量,根据所述异常数据的特征向量与所述异常数据的上下文信息特征向量确定目标异常数据;
第六模块,用于根据所述目标异常数据、预设图谱与推理引擎确定故障诊断报告和解决方案。
第三方面,本发明实施例提供了一种大数据任务监控装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如上述方法实施例所述的方法。
第四方面,本发明实施例提供了一种计算机可读介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由处理器执行时用于执行如上述方法实施例所述的方法。
实施本发明实施例包括以下有益效果:本实施例首先采集任务数据,对任务数据进行预处理得到三维张量数据,将三维张量数据输入训练好的第一预设模型,得到任务数据的第一特征向量;然后,根据第一特征向量和训练好的第二预设模型计算异常分数,并根据异常分数确定异常阈值,根据异常分数和异常阈值划分异常数据和正常数据;然后,根据预设规则对划分后的异常数据实行监控,在异常数据满足预设规则时执行相应的操作,并获取任务执行的相关数据参数,根据参数对第二预设模型进行更新;然后,根据所述异常数据确定异常数据的特征向量,将所述异常数据输入训练好的第四预设模型得到异常数据的上下文信息特征向量,根据所述异常数据的特征向量与所述异常数据的上下文信息特征向量确定目标异常数据;然后,将目标异常数据输入预设的知识图谱和推理引擎,得到目标异常数据的故障诊断报告和对应的解决方案;通过对任务数据进行处理得到三维张量数据,并通过预设模型得到第一特征向量,提高异常数据的检测能力和精确度;计算异常分数与异常阈值确定异常数据,实现自动监测异常情况,降低技术人员工作负担;通过预设规则监控异常数据并在规则满足时执行相应操作,并通过监控的任务数据对模型进行更新,实现任务的自动监控,提高监控的灵活性,满足不同的监控需求场景;通过确定目标异常数据以及对应的上下文信息确定故障诊断报告和解决方案,能够帮助用户快速定位故障来源并提供解决方案,提高故障处理的效率和准确性。
附图说明
图1是本发明实施例提供的一种大数据任务监控方法的步骤流程示意图;
图2是本发明实施例提供的一种大数据任务监控方法中计算异常分数的步骤流程示意图;
图3是本发明实施例提供的一种大数据任务监控方法中确定异常阈值的步骤流程图示意图;
图4是本发明实施例提供的一种大数据任务监控方法中确定目标异常数据的步骤流程图示意图;
图5是本发明实施例提供的一种大数据任务监控方法中确定第一向量的步骤流程示意图;
图6是本发明实施例提供的一种大数据任务监控方法中进行模型更新的步骤流程示意图;
图7是本发明实施例提供的一种大数据任务监控方法中进行故障原因分析的步骤流程示意图;
图8是本发明实施例提供的一种具体实施例的步骤流程示意图;
图9是本发明实施例提供的一种具体实施例中LSTM模型的结构示意图;
图10是本发明实施例提供的一种具体实施例中孤立森林模型的结构示意图;
图11是本发明实施例提供的一种具体实施例中进行根因分析的步骤流程图;
图12是本发明实施例提供的一种大数据任务监控系统的结构框图;
图13是本发明实施例提供的一种大数据任务监控装置的结构框图。
具体实施方式
下面结合附图和具体实施例对本发明做进一步的详细说明。对于以下实施例中的步骤编号,其仅为了便于阐述说明而设置,对步骤之间的顺序不做任何限定,实施例中的各步骤的执行顺序均可根据本领域技术人员的理解来进行适应性调整。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本发明实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本发明实施例所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本发明实施例中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。
对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。
RNN(Recurrent Neural Network,循环神经网络):RNN是一种神经网络结构,特别适用于处理序列数据。与传统的前馈神经网络不同,RNN具有反馈连接,允许信息在网络中传递并保持记忆状态。这使得RNN在处理时序数据(例如自然语言、时间序列等)时表现得更加出色。
LSTM(Long Short-Term Memory,长短期记忆网络):LSTM是一种特殊类型的RNN,设计用于解决传统RNN在长序列中遇到的梯度消失或梯度爆炸问题。LSTM通过使用门控机制,可以选择性地记住或遗忘之前的信息,有效地解决了长期依赖问题,使得其在处理长序列数据时更加有效。
NLP(Natural Language Processing,长短期记忆网络)):NLP是一门计算机科学与人工智能的交叉学科,旨在使计算机能够理解、处理和生成自然语言文本。NLP包括多种任务,如文本分类、命名实体识别、机器翻译、情感分析等,使计算机能够以类似人类的方式与文本进行交互。
如图1所示,本发明实施例提供了一种大数据任务监控方法,其包括的步骤如下所示。
S100、采集任务数据,并对任务数据进行预处理,得到三维张量数据;其中,任务数据包括数据中台中各个集群的任务信息及对应的资源信息,三维张量数据包括执行时间时间序列数据、资源利用率时间序列数据和调度信息时间序列数据。
具体地,本实施例通过统一接口获取数据中台的集群任务信息与资源信息,以获取数据中台中任务的实时执行状态、资源利用率等数据;将获取的任务信息和资源按照时间上的先后顺序进行排列,得到多个时间序列数据,用以反映集群任务和资源的动态变化关系;示例性地,经过处理后的时间序列数据包括有,执行时间时间序列数据:etdata=[et1,et2,et3,…,etN],资源利用率时间序列数据:rtdata=[rt1,rt2,rt3,…,rtN],调度信息时间序列数据:stdata=[st1,st2,st3,…,stN],根据多个时间序列数据得到一个集合T1=[etdata,rtdata,stdata];获取的任务样本数量为batchsize=N,时间序列长度为sequencelength=L,获取的任务调度信息的特征数量为inputdim=1+1+K,通过循环赋值的方式将时间序列的集合转换成符合后续模型的输入的三维张量数据
S200、将三维张量数据输入训练好的第一预设模型,得到第一特征向量;其中,第一特征向量表征各任务数据的隐藏状态。
具体地,第一预设模型为长短期记忆网络模型LSTM,在本实施例中,LSTM模型设置有3层,每一层为一个LSTM单元,在每个LSTM单元中设置有输入门、遗忘门、记忆单元以及输出门;其中,输入门控制模型输入信息的流入,遗忘门控制输入过去记忆的遗忘,记忆单元负责存储和更新记忆状态,输出门决定输出的记忆;对于每层LSTM单元,输出的是隐藏状态序列,并作为下一层LSTM单元的输入。
每层LSTM单元对输入数据xt进行遗忘操作、记忆操作以及输出操作:
遗忘操作包括遗忘门通过遗忘门sigmoid激活函数控制上一时刻记忆状态的遗忘程度,具体遗忘门sigmoid激活函数为:
ft=sigmoid(Wf*xt+Uf*ht-1+bf)
其中,ft为遗忘程度,Wf和Uf分别为遗忘门sigmoid激活函数的权重矩阵,bf为遗忘门sigmoid激活函数的偏置函数,ht-1为上一时刻的隐藏状态序列,xt为输入数据。
记忆操作包括输入门通过输入门sigmoid激活函数控制输入的重要程度和记忆单元根据输入门和遗忘门的值更新记忆单元状态;其中,输入门sigmoid激活函数具体为:
it=sigmoid(Wi*xt+Ui*ht-1+bi)
其中,it为重要程度,Wi和Ui分别为输入门sigmoid激活函数的权重矩阵,bi为输入门sigmoid激活函数的偏置函数,ht-1为上一时刻的隐藏状态序列,xt为输入数据。
记忆单元根据输入门和遗忘门的值更新记忆单元状态中的具体更新公式为:
ct=ft*ct-1+it*tanh(Wc*xt+Uc*ht-1+bc)
其中,ct为更新的记忆单元状态,ct-1为上一时刻的记忆单元状态,Wc和Uc分别为记忆单元tanh激活函数的权重矩阵,bc为记忆单元tanh激活函数的偏置函数,ht-1为上一时刻的隐藏状态序列,xt为输入数据,ft为遗忘门的值,it为输入门的值。
输出操作包括输出门通过输出门sigmoid激活函数控制记忆单元状态的输出程度和根据输出门的值和新的记忆单元状态计算当前时间的隐藏状态;其中输出门sigmoid激活函数具体为:
ot=sigmoid(Wo*xt+Uo*ht-1+bo)
其中,ot为输出程度,Wo和Uo分别为输出门sigmoid激活函数的权重矩阵,bo为输出门sigmoid激活函数的偏置函数,ht-1为上一时刻的隐藏状态序列,xt为输入数据。
根据输出门的值和新的记忆单元状态计算当前时间的隐藏状态中的计算公式为:
ht=ot*tanh(ct)
其中,ht为当前时间的隐藏状态,ot为输出门的值,ct为更新的记忆单元状态。
具体地,LSTM单元中的若干个权重矩阵和若干个偏置函数的具体值是在LSTM模型的训练过程中通过反向传播和优化算法学习得到;在本实施例中,反向传播和优化算法设置为随机梯度下降,但不限于随机梯度下降,可根据实际需要具体设置。
S300、根据所述第一特征向量与训练好的第二预设模型确定异常分数,并根据所述异常分数确定异常阈值,将所述异常分数与所述异常阈值进行比较,确定异常数据;其中,所述异常数据表征所述异常分数大于所述异常阈值的第一特征向量。
具体地,在本实施例中,通过孤立森林模型对LSTM模型的输出进行异常检测,发现其中潜在的异常状况;将LSTM模型的输出数据输入到孤立森林模型,然后计算输入数据的异常分数和异常阈值,将输入数据中的正常数据和异常数据区分开来,然后根据异常数据对任务执行监控。
S400、根据预设规则对异常数据进行监控,若异常数据满足预设规则,执行预设规则对应的操作。
具体地,通过一套预设的规则和策略,基于任务的监控指标和特征,对异常数据进行实时的规则匹配和异常检测;在本实施例中,规则定义:定义异常分数范围和异常分数阈值的范围,异常分数范围为s(x,a)∈[smin,smax],异常分数阈值为T∈[Tmin,Tmax];定义规则条件和监控操作,规则条件为s(x,a)>T,监控操作为告警通知和记录日志;实现规则引擎包括创建规则条件字典C={c1,c2,c3,…,cn},其中,c1=s(x,a)>T,创建监控操作字典A={a1,a2,a3,…an},其中,a1=发送告警邮件;在创建规则条件字典和监控操作字典后,创建一个自定义的规则将规则条件字典和监控操作字典关联起来,生成一个完整的规则R(cn,an);然后持续监控指标数据,判断指标数据是否满足规则R(cn,an),若满足规则就执行规则内的监控操作an
S500、根据异常数据确定异常数据的特征向量,将异常数据输入训练好的第四预设模型得到异常数据的上下文信息特征向量,根据异常数据的特征向量与异常数据的上下文信息特征向量确定目标异常数据。
具体地,在步骤S300确定异常数据后,利用自然语言处理技术对异常数据进行处理,分析异常数据的上下文信息,确定异常数据中与上下文信息关联紧密的数据,根据这部分数据为故障诊断和解决方案提供更为准确的背景信息。
S600、根据目标异常数据、预设图谱与推理引擎确定故障诊断报告和解决方案。
具体地,将与上下文信息关联紧密的异常数据输入预设的知识图谱和推理引擎中,基于知识图谱对上下文信息和异常数据进行推理推断,找出知识图谱中与异常数据相关的节点,在根据推理引擎对相关节点和异常数据进行后向推理,推导出异常数据的根本原因和故障诊断结果,从而根据根本原因和故障诊断结果给出故障诊断报告和解决方案,给技术人员定位故障来源和解决故障提供指导。
可选地,如图2所示,根据所述第一特征向量与训练好的第二预设模型确定异常分数,具体包括:
S310、对第一特征向量进行标准化处理,得到第一标准数据。
具体地,通过LSTM模型对任务数据的三维张量数据进行处理,输出隐藏状态作为任务数据的特征向量ht=[h1,h2,h3,…,hn],其中,h1,h2,h3,…,hn分别为各集群任务在当前时间步的隐藏状态,然后通过以下公式对特征向量进行标准化,以使各特征向量具有相似的尺度:
其中,meanh为每个特征的均值,std(h)为每个特征的标准差;
通过标准化处理后,得到的标准数据为hst=[z,z2,z3,z4,…,zn]。
S320、将第一标准数据输入第二预设模型,并对第二预设模型进行遍历,得到第一路径数据;其中,第一路径数据表征第一标准数据在第二预设模型中的路径长度。
具体地,本发明实施例中的第二预设模型设置为孤立森林模型,设定孤立森林中决策树为Ttree={T1,T2,…Tn},特征子集为Fsub={F1,F2,…Fi},对于每棵孤立树T1,通过训练样本数据对孤立森林模型进行训练;模型训练完成后,将标准数据输入孤立森林模型中,通过遍历孤立森林结构,获得标准数据在每棵孤立树上的路径长度h(x),作为第一路径数据。
S330、计算第一路径数据的均值,根据第一预设公式与预设参数确定第二路径数据,并根据均值、第二路径数据以及第二预设公式确定异常分数;其中,预设参数包括第二预设模型的叶子节点数。
具体地,在计算得到路径长度h(x)后,计算所有路径长度h(x)的平均值,得到E(h(x));E(h(x))表征标准数据在孤立森林中的平均路径长度;然后获取孤立森林中树的高度α,即叶子节点数;将叶子节点数α和欧拉常数γ代入第一预设公式中得到第二路径数据,将第一路径数据的均值和第二路径数据代入第二预设公式,得到异常分数;
第一预设公式为:
H(α)=ln(α)+γ
其中,c(α)为第二路径数据,α为叶子节点数,γ为欧拉常数;
第二预设公式为:
其中,s(x,α)为异常分数,c(α)为第二路径数据,E(h(x))为第一路径数据的均值。
可选地,如图3所示,所述根据所述异常分数确定异常阈值,具体包括:
S340、计算异常分数的欧氏距离,并根据欧氏距离、预设数量以及最近邻算法确定各异常分数的第一均值;其中,第一均值为各异常分数和预设数量的近邻异常分数的欧氏距离均值。
具体地,在计算得到异常分数后,需要确定一个阈值以区分任务数据中的异常数据和正常数据,本实施例通过K最近邻算法来自动确定异常阈值;将步骤S330计算得到的异常分数作为一个集合S,集合内的任意一个任务数据的异常分数表示为Si∈S,其中i=1,2,3,…,n;对于每个异常分数,计算其与其他异常分数的欧氏距离,具体的公式为:
其中,m为异常分数的维度,即每个异常分数的特征数量,k为最近邻数,L(si,sj)为异常分数si与sj的欧氏距离;
在通过算法找到异常分数Si的K个距离最近的异常分数以及各自其对应的欧式距离后,计算异常分数Si的K个距离最近的异常分数以及各自其对应的欧式距离的均值,具体的计算公式为:
其中,nj为第j个最近邻的异常分数,Di为K个异常分数的欧氏距离均值。
S350、将各异常分数的第一均值的均值作为异常阈值。
具体地,对异常分数集合中的每个异常分数都进行步骤S340中的计算,得到若干个Di,然后,将若干个Di求和并求均值,作为异常阈值。
在确定异常阈值后,将异常分数集中的各异常分数依次与异常阈值进行比较,将大于异常阈值的异常分数对应的任务数据的特征向量作为异常数据。
可选地,如图4所示,根据异常数据确定异常数据的特征向量,将异常数据输入训练好的第四预设模型得到异常数据的上下文信息特征向量,根据异常数据的特征向量与异常数据的上下文信息特征向量确定目标异常数据,具体包括:
S510、对异常数据进行文本处理,得到第一文本集合;其中,第一文本集合包括若干个文本,每个文本包括若干个词组。
具体地,通过自然语言处理(NLP)技术对确定的异常数据进行文本处理,包括分词、词性标注、实体识别等,并对处理后的数据提取关键信息和语义内容;对确定的异常数据进行文本处理后得到若干个文本数据,分别对应着异常数据,将若干个文本数据作为一个集合得到第一文本集合。
S520、根据第一预设算法与第一文本集合确定第一向量,并将第一文本集合输入训练好的第三预设模型得到第二向量;其中,第一向量表征异常数据的向量,第二向量表征异常数据的上下文信息的向量。
具体地,本实施例中,通过TF-IDF算法确定第一文本集合中各文本的第一向量;TF-IDF算法是一种用于信息检索和数据挖掘的加权技术;将文本数据中词组的出现概率和重要性的乘积作为TF-IDF值,并将该值作为文本的第一向量;同时根据每个词的TF-IDF值进行排序,根据排序结果确定关键词。
然后,将第一文本集合输入Word2Vec模型中,得到第二向量,用以表征文本中各词组之间的语义关系;构建一个词共现矩阵,应用随机梯度下降等优化算法来最小化目标函数,从而得到第二向量。
S530、将第一向量与所述第二向量进行叠加,得到第三向量,并根据异常数据与训练好的第四预设模型确定第四向量;其中,第三向量表征异常数据的特征向量,第四向量表征异常数据的上下文信息特征向量。
具体地,通过步骤S510-520得到第一向量和第二向量后,将第一向量和第二向量进行拼接或特征融合,将异常数据和上下文信息的特征结合到一起,得到一个完整的特征向量Xfeatures=[Xabnormal,Xcontext],其中,Xabnormal为异常数据的向量,Xcontext为异常数据上下文信息的向量;然后将异常数据输入到建立的上下文关系LSTM模型中进行预测,得到异常数据的上下文特征向量Xbehavior
S540、计算第三向量与第四向量的相似值,并根据相似值与预设阈值确定目标异常数据。
具体地,通过步骤S530得到第三向量和第四向量后,对比第三向量和第四向量的关联程度来确定目标异常数据;本实施例通过计算第三向量和第四向量的余弦相似度来度量第三向量和第四向量的相似性,具体的计算公式为:
其中,similarity为余弦相似度,Xbehavior为异常数据的上下文特征向量,Xcontext为异常数据上下文信息的向量,‖Xbehavior‖为异常数据的上下文特征向量的模长,‖Xcontext‖为异常数据上下文信息的向量的模长;根据计算得到的相似度值进行排序,选择相似度较高的异常数据,作为目标异常数据。
可选地,如图5所示,根据第一预设算法与第一文本集合确定第一向量,具体包括:
S521、在第一文本集合中的每个文本中,确定每个词组在文本中的出现次数以及文本的总词数,根据每个词组在文本中的出现次数以及文本的总词数确定第一数组,第一数组表征每个词组在文本中的出现概率。
具体地,本实施例中采用TF-IDF算法确定第一向量,通过计算各文本的TF-IDF值作为第一向量;TF-IDF值为各文本数据中词组的出现概率和词组的重要性的乘积,文本集合中的文本数量不止一个,在每个文本中,包含的词组也不知一个,因此文本数据中词组的出现概率是一个数组;同理,每个所述词组关于所述第一文本集合的重要性也是一个数组;其中,文本数据中词组的出现概率通过以下公式计算:
S522、在第一文本集合中,确定第一文本集合中包含每个词组的文本数以及第一文本集合中文本总数,根据包含每个词组的文本数以及文本总数确定第二数组,第二数组表征每个词组关于第一文本集合的重要性。
具体地,通过以下公式计算每个词组关于第一文本集合的重要性:
S523、计算第一数组与第二数组的乘积,作为第一向量。
具体地,计算TF(t,d)与IDF(t)的乘积得到TF-IDF值,作为第一向量,具体计算公式为:
TF-IDF(t,d)=TF(t,d)×IDF(t)
可选地,如图6所示,一种大数据任务监控方法还包括:
S700、获取第一参数与第二参数;其中,第一参数表征历史监控数据的样本数量,第二参数表征第二预设模型的更新参数。
具体地,本实施例通过自适应算法,自动调整孤立森林模型中决策树的数量;采集任务执行状态和性能指标的变化情况作为参数,根据自适应更新公式确定决策树的数量。
S800、根据第一参数与第二参数对第二预设模型进行更新。
具体地,自适应更新公式为:
Ttree=round(β*|X|)
其中,Ttree为决策树数量,|X|为历史监控数据的样本数量,β为树的数量更新参数;决策树的数量可以根据历史监控数据的样本数量进行动态调整,通过参数β来控制更新速度。
可选地,如图7所示,根据所述目标异常数据、预设图谱与推理引擎确定故障诊断报告和解决方案,具体包括:
S610、根据目标异常数据确定目标异常数据的特征向量与目标异常数据的上下文信息特征向量。
具体地,在本实施例中,将步骤S540得到的目标异常数据通过步骤S510-S530得到目标异常数据的特征向量与目标异常数据的上下文信息特征向量,作为后续知识图谱的参考数据和推理引擎的输入数据。
S620、将目标异常数据的特征向量与目标异常数据的上下文信息特征向量输入推理引擎,得到第一标识符;其中,所述第一标识符表征与目标异常数据相关的知识点的标识符。
具体地,将得到的目标异常数据的特征向量与目标异常数据的上下文信息特征向量输入推理引擎进行推理推断,得到目标异常数据相关的知识点,并获取知识点的标识符,作为知识图谱的查询依据。
S630、根据第一标识符与预设图谱确定第二标识符;其中,第二标识符表征与目标异常数据相关的知识点关联的原因节点的标识符。
具体地,根据步骤S620得到的知识点的标识符在知识图谱中查找与该知识点的标识符直接或间接关联的节点,并获取一系列可能的根本原因节点的标识符,用于后续确定根本原因的依据。
S640、根据第二标识符确定第一节点;其中,第一节点表征原因节点中的根本原因节点。
具体地,将得到的一系列根本原因节点的标识符进行进一步分析和权重计算,找出其中最可能的根本原因节点,用以在知识图谱中获取相应节点的详细信息。
S650、根据第一节点与预设图谱确定第一信息,并根据第一信息确定故障诊断报告和解决方案;其中,第一信息包括根本原因节点的描述信息与相应的解决方案。
具体地,根据得到的根本原因节点查询知识图谱,确定根本原因节点在知识图谱中的位置,获取该节点的详细信息,包括对该根本原因的描述、具体的解决方案等。
在一个具体的实施例中,如图8所示,首先通过统一接口实时获取数据中台的中各个集群的任务信息和资源信息;然后,对各个集群的任务信息和资源信息进行处理,得到若干个时间序列数据,例如:执行时间序列数据:etdata=[12,15,14,16,13],资源利用率时间序列数据:rtdata=[0.8,0.75,0.78,0.82,0.77],调度信息时间序列数据:stdata=[[0,1,1],[1,0,1],[1,1,0],[0,1,1],[1,0,1]],得到T1=[etdata,rtdata,stdata];然后对时间序列数据进行循环赋值得到三维张量数据,例如,获取的样本数量为N,得到的时间序列的长度为L,任务调度信息特征数据为K个,通过循环幅值得到的三维张量数据为T1tensor∈R(N×L×K);然后构建如图9所示的LSTM模型并进行训练测试,LSTM模型包括输入门、输出门、记忆更新模块和遗忘门,其中,LSTM模型的输入包括上一时刻的隐藏状态、输入的时间序列数据以及上一时刻的记忆状态,各σ分别为遗忘门、输入门以及输出门中的sigmoid激活函数中的参数,参数包括权重矩阵和偏置向量,两个tanh模块分别为记忆更新模块中的tanh激活函数和计算当前时刻隐藏状态中的tanh激活函数;然后,将三维张量数据输入训练好的LSTM模型进行处理,得到任务数据的特征向量;然后构建如图10所示的孤立森林模型并进行训练测试,其中,ABCDE为孤立森林模型中的决策树的根节点,A、B、C、D、E分别为决策树的叶子节点,ABCDE-BCDE-DE-D为决策树中的一条路径,F1>S1为决策树的一只决策枝;将得到的特征向量输入训练好的孤立森林模型计算各特征向量的异常分数,根据异常分数得到确定异常阈值,根据异常分数与异常阈值进行比较,将异常分数大于异常阈值的数据作为异常数据,否则作为正常数据;对系统设定一个规则引擎,其中规则包括资源利用率超过阈值,任务运行时间不在设定范围,数据源、数据输出大小在合理区间外,孤立森林模型识别处异常任务等;输入异常数据进行实时的规则匹配和异常检测,在规则条件满足的时候执行相应操作或触发警报,并根据任务执行状态和预设性能指标的变化情况自动调整孤立森林模型的参数,实现监控的自动调整和优化;然后,利用NLP技术对异常数据进行文本处理和文本特征提取,将得到异常数据的文本数据转换成数值化的文本特征,再通过词TF-IDF算法和嵌入Word2Vec模型对异常数据的文本数据进行处理,将文本数据中的单词映射到高维向量空间,捕捉单词之间的语义和语法关系,从而对异常数据进行分类或聚类,得到不同的异常类型或异常程度,输出异常数据;根据收集、整理和结构化领域相关的知识和信息构建各任务集群的知识图谱,基于知识图谱定义推理规则和逻辑,构建推理引擎,然后,将异常数据输入推理引擎进行推理分析,进行如图11所示的步骤流程,通过上下文分析模块将异常数据转换成异常数据的特征向量与异常数据的上下文信息特征向量,将异常数据的特征向量与异常数据的上下文信息特征向量输入推理引擎得到知识点以及对应的标识符,根据得到的标识符在知识图谱中寻找与标识符相关联的原因节点与对应的节点标识符;然后,对相关联的原因节点进一步分析和计算,从中找出最可能的根本原因节点;再根据这个最可能的根本原因节点在知识图谱中获取对应的背景信息,从而定位故障来源和根本原因,生成诊断报告和解决方案。
实施本发明实施例包括以下有益效果:本实施例首先采集任务数据,对任务数据进行预处理得到三维张量数据,将三维张量数据输入第一预设模型,得到任务数据的第一特征向量;然后,根据第一特征向量和第二预设模型计算异常分数,并根据异常分数确定异常阈值,根据异常分数和异常阈值划分异常数据和正常数据;然后,根据预设规则对划分后的异常数据实行监控,在异常数据满足预设规则时执行相应的操作,并获取任务执行的相关数据参数,根据参数对第二预设模型进行更新;然后,根据预设算法、第三预设模型以及第四预设模型确定异常数据中的目标异常数据以及其对应的上下文信息;然后,将目标异常数据以及其对应的上下文信息输入预设的知识图谱和推理引擎,得到目标异常数据的故障诊断报告和对应的解决方案;通过对任务数据进行处理得到三维张量数据,并通过预设模型得到第一特征向量,提高异常数据的检测能力和精确度;计算异常分数与异常阈值确定异常数据,实现自动监测异常情况,降低技术人员工作负担;通过预设规则监控异常数据并在规则满足时执行相应操作,并通过监控的任务数据对模型进行更新,实现任务的自动监控,提高监控的灵活性,满足不同的监控需求场景;通过确定目标异常数据以及对应的上下文信息确定故障诊断报告和解决方案,能够帮助用户快速定位故障来源并提供解决方案,提高故障处理的效率和准确性。
如图12所示,本发明实施例还提供了一种大数据任务监控系统,包括:
第一模块,用于采集任务数据,并对任务数据进行预处理,得到三维张量数据;其中,任务数据包括数据中台中各个集群的任务信息及对应的资源信息,三维张量数据包括执行时间时间序列数据、资源利用率时间序列数据和调度信息时间序列数据;
第二模块,用于将三维张量数据输入第一预设模型,得到第一特征向量;其中,第一特征向量表征各任务数据的隐藏状态;
第三模块,用于根据第一特征向量与第二预设模型确定异常分数,并根据异常分数确定异常阈值,将异常分数与异常阈值进行比较,确定异常数据;其中,异常数据表征异常分数大于异常阈值的任务数据;
第四模块,用于根据预设规则对异常数据进行监控,若异常数据满足预设规则,执行预设规则对应的操作;
第五模块,用于根据异常数据确定异常数据的特征向量,将异常数据输入训练好的第四预设模型得到异常数据的上下文信息特征向量,根据异常数据的特征向量与异常数据的上下文信息特征向量确定目标异常数据;
第六模块,用于将目标异常数据以及对应的上下文信息输入预设图谱与推理引擎,得到故障诊断报告和解决方案。
可见,上述方法实施例中的内容均适用于本系统实施例中,本系统实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
如图13所示,本发明实施例还提供了一种大数据任务监控装置,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当至少一个程序被至少一个处理器执行,使得至少一个处理器实现上述方法实施例的大数据任务监控方法步骤。
其中,存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的远程存储器,这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
可见,上述方法实施例中的内容均适用于本装置实施例中,本装置实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
此外,本申请实施例还公开了一种计算机程序产品或计算机程序,计算机程序产品或计算机程序存储在计算机可读存介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行上述的方法。同样地,上述方法实施例中的内容均适用于本存储介质实施例中,本存储介质实施例所具体实现的功能与上述方法实施例相同,并且达到的有益效果与上述方法实施例所达到的有益效果也相同。
本发明实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有处理器可执行的程序,所述处理器可执行的程序在被处理器执行时用于实现上述的方法。
可以理解的是,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
以上是对本发明的较佳实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做作出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种大数据任务监控方法,其特征在于,包括以下步骤:
采集任务数据,并按时间顺序对所述任务数据进行排序,得到多个时间序列数据,根据多个所述时间序列数据得到时间序列集合,通过循环赋值将所述时间序列集合转换为三维张量数据;其中,所述任务数据包括数据中台中各个集群的任务信息及对应的资源信息,所述三维张量数据包括执行时间时间序列数据、资源利用率时间序列数据和调度信息时间序列数据;
将所述三维张量数据输入训练好的第一预设模型,得到第一特征向量;其中,所述第一特征向量表征各所述任务数据的隐藏状态;
根据所述第一特征向量与训练好的第二预设模型确定异常分数,并根据所述异常分数确定异常阈值,将所述异常分数与所述异常阈值进行比较,确定异常数据;其中,所述异常数据表征所述异常分数大于所述异常阈值的第一特征向量;
根据预设规则对所述异常数据进行监控,若所述异常数据满足所述预设规则,执行所述预设规则对应的操作;
根据所述异常数据确定异常数据的特征向量,将所述异常数据输入训练好的第四预设模型得到异常数据的上下文信息特征向量,根据所述异常数据的特征向量与所述异常数据的上下文信息特征向量确定目标异常数据;
根据所述目标异常数据、预设图谱与推理引擎确定故障诊断报告和解决方案。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一特征向量与训练好的第二预设模型确定异常分数,具体包括:
对所述第一特征向量进行标准化处理,得到第一标准数据;
将所述第一标准数据输入所述第二预设模型,并对所述第二预设模型进行遍历,得到第一路径数据;其中,所述第一路径数据表征所述第一标准数据在所述第二预设模型中的路径长度;
计算所述第一路径数据的均值,根据第一预设公式与预设参数确定第二路径数据,并根据所述均值、第二路径数据以及第二预设公式确定异常分数;其中,所述预设参数包括所述第二预设模型的叶子节点数。
3.根据权利要求1所述的方法,其特征在于,所述根据所述异常分数确定异常阈值,具体包括:
计算所述异常分数的欧氏距离,并根据所述欧氏距离、预设数量以及最近邻算法确定各所述异常分数的第一均值;其中,所述第一均值为各所述异常分数和预设数量的近邻异常分数的欧氏距离均值;
将各所述异常分数的第一均值的均值作为异常阈值。
4.根据权利要求1所述的方法,其特征在于,所述根据所述异常数据确定异常数据的特征向量,将所述异常数据输入训练好的第四预设模型得到异常数据的上下文信息特征向量,根据所述异常数据的特征向量与所述异常数据的上下文信息特征向量确定目标异常数据,具体包括:
对所述异常数据进行文本处理,得到第一文本集合;其中,所述第一文本集合包括若干个文本,每个所述文本包括若干个词组;
根据第一预设算法与所述第一文本集合确定第一向量,并将所述第一文本集合输入训练好的第三预设模型得到第二向量;其中,所述第一向量表征异常数据的向量,所述第二向量表征异常数据的上下文信息的向量;
将所述第一向量与所述第二向量进行叠加,得到第三向量,并根据所述异常数据与训练好的第四预设模型确定第四向量;其中,所述第三向量表征所述异常数据的特征向量,所述第四向量表征所述异常数据的上下文信息特征向量;
计算所述第三向量与所述第四向量的相似值,并根据所述相似值与预设阈值确定目标异常数据。
5.根据权利要求4所述的方法,其特征在于,所述根据第一预设算法与所述第一文本集合确定第一向量,具体包括:
在所述第一文本集合中的每个文本中,确定每个词组在文本中的出现次数以及文本的总词数,根据每个词组在文本中的出现次数以及文本的总词数确定第一数组,所述第一数组表征每个所述词组在所述文本中的出现概率;
在所述第一文本集合中,确定第一文本集合中包含每个所述词组的文本数以及第一文本集合中文本总数,根据包含每个所述词组的文本数以及文本总数确定第二数组,所述第二数组表征每个所述词组关于所述第一文本集合的重要性;
计算所述第一数组与所述第二数组的乘积作为第一向量。
6.根据权利要求1所述的方法,其特征在于,所述根据所述目标异常数据、预设图谱与推理引擎确定故障诊断报告和解决方案,具体包括:
根据所述目标异常数据确定目标异常数据的特征向量与目标异常数据的上下文信息特征向量;
将所述目标异常数据的特征向量与所述目标异常数据的上下文信息特征向量输入推理引擎,得到第一标识符;其中,所述第一标识符表征与所述目标异常数据相关的知识点的标识符;
根据所述第一标识符与预设图谱确定第二标识符;其中,所述第二标识符表征与所述目标异常数据相关的知识点关联的原因节点的标识符;
根据所述第二标识符确定第一节点;其中,所述第一节点表征所述原因节点中的根本原因节点;
根据所述第一节点与所述预设图谱确定第一信息,并根据所述第一信息确定故障诊断报告和解决方案;其中,所述第一信息包括所述根本原因节点的描述信息与相应的解决方案。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第一参数与第二参数;其中,所述第一参数表征历史监控数据的样本数量,所述第二参数表征所述第二预设模型的更新参数;
根据所述第一参数与所述第二参数对所述第二预设模型进行更新。
8.一种大数据任务监控系统,其特征在于,包括:
第一模块,用于采集任务数据,并按时间顺序对所述任务数据进行排序,得到多个时间序列数据,根据多个所述时间序列数据得到时间序列集合,通过循环赋值将所述时间序列集合转换为三维张量数据;其中,所述任务数据包括数据中台中各个集群的任务信息及对应的资源信息,所述三维张量数据包括执行时间时间序列数据、资源利用率时间序列数据和调度信息时间序列数据;
第二模块,用于将所述三维张量数据输入训练好的第一预设模型,得到第一特征向量;其中,所述第一特征向量表征各所述任务数据的隐藏状态;
第三模块,用于根据所述第一特征向量与训练好的第二预设模型确定异常分数,并根据所述异常分数确定异常阈值,将所述异常分数与所述异常阈值进行比较,确定异常数据;其中,所述异常数据表征所述异常分数大于所述异常阈值的第一特征向量;
第四模块,用于根据预设规则对所述异常数据进行监控,若所述异常数据满足所述预设规则,执行所述预设规则对应的操作;
第五模块,用于根据所述异常数据确定异常数据的特征向量,将所述异常数据输入训练好的第四预设模型得到异常数据的上下文信息特征向量,根据所述异常数据的特征向量与所述异常数据的上下文信息特征向量确定目标异常数据;
第六模块,用于根据所述目标异常数据、预设图谱与推理引擎确定故障诊断报告和解决方案。
9.一种大数据任务监控装置,其特征在于,包括:
至少一个处理器;
至少一个存储器,用于存储至少一个程序;
当所述至少一个程序被所述至少一个处理器执行,使得所述至少一个处理器实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由处理器执行时用于执行如权利要求1-7任一项所述的方法。
CN202311337049.1A 2023-10-16 2023-10-16 一种大数据任务监控方法、系统、装置及存储介质 Active CN117421171B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311337049.1A CN117421171B (zh) 2023-10-16 2023-10-16 一种大数据任务监控方法、系统、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311337049.1A CN117421171B (zh) 2023-10-16 2023-10-16 一种大数据任务监控方法、系统、装置及存储介质

Publications (2)

Publication Number Publication Date
CN117421171A CN117421171A (zh) 2024-01-19
CN117421171B true CN117421171B (zh) 2024-08-13

Family

ID=89525747

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311337049.1A Active CN117421171B (zh) 2023-10-16 2023-10-16 一种大数据任务监控方法、系统、装置及存储介质

Country Status (1)

Country Link
CN (1) CN117421171B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117827523B (zh) * 2024-03-05 2024-05-14 北京壁仞科技开发有限公司 一种模型的异常处理方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579875A (zh) * 2022-03-03 2022-06-03 中国科学院大学 基于知识图谱的设备故障诊断与维修知识推荐系统
CN115545169A (zh) * 2022-11-02 2022-12-30 上海技群信息科技有限公司 基于gru-ae网络的多视角业务流程异常检测方法、系统以及设备
CN116611449A (zh) * 2023-06-01 2023-08-18 中国工商银行股份有限公司 异常日志解析方法、装置、设备及介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113179250B (zh) * 2021-03-26 2022-05-17 北京六方云信息技术有限公司 web未知威胁检测方法及系统
CN116776273B (zh) * 2023-08-23 2023-11-03 烟台云朵软件有限公司 物联网设备的运行状态监测方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114579875A (zh) * 2022-03-03 2022-06-03 中国科学院大学 基于知识图谱的设备故障诊断与维修知识推荐系统
CN115545169A (zh) * 2022-11-02 2022-12-30 上海技群信息科技有限公司 基于gru-ae网络的多视角业务流程异常检测方法、系统以及设备
CN116611449A (zh) * 2023-06-01 2023-08-18 中国工商银行股份有限公司 异常日志解析方法、装置、设备及介质

Also Published As

Publication number Publication date
CN117421171A (zh) 2024-01-19

Similar Documents

Publication Publication Date Title
CN108717408B (zh) 一种敏感词实时监控方法、电子设备、存储介质及系统
US11481620B2 (en) Intelligent retraining of deep learning models utilizing hyperparameter sets
CN109142946A (zh) 基于蚁群算法优化随机森林的变压器故障检测方法
CN117421171B (zh) 一种大数据任务监控方法、系统、装置及存储介质
CN110674840A (zh) 一种基于贝叶斯网络的多方证据关联模型构建方法和证据链提取方法及装置
CN111738520A (zh) 一种融合孤立森林与长短期记忆网络的系统负载预测方法
US20190228297A1 (en) Artificial Intelligence Modelling Engine
CN112508177A (zh) 一种网络结构搜索方法、装置、电子设备及存储介质
CN114880991B (zh) 知识图谱问答问句实体链接方法、装置、设备及介质
CN118013978A (zh) 基于自然语言处理的调查问卷反馈数据挖掘方法及系统
US20170293608A1 (en) Unusual score generators for a neuro-linguistic behavioral recognition system
CN117666546A (zh) 一种分布式控制系统故障诊断方法及装置
CN112579755A (zh) 基于人工智能和云计算的信息应答方法及信息互动平台
CN116866152A (zh) 风险操作管控方法、装置、电子设备及存储介质
CN116932355A (zh) 一种基于大数据的信息处理方法及系统
CN116701752A (zh) 基于人工智能的新闻推荐方法、装置、电子设备及介质
Sudha et al. Rainfall forecast analysis using rough set attribute reduction and data mining methods
CN115730085A (zh) 电网调度自动化系统设备状态评估模型构建方法及系统
CN115545960A (zh) 一种电子信息数据交互系统及方法
CN112015894B (zh) 一种基于深度学习的文本单类分类方法及系统
Thangarasu et al. Detection of Cyberbullying Tweets in Twitter Media Using Random Forest Classification
CN115563225A (zh) 基于知识图谱关系推理的电网设备故障诊断方法及系统
Gong Analysis of internet public opinion popularity trend based on a deep neural network
CN112949313A (zh) 信息处理模型训练方法、装置、设备及存储介质
CN118349662B (zh) 一种基于问题智能生成答案的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant