CN114385472A - 一种异常数据的检测方法、装置、设备及存储介质 - Google Patents
一种异常数据的检测方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN114385472A CN114385472A CN202210060370.9A CN202210060370A CN114385472A CN 114385472 A CN114385472 A CN 114385472A CN 202210060370 A CN202210060370 A CN 202210060370A CN 114385472 A CN114385472 A CN 114385472A
- Authority
- CN
- China
- Prior art keywords
- data
- abnormal
- target
- detection model
- character vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3466—Performance evaluation by tracing or monitoring
- G06F11/3476—Data logging
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种异常数据的检测方法、装置、设备及存储介质,包括:获取业务系统对应的待检测的目标数据,根据目标数据中包括的数据信息,生成与目标数据对应的至少一个字符向量;对各字符向量的数据特征进行提取,得到与目标数据对应的至少一项数据特征;根据各数据特征,确定目标数据的异常检测结果。本发明实施例的技术方案可以提高异常数据的检测效率以及检测结果的准确性。
Description
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种异常数据的检测方法、装置、设备及存储介质。
背景技术
伴随着企业互联网技术(Internet Technology,IT)系统业务规模的不断扩大,IT系统越来越多,IT架构的复杂度呈现指数级增长,运维部门承受着巨大的管理压力。在复杂的环境下,数据与系统之间关联密集,一个指标的变化,可能引起一系列的告警连锁反应。频繁的异常告警,不仅处理起来浪费人力物力,也容易遗漏问题点。
现有的异常数据检测方法为,通过监控平台根据预设规则,或者利用数据挖掘和机器学习算法,对异常数据进行告警。所述规则中通常设置了某个指标的阈值或者百分比,通过将数据的指标值与规则中的阈值进行对比,确定异常数据。
但是,现有的异常数据检测方法的流程较为复杂,需要耗费大量的时间成本;其次,现有的检测规则需要人为方式进行设置,误报率较高。
发明内容
本发明实施例提供一种异常数据的检测方法、装置、设备及存储介质,可以提高异常数据的检测效率以及检测结果的准确性。
第一方面,本发明实施例提供了一种异常数据的检测方法,所述方法包括:
获取业务系统对应的待检测的目标数据,根据所述目标数据中包括的数据信息,生成与所述目标数据对应的至少一个字符向量;
对各所述字符向量的数据特征进行提取,得到与所述目标数据对应的至少一项数据特征;
根据各所述数据特征,确定所述目标数据的异常检测结果。
可选的,对各所述字符向量的数据特征进行提取,得到与所述目标数据对应的至少一项数据特征,包括:
将各所述字符向量输入至预先训练的异常数据检测模型中,并获取所述异常数据检测模型中输出的各所述字符向量的数据特征;
所述异常数据检测模型基于时间卷积神经网络构建得到。
可选的,在将各所述字符向量输入至预先训练的异常数据检测模型之前,还包括:
收集与所述业务系统对应的大量正常样本数据以及异常样本数据;
将所述正常样本数据以及异常样本数据,划分为训练数据集和测试数据集;
使用所述训练数据集和测试数据集对时间卷积神经网络模型进行迭代训练,得到所述异常数据检测模型。
可选的,根据各所述数据特征,确定所述目标数据的异常检测结果,包括:
将各所述数据特征与标准数据特征进行对比;
如果所述数据特征与标准数据特征不一致,则确定所述目标数据为异常数据。
可选的,在根据各所述数据特征,确定所述目标数据的异常检测结果之后,还包括:
获取误判的目标异常数据,将所述目标异常数据添加至所述训练数据集中,得到新的训练数据集;
使用所述新的训练数据集和测试数据集,对所述异常数据检测模型进行迭代训练,得到更新后的异常数据检测模型。
可选的,将各所述字符向量输入至预先训练的异常数据检测模型中,并获取所述异常数据检测模型中输出的各所述字符向量的数据特征,包括:
通过所述异常数据检测模型,将各所述字符向量进行两次扩张因果卷积处理、批标准处理以及随机遗漏处理,得到各所述字符向量的数据特征。
可选的,通过所述异常数据检测模型,将各所述字符向量进行两次扩张因果卷积处理、批标准处理以及随机遗漏处理,得到各所述字符向量的数据特征,包括:
将各所述字符向量输入至异常数据检测模型中的第一扩张因果卷积层,得到多个第一数据特征;
将各所述第一数据特征进行第一批标准处理,得到多个第二数据特征;
将各所述第二数据特征进行第一随机遗漏处理,得到多个第三数据特征;
将各所述第三数据特征输入至异常数据检测模型中的第二扩张因果卷积层,得到多个第四数据特征;
将各所述第四数据特征进行第二批标准处理,得到多个第五数据特征;
将各所述第五数据特征进行第二随机遗漏处理,得到多个数据特征。
第二方面,本发明实施例还提供了一种异常数据的检测装置,该装置包括:
向量生成模块,用于获取业务系统对应的待检测的目标数据,根据所述目标数据中包括的数据信息,生成与所述目标数据对应的至少一个字符向量;
特征提取模块,用于对各所述字符向量的数据特征进行提取,得到与所述目标数据对应的至少一项数据特征;
检测结果确定模块,用于根据各所述数据特征,确定所述目标数据的异常检测结果。
第三方面,本发明实施例还提供了一种计算机设备,该设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例提供的一种异常数据的检测方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,该存储介质上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例提供的一种异常数据的检测方法。
本发明施例的技术方案通过获取业务系统对应的待检测的目标数据,根据目标数据中包括的数据信息,生成与目标数据对应的至少一个字符向量,对各字符向量的数据特征进行提取,得到与目标数据对应的至少一项数据特征,根据各数据特征,确定目标数据的异常检测结果的技术手段,可以提高异常数据的检测效率以及检测结果的准确性。
附图说明
图1a是本发明实施例一中的一种异常数据的检测方法的流程图;
图1b是本发明实施例一中的一种字符表的结构示意图;
图2是本发明实施例二中的一种异常数据的检测方法的流程图;
图3a是本发明实施例三中的一种异常数据的检测方法的流程图;
图3b是本发明实施例三中的一种异常数据检测模型的结构示意图;
图4是本发明实施例四中的一种异常数据的检测装置的结构图;
图5是本发明实施例五中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1a为本发明实施例一提供的一种异常数据的检测方法的流程图,本实施例可适用于对业务系统中的数据进行异常检测的情况,该方法可以由异常数据的检测装置来执行,该装置可以由软件和/或硬件来实现,一般可以集成在具有数据处理功能的终端或者服务器中,具体包括如下步骤:
步骤110、获取业务系统对应的待检测的目标数据,根据所述目标数据中包括的数据信息,生成与所述目标数据对应的至少一个字符向量。
在本实施例中,所述业务系统可以为IT系统,或者业务环节中其他的工作系统。所述目标数据可以为业务系统中具备监控需求的业务数据,例如业务系统对应的输入数据、中间数据以及处理结果数据等。
在此步骤中,获取到业务系统对应的待检测的目标数据后,可以对所述目标数据进行预处理。具体的,可以根据目标数据中的字段信息形成字符表,然后对字符表中的每个字符进行向量化,得到目标数据对应的多个字符向量,也即完成对目标数据的字符编码处理。
在一个具体的实施例中,假设根据目标数据中的字段信息形成字符表如图1b所示,其中,字符表中包括以下字符:“0,tcp,ftp_data,amaio123,success,213……”,对每个字符进行向量化后,可以得到多个字符向量,如图1b中字符表下方的矩形框所示。其中,每个字符与每个字符向量一一对应。
步骤120、对各所述字符向量的数据特征进行提取,得到与所述目标数据对应的至少一项数据特征。
在本实施例中,可选的,可以根据预设的机器学习算法,对各字符向量的数据特征进行提取,并将每个字符向量的数据特征作为目标数据的数据特征。
步骤130、根据各所述数据特征,确定所述目标数据的异常检测结果。
在本实施例的一个实施方式中,根据各所述数据特征,确定所述目标数据的异常检测结果,包括:将各所述数据特征与标准数据特征进行对比;如果所述数据特征与标准数据特征不一致,则确定所述目标数据为异常数据。
其中,所示标准数据特征可以为业务系统中正常数据的数据特征。如果步骤120提取的数据特征与标准数据特征一致,则可以确定目标数据为正常数据;反之,如果步骤120提取的数据特征与标准数据特征不一致,则可以确定目标数据为异常数据。
在本实施例中,通过生成与所述目标数据对应的至少一个字符向量,可以使得各待检测数据的格式保持一致,并且能够极大的保留原始信息;通过对各字符向量的数据特征进行提取,并根据特征提取结果确定标数据的异常检测结果,可以简化异常数据的检测流程,由于整个检测过程可以由计算机设备(例如终端或者服务器)自动执行,因此可以减少异常数据检测过程所消耗的时间成本和人力成本,降低异常数据的误报率。
本发明施例的技术方案通过获取业务系统对应的待检测的目标数据,根据目标数据中包括的数据信息,生成与目标数据对应的至少一个字符向量,对各字符向量的数据特征进行提取,得到与目标数据对应的至少一项数据特征,根据各数据特征,确定目标数据的异常检测结果的技术手段,可以提高异常数据的检测效率以及检测结果的准确性。
实施例二
本实施例是对上述实施例的进一步细化,与上述实施例相同或相应的术语解释,本实施例不再赘述。图2为本实施例二提供的一种异常数据的检测方法的流程图,在本实施例中,本实施例的技术方案可以与上述实施例的方案中的一种或者多种方法进行组合,如图2所示,本实施例提供的方法还可以包括:
步骤210、获取业务系统对应的待检测的目标数据,根据所述目标数据中包括的数据信息,生成与所述目标数据对应的至少一个字符向量。
步骤220、将各所述字符向量输入至预先训练的异常数据检测模型中,并获取所述异常数据检测模型中输出的各所述字符向量的数据特征。
在本实施例中,所述异常数据检测模型基于时间卷积神经网络(Temporalconvolutional network,TCN)构建得到。
其中,由于TCN具备并行性、灵活的感受野、梯度稳定以及内存占用率低等优点,基于TCN构建的异常数据检测模型可以高效、自主地提取各字符向量的数据特征,进而可以减少异常数据检测过程所消耗的时间成本和人力成本,提高异常数据的检测效率。
在一个具体的实施例中,在将各所述字符向量输入至预先训练的异常数据检测模型之前,还包括:收集与所述业务系统对应的大量正常样本数据以及异常样本数据;将所述正常样本数据以及异常样本数据,划分为训练数据集和测试数据集;使用所述训练数据集和测试数据集对时间卷积神经网络模型进行迭代训练,得到所述异常数据检测模型。
其中,所述正常样本数据可以为业务系统在历史运行过程中产生的正常数据,所述异常样本数据可以为业务系统在历史运行过程中产生的异常数据。
通过使用训练数据集和测试数据集对时间卷积神经网络模型进行迭代训练,并根据训练结果对模型参数进行调整,可以提高异常数据检测模型的检测性能,优化检测结果(例如准确率、误报率以及F值评价指标等),进而可以提高异常数据检测模型的有效性和鲁棒性。
步骤230、根据各所述数据特征,确定所述目标数据的异常检测结果。
本发明实施例的技术方案通过获取业务系统对应的待检测的目标数据,根据目标数据中包括的数据信息,生成与目标数据对应的至少一个字符向量,将各字符向量输入至预先训练的异常数据检测模型中,并获取异常数据检测模型中输出的各字符向量的数据特征,根据各数据特征确定目标数据的异常检测结果的技术手段,可以提高异常数据的检测效率以及检测结果的准确性。
实施例三
本实施例是对上述实施例的进一步细化,与上述实施例相同或相应的术语解释,本实施例不再赘述。图3a为本实施例三提供的一种异常数据的检测方法的流程图,在本实施例中,本实施例的技术方案可以与上述实施例的方案中的一种或者多种方法进行组合,如图3a所示,本实施例提供的方法还可以包括:
步骤310、获取业务系统对应的待检测的目标数据,根据所述目标数据中包括的数据信息,生成与所述目标数据对应的至少一个字符向量。
步骤320、将各所述字符向量输入至预先训练的异常数据检测模型中,并获取所述异常数据检测模型中输出的各所述字符向量的数据特征。
在本实施例的一个实施方式中,将各所述字符向量输入至预先训练的异常数据检测模型中,并获取所述异常数据检测模型中输出的各所述字符向量的数据特征,包括:通过所述异常数据检测模型,将各所述字符向量进行两次扩张因果卷积处理、批标准处理以及随机遗漏处理,得到各所述字符向量的数据特征。
在本实施例中,通过引入扩张因果卷积算法,可以增大异常数据检测模型的感受野,从而做出更稳定的决策,由此可以保证异常数据检测结果的准确性。
在一个具体的实施例中,通过所述异常数据检测模型,将各所述字符向量进行两次扩张因果卷积处理、批标准处理以及随机遗漏处理,得到各所述字符向量的数据特征,包括:
步骤321、将各所述字符向量输入至异常数据检测模型中的第一扩张因果卷积层,得到多个第一数据特征;
在本实施例中,图3b可以为所述异常数据检测模型的结构示意图。如图3b所示,可以将各字符向量输入至第一扩张因果卷积层(Dilated Causal Conv),通过第一扩张因果卷积层对各字符向量进行处理,得到多个第一数据特征。
步骤322、将各所述第一数据特征进行第一批标准处理,得到多个第二数据特征;
在此步骤中,可以将各第一数据特征输入至异常数据检测模型中的第一批标准处理模块(如图3b中的Batch Norm),由第一批标准处理模块对各第一数据特征进行批标准处理,得到多个第二数据特征。
在神经网络模型中,每一层的输入在经过层内操作之后必然会导致与原来对应的输入信号分布不同,并且前层神经网络的增加会被后面的神经网络不断的累积放大。这个问题的一个解决思路就是对训练样本进行矫正,而批标准处理算法则可以用来规范化某些层或者所有层的输入,从而固定每层输入信号的均值与方差,由此可以提高异常数据检测模型的鲁棒性。
步骤323、将各所述第二数据特征进行第一随机遗漏处理,得到多个第三数据特征;
在此步骤中,可以将各第二数据特征输入至异常数据检测模型中的第一随机遗漏处理模块(如图3b中的Dropout),由第一随机遗漏处理模块对各第二数据特征进行处理,得到多个第三数据特征。
随机遗漏处理是指对多个数据特征中的一部分数据特征进行随机忽略(使一部分数据特征的特征值为0)。通过多个数据特征进行随机遗漏处理,可以减小数据特征之间的相互作用,降低模型训练结果对一些局部特征的依赖性,由此可以提高异常数据检测模型的泛化能力,保证异常数据检测模型输出结果的准确性。
步骤324、将各所述第三数据特征输入至异常数据检测模型中的第二扩张因果卷积层,得到多个第四数据特征;
在本实施例中,可以采用与步骤321-323相同的方式对各数据特征进行二次处理(即步骤324-326),得到目标数据对应的最终的数据特征。
步骤325、将各所述第四数据特征进行第二批标准处理,得到多个第五数据特征;
步骤326、将各所述第五数据特征进行第二随机遗漏处理,得到多个数据特征。
步骤330、根据各所述数据特征,确定所述目标数据的异常检测结果。
步骤340、获取误判的目标异常数据,将所述目标异常数据添加至所述训练数据集中,得到新的训练数据集。
在本实施例中,确定出目标数据的异常检测结果后,可以由测试人员根据异常检测结果确定误判的目标异常数据,并将所述目标异常数据添加至训练数据集中。
步骤350、使用所述新的训练数据集和测试数据集,对所述异常数据检测模型进行迭代训练,得到更新后的异常数据检测模型。
这样设置的好处在于,通过使用新的训练数据集,对异常数据检测模型进行训练,可以降低异常数据检测模型的误判率,提高异常数据检测结果的准确性。
在本实施例中,可选的,所述异常数据检测模型中的神经网络可以将ReLu作为激活函数,同时使用以2的幂次方增加的方式作为扩张系数的设计方式,每个算法模块之间可以采用残差连接的形式完成整个模型的搭建。
为了提升异常数据检测模型的训练效果,本实施例中可以使用交叉熵作为异常数据检测模型的损失函数,并使用Adam优化算法对异常数据检测模型进行优化训练。
本发明实施例的技术方案通过获取业务系统对应的待检测的目标数据,根据目标数据中包括的数据信息,生成与目标数据对应的至少一个字符向量,将各字符向量输入至预先训练的异常数据检测模型中,并获取异常数据检测模型中输出的各字符向量的数据特征,根据各数据特征确定目标数据的异常检测结果,获取误判的目标异常数据,将目标异常数据添加至所述训练数据集中,得到新的训练数据集,使用新的训练数据集和测试数据集,对异常数据检测模型进行迭代训练,得到更新后的异常数据检测模型的技术手段,可以提高异常数据的检测效率以及检测结果的准确性。
实施例四
图4为本发明实施例四提供的一种异常数据的检测装置的结构图,该装置包括:向量生成模块410、特征提取模块420和检测结果确定模块430。
其中,向量生成模块410,用于获取业务系统对应的待检测的目标数据,根据所述目标数据中包括的数据信息,生成与所述目标数据对应的至少一个字符向量;
特征提取模块420,用于对各所述字符向量的数据特征进行提取,得到与所述目标数据对应的至少一项数据特征;
检测结果确定模块430,用于根据各所述数据特征,确定所述目标数据的异常检测结果。
本发明实施例的技术方案通过获取业务系统对应的待检测的目标数据,根据目标数据中包括的数据信息,生成与目标数据对应的至少一个字符向量,对各字符向量的数据特征进行提取,得到与目标数据对应的至少一项数据特征,根据各数据特征,确定目标数据的异常检测结果的技术手段,可以提高异常数据的检测效率以及检测结果的准确性。
在上述各实施例的基础上,特征提取模块420,可以包括:
向量输入单元,用于将各所述字符向量输入至预先训练的异常数据检测模型中,并获取所述异常数据检测模型中输出的各所述字符向量的数据特征;所述异常数据检测模型基于时间卷积神经网络构建得到;
样本数据收集单元,用于收集与所述业务系统对应的大量正常样本数据以及异常样本数据;
样本数据划分单元,用于将所述正常样本数据以及异常样本数据,划分为训练数据集和测试数据集;
模型训练单元,用于使用所述训练数据集和测试数据集对时间卷积神经网络模型进行迭代训练,得到所述异常数据检测模型;
向量处理单元,用于通过所述异常数据检测模型,将各所述字符向量进行两次扩张因果卷积处理、批标准处理以及随机遗漏处理,得到各所述字符向量的数据特征;
第一扩张因果卷积处理单元,用于将各所述字符向量输入至异常数据检测模型中的第一扩张因果卷积层,得到多个第一数据特征;
第一批标准处理单元,用于将各所述第一数据特征进行第一批标准处理,得到多个第二数据特征;
第一随机遗漏处理单元,用于将各所述第二数据特征进行第一随机遗漏处理,得到多个第三数据特征;
第二扩张因果卷积处理单元,用于将各所述第三数据特征输入至异常数据检测模型中的第二扩张因果卷积层,得到多个第四数据特征;
第二批标准处理单元,用于将各所述第四数据特征进行第二批标准处理,得到多个第五数据特征;
第二随机遗漏处理单元,用于将各所述第五数据特征进行第二随机遗漏处理,得到多个数据特征。
检测结果确定模块430,可以包括:
特征对比单元,用于将各所述数据特征与标准数据特征进行对比;
异常数据确定单元,用于如果所述数据特征与标准数据特征不一致,则确定所述目标数据为异常数据。
所述异常数据的检测装置,还包括:
目标异常数据获取模块,用于获取误判的目标异常数据,将所述目标异常数据添加至所述训练数据集中,得到新的训练数据集;
模型更新模块,用于使用所述新的训练数据集和测试数据集,对所述异常数据检测模型进行迭代训练,得到更新后的异常数据检测模型。
本发明实施例所提供的异常数据的检测装置可执行本发明任意实施例所提供的异常数据的检测方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种计算机设备的结构示意图,如图5所示,该计算机设备包括处理器510、存储器520、输入装置530和输出装置540;计算机设备中处理器510的数量可以是一个或多个,图5中以一个处理器510为例;计算机设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或其他方式连接,图5中以通过总线连接为例。存储器520作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明任意实施例中的一种异常数据的检测方法对应的程序指令/模块(例如,一种异常数据的检测装置中的向量生成模块410、特征提取模块420和检测结果确定模块430)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的一种异常数据的检测方法。也即,该程序被处理器执行时实现:
获取业务系统对应的待检测的目标数据,根据所述目标数据中包括的数据信息,生成与所述目标数据对应的至少一个字符向量;
对各所述字符向量的数据特征进行提取,得到与所述目标数据对应的至少一项数据特征;
根据各所述数据特征,确定所述目标数据的异常检测结果。
存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。输入装置530可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入,可以包括键盘和鼠标等。输出装置540可包括显示屏等显示设备。
实施例六
本发明实施例六还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述方法。当然,本发明实施例所提供的一种计算机可读存储介质,其可以执行本发明任意实施例所提供的一种异常数据的检测方法中的相关操作。也即,该程序被处理器执行时实现:
获取业务系统对应的待检测的目标数据,根据所述目标数据中包括的数据信息,生成与所述目标数据对应的至少一个字符向量;
对各所述字符向量的数据特征进行提取,得到与所述目标数据对应的至少一项数据特征;
根据各所述数据特征,确定所述目标数据的异常检测结果。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述一种异常数据的检测装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种异常数据的检测方法,其特征在于,所述方法包括:
获取业务系统对应的待检测的目标数据,根据所述目标数据中包括的数据信息,生成与所述目标数据对应的至少一个字符向量;
对各所述字符向量的数据特征进行提取,得到与所述目标数据对应的至少一项数据特征;
根据各所述数据特征,确定所述目标数据的异常检测结果。
2.根据权利要求1所述的方法,其特征在于,对各所述字符向量的数据特征进行提取,得到与所述目标数据对应的至少一项数据特征,包括:
将各所述字符向量输入至预先训练的异常数据检测模型中,并获取所述异常数据检测模型中输出的各所述字符向量的数据特征;
所述异常数据检测模型基于时间卷积神经网络构建得到。
3.根据权利要求2所述的方法,其特征在于,在将各所述字符向量输入至预先训练的异常数据检测模型之前,还包括:
收集与所述业务系统对应的大量正常样本数据以及异常样本数据;
将所述正常样本数据以及异常样本数据,划分为训练数据集和测试数据集;
使用所述训练数据集和测试数据集对时间卷积神经网络模型进行迭代训练,得到所述异常数据检测模型。
4.根据权利要求1所述的方法,其特征在于,根据各所述数据特征,确定所述目标数据的异常检测结果,包括:
将各所述数据特征与标准数据特征进行对比;
如果所述数据特征与标准数据特征不一致,则确定所述目标数据为异常数据。
5.根据权利要求3所述的方法,其特征在于,在根据各所述数据特征,确定所述目标数据的异常检测结果之后,还包括:
获取误判的目标异常数据,将所述目标异常数据添加至所述训练数据集中,得到新的训练数据集;
使用所述新的训练数据集和测试数据集,对所述异常数据检测模型进行迭代训练,得到更新后的异常数据检测模型。
6.根据权利要求2所述的方法,其特征在于,将各所述字符向量输入至预先训练的异常数据检测模型中,并获取所述异常数据检测模型中输出的各所述字符向量的数据特征,包括:
通过所述异常数据检测模型,将各所述字符向量进行两次扩张因果卷积处理、批标准处理以及随机遗漏处理,得到各所述字符向量的数据特征。
7.根据权利要求6所述的方法,其特征在于,通过所述异常数据检测模型,将各所述字符向量进行两次扩张因果卷积处理、批标准处理以及随机遗漏处理,得到各所述字符向量的数据特征,包括:
将各所述字符向量输入至异常数据检测模型中的第一扩张因果卷积层,得到多个第一数据特征;
将各所述第一数据特征进行第一批标准处理,得到多个第二数据特征;
将各所述第二数据特征进行第一随机遗漏处理,得到多个第三数据特征;
将各所述第三数据特征输入至异常数据检测模型中的第二扩张因果卷积层,得到多个第四数据特征;
将各所述第四数据特征进行第二批标准处理,得到多个第五数据特征;
将各所述第五数据特征进行第二随机遗漏处理,得到多个数据特征。
8.一种异常数据的检测装置,其特征在于,所述装置包括:
向量生成模块,用于获取业务系统对应的待检测的目标数据,根据所述目标数据中包括的数据信息,生成与所述目标数据对应的至少一个字符向量;
特征提取模块,用于对各所述字符向量的数据特征进行提取,得到与所述目标数据对应的至少一项数据特征;
检测结果确定模块,用于根据各所述数据特征,确定所述目标数据的异常检测结果。
9.一种计算机设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器执行所述程序时实现如权利要求1-7中任一所述的异常数据的检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一所述的异常数据的检测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210060370.9A CN114385472A (zh) | 2022-01-19 | 2022-01-19 | 一种异常数据的检测方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210060370.9A CN114385472A (zh) | 2022-01-19 | 2022-01-19 | 一种异常数据的检测方法、装置、设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114385472A true CN114385472A (zh) | 2022-04-22 |
Family
ID=81203548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210060370.9A Pending CN114385472A (zh) | 2022-01-19 | 2022-01-19 | 一种异常数据的检测方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114385472A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117828499A (zh) * | 2024-03-04 | 2024-04-05 | 深圳市恒天翊电子有限公司 | Pcba异常件确定方法、系统、存储介质及电子设备 |
-
2022
- 2022-01-19 CN CN202210060370.9A patent/CN114385472A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117828499A (zh) * | 2024-03-04 | 2024-04-05 | 深圳市恒天翊电子有限公司 | Pcba异常件确定方法、系统、存储介质及电子设备 |
CN117828499B (zh) * | 2024-03-04 | 2024-05-28 | 深圳市恒天翊电子有限公司 | Pcba异常件确定方法、系统、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112016602B (zh) | 电网故障原因与状态量的关联分析方法,设备和存储介质 | |
CN112148772A (zh) | 告警根因识别方法、装置、设备和存储介质 | |
CN112765603A (zh) | 一种结合系统日志与起源图的异常溯源方法 | |
CN112818066A (zh) | 一种时序数据异常检测方法、装置及电子设备和存储介质 | |
CN112491872A (zh) | 一种基于设备画像的异常网络访问行为检测方法和系统 | |
CN113965389B (zh) | 一种基于防火墙日志的网络安全管理方法、设备及介质 | |
CN113067798B (zh) | Ics入侵检测方法、装置、电子设备和存储介质 | |
CN110580213A (zh) | 一种基于循环标记时间点过程的数据库异常检测方法 | |
CN111738331A (zh) | 用户分类方法及装置、计算机可读存储介质、电子设备 | |
CN112532652A (zh) | 一种基于多源数据的攻击行为画像装置及方法 | |
CN114385472A (zh) | 一种异常数据的检测方法、装置、设备及存储介质 | |
Gowtham Sethupathi et al. | Efficient rainfall prediction and analysis using machine learning techniques | |
CN114328277A (zh) | 一种软件缺陷预测和质量分析方法、装置、设备及介质 | |
CN113886832A (zh) | 智能合约漏洞检测方法、系统、计算机设备和存储介质 | |
CN112651172B (zh) | 一种降雨峰值类型划分方法、装置、设备和存储介质 | |
Jia et al. | Robust and Transferable Log-based Anomaly Detection | |
Lighari | Hybrid model of rule based and clustering analysis for big data security | |
CN111209158B (zh) | 服务器集群的挖矿监控方法及集群监控系统 | |
CN115913710A (zh) | 异常检测方法、装置、设备及存储介质 | |
CN111798237B (zh) | 基于应用日志的异常交易诊断方法及系统 | |
CN113535458A (zh) | 异常误报的处理方法及装置、存储介质、终端 | |
CN109583590B (zh) | 数据处理方法及数据处理装置 | |
CN113095589A (zh) | 一种人口属性确定方法、装置、设备及存储介质 | |
Chou et al. | Economic design of variable sampling intervals charts with B&L switching rule | |
US20240104072A1 (en) | Method, Apparatus And Electronic Device For Detecting Data Anomalies, And Readable Storage Medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |