CN116720148A - 异常数据的检测方法、装置、存储介质及计算机设备 - Google Patents
异常数据的检测方法、装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN116720148A CN116720148A CN202310491909.0A CN202310491909A CN116720148A CN 116720148 A CN116720148 A CN 116720148A CN 202310491909 A CN202310491909 A CN 202310491909A CN 116720148 A CN116720148 A CN 116720148A
- Authority
- CN
- China
- Prior art keywords
- data
- value parameter
- abnormality
- service data
- attribute information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 147
- 238000001514 detection method Methods 0.000 title claims abstract description 132
- 230000005856 abnormality Effects 0.000 claims abstract description 117
- 238000000034 method Methods 0.000 claims abstract description 49
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 39
- 238000006243 chemical reaction Methods 0.000 claims abstract description 22
- 238000012795 verification Methods 0.000 claims description 18
- 238000012545 processing Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 14
- 238000004590 computer program Methods 0.000 claims description 8
- 230000002547 anomalous effect Effects 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 5
- 239000002699 waste material Substances 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000035876 healing Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 230000026676 system process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/2433—Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/906—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Quality & Reliability (AREA)
- Debugging And Monitoring (AREA)
Abstract
本发明公开了一种异常数据的检测方法、装置、存储介质及计算机设备,涉及信息技术领域及数字医疗技术领域,主要在于能够提高异常数据的检测效率和检测精度。其中方法包括:获取待检测数据;若待检测数据属于系统运行数据,则利用预设阈值检测算法对系统运行数据进行异常检测,得到系统运行数据对应的异常检测结果;若待检测数据属于业务数据,则获取业务数据的多维度属性信息;将业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行转化价值预测,得到业务数据在所述多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数;根据第一价值参数和第二价值参数,判定业务数据是否存在异常。
Description
技术领域
本发明涉及信息技术领域,尤其是涉及一种异常数据的检测方法、装置、存储介质及计算机设备。
背景技术
对于业务密度大、流程长、依赖服务多的业务系统而言,医疗企业的医保服务系统,在实际运行当中,异常数据的出现是一种常见现象,某种程度上是一种常态。所以异常数据出现后,能及时发现、及时处理是对线上业务系统正常运行的基础。
目前,通常通过人工来对异常数据进行检测。然而,这种人为检测异常数据的方式,导致异常数据的检测效率较低,与此同时,由于工作人员的疏忽会导致漏检或错检的情况出现,从而导致异常数据的检测精度较低。
发明内容
本发明提供了一种异常数据的检测方法、装置、存储介质及计算机设备,主要在于能够提高异常数据的检测效率和检测精度。
根据本发明的第一个方面,提供一种异常数据的检测方法,包括:
获取待检测数据;
若所述待检测数据属于系统运行数据,则利用预设阈值检测算法对所述系统运行数据进行异常检测,得到所述系统运行数据对应的异常检测结果;
若所述待检测数据属于业务数据,则获取所述业务数据的多维度属性信息,其中,所述多维度属性信息包括占用资源信息、所属行业信息、流转路径信息;
将所述业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行转化价值预测,得到所述业务数据在所述多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数;
根据所述第一价值参数和所述第二价值参数,判定所述业务数据是否存在异常。
优选地,所述利用预设阈值检测算法对所述系统运行数据进行异常检测,得到所述系统运行数据对应的异常检测结果,包括:
基于所述系统运行数据,确定系统运行过程中各个运行节点之间的运行时间间隔;
判断所述运行时间间隔是否大于预设时间阈值;
若所述运行时间间隔大于预设时间阈值,则判定所述系统运行数据为异常数据。
优选地,所述将所述业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行转化价值预测,得到所述业务数据在所述多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数,包括:
确定所述业务数据对应的原生端;
判断所述原生端对应的标识信息是否在预设黑名单中;
若所述标识信息在预设黑名单中,则确定所述业务数据为异常数据;
若所述标识信息不在预设黑名单中,则将所述业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行转化价值预测,得到所述业务数据在所述多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数。
优选地,所述预设价值参数预测模型为预设异常数据检测贝叶斯分类器,所述将所述业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行转化价值预测,得到所述业务数据在所述多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数,包括:
获取样本业务数据的多维度样本属性信息,并基于所述多维度样本属性信息构建预设异常数据检测贝叶斯分类器;
利用所述预设异常数据检测贝叶斯分类器计算所述样本业务数据存在异常的第三价值参数和不存在异常的第四价值参数,以及所述多维度属性信息分别在存在异常条件下的第五价值参数和不存在异常条件下的第六价值参数;
根据所述第三价值参数、所述第四价值参数、所述第五价值参数和所述第六价值参数,计算所述业务数据在多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数。
优选地,所述根据所述第三价值参数、所述第四价值参数、所述第五价值参数和所述第六价值参数,计算所述业务数据在多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数,包括:
将所述第三价值参数和所述第五价值参数相乘,得到所述业务数据在多维度属性信息下存在异常的第一价值参数;
将所述第四价值参数和所述第六价值参数相乘,得到所述业务数据在多维度属性信息下不存在异常的第二价值参数。
优选地,所述根据所述第一价值参数和所述第二价值参数,判定所述业务数据是否存在异常,包括:
若所述第一价值参数大于所述第二价值参数,则确定所述业务数据为异常数据;
若所述第一价值参数小于或等于所述第二价值参数,则确定所述业务数据为正常数据。
优选地,在所述确定所述业务数据为异常数据之后,所述方法还包括:
确定所述异常数据所属的异常类型,并确定与所述异常类型相对应的目标异常处理方式;
利用所述目标异常处理方式对所述异常数据进行处理,得到处理后的数据;
生成所述处理后的数据对应的校验通知信息;
将所述校验通知信息发送至校验终端,其中,所述校验终端用于对所述处理后的数据进行校验。
根据本发明的第二个方面,提供一种异常数据的检测装置,包括:
数据获取单元,用于获取待检测数据;
检测单元,用于若所述待检测数据属于系统运行数据,则利用预设阈值检测算法对所述系统运行数据进行异常检测,得到所述系统运行数据对应的异常检测结果;
信息获取单元,用于若所述待检测数据属于业务数据,则获取所述业务数据的多维度属性信息;
预测单元,用于将所述业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行转化价值预测,得到所述业务数据在所述多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数;
判定单元,用于根据所述第一价值参数和所述第二价值参数,判定所述业务数据是否存在异常。
根据本发明的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以上数据异常的检测方法。
根据本发明的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上数据异常的检测方法。
根据本发明提供的一种异常数据的检测方法、装置、存储介质及计算机设备,与目前人工对异常数据进行检测的方式相比,本发明通过获取待检测数据;若所述待检测数据属于系统运行数据,则利用预设阈值检测算法对所述系统运行数据进行异常检测,得到所述系统运行数据对应的异常检测结果;若所述待检测数据属于业务数据,则获取所述业务数据的多维度属性信息,其中,所述多维度属性信息包括占用资源信息、所属行业信息、流转路径信息;并将所述业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行转化价值预测,得到所述业务数据在所述多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数;最终根据所述第一价值参数和所述第二价值参数,判定所述业务数据是否存在异常,由此通过将待检测数据进行分类,不同类型数据对应不同异常检测算法,能够使确定的检测算法适用于其对应的数据,从而能够减少资源浪费,同时还能够提高数据的异常检测精度,与此同时,利用阈值检测算法或者预设价值参数预测模型检测算法对异常数据进行检测,能够提高数据的异常检测效率,还能够避免由于人工的数据导致对异常数据进行漏检或错检的情况,从而进一步提高了数据的异常检测精度。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1示出了本发明实施例提供的一种异常数据的检测方法流程图;
图2示出了本发明实施例提供的另一种异常数据的检测方法流程图;
图3示出了本发明实施例提供的一种异常数据的检测装置的结构示意图;
图4示出了本发明实施例提供的另一种异常数据的检测装置的结构示意图;
图5示出了本发明实施例提供的一种计算机设备的实体结构示意图。
具体实施方式
下文中将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
目前,通过人工对数据进行异常检测的方式,导致数据的异常检测效率较低,与此同时,人工检测会导致漏检或错检的情况,从而导致数据的异常检测准确度较低。
为了解决上述问题,本发明实施例提供了一种异常数据的检测方法,如图1所示,所述方法包括:
101、获取待检测数据。
其中,待检测数据包括系统运行数据和业务数据,系统运行数据是指为用户提供的服务和资源所产生的数据,即系统当前的运行状态数据,包括系统进程的运行时间、系统内存、网络带宽等数据;业务数据可以是各个企业的工作记录数据,也可以是用户使用某个程序所产生的数据等,例如,个人健康档案数据、医保数据等。
对于本发明实施例,可以利用无人值守系统来实现异常数据的检测过程,首先采集待检测数据,之后将待检测数据传输至无人值守系统的中台数据中心,可以在中台数据中心来获取需要进行异常检测的数据,通过无人值守系统来实现异常数据的检测,能够节省人力,全称自动化,能够提高数据检测的效率。
102、若待检测数据属于系统运行数据,则利用预设阈值检测算法对系统运行数据进行异常检测,得到系统运行数据对应的异常检测结果。
对于本发明实施例,不同数据类型对应不同的异常检测算法,在获取待检测数据后,首先需要确定待检测数据所属的数据类型,若待检测数据属于系统运行数据,则利用预设阈值检测算法来对系统运行数据进行检测,从而为不同数据类型配置不同的检测算法,能够避免同一种检测算法不能适用于所有数据类型的问题,从而能够提高数据的异常检测准确度。
103、若待检测数据属于业务数据,则获取业务数据的多维度属性信息。
其中,多维度属性信息包括业务数据的占用资源信息、所属行业信息、流转路径信息等,占用资源信息包括占用的系统内存,所属行业信息包括工业数据、IT业数据,流转路径信息包括数据产生端、经过端和最终到达端。
对于本发明实施例,若业务数据属于业务数据,则还需要获取业务数据占用的资源信息,所属行业信息和流转路径等信息,之后根据上述多维度属性信息来判断业务数据是否为异常数据,从而通过从多维度对业务数据进行综合分析,能够提高业务数据的检测准确度。
104、将业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行转化价值预测,得到业务数据在多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数。
其中,第一价值参数是指业务数据在多维度属性信息下存在异常的第一概率值,第二价值参数是指业务数据在多维度属性信息下不存在异常的第二概率值。
对于本发明实施例,在获取业务数据的多维度属性信息后,将业务数据和多维度属性信息输入至预设价值参数预测模型中,利用预设价值参数预测模型来对预测业务数据在多维度属性信息下存在异常的第一概率值和不存在异常的第二概率值,例如,某些业务数据在工业领域存在异常,但是在IT领域确不存在异常。由此通过预设价值参数预测模型来对业务数据是否存在异常进行预测,能够避免人为对数据进行漏检和错检的情况,从而本发明实施例能够提高数据的检测准确度。
105、根据所述第一价值参数和所述第二价值参数,判定业务数据是否存在异常。
对于本发明实施例,在获取第一价值参数和第二价值参数后,比较第一价值参数和第二价值参数的大小,若第一价值参数大于第二价值参数,则确定业务数据存在异常,若第一价值参数小于或等于第二价值参数,则确定业务数据正常。由此利用阈值检测算法或者预设价值参数预测模型检测算法对异常数据进行检测,能够提高数据的异常检测效率,还能够避免由于人工的数据导致对异常数据进行漏检或错检的情况,从而进一步提高了数据的异常检测精度。
根据本发明提供的一种异常数据的检测方法,与目前人工对异常数据进行检测的方式相比,本发明通过获取待检测数据;若所述待检测数据属于系统运行数据,则利用预设阈值检测算法对所述系统运行数据进行异常检测,得到所述系统运行数据对应的异常检测结果;若所述待检测数据属于业务数据,则获取所述业务数据的多维度属性信息,其中,所述多维度属性信息包括占用资源信息、所属行业信息、流转路径信息;并将所述业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行转化价值预测,得到所述业务数据在所述多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数;最终根据所述第一价值参数和所述第二价值参数,判定所述业务数据是否存在异常,由此通过将待检测数据进行分类,不同类型数据对应不同异常检测算法,能够使确定的检测算法适用于其对应的数据,从而能够减少资源浪费,同时还能够提高数据的异常检测精度,与此同时,利用阈值检测算法或者预设价值参数预测模型检测算法对异常数据进行检测,能够提高数据的异常检测效率,还能够避免由于人工的数据导致对异常数据进行漏检或错检的情况,从而进一步提高了数据的异常检测精度。
进一步的,为了更好的说明上述对异常数据进行检测的过程,作为对上述实施例的细化和扩展,本发明实施例提供了另一种异常数据的检测方法,如图2所示,所述方法包括:
201、获取待检测数据。
对于本发明实施例,可以实时监控计算机系统的运行数据,并实时记录用户在计算机系统中的使用数据和公司在计算机系统中存储的业务数据等。
202、若待检测数据属于系统运行数据,则利用预设阈值检测算法对系统运行数据进行异常检测,得到系统运行数据对应的异常检测结果。
对于本发明实施例,在获取待检测数据后,若待检测数据属于系统运行数据,则需要利用预设阈值检测算法来对系统运行数据进行检测,基于此,步骤202具体包括:基于所述系统运行数据,确定系统运行过程中各个运行节点之间的运行时间间隔;判断所述运行时间间隔是否大于预设时间阈值;若所述运行时间间隔大于预设时间阈值,则判定所述系统运行数据为异常数据;若所述运行时间间隔小于或等于预设时间阈值,则判定所述系统运行数据为正常数据。
其中,预设时间阈值是根据实际情况设定的数值,本发明实施例对预设时间阈值的数值大小不做具体限定。具体地,计算系统运行进程中各个运行节点之间的时间间隔,若时间间隔大于预设时间阈值,则判定服务运行进程超时,即出现异常,此时确定系统运行数据存在异常,若时间间隔小于或等于预设时间阈值,则确定系统运行未超时,即系统运行正常,此时确定系统运行数据正常。
203、若待检测数据属于业务数据,则获取业务数据的多维度属性信息。
对于本发明实施例,若待检测数据为业务数据,首先确定业务数据是否由异常IP地址发送的,若为异常IP地址发送的,则直接确定业务数据为异常数据,基于此,所述方法包括:确定所述业务数据对应的原生端;判断所述原生端对应的标识信息是否在预设黑名单中;若所述标识信息在预设黑名单中,则确定所述业务数据为异常数据;若所述标识信息不在预设黑名单中,则将所述业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行转化价值预测,得到所述业务数据在所述多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数。
其中,预设黑名单中记录着各个异常IP地址。原生端为业务数据的发起端,具体地,获取业务数据发起端对应的IP地址,并判断黑名单中是否存在该IP地址,若存在,则直接确定该业务数据为异常数据,该IP地址不在黑名单中,则在将业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行参数预测。
具体地,多维度属性信息包括:所属行业信息、占用资源信息和流转路径信息等;所属行业包括:工业、林业、牧业、医疗业、汽车业,银行业等;占用资源信息可以为业务数据占用系统的内存等信息。本发明实施例可以将占用的系统内存划分为不同等级,如将占用内存量0-100GB划分为低级,100-500GB划分为中级、500-1000GB划分为高级;流转路径信息中包括业务数据经过的各个IP地址,各个IP地址中若存在0-2个IP地址不在白名单(其中,白名单中记录着各个经过验证是安全的IP地址)中,则将其划分为A类,各个IP地址中若存在2-4个IP地址不在白名单中,则将其划分为B类,各个IP地址中若存在4个以上IP地址不在白名单中,则将其划分为C类,由此通过对多维度属性信息进行分类,能够实现对多维度属性信息进行离散化处理,得到业务数据的多维度属性信息,以便利用贝叶斯分类器对多维度属性信息进行综合分析。
204、获取样本业务数据的多维度样本属性信息,并基于多维度样本属性信息构建预设异常数据检测贝叶斯分类器。
205、利用预设异常数据检测贝叶斯分类器计算样本业务数据存在异常的第三价值参数和不存在异常的第四价值参数,以及多维度属性信息分别在存在异常条件下的第五价值参数和不存在异常条件下的第六价值参数。
其中,第三价值参数是指样本业务数据存在异常的第三概率值,第四价值参数是指样本业务数据不存在异常的第四概率值,第五价值参数和第六价值参数是指多维度属性信息分别在存在异常条件下的第五概率值和不存在异常条件下的第六概率值。
206、根据第三价值参数、第四价值参数、第五价值参数和第六价值参数,计算业务数据在多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数。
具体地,不同样本业务数据在多维度样本属性信息下均有其对应的异常或者正常的类别信息,如表1为样本业务数据的多维度样本属性信息,在确定业务数据的多维度属性信息之后,根据多维度样本属性信息和业务数据的多维度属性信息,利用预设异常数据检测贝叶斯分类器计算第一价值参数和第二价值参数,为了更好的说明第一价值参数和第二价值参数的计算过程,本发明实施例以多维度属性信息占用资源信息、所属行业信息、流转路径信息为例详细说明计算过程。
表1
业务数据编号 | 占用资源信息 | 所属行业信息 | 流转路径信息 | 类别 |
1 | 中级 | 医疗业 | A类 | 存在异常 |
2 | 高级 | 医疗业 | B类 | 存在异常 |
3 | 低级 | 汽车业 | C类 | 存在异常 |
4 | 高级 | 林业 | B类 | 不存在异常 |
5 | 低级 | 银行业 | A类 | 不存在异常 |
6 | 中级 | 牧业 | B类 | 不存在异常 |
例如,业务数据的多维度属性信息为中级、医疗业、A类,利用上述表中的多维度样本属性信息,推测业务数据是否为异常数据,具体需要分别计算业务数据在多维度属性信息下存在异常的第一价值参数(第一概率值)和不存在异常的第二价值参数(第二概率值),计算公式如下:
其中,a0代表业务数据为异常数据,a1代表业务数据为正常数据,p(a0/y1y2y3)和p(a1/y1y2y3)分别代表业务数据在多维度属性信息下为异常数据的第一价值参数和不为异常数据的第二价值参数,P(a0)代表业务数据为异常数据的第三价值参数,P(a1)代表业务数据为正常数据的第四价值参数,p(y1y2y3/a0)代表多维度属性信息在存在异常数据条件下的第五价值参数,p(y1y2y3/a1)代表多维度属性信息在不存在异常数据条件下的第六价值参数。
在本发明实施例中,根据表格中的多维度样本属性信息可以得出P(a0)=P(c1)=1/2,之后再计算第五价值参数和第六价值参数,最终根据第三价值参数、第四价值参数、第五价值参数和第六价值参数来计算业务数据在多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数,基于此,所述方法包括:将所述第三价值参数和所述第五价值参数相乘,得到所述业务数据在多维度属性信息下存在异常的第一价值参数;将所述第四价值参数和所述第六价值参数相乘,得到所述业务数据在多维度属性信息下不存在异常的第二价值参数。
具体地,有上述公式可知,将第三价值参数和第五价值参数相乘,第四价值参数和第六价值参数相乘,最终将相乘结果比较大小,便能够得知业务数据是否存在异常。在计算第五价值参数和第六价值参数的过程中,由于假定占用资源信息、所属行业信息和流转路径信息之间是相互独立的,因此可以到计算公式:
P(y1y2y3/a0)=P(y1/a0)P(y2/a0)P(y3/a0)
P(y1y2y3/a1)=P(y1/a1)P(y2/a1)P(y3/a1)
其中,y1、y2、y3为所述多维度样本属性信息中的3种信息,且所述多维度样本属性信息中的3种信息之间相互独立,a 0为业务数据为异常数据,a1为业务数据为正常数据,p(y1y2y3/a0)为第五价值参数,p(y1y2y3/a1)为第六价值参数。进一步地,若业务数据对应的多维度属性信息为中级、医疗业、A类,则根据表1中的多维度样本属性信息可以得到P(y1/a0)=1/3,P(y2/a0)=2/3,P(y3/a0)=1/3,P(y1/a1)=1/3,P(y2/a1)=0,P(y3/a1)=1/3,由此可以得到p(y1y2y3/a0)=2/27,p(y1y2y3/a1)=0,因此能够确定业务数据为异常数据。
207、根据第一价值参数和第二价值参数,判定业务数据是否存在异常。
对于本发明实施例,在获取第一价值参数和第二价值参数后,需要根据第一价值参数和第二价值参数来判断业务数据是否存在异常,基于此,步骤207具体包括:若所述第一价值参数大于所述第二价值参数,则确定所述业务数据为异常数据;若所述第一价值参数小于或等于所述第二价值参数,则确定所述业务数据为正常数据。
具体地,若业务数据在多维度属性信息下存在异常的第一价值参数大于业务数据在多维度属性信息下不存在异常的第二价值参数,则确定业务数据为异常数据,若业务数据在多维度属性信息下存在异常的第一价值参数小于或等于业务数据在多维度属性信息下不存在异常的第二价值参数,则确定业务数据为正常数据。
进一步地,在确定了待检测数据是否为异常数据后,如待检测数据为异常数据,则还需要对异常数据进行处理,基于此,所述方法包括:确定所述异常数据所属的异常类型,并确定与所述异常类型相对应的目标异常处理方式;利用所述目标异常处理方式对所述异常数据进行处理,得到处理后的数据;生成所述处理后的数据对应的校验通知信息;将所述校验通知信息发送至校验终端,其中,所述校验终端用于对所述处理后的数据进行校验。
其中,异常类型包括进程超时类型、数据传输异常类型和流量占用异常类型等,不同异常类型对应不同的处理方式,通过确定待检测数据所属的异常类型,来确定该异常类型对应的处理方式,最终利用该处理方式对异常数据进行处理,针对特定的事件,配置故障处理stepAction(处理步骤)和修复判断的stopStrategy(重试终止策略),从而实现故障自行恢复和治愈。处理后,还会生成待检测数据对应的异常检测和处理日志,与此同时,在对异常数据进行处理后,还会生成校验通知,并调用预设通讯工具接口,将校验通知发送给校验人员,以便校验人员对处理后的数据进行校验。
根据本发明提供的另一种异常数据的检测方法,与目前人工对异常数据进行检测的方式相比,本发明通过获取待检测数据;若所述待检测数据属于系统运行数据,则利用预设阈值检测算法对所述系统运行数据进行异常检测,得到所述系统运行数据对应的异常检测结果;若所述待检测数据属于业务数据,则获取所述业务数据的多维度属性信息,其中,所述多维度属性信息包括占用资源信息、所属行业信息、流转路径信息;并将所述业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行转化价值预测,得到所述业务数据在所述多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数;最终根据所述第一价值参数和所述第二价值参数,判定所述业务数据是否存在异常,由此通过将待检测数据进行分类,不同类型数据对应不同异常检测算法,能够使确定的检测算法适用于其对应的数据,从而能够减少资源浪费,同时还能够提高数据的异常检测精度,与此同时,利用阈值检测算法或者预设价值参数预测模型检测算法对异常数据进行检测,能够提高数据的异常检测效率,还能够避免由于人工的数据导致对异常数据进行漏检或错检的情况,从而进一步提高了数据的异常检测精度。
进一步地,作为图1的具体实现,本发明实施例提供了一种异常数据的检测装置,如图3所示,所述装置包括:数据获取单元31、检测单元32、信息获取单元33、预测单元34和判定单元35。
所述获取单元31,可以用于获取待检测数据。
所述检测单元32,可以用于若所述待检测数据属于系统运行数据,则利用预设阈值检测算法对所述系统运行数据进行异常检测,得到所述系统运行数据对应的异常检测结果。
所述信息获取单元33,可以用于若所述待检测数据属于业务数据,则获取所述业务数据的多维度属性信息。
所述预测单元34,可以用于将所述业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行转化价值预测,得到所述业务数据在所述多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数。
所述判定单元35,可以用于根据所述第一价值参数和所述第二价值参数,判定所述业务数据是否存在异常。
在具体应用场景中,为了对系统运行数据进行异常检测,如图4所示,所述检测单元32,包括第一确定模块321和第一判断模块322。
所述第一确定模块321,可以用于基于所述系统运行数据,确定系统运行过程中各个运行节点之间的运行时间间隔。
所述第一判断模块322,可以用于判断所述运行时间间隔是否大于预设时间阈值。
所述第一确定模块321,具体可以用于若所述运行时间间隔大于预设时间阈值,则判定所述系统运行数据为异常数据。
在具体应用场景中,为了对业务数据进行异常检测,所述预测单元34,包括:第二确定模块341、第二判断模块342和预测模块343。
所述第二确定模块341,可以用于确定所述业务数据对应的原生端。
所述第二判断模块342,可以用于判断所述原生端对应的标识信息是否在预设黑名单中。
所似第二确定模块341,具体可以用于若所述标识信息在预设黑名单中,则确定所述业务数据为异常数据。
所述预测模块343,可以用于若所述标识信息不在预设黑名单中,则将所述业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行转化价值预测,得到所述业务数据在所述多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数。
在具体应用场景中,为了对业务数据及其对应的多维度属性信息的转化价值进行预测,所述预测单元34,还包括构建模块344和计算模块345。
所述构建模块344,可以用于获取样本业务数据的多维度样本属性信息,并基于所述多维度样本属性信息构建预设异常数据检测贝叶斯分类器。
所述计算模块345,可以用于利用所述预设异常数据检测贝叶斯分类器计算所述样本业务数据存在异常的第三价值参数和不存在异常的第四价值参数,以及所述多维度属性信息分别在存在异常条件下的第五价值参数和不存在异常条件下的第六价值参数。
所述计算模块345,具体可以用于根据所述第三价值参数、所述第四价值参数、所述第五价值参数和所述第六价值参数,计算所述业务数据在多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数。
在具体应用场景中,为了为了计算第一价值参数和第二价值参数,所述计算模块345,具体可以用于将所述第三价值参数和所述第五价值参数相乘,得到所述业务数据在多维度属性信息下存在异常的第一价值参数;将所述第四价值参数和所述第六价值参数相乘,得到所述业务数据在多维度属性信息下不存在异常的第二价值参数。
在具体应用场景中,为了判定业务数据是否存在异常,所述判定单元35,具体可以用于若所述第一价值参数大于所述第二价值参数,则确定所述业务数据为异常数据;若所述第一价值参数小于或等于所述第二价值参数,则确定所述业务数据为正常数据。
在具体应用场景中,为了对异常数据进行处理,所述装置还包括:确定单元36、处理单元37、生成单元38和发送单元39。
所述确定单元36,可以用于确定所述异常数据所属的异常类型,并确定与所述异常类型相对应的目标异常处理方式;
所述处理单元37,可以用于利用所述目标异常处理方式对所述异常数据进行处理,得到处理后的数据。
所述生成单元38,可以用于生成所述处理后的数据对应的校验通知信息。
所述发送单元39,可以用于将所述校验通知信息发送至校验终端,其中,所述校验终端用于对所述处理后的数据进行校验。
需要说明的是,本发明实施例提供的一种异常数据的检测装置所涉及各功能模块的其他相应描述,可以参考图1所示方法的对应描述,在此不再赘述。
基于上述如图1所示方法,相应的,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:获取待检测数据;若所述待检测数据属于系统运行数据,则利用预设阈值检测算法对所述系统运行数据进行异常检测,得到所述系统运行数据对应的异常检测结果;若所述待检测数据属于业务数据,则获取所述业务数据的多维度属性信息;将所述业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行转化价值预测,得到所述业务数据在所述多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数;根据所述第一价值参数和所述第二价值参数,判定所述业务数据是否存在异常。
基于上述如图1所示方法和如图3所示装置的实施例,本发明实施例还提供了一种计算机设备的实体结构图,如图5所示,该计算机设备包括:处理器41、存储器42、及存储在存储器42上并可在处理器上运行的计算机程序,其中存储器42和处理器41均设置在总线43上所述处理器41执行所述程序时实现以下步骤:获取待检测数据;若所述待检测数据属于系统运行数据,则利用预设阈值检测算法对所述系统运行数据进行异常检测,得到所述系统运行数据对应的异常检测结果;若所述待检测数据属于业务数据,则获取所述业务数据的多维度属性信息;将所述业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行转化价值预测,得到所述业务数据在所述多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数;根据所述第一价值参数和所述第二价值参数,判定所述业务数据是否存在异常。
通过本发明的技术方案,本发明通过获取待检测数据;若所述待检测数据属于系统运行数据,则利用预设阈值检测算法对所述系统运行数据进行异常检测,得到所述系统运行数据对应的异常检测结果;若所述待检测数据属于业务数据,则获取所述业务数据的多维度属性信息,其中,所述多维度属性信息包括占用资源信息、所属行业信息、流转路径信息;并将所述业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行转化价值预测,得到所述业务数据在所述多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数;最终根据所述第一价值参数和所述第二价值参数,判定所述业务数据是否存在异常,由此通过将待检测数据进行分类,不同类型数据对应不同异常检测算法,能够使确定的检测算法适用于其对应的数据,从而能够减少资源浪费,同时还能够提高数据的异常检测精度,与此同时,利用阈值检测算法或者预设价值参数预测模型检测算法对异常数据进行检测,能够提高数据的异常检测效率,还能够避免由于人工的数据导致对异常数据进行漏检或错检的情况,从而进一步提高了数据的异常检测精度。
显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。
Claims (10)
1.一种异常数据的检测方法,其特征在于,包括:
获取待检测数据;
若所述待检测数据属于系统运行数据,则利用预设阈值检测算法对所述系统运行数据进行异常检测,得到所述系统运行数据对应的异常检测结果;
若所述待检测数据属于业务数据,则获取所述业务数据的多维度属性信息;
将所述业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行转化价值预测,得到所述业务数据在所述多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数;
根据所述第一价值参数和所述第二价值参数,判定所述业务数据是否存在异常。
2.根据权利要求1所述的方法,其特征在于,所述利用预设阈值检测算法对所述系统运行数据进行异常检测,得到所述系统运行数据对应的异常检测结果,包括:
基于所述系统运行数据,确定系统运行过程中各个运行节点之间的运行时间间隔;
判断所述运行时间间隔是否大于预设时间阈值;
若所述运行时间间隔大于预设时间阈值,则判定所述系统运行数据为异常数据;
若所述运行时间间隔小于或等于预设时间阈值,则判定所述系统运行数据为正常数据。
3.根据权利要求1所述的方法,其特征在于,所述将所述业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行转化价值预测,得到所述业务数据在所述多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数,包括:
确定所述业务数据对应的原生端;
判断所述原生端对应的标识信息是否在预设黑名单中;
若所述标识信息在预设黑名单中,则确定所述业务数据为异常数据;
若所述标识信息不在预设黑名单中,则将所述业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行转化价值预测,得到所述业务数据在所述多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数。
4.根据权利要求1所述的方法,其特征在于,所述预设价值参数预测模型为预设异常数据检测贝叶斯分类器,所述将所述业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行转化价值预测,得到所述业务数据在所述多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数,包括:
获取样本业务数据的多维度样本属性信息,并基于所述多维度样本属性信息构建预设异常数据检测贝叶斯分类器;
利用所述预设异常数据检测贝叶斯分类器计算所述样本业务数据存在异常的第三价值参数和不存在异常的第四价值参数,以及所述多维度属性信息分别在存在异常条件下的第五价值参数和不存在异常条件下的第六价值参数;
根据所述第三价值参数、所述第四价值参数、所述第五价值参数和所述第六价值参数,计算所述业务数据在多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第三价值参数、所述第四价值参数、所述第五价值参数和所述第六价值参数,计算所述业务数据在多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数,包括:
将所述第三价值参数和所述第五价值参数相乘,得到所述业务数据在多维度属性信息下存在异常的第一价值参数;
将所述第四价值参数和所述第六价值参数相乘,得到所述业务数据在多维度属性信息下不存在异常的第二价值参数。
6.根据权利要求1所述的方法,其特征在于,所述根据所述第一价值参数和所述第二价值参数,判定所述业务数据是否存在异常,包括:
若所述第一价值参数大于所述第二价值参数,则确定所述业务数据为异常数据;
若所述第一价值参数小于或等于所述第二价值参数,则确定所述业务数据为正常数据。
7.根据权利要求6所述的方法,其特征在于,在所述确定所述业务数据为异常数据之后,所述方法还包括:
确定所述异常数据所属的异常类型,并确定与所述异常类型相对应的目标异常处理方式;
利用所述目标异常处理方式对所述异常数据进行处理,得到处理后的数据;
生成所述处理后的数据对应的校验通知信息;
将所述校验通知信息发送至校验终端,其中,所述校验终端用于对所述处理后的数据进行校验。
8.一种异常数据的检测装置,其特征在于,包括:
数据获取单元,用于获取待检测数据;
检测单元,用于若所述待检测数据属于系统运行数据,则利用预设阈值检测算法对所述系统运行数据进行异常检测,得到所述系统运行数据对应的异常检测结果;
信息获取单元,用于若所述待检测数据属于业务数据,则获取所述业务数据的多维度属性信息;
预测单元,用于将所述业务数据及其对应的多维度属性信息输入至预设价值参数预测模型中进行转化价值预测,得到所述业务数据在所述多维度属性信息下存在异常的第一价值参数和不存在异常的第二价值参数;
判定单元,用于根据所述第一价值参数和所述第二价值参数,判定所述业务数据是否存在异常。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310491909.0A CN116720148A (zh) | 2023-05-04 | 2023-05-04 | 异常数据的检测方法、装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310491909.0A CN116720148A (zh) | 2023-05-04 | 2023-05-04 | 异常数据的检测方法、装置、存储介质及计算机设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116720148A true CN116720148A (zh) | 2023-09-08 |
Family
ID=87872322
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310491909.0A Pending CN116720148A (zh) | 2023-05-04 | 2023-05-04 | 异常数据的检测方法、装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116720148A (zh) |
-
2023
- 2023-05-04 CN CN202310491909.0A patent/CN116720148A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10417072B2 (en) | Scalable predictive early warning system for data backup event log | |
US11108795B2 (en) | Intrusion detection using robust singular value decomposition | |
CN107819627B (zh) | 系统故障处理方法及服务器 | |
CN111866016B (zh) | 日志的分析方法及系统 | |
CN111817891A (zh) | 网络故障处理方法、装置、存储介质及电子设备 | |
CN103797468A (zh) | 系统异常的自动化检测 | |
CN108919776B (zh) | 一种故障评估方法及终端 | |
CN111444072B (zh) | 客户端的异常识别方法、装置、计算机设备和存储介质 | |
CN109669844A (zh) | 设备故障处理方法、装置、设备和存储介质 | |
CN107341095B (zh) | 一种智能分析日志数据的方法及装置 | |
Lakhno et al. | Development of adaptive expert system of information security using a procedure of clustering the attributes of anomalies and cyber attacks | |
WO2019062192A1 (zh) | 业务员行为风险甄别管理方法、应用服务器及计算机可读存储介质 | |
CN111143101A (zh) | 用于确定故障根源的方法、装置、存储介质及电子设备 | |
CN114595219A (zh) | 一种数据存储方法、装置和系统 | |
CN116991675A (zh) | 一种异常访问监控方法、装置、计算机设备及存储介质 | |
CN116720148A (zh) | 异常数据的检测方法、装置、存储介质及计算机设备 | |
CN109145609B (zh) | 一种数据处理方法和装置 | |
CN110795308A (zh) | 一种服务器检验方法、装置、设备及存储介质 | |
CN113448955B (zh) | 数据集质量评估方法、装置、计算机设备及存储介质 | |
US20180039440A1 (en) | Non-transitory computer-readable recording medium, boundary value specifying method, and boundary value specifying apparatus | |
CN114281774A (zh) | 一种日志识别方法、装置、电子设备及存储介质 | |
CN110210048B (zh) | 建立巡察分析模型的方法和装置 | |
CN108881272B (zh) | 一种适用于冗余信息系统的攻击面建模方法及装置 | |
CN109032922B (zh) | 接口诊断方法、装置、设备和存储介质 | |
KR20170060279A (ko) | 탐지 규칙 검증 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |