CN113033639A - 一种异常数据检测模型的训练方法、电子设备及存储介质 - Google Patents

一种异常数据检测模型的训练方法、电子设备及存储介质 Download PDF

Info

Publication number
CN113033639A
CN113033639A CN202110281024.9A CN202110281024A CN113033639A CN 113033639 A CN113033639 A CN 113033639A CN 202110281024 A CN202110281024 A CN 202110281024A CN 113033639 A CN113033639 A CN 113033639A
Authority
CN
China
Prior art keywords
data
abnormal
detected
training
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110281024.9A
Other languages
English (en)
Inventor
钟丹晔
张佳佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Baowangda Software Technology Co ltd
Original Assignee
Jiangsu Baowangda Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Baowangda Software Technology Co ltd filed Critical Jiangsu Baowangda Software Technology Co ltd
Priority to CN202110281024.9A priority Critical patent/CN113033639A/zh
Publication of CN113033639A publication Critical patent/CN113033639A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Debugging And Monitoring (AREA)

Abstract

本发明实施例公开了一种异常数据检测模型的训练方法、电子设备及存储介质。所述异常数据检测模型的训练方法,包括:获取待检测异常训练数据;对待检测异常训练数据进行特征选择处理和特征分布处理,得到模型训练样本数据;根据模型训练样本确定目标样本特征矩阵;根据目标样本特征矩阵训练异常数据检测模型。本发明实施例的技术方案能够提升异常数据检测的准确率。

Description

一种异常数据检测模型的训练方法、电子设备及存储介质
技术领域
本发明实施例涉及模型训练技术领域,尤其涉及一种异常数据检测模型的训练方法、电子设备及存储介质。
背景技术
随着信息技术的发展,越来越多的数据需要进行分类识别,尤其是对异常数据的识别。目前,对异常数据分类识别的方法主要分为两种,一种是通过人工对异常数据进行识别分类,另一种是通过异常数据识别分类模型对异常数据进行识别分类。其中,异常数据识别分类模型可以是通过机器学习获取的,用于对异常数据进行识别分类的模型。异常数据可以是业务在异常执行过程中或业务因异常原因停止执行时所产生的数据。
现有技术中,通过人工对异常数据进行识别分类的效率低,且由于经验不足等原因往往会导致异常数据识别分类准确率低。虽然异常数据识别分类模型相较于人工识别方法的异常数据识别分类的准确率高,但异常数据识别分类模型需要大量数据进行训练,而用于模型训练的数据的准确性直接影响异常数据识别分类模型的准确度,也即如何提升模型训练的数据的准确性成为提升异常数据识别分类模型的关键。但是,目前用于模型训练的数据的准确性较低,这导致了现有异常数据识别分类模型的异常数据检测的准确率较低。
发明内容
本发明实施例提供了一种异常数据检测模型的训练方法、电子设备及存储介质,可以通过异常数据检测模型提升异常数据检测的准确率。
第一方面,本发明实施例提供了一种异常数据检测模型的训练方法,包括:
获取待检测异常训练数据;
对待检测异常训练数据进行特征选择处理和特征分布处理,得到模型训练样本数据;
根据模型训练样本确定目标样本特征矩阵;
根据目标样本特征矩阵训练异常数据检测模型。
第二方面,本发明实施例还提供了一种异常数据检测方法,包括:
获取待检测数据;
将待检测数据输入至异常数据检测模型,以根据异常数据检测模型检测待检测数据中的异常数据是否超过异常数据告警阈值;
其中,异常数据检测模型通过本发明任意实施例所提供的异常数据检测模型的训练方法训练得到。
第三方面,本发明实施例还提供了一种异常数据检测模型的训练装置,包括:
待检测异常训练数据获取模块,用于获取待检测异常训练数据;
模型训练样本数据确定模块,用于对待检测异常训练数据进行特征选择处理和特征分布处理,得到模型训练样本数据;
目标样本特征矩阵确定模块,用于根据模型训练样本确定目标样本特征矩阵;
异常数据检测模型训练模块,用于根据目标样本特征矩阵训练异常数据检测模型。
第四方面,本发明实施例还提供了一种异常数据检测装置,包括:
待检测数据获取模块,用于获取待检测数据;
异常数据比较模块,用于将待检测数据输入至异常数据检测模型,以根据异常数据检测模型检测待检测数据中的异常数据是否超过异常数据告警阈值;
其中,异常数据检测模型通过本发明任意实施例所提供的异常数据检测模型的训练方法训练得到。
第五方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所提供的异常数据检测模型的训练方法或异常数据检测方法。
第六方面,本发明实施例还提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所提供的异常数据检测模型的训练方法或异常数据检测方法。
本实施例的技术方案,通过获取待检测异常训练数据,并对待检测异常训练数据进行特征选择处理和特征分布处理,得到模型训练样本数据,进一步根据模型训练样本确定目标样本特征矩阵,从而根据目标样本特征矩阵训练异常数据检测模型。其中,特征选择处理可以对待检测异常训练数据进行特征筛选,以获得待检测异常训练数据中的重要特征。特征分布处理可以挖掘待检测异常训练数据的潜在分布状态,以获取待检测异常训练数据的潜在分布状态。通过对待检测异常训练数据进行特征选择处理和特征分布处理,可以提升模型训练样本数据的数据准确性,也即利用数据准确性更高的模型训练样本数据确定的目标样本特征矩阵,训练异常数据检测模型,可以使异常数据检测模型的异常数据检测的准确率更高,解决了现有技术中异常数据检测的准确率低的问题,提升了异常数据检测的准确率。
附图说明
图1是本发明实施例一提供的一种异常数据检测模型的训练方法的流程图;
图2是本发明实施例二提供的一种异常数据检测模型的训练方法的流程图;
图3是本发明实施例二提供的一种异常数据检测模型的训练方法的流程图;
图4是本发明实施例三提供的一种异常数据检测方法的流程图;
图5是本发明实施例四提供的一种异常数据检测模型的训练装置的示意图;
图6是本发明实施例五提供的一种异常数据检测装置的示意图;
图7为本发明实施例六提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。
另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
实施例一
图1是本发明实施例一提供的一种异常数据检测模型的训练方法的流程图,本实施例可适用于准确识别异常数据的情况,该方法可以由异常数据检测模型的训练装置来执行,该装置可以由软件和/或硬件的方式来实现,并一般可集成在电子设备中。相应的,如图1所示,该方法包括如下操作:
S110、获取待检测异常训练数据。
其中,待检测异常训练数据可以是用于训练模型的,根据异常数据检测需求所确定的数据。
相应的,可以根据所要训练的模型也即能够进行异常数据检测的模型需求确定待分析数据,并将待分析数据中的全部或部分数据作为待检测异常训练数据。
示例性的,可以将待分析数据随机等分为10份,其中8份作为待检测异常训练数据。本发明实施例对待分析数据随机等分份数以及待检测异常训练数据的具体份数不作限定。
S120、对待检测异常训练数据进行特征选择处理和特征分布处理,得到模型训练样本数据。
其中,特征选择处理可以用于特征筛选,得到特征选择处理结果。特征选择处理结果可以是与待检测异常训练数据对应的特征的筛选结果。特征分布处理可以用于使特征选择结果服从特定分布状态。模型训练样本数据可以是待检测异常训练数据经过特征选择处理以及特征分布处理的处理结果。具体的,与待检测异常训练数据对应的特征可以是待检测异常训练数据所具有的特征,用于确定模型训练样本数据。
在本发明实施例中,可以根据待检测异常训练数据确定与待检测异常训练数据对应的特征,并对特征进行特征选择处理,得到特征选择处理结果,进一步对特征选择处理结果进行特征分布处理,从而可以将待检测异常训练数据经过特征选择处理以及特征分布处理的处理结果作为模型训练样本数据。
由此可见,通过对待检测异常训练数据进行特征选择处理可以得到待检测异常训练数据中的重要特征。通过对待检测异常训练数据进行特征分布处理可以获取待检测异常训练数据的潜在分布状态。在得到与待检测异常训练数据对应的重要特征以及潜在分布状态之后,可以根据重要特征以及潜在分布状态确定模型训练样本数据,以提高模型训练样本数据的数据准确率。
S130、根据模型训练样本数据确定目标样本特征矩阵。
其中,目标样本特征矩阵可以是模型训练样本数据对应特征经过调整处理后,得到的特征矩阵。特征矩阵可以用于表征与矩阵元素对应的特征,特征矩阵中的同一列元素具有同一特征。可选的,矩阵元素可以包括与模型训练样本数据关联的数据。
相应的,可以根据模型训练样本数据确定与之对应的特征矩阵,并将得到的特征矩阵进行调整处理,从而将处理后的特征矩阵作为目标样本特征矩阵。可选的,调整处理可以包括但不限于合并处理以及筛选处理等。
S140、根据目标样本特征矩阵训练异常数据检测模型。
其中,异常数据检测模型可以用于检测异常数据。可选的,异常数据例如可以是业务在异常执行过程中或业务因异常原因停止执行时所产生的数据。
相应的,在得到目标样本特征矩阵之后,可以将目标样本特征矩阵输入至异常数据检测模型,以通过目标样本特征矩阵训练异常数据检测模型。训练成功的异常数据检测模型可以对异常数据进行检测。可选的,如果异常数据检测模型的异常数据检测准确率达不到标准,可以对目标样本特征矩阵进行调整,通过更新后的目标样本特征矩阵继续训练异常数据检测模型直至异常数据检测模型的准确率达到标准。如果异常数据检测模型的异常数据检测准确率能够达到标准,则不需要对目标样本特征矩阵进行调整。
本实施例的技术方案,通过获取待检测异常训练数据,并对待检测异常训练数据进行特征选择处理和特征分布处理,得到模型训练样本数据,进一步根据模型训练样本确定目标样本特征矩阵,从而根据目标样本特征矩阵训练异常数据检测模型。其中,特征选择处理可以对待检测异常训练数据进行特征筛选,以获得待检测异常训练数据中的重要特征。特征分布处理可以挖掘待检测异常训练数据的潜在分布状态,以获取待检测异常训练数据的潜在分布状态。通过对待检测异常训练数据进行特征选择处理和特征分布处理,可以提升模型训练样本数据的数据准确性,也即利用数据准确性更高的模型训练样本数据确定的目标样本特征矩阵,训练异常数据检测模型,可以使异常数据检测模型的异常数据检测的准确率更高,解决了现有技术中异常数据检测的准确率低的问题,提升了异常数据检测的准确率。
实施例二
图2是本发明实施例二提供的一种异常数据检测模型的训练方法的流程图,本实施例以上述实施例为基础进行具体化,在本实施例中,给出了对待检测异常训练数据进行特征选择处理和特征分布处理的具体的可选的实施方案,相应的,如图2所示,该方法包括如下操作:
S210、获取待检测异常训练数据。
目前,在互联网领域中,网络攻击、服务器异常、用户侧行为异常以及网络异常等多种因素均会导致网络访问异常,为了确定导致网络访问异常的真正原因,往往需要对网络数据进行检测。通过人为设定异常检测条件对网络数据进行解析可以确定导致网络异常访问的部分原因。但是由于人为设定异常检测条件缺少数据支撑且人为经验不足等因素,使得通过人为设定异常检测条件确定网络异常访问的原因的检测结果准确率低。
在本发明的一个可选实施例中,获取待检测异常训练数据,可以包括:获取目标时间窗口内的待检测异常网络数据;其中,待检测异常网络数据可以包括F5设备日志数据;根据待检测异常网络数据确定同源IP待检测异常网络数据;从同源IP待检测异常网络数据中划分待检测异常训练数据。
其中,目标时间窗口可以是预设的时间段。待检测异常网络数据可以是需要进行异常数据检测的,用于确定检测异常训练数据的网络数据。可选的,待检测异常网络数据可以包括用于网络数据传输的设备产生的运行数据或日志数据,如F5设备日志数据。F5设备日志数据可以是F5设备产生的日志数据。同源IP待检测异常网络数据可以是协议、域名以及端口均相同的待检测异常网络数据。
在本发明实施例中,可以根据目标时间窗口对待测异常网络数据进行筛选,得到目标时间窗口内的待检测异常网络数据,进一步确定待检测异常网络数中的同源IP待检测异常网络数据,并对同源IP待检测异常网络数据进行分组处理,得到待检测异常训练数据。可选的,待检测异常网络数据可以包括F5设备日志数据。
示例性的,可以从F5设备中解析出5月份的F5设备日志数据,并根据5月份的F5设备日志数据确定同源IP的F5设备日志数据。进一步将同源IP的F5设备日志数据进行分组处理,并根据分组处理结果确定待检测异常训练数据。可选的,可以以1分钟为时间单位对同源IP的F5设备日志数据进行划分,并随机取出1分钟的同源IP的F5设备日志数据中80%的数据作为待检测异常训练数据。其中,F5设备可以用于最大限度提升链路性能以及对广域网链路流量管理。
在异常网络数据检测的应用场景中,往往需要大量标记样本数据对检测模型进行训练,虽然相较于人为设定异常检测条件的方法检测结果准确率提高了,但是网络数据特征的复杂多变性使得通过机器学习确定的检测模型不能适用于新的检测场景。例如,在待检测异常训练数据为F5设备日志数据时,由于F5设备日志数据缺乏样本数据的支撑,通过少量的数据训练有监督机器学习建立的模型时,模型检测异常数据的准确率较低。此外,部分无监督学方法可以检测出由于网络攻击导致的网络访问异常,但是当检测数据数量较大时,此类无监督学习算法的检测效率较低,且只能实现一些现有已知异常的检测,而检测不出服务器响应异常以及用户侧行为异常。例如,无监督学习的WAF日志检测,可以针对WAF日志中的URL参数个数、参数值长度的均值、参数字符分布、参数值长度的方差以及URL访问频率等做SQL注入、木马注入、XSS检测以及DDOS检测,也即对一些已知网络攻击的检测,不能够对其他类型的网络访问异常进行检测。而通过对F5设备日志数据中的异常数据的识别可以确定导致网络访问异常的多种原因(服务器异常,F5设备异常或用户侧异常等),因此,通过利用F5设备日志数据对无监督机器学习模型进行训练,可以提高异常数据的检测的准确率。
S220、根据待检测异常训练数据确定特征关联数据,特征关联数据包括单特征数据和/或组合特征数据。
其中,特征关联数据可以是与待检测异常训练数据对应的,表征特征的数据。单特征数据可以是表征单一特征的数据。可选的,如果待检测异常训练数据为待检测异常网络数据,则单特征数据可以包括但不限于响应状态异常个数、URL(Uniform ResourceLocator,统一资源定位符)平均长度、URL最大长度、URL参数个数、特殊字符个数以及目的主机个数等。响应异常状态个数可以是服务器响应异常的次数。目的主机个数可以是同源IP访问服务器的个数,例如,目的主机个数可以包括1分钟内同源IP访问服务器的IP个数。组合特征数据可以是至少两个单特征数据的组合数据。如果待检测异常训练数据为待检测异常网络数据,则组合特征数据可以包括但不限于响应状态异常个数/响应总个数以及URL参数个数/URL最大长度等。响应总个数可以是服务器响应的总次数。响应状态异常个数可以是设备受到攻击或者设备自身故障等原因导致的设备不能正常工作的次数。特殊字符个数可以是预先设定的,表征特殊字符数量的数值,例如,特殊字符可以包括键盘上的“!”、“#”、“$”以及“%”等字符。
相应的,可以在获取到待检测异常训练数据之后,根据待检测异常训练数据确定与待检测异常训练数据对应的特征关联数据,进一步可以从特征关联数据中解析出单特征数据和/或组合特征数据。
S230、对特征关联数据进行特征数据归一化处理。
其中,特征数据归一化处理可以用于将特征关联数据进行归一化处理,例如将特征关联数据映射到0到1的数据范围。
相应的,可以利用归一化算法对特征关联数据进行特征数据归一化处理,例如,可以将特征关联数据映射到0到1的数据范围。归一化算法可以是实现特征数据归一化处理的数学算法。
在本发明的一个可选实施例中,对特征关联数据进行特征数据归一化处理,可以包括:确定特征关联数据的连续值特征数据和/或离散值特征数据;对连续值特征数据进行连续归一化处理,得到连续归一化处理结果;连续归一化处理包括极值归一化处理或差值归一化处理;和/或,对离散值特征数据进行离散归一化处理,得到离散归一化处理结果;将连续归一化处理和/或离散归一化处理结果确定为目标归一化处理结果。
其中,连续值特征数据可以是在一定区间内数值呈连续分布状态(数值在一定范围内是连续不断的)的特征关联数据。连续归一化处理可以是对连续值特征数据进行的特征数据归一化处理。连续归一化处理结果可以是对连续值特征数据进行连续归一化处理的处理结果。离散值特征数据可以在一定区间内呈离散分布状态的特征关联数据。极值归一化处理可以是当前值与最大值的求商处理。差值归一化处理可以是最大值与当前值的差与最大值与最小值的差的求商处理。离散归一化处理可以是对离散值特征数据进行的特征数据归一化处理。可选的,离散归一化处理可以包括但不限于z-score(标准差标准化)归一化处理等方式。离散归一化处理结果可以是对离散值特征数据进行的离散归一化处理的处理结果。目标归一化处理结果可以是特征关联数据进行特征数据归一化处理的处理结果。如果待检测异常训练数据为待检测异常网络数据,则连续值特征数据可以是随待检测异常训练数据的数据量变化的特征关联数据。离散值特征数据可以是固定的,不随待检测异常训练数据的数据量变化的特征关联数据。例如,连续值特征数据可以包括但不限于响应状态异常个数、URL最大长度以及URL参数个数等。离散值特征数据可以包括但不限于特殊字符个数。
在本发明实施例中,可以首先对特征关联数据进行解析,得到连续值特征数据和/或离散值特征数据。如果确定存在连续值特征数据,则可以对连续值特征数据进行连续归一化处理,得到连续归一化处理结果。可选的,可以对连续值特征数据进行极值归一化处理或差值归一化处理,得到连续归一化处理结果。如果确定存在离散值特征数据,则可以对离散值特征数据进行离散归一化处理,得到离散归一化处理结果,可以进一步将得到的连续归一化处理和/或离散归一化处理结果作为目标归一化处理结果,以根据目标归一化处理结果确定模型训练样本数据。
S240、对目标归一化处理结果进行随机取样,得到归一化取样数据。
其中,归一化取样数据可以是目标归一化处理结果的随机取样结果。
相应的,在得到目标归一化处理结果之后,可以对目标归一化处理结果进行随机取样,并将随机取样结果作为归一化取样数据,以根据归一化取样数据确定模型训练样本数据。
S250、根据归一化取样数据确定特征分布处理方法,并根据特征分布处理方法对目标归一化处理结果进行特征分布处理,得到模型训练样本数据。
其中,特征分布处理方法可以是使归一化取样数据服从特定分布状态的算法。可选的,特定分布状态可以包括但不限于正态分布和几何分布等。特征分布处理方法可以包括取对数法、平方根法、指数运算法和幂运算法。
在本发明实施例中,可以首先根据归一化取样数据确定与之对应的特征分布处理方法,并根据特征分布处理方法对目标归一化处理结果进行特征分布处理,可以进一步将处理结果作为模型训练样本数据。可选的,可以采用取对数法、求平方根法、指数运算法以及幂运算法中的至少一种算法对目标归一化处理结果进行特征分布处理,使目标归一化处理结果服从正态分布。
示例性的,可以利用octave(工程计算软件)工具实现归一化取样数据的直方分布可视化,并根据归一化取样数据的直方分布情况确定特征分布处理方法,如最终确定的特征分布处理方法为指数运算法和幂运算法,具体的,可以对目标归一化处理结果先进行幂运算再进行指数运算,将计算结果作为模型训练样本数据。可选的,可以通过公式exp(z.^1.5)确定模型训练样本数据,其中z表示目标归一化处理结果,exp()表示以e为底的指数函数。
S260、对模型训练样本数据进行数据聚类处理,得到样本数据类簇。
其中,数据聚类处理可以用于将模型训练样本数据划分为至少一个簇。样本数据类簇可以是模型训练样本数据的数据聚类处理结果。
在本发明实施例中,可以利用相关算法对模型训练样本数据进行数据聚类处理,也即将模型训练样本数据分为至少一个簇,并将经过数据聚类处理的模型训练样本数据作为样本数据类簇。可选的,相关算法可以包括但不限于分类学习算法。示例性的,可以利用单分类学习算法对模型训练样本数据进行数据聚类处理。例如,可以利用kmeans算法计算出样本数据类簇的类簇中心,也即中心值,样本数据类簇中除中心值以外的数值,围绕中心值形成一个数据簇。
S270、根据样本数据类簇确定目标样本特征矩阵。
相应的,可以根据样本数据类簇中各数据与中心值的差确定目标样本特征矩阵,以根据目标样本特征矩阵训练异常数据检测模型。
在本发明的一个可选实施例中,根据样本数据类簇确定目标样本特征矩阵,可以包括:确定模型训练样本数据的当前异常率,根据样本数据类簇的类簇中心确定基准矩阵样本;对基准矩阵样本进行矩阵调整处理,得到目标样本特征矩阵;其中,矩阵调整处理包括权重调整处理、特征缩减处理以及特征组合处理中的至少一项处理方式。
其中,当前异常率可以是预先设定的小于1的数值,用于调整异常数据检测模型。类簇中心可以是样本数据类簇的中心值。基准矩阵样本可以是与样本数据类簇中满足当前异常率的数据对应的特征矩阵。矩阵调整处理可以用于对基准矩阵样本对应的特征进行调整。权重调整处理可以是调整基准矩阵样本中各元素对应特征的权重。特征缩减处理可以是排除基准矩阵样本中无法提高异常数据检测准确率的元素对应的特征。特征组合处理可以是将基准矩阵样本中的元素对应的特征进行组合。
在本发明实施例中,可以首先确定模型训练样本数据的当前异常率,并确定样本数据类簇中各数据到类簇中心的距离满足当前异常率的数据,从而可以根据满足当前异常率的数据创建基准矩阵样本,以进一步对基准矩阵样本进行矩阵调整处理,并将矩阵调整处理结果作为目标样本特征矩阵。其中,矩阵调整处理可以包括权重调整处理、特征缩减处理以及特征组合处理中的至少一项处理方式。
示例性的,可以首先确定模型训练样本数据的当前异常率,如0.01%。在确定当前异常率之后,可以以样本数据类簇的类簇中心为原点,计算样本数据类簇到类簇中心的距离,以进一步根据样本数据类簇中各数据到类簇中心的距离,确定样本数据类簇中满足当前异常率的数据。在得到满足当前异常率的数据之后,可以确定满足当前异常率的数据所对应的特征,以根据确定好的特征创建基准矩阵样本,进一步对基准矩阵样本进行实际异常数据识别,如果异常数据识别率不满足评估标准,则对基准矩阵样本进行矩阵调整处理,例如,可以对基准矩阵样本进行权重调整处理、特征缩减处理以及特征组合处理中的至少一项调整处理,否则不对基准矩阵样本进行矩阵调整处理。最终可以将基准矩阵样本的矩阵调整处理结果作为目标样本特征矩阵。评估标准可以是预先设定的,用于判断基准矩阵样本是否需要进行矩阵调整处理。可选的,评估标准可以包括但不限于异常数据的真阳率。
可选的,可以对样本数据类簇中满足当前异常率的数据进行实际异常数据识别,并计算根据当前异常率确定的异常数据的真阳率、误报率以及召回率,可以进一步根据真阳率、误报率以及召回率对基准矩阵样本中的元素对应的特征进行权重调整也即权重调整处理;根据真阳率、误报率以及召回率对无明显异常特征性的特征进行排除也即特征缩减处理;根据真阳率、误报率以及召回率对基准矩阵样本中的特征进行组合也即特征组合处理。
示例性的,假设当前异常率为0.01%,异常数据检测模型检测出80条异常数据,对检测出的80条异常数据进行识别,如果检测出的80条异常数据中有20条是误报数据,也即该20条数据为正常数据但异常数据检测模型将其识别为异常数据。当这20条数据误报是由于访问总次数这个特征导致的,则可以通过权重调整处理降低访问次数这个特征的权重。如果20条误报数据都是由于URL平均长度这一特征而产生误报,并且其他60条真实异常数据没有因为URL平均长度产生误报,则可以通过特征缩减处理将URL平均长度这一特征进行排除。在实际情况中,当访问总次数比较低时,响应状态异常个数这一特征确实能够表征数据异常,但当访问总次数比较高时,响应状态异常个数这一特征不能作为判别异常数据的标准,也即将单一的响应状态异常个数作为异常数据识别标准会导致误报。如果20条误报数据是因为响应状态异常个数这个特征产生误报,则用响应状态异常个数/访问总次数作为组合特征。从而可以通过提高基准矩阵样本中的访问总次数特征权重,排除URL平均长度这一单特征数据,并将响应状态异常个数与访问总次数的商作为组合特征数据,以进一步将以上调整处理的结果作为目标样本特征矩阵。
S280、根据目标样本特征矩阵训练异常数据检测模型。
在本发明的一个可选实施例中,在根据目标样本特征矩阵训练异常数据检测模型之后,还可以包括:在确定异常数据检测模型的模型准确度小于准确度阈值的情况下,更新当前异常率,并返回执行根据样本数据类簇的类簇中心确定基准矩阵样本的操作,直至确定异常数据检测模型的模型准确度大于或等于准确度阈值。
其中,准确度阈值可以是预先设定的,用于判断异常数据检测模型的模型准确度是否符合标准。可选的,准确度阈值可以包括真阳率阈值,误报率阈值、召回率阈值以及误报率阈值中的一种或多种。示例性的,真阳率阈值、误报率阈值、召回率阈值以及误报率阈值可以是预先设置的,符合模型准确度评估标准的小于1的百分数。本发明实施例对准确度阈值所包括的具体阈值类型不作限定,也不对准确度阈值的具体数值大小做限定。
在本发明实施例中,可以通过目标样本特征矩阵训练异常数据检测模型,在对异常数据检测模型进行训练之后,可以根据实际异常数据确定异常数据检测模型的模型准确度,如果异常数据检测模型的模型准确度小于准确度阈值,代表模型尚未训练成功,则可以更新当前异常率,并根据新的异常率确定新的样本数据类簇的类簇中心,以及与新的样本数据类簇的类簇中心对应的基准矩阵样本,进一步对新的基准矩阵样本进行矩阵调整处理,得到新的目标样本特征矩阵,从而可以利用新的目标样本特征矩阵训练异常数据检测模型,直至异常数据检测模型的模型准确度大于或等于准确度阈值。
示例性的,在根据目标样本特征矩阵训练异常数据检测模型之后,可以根据实际异常数据以及异常数据检测模型检测出的异常数据,计算异常数据的真阳率、误报率以及召回率,从而可以根据真阳率、误报率以及召回率确定异常数据检测模型的模型准确度。当真阳率小于真阳率阈值、误报率小于误报率阈值,或者召回率小于召回率阈值中的至少一个判断条件满足时,则更新当前异常率,返回执行确定新的类簇中心、基准矩阵样本以及目标样本特征矩阵,进一步根据更新的目标样本特征矩阵训练异常数据检测模型,直至异常数据检测模型的模型准确度大于或等于准确度阈值。
示例性的,如果假设当前异常率为0.01%,真阳率阈值为90%,异常数据检测模型检测出80条异常数据,对检测出的80条异常数据进行识别,如果其中30条为误报,异常数据检测模型的异常数据真阳率为62.5%,异常数据检测模型的异常数据真阳率低于真阳率阈值,则调低当前异常率,重新确定类簇中心以及基准矩阵样本,直至确定异常数据检测模型的模型准确度大于或等于真阳率阈值。可选的,为了防止当前异常率设置的不合理,在异常数据检测模型的异常数据真阳率为100%,可以提高当前异常率,并根据新的当前异常率重新确定类簇中心以及基准矩阵样本,直至再次确定异常数据检测模型的模型准确度大于或等于真阳率阈值。
在本发明的一个可选实施例中,在根据目标样本特征矩阵训练异常数据检测模型之后,还可以包括:从同源IP待检测异常网络数据中划分待检测异常测试数据;待检测异常测试数据可以包括待检测异常测试样本数据和待检测异常交叉检验数据;根据待检测异常测试数据测试异常数据检测模型,得到模型测试结果;在模型测试结果符合模型评估标准的情况下,将异常数据检测模型确定为目标异常数据检测模型。
其中,待检测异常测试数据可以是同源IP待检测异常网络数据中的部分数据,用于测试异常数据检测模型。待检测异常测试样本数据可以是待检测异常测试数据中的部分数据。待检测异常交叉检验数据可以是由待检测异常测试样本数据,以及待检测异常训练数据按照一定比例组合成的。模型测试结果可以用于表征异常数据检测模型的模型准确度。例如,模型测试结果可以包括但不限于异常数据真阳率以及异常数据误报率等。模型评估标准可以是预先设定的评估标准,用于对模型准确度进行评估。例如,模型评估标准可以包括但不限于真阳率阈值以及误报率阈值等。
在本发明实施例中,可以将同源IP待检测异常网络数据划分为待检测异常测试数据以及待检测异常训练数据,从而可以利用待检测异常测试数据测试异常数据检测模型,得到模型测试结果。如果模型测试结果符合模型评估标准,则将异常数据检测模型作为目标异常数据检测模型。如果模型测试结果不符合模型评估标准,则利用待检测异常测试数据继续训练异常数据检测模型,如通过更新当前异常率以及基准矩阵样本调整异常数据检测模型,直至模型测试结果符合模型评估标准。可选的,可以将待检测异常网络数据划分为10份,其中8份作为待检测异常训练数据,剩下的2份作为待检测异常测试样本数据。还可以从8份的待检测异常训练数据中取出3份,并从2份的待检测异常测试样本数据中取出1份,以将从待检测异常训练数据中取出的3份数据与从待检测异常测试样本数据中取出的1份数据作为待检测异常交叉检验数据。示例性的,可以首先利用待检测异常测试样本数据测试异常数据检测模型,在模型测试结果符合模型评估标准的情况下,进一步利用待检测异常交叉检验数据测试异常数据检测模型,并更新模型测试结果,在更新后的模型测试结果符合模型评估标准的情况下,将异常数据检测模型确定为目标异常数据检测模型。
图3是本发明实施例二提供的一种异常数据检测模型的训练方法的流程图,在一个具体的例子中,如图3所示,可以首先获取待检测异常训练数据,从而可以对待检测异常训练数据进行特征选择处理,并对特征选择处理结果进行特征分布处理,进一步将特征分布处理的最终结果作为模型训练样本数据。根据模型训练样本数据确定基准矩阵样本,并对基准矩阵样本进行矩阵调整处理得到目标样本特征矩阵,从而可以根据目标样本特征矩阵训练异常数据检测模型,如果训练完成的异常数据检测模型的模型准确率小于准确度阈值,则更新当前异常率,并重新确定基准矩阵样本以根据新的基准矩阵样本确定新的目标样本特征矩阵,从而通过新的目标样本特征矩阵训练异常数据检测模型,直至异常数据检测模型的模型准确率大于等于准确度阈值,并计算准确率大于等于准确度阈值异常数据检测模型异常数据告警阈值。异常数据告警阈值可以是预先设定,用于确定待检测数据中是否存在异常数据。可选的,异常数据告警阈值可以是与异常数据检测模型对应的类簇中心也即中心值。
本实施例的技术方案,通过根据获取的待检测异常训练数据确定特征关联数据,并对特征关联数据进行特征数据归一化处理,进一步对目标归一化处理结果进行随机取样,得到归一化取样数据。在得到会后归一化取样数据之后,根据归一化取样数据确定特征分布处理方法,并根据特征分布处理方法对目标归一化处理结果进行特征分布处理,得到模型训练样本数据。在得到模型训练样本数据之后,可以对模型训练样本数据进行数据聚类处理,得到样本数据类簇,并根据样本数据类簇确定目标样本特征矩阵,从而根据目标样本特征矩阵训练异常数据检测模型。由于,特征关联数据是与待检测异常训练数据对应的表征特征的数据,即根据特征关联数据可以获得待检测异常训练数据中的重要特征。此外,对特征关联数据进行特征数据归一化处理可以便于对数据进行分析处理。根据归一化取样数据确定特征分布处理方法,可以防止直接根据数据量较大的目标归一化处理结果确定特征分布处理方法的数据计算复杂度。特征分布处理可以挖掘待检测异常训练数据的潜在分布状态,以获取待检测异常训练数据的潜在分布状态。本发明技术方案,根据待检测异常训练数据确定特征关联数据,并对特征关联数据进行特征数据归一化处理、随机取样以及特征分布处理,可以降低模型训练样本数据的计算复杂度并提升模型训练样本数据的数据准确性,也即利用数据准确性更高的模型训练样本数据确定的目标样本特征矩阵,训练异常数据检测模型,可以使异常数据检测模型的异常数据检测的准确率更高,解决了现有技术中异常数据检测的准确率低的问题,提升了异常数据检测的准确率。
需要说明的是,以上各实施例中各技术特征之间的任意排列组合也属于本发明的保护范围。
实施例三
图4是本发明实施例三提供的一种异常数据检测方法的流程图,本实施例可适用于准确识别异常数据的情况,该方法可以由异常数据检测装置来执行,该装置可以由软件和/或硬件的方式来实现,并一般可集成在电子设备中。相应的,如图4所示,该方法包括如下操作:
S310、获取待检测数据。
其中,待检测数据可以是需要进行异常数据检测的数据。
相应的,可以根据业务需求确定需要进行异常数据检测的数据,并将需要进行异常数据检测的数据作为待检测数据。
S320、将待检测数据输入至异常数据检测模型,以根据异常数据检测模型检测待检测数据中的异常数据是否超过异常数据告警阈值。
其中,异常数据检测模型可以通过本发明任一实施例的异常数据检测模型的训练方法训练得到。
在本发明实施例中,可以将待检测数据输入至异常数据检测模型,并通过异常数据检测模型对待检测数据进行异常数据识别,如果异常数据检测模型检测出的待检测数据中的数据超过异常数据告警阈值,则异常数据检测模型进行异常数据告警。如果待检测数据中的数据未超过异常数据告警阈值,则异常数据检测模型不进行异常数据告警。
示例性的,将待检测数据输入至异常数据检测模型,如果待检测数据中存在大于类簇中心也即中心值的数据,则异常数据检测模型将大于中心值的待检测数据作为异常数据,并报告检测出的异常数据以供技术人员进行数据分析。如果待检测数据中不存在大于中心值的数据,则异常数据检测模型将报告无异常数据。
本实施例的技术方案,通过获取待检测数据,并将待检测数据输入至异常数据检测模型,以根据异常数据检测模型检测待检测数据中的异常数据是否超过异常数据告警阈值。由于,本方案中的异常数据检测模型的训练过程是:通过获取待检测异常训练数据,并对待检测异常训练数据进行特征选择处理和特征分布处理,得到模型训练样本数据,进一步根据模型训练样本确定目标样本特征矩阵,从而根据目标样本特征矩阵训练异常数据检测模型。其中,特征选择处理可以对待检测异常训练数据进行特征筛选,以获得待检测异常训练数据中的重要特征。特征分布处理可以挖掘待检测异常训练数据的潜在分布状态,以获取待检测异常训练数据的潜在分布状态。通过对待检测异常训练数据进行特征选择处理和特征分布处理,可以提升模型训练样本数据的数据准确性,也即利用数据准确性更高的模型训练样本数据确定的目标样本特征矩阵,训练异常数据检测模型,可以使异常数据检测模型的异常数据检测的准确率更高,解决了现有技术中异常数据检测的准确率低的问题,提升了异常数据检测的准确率。也即通过本方案提出的异常数据检测模型对待检测数据进行异常数据识别的准确率高。
实施例四
图5是本发明实施例四提供的一种异常数据检测模型的训练装置的示意图,如图5所示,所述装置包括:待检测异常训练数据获取模块410、模型训练样本数据确定模块420、目标样本特征矩阵确定模块430以及异常数据检测模型训练模块440,其中:
待检测异常训练数据获取模块410,用于获取待检测异常训练数据;
模型训练样本数据确定模块420,用于对待检测异常训练数据进行特征选择处理和特征分布处理,得到模型训练样本数据;
目标样本特征矩阵确定模块430,用于根据模型训练样本确定目标样本特征矩阵;
异常数据检测模型训练模块440,用于根据目标样本特征矩阵训练异常数据检测模型。
本实施例的技术方案,通过获取待检测异常训练数据,并对待检测异常训练数据进行特征选择处理和特征分布处理,得到模型训练样本数据,进一步根据模型训练样本确定目标样本特征矩阵,从而根据目标样本特征矩阵训练异常数据检测模型。其中,特征选择处理可以对待检测异常训练数据进行特征筛选,以获得待检测异常训练数据中的重要特征。特征分布处理可以挖掘待检测异常训练数据的潜在分布状态,以获取待检测异常训练数据的潜在分布状态。通过对待检测异常训练数据进行特征选择处理和特征分布处理,可以提升模型训练样本数据的数据准确性,也即利用数据准确性更高的模型训练样本数据确定的目标样本特征矩阵,训练异常数据检测模型,可以使异常数据检测模型的异常数据检测的准确率更高,解决了现有技术中异常数据检测的准确率低的问题,提升了异常数据检测的准确率。
可选的,待检测异常训练数据获取模块410,具体用于获取目标时间窗口内的待检测异常网络数据;其中,所述待检测异常网络数据包括F5设备日志数据;根据所述待检测异常网络数据确定同源IP待检测异常网络数据;从所述同源IP待检测异常网络数据中划分所述待检测异常训练数据。
可选的,模型训练样本数据确定模块420,具体用于根据所述待检测异常训练数据确定特征关联数据,所述特征关联数据包括单特征数据和/或组合特征数据;对所述特征关联数据进行特征数据归一化处理。
可选的,模型训练样本数据确定模块420,具体用于确定所述特征关联数据的连续值特征数据和/或离散值特征数据;对所述连续值特征数据进行连续归一化处理,得到连续归一化处理结果;所述连续归一化处理包括极值归一化处理或差值归一化处理;和/或,对所述离散值特征数据进行离散归一化处理,得到离散归一化处理结果;将所述连续归一化处理和/或所述离散归一化处理结果确定为目标归一化处理结果。
可选的,模型训练样本数据确定模块420,具体用于对所述目标归一化处理结果进行随机取样,得到归一化取样数据;根据所述归一化取样数据确定特征分布处理方法,并根据所述特征分布处理方法对所述目标归一化处理结果进行特征分布处理,得到所述模型训练样本数据;其中,所述特征分布处理方法包括取对数法、平方根法、指数运算法和幂运算法。
可选的,目标样本特征矩阵确定模块430,具体用于对所述模型训练样本数据进行数据聚类处理,得到样本数据类簇;根据所述样本数据类簇确定所述目标样本特征矩阵。
可选的,目标样本特征矩阵确定模块430,具体用于确定所述模型训练样本数据的当前异常率,根据所述样本数据类簇的类簇中心确定基准矩阵样本;对所述基准矩阵样本进行矩阵调整处理,得到所述目标样本特征矩阵;其中,所述矩阵调整处理包括权重调整处理、特征缩减处理以及特征组合处理中的至少一项处理方式。
可选的,异常数据检测模型的训练装置可以包括:异常数据检测模型更新模块,用于在确定所述异常数据检测模型的模型准确度小于准确度阈值的情况下,更新所述当前异常率,并返回执行根据所述样本数据类簇的类簇中心确定基准矩阵样本的操作,直至确定所述异常数据检测模型的模型准确度大于或等于准确度阈值。
可选的,异常数据检测模型更新模块,具体用于从所述同源IP待检测异常网络数据中划分待检测异常测试数据;所述待检测异常测试数据包括待检测异常测试样本数据和待检测异常交叉检验数据;根据所述待检测异常测试数据测试所述异常数据检测模型,得到模型测试结果;在所述模型测试结果符合模型评估标准的情况下,将所述异常数据检测模型确定为目标异常数据检测模型。
上述异常数据检测模型的训练装置可执行本发明任意实施例所提供的异常数据检测模型的训练方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的异常数据检测模型的训练方法。
由于上述所介绍的异常数据检测模型的训练装置为可以执行本发明实施例中的异常数据检测模型的训练方法的装置,故而基于本发明实施例中所介绍的异常数据检测模型的训练方法,本领域所属技术人员能够了解本实施例的异常数据检测模型的训练装置的具体实施方式以及其各种变化形式,所以在此对于该异常数据检测模型的训练装置如何实现本发明实施例中的异常数据检测模型的训练方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中异常数据检测模型的训练方法所采用的装置,都属于本申请所欲保护的范围。
实施例五
图6是本发明实施例五提供的一种异常数据检测装置的示意图,如图6所示,所述装置包括:待检测数据获取模块510以及异常数据比较模块520,其中:
待检测数据获取模块510,用于获取待检测数据;
异常数据比较模块520,用于将待检测数据输入至异常数据检测模型,以根据异常数据检测模型检测待检测数据中的异常数据是否超过异常数据告警阈值;
其中,异常数据检测模型通过本发明任意实施例所提供的异常数据检测模型的训练方法训练得到。
本实施例的技术方案,通过获取待检测数据,并将待检测数据输入至异常数据检测模型,以根据异常数据检测模型检测待检测数据中的异常数据是否超过异常数据告警阈值。由于,本方案中的异常数据检测模型的训练过程是:通过获取待检测异常训练数据,并对待检测异常训练数据进行特征选择处理和特征分布处理,得到模型训练样本数据,进一步根据模型训练样本确定目标样本特征矩阵,从而根据目标样本特征矩阵训练异常数据检测模型。其中,特征选择处理可以对待检测异常训练数据进行特征筛选,以获得待检测异常训练数据中的重要特征。特征分布处理可以挖掘待检测异常训练数据的潜在分布状态,以获取待检测异常训练数据的潜在分布状态。通过对待检测异常训练数据进行特征选择处理和特征分布处理,可以提升模型训练样本数据的数据准确性,也即利用数据准确性更高的模型训练样本数据确定的目标样本特征矩阵,训练异常数据检测模型,可以使异常数据检测模型的异常数据检测的准确率更高,解决了现有技术中异常数据检测的准确率低的问题,提升了异常数据检测的准确率。也即通过本方案提出的异常数据检测模型对待检测数据进行异常数据识别的准确率高。
上述异常数据检测装置可执行本发明任意实施例所提供的异常数据检测方法,具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明任意实施例提供的异常数据检测方法。
由于上述所介绍的异常数据检测装置为可以执行本发明实施例中的异常数据检测方法的装置,故而基于本发明实施例中所介绍的异常数据检测方法,本领域所属技术人员能够了解本实施例的异常数据检测装置的具体实施方式以及其各种变化形式,所以在此对于该异常数据检测装置如何实现本发明实施例中的异常数据检测方法不再详细介绍。只要本领域所属技术人员实施本发明实施例中异常数据检测方法所采用的装置,都属于本申请所欲保护的范围。
实施例六
图7为本发明实施例六提供的一种电子设备的结构示意图。图7示出了适于用来实现本发明实施方式的电子设备612的框图。图7显示的电子设备612仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。电子设备612例如可以是计算机设备。
如图7所示,电子设备612以通用计算设备的形式表现。电子设备612的组件可以包括但不限于:一个或者多个处理器616,存储装置628,连接不同系统组件(包括存储装置628和处理器616)的总线618。
总线618表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(Industry StandardArchitecture,ISA)总线,微通道体系结构(MicroChannel Architecture,MCA)总线,增强型ISA总线、视频电子标准协会(Video Electronics Standards Association,VESA)局域总线以及外围组件互连(Peripheral Component Interconnect,PCI)总线。
电子设备612典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备612访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
存储装置628可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(Random Access Memory,RAM)630和/或高速缓存存储器632。电子设备612可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统634可以用于读写不可移动的、非易失性磁介质(图7未显示,通常称为“硬盘驱动器”)。尽管图7中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如只读光盘(Compact Disc-ReadOnly Memory,CD-ROM)、数字视盘(Digital Video Disc-Read Only Memory,DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线618相连。存储装置628可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块626的程序636,可以存储在例如存储装置628中,这样的程序模块626包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块626通常执行本发明所描述的实施例中的功能和/或方法。
电子设备612也可以与一个或多个外部设备614(例如键盘、指向设备、摄像头、显示器624等)通信,还可与一个或者多个使得用户能与该电子设备612交互的设备通信,和/或与使得该电子设备612能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(Input/Output,I/O)接口622进行。并且,电子设备612还可以通过网络适配器620与一个或者多个网络(例如局域网(Local AreaNetwork,LAN),广域网Wide Area Network,WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器620通过总线618与电子设备612的其它模块通信。应当明白,尽管图中未示出,可以结合电子设备612使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of IndependentDisks,RAID)系统、磁带驱动器以及数据备份存储系统等。
处理器616通过运行存储在存储装置628中的程序,从而执行各种功能应用以及数据处理,例如实现本发明上述实施例所提供的异常数据检测模型的训练方法:获取待检测异常训练数据;对待检测异常训练数据进行特征选择处理和特征分布处理,得到模型训练样本数据;根据模型训练样本确定目标样本特征矩阵;根据目标样本特征矩阵训练异常数据检测模型。
或者,还可以实现本发明上述实施例所提供的异常数据检测方法:获取待检测数据;将待检测数据输入至异常数据检测模型,以根据异常数据检测模型检测待检测数据中的异常数据是否超过异常数据告警阈值;其中,异常数据检测模型通过本发明任意实施例所提供的异常数据检测模型的训练方法训练得到。
本实施例的技术方案,通过获取待检测异常训练数据,并对待检测异常训练数据进行特征选择处理和特征分布处理,得到模型训练样本数据,进一步根据模型训练样本确定目标样本特征矩阵,从而根据目标样本特征矩阵训练异常数据检测模型。其中,特征选择处理可以对待检测异常训练数据进行特征筛选,以获得待检测异常训练数据中的重要特征。特征分布处理可以挖掘待检测异常训练数据的潜在分布状态,以获取待检测异常训练数据的潜在分布状态。通过对待检测异常训练数据进行特征选择处理和特征分布处理,可以提升模型训练样本数据的数据准确性,也即利用数据准确性更高的模型训练样本数据确定的目标样本特征矩阵,训练异常数据检测模型,可以使异常数据检测模型的异常数据检测的准确率更高,解决了现有技术中异常数据检测的准确率低的问题,提升了异常数据检测的准确率。
实施例七
本发明实施例七还提供一种存储计算机程序的计算机存储介质,所述计算机程序在由计算机处理器执行时用于执行本发明上述实施例任一所述的异常数据检测模型的训练方法:获取待检测异常训练数据;对待检测异常训练数据进行特征选择处理和特征分布处理,得到模型训练样本数据;根据模型训练样本确定目标样本特征矩阵;根据目标样本特征矩阵训练异常数据检测模型。
或者,还可以执行本发明上述实施例所提供的异常数据检测方法:获取待检测数据;将待检测数据输入至异常数据检测模型,以根据异常数据检测模型检测待检测数据中的异常数据是否超过异常数据告警阈值;其中,异常数据检测模型通过本发明任意实施例所提供的异常数据检测模型的训练方法训练得到。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ReadOnly Memory,ROM)、可擦式可编程只读存储器((Erasable Programmable Read OnlyMemory,EPROM)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、射频(Radio Frequency,RF)等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言,诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN)连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种异常数据检测模型的训练方法,其特征在于,包括:
获取待检测异常训练数据;
对所述待检测异常训练数据进行特征选择处理和特征分布处理,得到模型训练样本数据;
根据所述模型训练样本数据确定目标样本特征矩阵;
根据所述目标样本特征矩阵训练异常数据检测模型。
2.根据权利要求1所述的方法,其特征在于,所述获取待检测异常训练数据,包括:
获取目标时间窗口内的待检测异常网络数据;其中,所述待检测异常网络数据包括F5设备日志数据;
根据所述待检测异常网络数据确定同源IP待检测异常网络数据;
从所述同源IP待检测异常网络数据中划分所述待检测异常训练数据。
3.根据权利要求1所述的方法,其特征在于,所述对所述待检测异常训练数据进行特征选择处理,包括:
根据所述待检测异常训练数据确定特征关联数据,所述特征关联数据包括单特征数据和/或组合特征数据;
对所述特征关联数据进行特征数据归一化处理。
4.根据权利要求3所述的方法,其特征在于,所述对所述特征关联数据进行特征数据归一化处理,包括:
确定所述特征关联数据的连续值特征数据和/或离散值特征数据;
对所述连续值特征数据进行连续归一化处理,得到连续归一化处理结果;所述连续归一化处理包括极值归一化处理或差值归一化处理;和/或,
对所述离散值特征数据进行离散归一化处理,得到离散归一化处理结果;
将所述连续归一化处理和/或所述离散归一化处理结果确定为目标归一化处理结果。
5.根据权利要求4所述的方法,其特征在于,所述对所述待检测异常训练数据进行特征分布处理;包括:
对所述目标归一化处理结果进行随机取样,得到归一化取样数据;
根据所述归一化取样数据确定特征分布处理方法,并根据所述特征分布处理方法对所述目标归一化处理结果进行特征分布处理,得到所述模型训练样本数据;
其中,所述特征分布处理方法包括取对数法、平方根法、指数运算法和幂运算法。
6.根据权利要求1所述的方法,其特征在于,所述根据所述模型训练样本确定目标样本特征矩阵,包括:
对所述模型训练样本数据进行数据聚类处理,得到样本数据类簇;
根据所述样本数据类簇确定所述目标样本特征矩阵。
7.根据权利要求6所述的方法,其特征在于,所述根据所述样本数据类簇确定所述目标样本特征矩阵,包括:
确定所述模型训练样本数据的当前异常率,根据所述样本数据类簇的类簇中心确定基准矩阵样本;
对所述基准矩阵样本进行矩阵调整处理,得到所述目标样本特征矩阵;其中,所述矩阵调整处理包括权重调整处理、特征缩减处理以及特征组合处理中的至少一项处理方式;
在根据所述目标样本特征矩阵训练异常数据检测模型之后,还包括:
在确定所述异常数据检测模型的模型准确度小于准确度阈值的情况下,更新所述当前异常率,并返回执行根据所述样本数据类簇的类簇中心确定基准矩阵样本的操作,直至确定所述异常数据检测模型的模型准确度大于或等于准确度阈值。
8.根据权利要求2所述的方法,其特征在于,在所述根据所述目标样本特征矩阵训练异常数据检测模型之后,还包括:
从所述同源IP待检测异常网络数据中划分待检测异常测试数据;所述待检测异常测试数据包括待检测异常测试样本数据和待检测异常交叉检验数据;
根据所述待检测异常测试数据测试所述异常数据检测模型,得到模型测试结果;
在所述模型测试结果符合模型评估标准的情况下,将所述异常数据检测模型确定为目标异常数据检测模型。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的异常数据检测模型的训练方法。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-8中任一所述的异常数据检测模型的训练方法。
CN202110281024.9A 2021-03-16 2021-03-16 一种异常数据检测模型的训练方法、电子设备及存储介质 Pending CN113033639A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110281024.9A CN113033639A (zh) 2021-03-16 2021-03-16 一种异常数据检测模型的训练方法、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110281024.9A CN113033639A (zh) 2021-03-16 2021-03-16 一种异常数据检测模型的训练方法、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113033639A true CN113033639A (zh) 2021-06-25

Family

ID=76470801

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110281024.9A Pending CN113033639A (zh) 2021-03-16 2021-03-16 一种异常数据检测模型的训练方法、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113033639A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113687972A (zh) * 2021-08-30 2021-11-23 中国平安人寿保险股份有限公司 业务系统异常数据的处理方法、装置、设备及存储介质
CN114697139A (zh) * 2022-05-25 2022-07-01 杭州海康威视数字技术股份有限公司 基于特征迁移的设备异常检测、训练方法、系统和装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111277606A (zh) * 2020-02-10 2020-06-12 北京邮电大学 检测模型训练方法、检测方法及装置、存储介质
CN111277459A (zh) * 2020-01-16 2020-06-12 新华三信息安全技术有限公司 一种设备异常检测方法、装置和机器可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111277459A (zh) * 2020-01-16 2020-06-12 新华三信息安全技术有限公司 一种设备异常检测方法、装置和机器可读存储介质
CN111277606A (zh) * 2020-02-10 2020-06-12 北京邮电大学 检测模型训练方法、检测方法及装置、存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113687972A (zh) * 2021-08-30 2021-11-23 中国平安人寿保险股份有限公司 业务系统异常数据的处理方法、装置、设备及存储介质
CN113687972B (zh) * 2021-08-30 2023-07-25 中国平安人寿保险股份有限公司 业务系统异常数据的处理方法、装置、设备及存储介质
CN114697139A (zh) * 2022-05-25 2022-07-01 杭州海康威视数字技术股份有限公司 基于特征迁移的设备异常检测、训练方法、系统和装置
CN114697139B (zh) * 2022-05-25 2022-09-02 杭州海康威视数字技术股份有限公司 基于特征迁移的设备异常检测、训练方法、系统和装置

Similar Documents

Publication Publication Date Title
CN112436968B (zh) 一种网络流量的监测方法、装置、设备及存储介质
CN108667856B (zh) 一种网络异常检测方法、装置、设备及存储介质
CN112866023B (zh) 网络检测、模型训练方法、装置、设备及存储介质
KR20190109427A (ko) 침입 탐지를 위한 지속적인 학습
CN111026653B (zh) 异常程序行为检测方法、装置、电子设备和存储介质
JP6871877B2 (ja) 情報処理装置、情報処理方法及びコンピュータプログラム
CN111782484B (zh) 一种异常检测方法及装置
CN111400357A (zh) 一种识别异常登录的方法和装置
CN113033639A (zh) 一种异常数据检测模型的训练方法、电子设备及存储介质
CN114553591B (zh) 随机森林模型的训练方法、异常流量检测方法及装置
CN113537642A (zh) 产品品质预测方法、装置、电子设备及存储介质
CN112784281A (zh) 一种工业互联网的安全评估方法、装置、设备及存储介质
CN114254673A (zh) 一种基于去噪对抗自编码器的频谱异常检测方法
CN113282920B (zh) 日志异常检测方法、装置、计算机设备和存储介质
CN114584377A (zh) 流量异常检测方法、模型的训练方法、装置、设备及介质
CN110955890A (zh) 恶意批量访问行为的检测方法、装置和计算机存储介质
CN110661818B (zh) 事件异常检测方法、装置、可读存储介质和计算机设备
CN112685255A (zh) 一种接口监控方法、装置、电子设备及存储介质
CN110704614B (zh) 对应用中的用户群类型进行预测的信息处理方法及装置
CN109145609B (zh) 一种数据处理方法和装置
CN115952492A (zh) 一种电力工控系统入侵检测方法、装置及存储介质
CN113869373A (zh) 设备异常检测方法、装置、计算机设备和存储介质
CN113095589A (zh) 一种人口属性确定方法、装置、设备及存储介质
KR20210132549A (ko) 어노멀리 검출방법 및 그 장치
US11275367B2 (en) Dynamically monitoring system controls to identify and mitigate issues

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination