CN111339297B - 网络资产异常检测方法、系统、介质和设备 - Google Patents

网络资产异常检测方法、系统、介质和设备 Download PDF

Info

Publication number
CN111339297B
CN111339297B CN202010108551.5A CN202010108551A CN111339297B CN 111339297 B CN111339297 B CN 111339297B CN 202010108551 A CN202010108551 A CN 202010108551A CN 111339297 B CN111339297 B CN 111339297B
Authority
CN
China
Prior art keywords
asset
data
network
network asset
modeling
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010108551.5A
Other languages
English (en)
Other versions
CN111339297A (zh
Inventor
邹凯
陈凯枫
张渊
曾浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Trustmo Information System Co ltd
Original Assignee
Guangzhou Trustmo Information System Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Trustmo Information System Co ltd filed Critical Guangzhou Trustmo Information System Co ltd
Priority to CN202010108551.5A priority Critical patent/CN111339297B/zh
Publication of CN111339297A publication Critical patent/CN111339297A/zh
Application granted granted Critical
Publication of CN111339297B publication Critical patent/CN111339297B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种网络资产异常检测方法、系统、介质和设备,所述方法包括:异构数据采集与存储;数据特征处理,整合多来源的原始数据,利用“改进型雷尼熵算法”将一组概率分布类型的字段衍生转换成一个新的数据特征字段,利用“基于分位数的高鲁棒性标准化算法”对数据进行标准化处理,生成建模所需要的数据集;建模与检测,建模单元获取网络资产数据集,采用“基于原型的自动最优聚类算法”,按照“资产类型”分组建立最优聚类模型;检测结果分析,使用建模与检测步骤得到的“最优聚类模型”结合异常检测结果分析策略。本发明提高专网资产异常检测的效率、准确率,并且能适用于多种异常威胁场景的通用检测方法。

Description

网络资产异常检测方法、系统、介质和设备
技术领域
本发明涉及网络安全的技术领域,尤其是一种网络资产异常检测方法、系统、介质和设备。
背景技术
随着互联网、信息技术的飞速发展,网络与各行业领域深度融合,可靠、安全的网络环境是社会正常运转的重要保障。特别在政务、公共安全、公用事业等领域的专用网络环境,网络安全更关乎国家安全和社会稳定。
网络规模日益增大,异常威胁的手段日新月异,网络异常检测和检测结果分析的难度大幅增加。现有网络异常检测技术存在明显不足:基于特征规则的检测方法无法应对未出现过的新型攻击;部分基于机器学习和基于基线的方法非常依赖正常的历史样本数据;部分基于机器学习的方法难以分析异常产生的原因,难以排查和解除威胁。现有技术中的网络资产检测方法主要有下述几种:
1.基于特征规则的异常检测是一类传统的方法,该类方法需要网络安全专家分析大量已知的入侵、异常行为,根据业务知识和经验建立规则特征库,符合异常特征规则的行为判定为异常。该类方法主要缺点是:异常检测存在很严重的滞后性,容易漏报新型攻击,很依赖网络安全技术专家的经验且维护成本高;
2.一种基于行为基线的异常检测方法;基线方法的原理是使用一段安全状态下的历史行为建立基准线,检测到当前行为特征偏离历史行为基线时,检测为异常。该类方法的缺点是:对历史行为样本数据要求过高,建立准确的基线需要使用一段较长时间的、正常的、稳定的历史数据,如果历史数据不理想,则建立的基准线是不稳固、不准确的,导致检测结果不理想;
3.一种网络异常行为检测与分析的方法;该方法统计安全用户的访问行为特征数据,构建一类支持向量机模型,再对全网用户进行预测分析,识别异常访问行为。该方法最大的不足有两点:一、一类支持向量机是典型的“黑箱”算法,对检测出的结果很难做出合理的解释,需要网络安全专家才能对检测结果加以解读,不方便排查原因和解除网络异常,因此在实际生产环境中效率低;二、该方法使用已发现的安全用户的行为建立决策边界,当网络环境中出现新的业务场景或商业趋势,这些新的正常行为都将被误判成网络异常行为,因此该方法误判率高。
发明内容
本发明提供了一种网络资产异常检测方法、系统、介质和设备,可以解决专网资产异常检测的效率、准确率低的问题。
本发明提供的一种网络资产异常检测方法,可以通过下述方案实现:
网络资产异常检测方法,所述方法包括:
异构数据采集与存储,从不同来源采集网络资产的流量数据、探测数据和其他外部数据,并存储至数据库;
数据特征处理,整合多来源的原始数据,利用“改进型雷尼熵算法”将一组概率分布类型的字段衍生转换成一个新的数据特征字段,利用“基于分位数的高鲁棒性标准化算法”对数据进行标准化处理,生成建模所需要的数据集;
建模与检测,建模单元获取网络资产数据集,采用“基于原型的自动最优聚类算法”,按照“资产类型”分组建立最优聚类模型,检测单元对建模单元输出的聚类结果进行处理,检测出有异常网络行为的资产;
检测结果分析,使用建模与检测步骤得到的“最优聚类模型”结合异常检测结果分析策略,对检测到的异常进行自动分析,智能输出网络资产异常度、资产异常因子、影响因子的影响度、告警和建议。
作为优选的技术方案,所述数据特征处理的步骤中,所述“改进型雷尼熵算法”具体为:
输入含有网络资产类型的某类概率分布型特征数据集D,D共2+n列;其中第1列为网络资产唯一编号,第2列是资产类型,之后的n列是概率分布型的特征,对于每行的后n列之和为1;
按不同的资产类型,将数据集D划分成若干个数据子集;
分别计算本子集Xn列特征的均值,得到均值向量μ:
μ={μ12,...,μn}
计算第i个资产的改进型雷尼熵L(i):
Figure BDA0002389156580000031
遍历计算第i个资产的改进型雷尼熵的步骤,计算本子集的所有资产的改进型雷尼熵L;
遍历完成,得到全集D所有资产的改进型雷尼熵。
作为优选的技术方案,所述数据特征处理的步骤中,所述“基于分位数的高鲁棒性标准化算法”公式如下:
Figure BDA0002389156580000032
其中x’0表示标准化后的x0,Qa和Qb分别表示向量X的第a和第b百分位数,0<a<b<100;N表示向量X中xi∈[Qa,Qb]总个数,Qa≤xi≤Qb
原始数据经过数据特征处理模块的预处理之后,最终生成的建模数据集。
作为优选的技术方案,所述建模与检测的步骤具体为:
所述建模单元的处理方法具体为:
输入网络资产数据集;其中包含资产“IP地址”、“资产类型”,及其他网络行为特征字段;
按照“资产类型”字段划分数据集为多个子集;
采用“基于原型的自动最优聚类算法”,对划分的数据集分别建模;输出“资产类型”分组的多个原型聚类结果;
所述检测单元的处理方法具体为:
输入建模单元输出的聚类结果;
采用“基于距离的异常检测算法”,判断样本是否异常;
输出有异常网络行为的资产列表。
作为优选的技术方案,所述“基于原型的自动最优聚类算法”具体为:
选择任意一种基于原型的聚类算法,设定最佳聚类簇数的搜索范围,算法自动迭代在簇数范围内建立多个模型,分别计算反映聚类簇紧凑程度的“簇内平方误差”;设计综合损失函数,综合损失与“簇内平方误差”成正比,与自然常数e的“簇数除以二”次幂成正比,搜索综合损失向量的最小值,最小值对应的簇数作为最佳聚类簇数。
作为优选的技术方案,所述“基于距离的异常检测算法”具体为:
选用一种方法识别多个正常簇,再计算各个正常簇的正常行为域,正常行为域的中心点作为该域的代表,计算每个样本超出各个正常行为域的距离与对应域半径的比例,取该样本该比例的最小值作为该样本的异常度,网络资产样本异常度大于0时检测判定为存在异常。
作为优选的技术方案,所述检测结果分析的步骤具体为:
网络资产异常度检测,分别计算网络资产相对于多个正常行为域的差异度,该差异度等于网络资产行为数据向量与正常行为域的距离除以域半径,再减1;求网络资产多个差异度的最小值,即网络资产异常度
得到存在异常的网络资产列表、网络资产异常度、资产异常因子、因子影响度,根据专网安全的特定需求,个性化输出相应的自然语言告警,以及针对不同异常因子提出对应的排查和解除威胁的建议。
本发明提供的一种网络资产异常检测系统,可以通过下述方案实现:
网络资产异常检测系统,所述系统包括:
异构数据采集与存储模块,用于从不同来源采集网络资产的流量数据、探测数据和其他外部数据,并存储至数据库;
数据特征处理模块,用于整合多来源的原始数据,利用“改进型雷尼熵算法”将一组概率分布类型的字段衍生转换成一个新的数据特征字段,利用“基于分位数的高鲁棒性标准化算法”对数据进行标准化处理,生成建模所需要的数据集;
建模与检测模块,利用建模单元获取网络资产数据集,采用“基于原型的自动最优聚类算法”,按照“资产类型”分组建立最优聚类模型,利用检测单元对建模单元输出的聚类结果进行处理,检测出有异常网络行为的资产;
检测结果分析模块,用于使用建模与检测步骤得到的“最优聚类模型”结合异常检测结果分析策略,对检测到的异常进行自动分析,智能输出网络资产异常度、资产异常因子、影响因子的影响度、告警和建议。
本发明提供的一种存储介质,可以通过下述方案实现:
存储介质,存储有程序,所述程序被处理器执行时,实现本发明所述的网络资产异常检测方法。
本发明提供的一种计算机设备,可以通过下述方案实现:
计算设备,包括处理器以及用于存储处理器可执行程序的存储器,所述处理器执行存储器存储的程序时,实现本发明所述的网络资产异常检测方法。
本发明相对于现有技术具有如下的有益效果:
1.本发明采用独特的数据采集方式以及基于聚类的改进型综合策略,对需要的数据易获取、特征字段精简,不需要大量“标记”数据,无论有无长期数据均可建模。
2.本发明采用“基于分位数的高鲁棒性标准化算法”,使得构建的模型有高鲁棒性和高稳定性,对样本数据质量的要求不高。当样本数据中存在的少量偏离程度高的异常样点时,不会对模型产生太大负面影响。
3.本发明采用“基于原型的自动最优聚类算法”和“基于距离的异常检测算法”;适用于多种场景的异常检测,可检测出现过和未出现过的新型异常;检测过程自动化高、效率高,对网络安全专家依赖度低。
4.本发明采用检测结果分析策略,使得异常检测结果容易解读,便于排查和解除网络资产受到的网络威胁与网络异常。
附图说明
图1为本发明实施例1的网络资产异常检测方法的流程图。
图2为本发明实施例1的“基于原型的自动最优聚类算法”最佳簇数选择示意图。
图3为本发明实施例1的聚类模型的示意图。
图4为本发明实施例1的检测单元异常检测算法过程简化示意图。
图5为本发明实施例1的检测结果分析过程示意图。
图6为本发明实施例2的网络资产异常检测系统的结构示意图。
具体实施方式
以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本公开,而并非以任何方式限制本公开的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。
在此提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
实施例1:
如图1所示,本实施例网络资产异常检测方法,包括下述步骤:
S1、异构数据采集与存储,从不同来源采集网络资产的流量数据、探测数据和其他外部数据,并存储至数据库;
S2、数据特征处理,整合多来源的原始数据,利用“改进型雷尼熵算法”将一组概率分布类型的字段衍生转换成一个新的数据特征字段,利用“基于分位数的高鲁棒性标准化算法”对数据进行标准化处理,生成建模所需要的数据集;
S3、建模与检测,建模单元获取网络资产数据集,采用“基于原型的自动最优聚类算法”,按照“资产类型”分组建立最优聚类模型,检测单元对建模单元输出的聚类结果进行处理,检测出有异常网络行为的资产;
S4、检测结果分析,使用建模与检测步骤得到的“最优聚类模型”结合异常检测结果分析策略,对检测到的异常进行自动分析,智能输出网络资产异常度、资产异常因子、影响因子的影响度、告警和建议。
在步骤S1中,进一步包括数据采集和数据存储的步骤:
S11、采集单元采用分光、镜像端口、流重组、协议解码等技术采集流量数据;用主动探测、末梢探针等方式采集网络资产设备状态数据;以及从业务需求方获取专网资产信息表等外部数据;
S12、存储单元负责存储来自采集单元的原始数据,存储单元可根据业务场景选择Clickhouse、HDFS、MySQL或其他存储系统。
在所述步骤S1中,采集的原始数据包含且不仅包含了字段:会话时间戳、会话结束时间戳、源IP地址、源端口、目的IP地址、目的端口、协议号、上行流量、上行包数量、下行流量、下行包数量等;来自专用网络业务方的网络资产信息表包含且不仅包含了字段:网络资产IP地址、归属区域、网络资产类型、资产品牌、操作系统等。
在步骤S2中,主要是整合多来源的原始数据,进行数据统计汇总、数据清洗、数据变换、数据衍生、特征选择等处理过程,生成建模所需要的数据集,在上述关键步骤中,采用了如下描述的两个创新算法:
一、一种改进型雷尼熵的特征处理算法:
开创性地从信息论领域引进了“雷尼熵算法”并作出改进,命名为“一种改进型雷尼熵的特征处理算法”(简称“改进型雷尼熵算法”),该算法适用于网络安全领域,它可以将一组(至少2个)概率分布类型的字段衍生转换成一个新的数据特征字段;优点是精简了建模数据字段,即通过一个字段便可反映网络资产的某一类行为是否与偏离了同类型资产的正常水平,大幅提高建模效率和准确率。
“改进型雷尼熵算法”原理和过程如下:
步骤一:输入含有网络资产类型的某类概率分布型特征数据集D(如表1所示);D共2+n列;其中第1列为网络资产唯一编号,第2列是资产类型(多种取值),之后的n列是概率分布型的特征,对于每行的后n列之和为1:
表1
Figure BDA0002389156580000081
步骤二:按不同的资产类型,将数据集D划分成若干个数据子集。按照如下方式,遍历所有数据子集:
步骤三:分别计算本子集Xn列特征的均值;得到均值向量μ:
μ={μ1,μ2,...,μn}
步骤四:计算第i个资产的改进型雷尼熵L(i):
Figure BDA0002389156580000082
第五步:遍历步骤四,计算本子集的所有资产的改进型雷尼熵L;
第六步:遍历完成,得到全集D所有资产的改进型雷尼熵。结果的形式如表2所示:
表2
网络资产编号 资产类型 L
1 <![CDATA[type<sub>1</sub>]]> L1
2 <![CDATA[type<sub>2</sub>]]> <![CDATA[L<sub>2</sub>]]>
m <![CDATA[type<sub>m</sub>]]> <![CDATA[L<sub>m</sub>]]>
二、基于分位数的高鲁棒性标准化算法:
改进了“极差数据标准化算法”和“Z分数标准化算法”,命名为“基于分位数的高鲁棒性标准化算法”(简称“高鲁棒标准化”);优点是非常适用于离群值检测的数据标准化处理,既能减小离群值对正常数据的负面影响,又能突出反映离群值的异常程度。“基于分位数的高鲁棒性标准化算法”公式如下:
Figure BDA0002389156580000091
其中x’0表示标准化后的x0,Qa和Qb分别表示向量X的第a和第b百分位数,0<a<b<100;N表示向量X中xi∈[Qa,Qb]总个数,Qa≤xi≤Qb
原始数据经过数据特征处理模块的预处理之后,最终生成的建模数据集示例如表3所示,表3中所列特征字段仅作示例所用,可根据实际业务需求适量增减特征字段。
表3
Figure BDA0002389156580000092
在所述步骤S3中,所述建模与检测的步骤具体为:
S311、所述建模单元的处理方法具体为:
S312、输入网络资产数据集;其中包含资产“IP地址”、“资产类型”,及其他网络行为特征字段;
S313、按照“资产类型”字段划分数据集为多个子集;
S314、采用“基于原型的自动最优聚类算法”,对划分的数据集分别建模;输出“资产类型”分组的多个原型聚类结果。
进一步的,基于原型的自动最优聚类算法对原型聚类算法(例如K均值、K中心点等)的改进。
原型聚类属于无监督的机器学习算法,用于将原样本数据集划分成多个簇(子集),同一簇内的样本相似度高,不同簇间的样本相似度低,并使用“原型”(中心点)来代表聚类簇。Kmeans是经典的原型聚类算法,其基本思想是:最小化平方误差作为数据集划分簇的依据,采用贪心策略迭代求近似最优解。关于Kmeans和原型聚类的更多详情可以参考清华大学出版社出版、周志华著的《机器学习》。
原型聚类算法能使样本数据集聚集成紧凑的簇,利用这一特点帮助区分正常的网络资产和异常的网络资产。
但是原型聚类应用于网络异常检测的最大的不足是需要人工经验设定聚类簇的数目,簇数设定太大或太小都严重影响聚类结果和网络资产异常检测效果。缺陷产生的原因是:一、当簇数太少时,会使得簇内部相对稀疏,相似性低的样本也混杂在同一个簇中,不利于区分离群值;二、当簇数太大时,虽然会使簇内部相对紧凑,但簇的增加会使一些少数存在业务波动的正常点也更容易聚集成小簇,这类小簇容易被误判成异常,降低检测准确率,同时计算开销增大,特别对于大规模网络数据,计算时间增加得更为明显。
为解决“人工设定原型聚类初始簇数会造成聚类结果不稳定、异常检测效果不佳”这一问题,专门设计了“基于原型的自动最优聚类算法”,可自动计算最优的聚类数并得到最优的聚类结果,提升网络资产异常检测的准确率。
“基于原型的自动最优聚类算法”的基本原理是:选择任意一种基于原型的聚类算法,设定最佳聚类簇数的搜索范围,算法自动迭代在簇数范围内建立多个模型,分别计算反映聚类簇紧凑程度的“簇内平方误差”;设计综合损失函数,综合损失与“簇内平方误差”成正比,与自然常数e(约2.7183)的“簇数除以二”次幂成正比,搜索综合损失向量的最小值,最小值对应的簇数作为最佳聚类簇数。算法过程如下:
步骤一:准备数据集和参数
①需要聚类的数据集,用D表示,D={x1,x2,...,xm},共m个样本;
②选择一种原型聚类算法,用method表示(可选K均值、K中心点等);
③设定最优聚类簇数搜索范围[kmin,kmax],(建议kmin为2到5之间的正整数,kmax为10到20之间的正整数);
第二步:取正整数n,n大于等于kmin,且小于等于kmax;迭代以下步骤;
第三步:使用method对D进行聚类,聚类簇的数目为n,得到模型Mn
第四步:通过下述函数,计算模型Mn的“簇内平方误差”IEn和综合损失Fn,函数表达式如下:
Figure BDA0002389156580000111
Figure BDA0002389156580000112
其中Ci表示聚类结果第i个簇,x表示样本向量,μi表示Ci的均值向量;e为自然常数约等于2.7183;
第六步:终止迭代,得到综合损失向量F,F={F1,F2,...,Fn};
第七步:计算F向量的最小值所对应的序号,该序号最为最优聚类簇数K;
第八步:输出模型K,用Mk表示。
“基于原型的自动最优聚类算法”所采用的依据损失F选择最佳簇数示意图如图2所示。
建模单元的输出结果是模型MK,MK由簇原型的集合C={C1,C2,...,CK}和带了簇标记的样本点组成。以数据集特征维度数为2,聚类数为4的模型为例,模型示结构如图3所示。
进一步的,所述检测单元的处理方法具体为:
S321、输入建模单元输出的聚类结果;
S322、采用“基于距离的异常检测算法”,判断样本是否异常;
S323、输出有异常网络行为的资产列表。
“基于距离的异常检测算法”是一系列综合策略的集合,是检测单元的技术核心,它的主要原理是:选用一种方法识别多个正常簇,再计算各个正常簇的正常行为域,正常行为域的中心点(域内样本点的均值)作为该域的代表,计算每个样本超出各个正常行为域的距离与域半径的比例,取该样本该比例的最小值作为该样本的异常度,网络资产样本异常度大于0时检测判定为存在异常。
算法过程如下:
第一步:准备数据集和参数;
①建模单元输出的聚类结果MK,MK包含K个簇的原型的集合C={C1,C2,...,CK}
和带了簇标记的样本全集X={x1,x2,...,xq};
②参数Z:正常簇个数,建议根据业务场景的特点设置Z∈[1,5];
③参数L:检测异常的灵敏度,建议根据业务场景的特点设置L∈[1,5];
第二步:根据网络资产异常检测的场景的不同,从以下“甲”和“乙”两种策略;
选择一种用于识别多个正常簇;
甲:计算各簇的中心点离原点的欧氏距离,距离最近的Z个簇作为正常簇;适用于“倾向于将业务指标小的簇作为正常簇”的检测场景;n维向量x和y的欧氏距离公式如下:
Figure BDA0002389156580000121
乙:计算各簇的内部样本个数,个数最多的Z个簇作为正常簇;适用于“倾向于样本多的大簇作为正常簇”的检测场景。
第三步:循环迭代后续第四、五、六、七步,从n=1开始,到n=Z终止;总共循环Z次;
第四步:计算第n个正常簇内所有样本点离所属的簇中心点的距离Distn
Distn={Distn1,Distn2,...,Distni};i表示第n个正常簇的样本个数;
第五步:计算第n个正常簇的正常行为域的半径Rn:
Rn=μn+L·σn
其中μn和σn分别是Distn的均值和标准差;
第六步:筛选属于第n个正常簇,且距离中心点的距离小于等于Rn的样本,作为第n个正常簇的正常行为域,计算正常行为域的中心点(即域内样本点的均值点)Yn
第七步:循环迭代第八步,从j=1开始,到j=q终止,q为样本全集X={x1,x2,...,xq}的样本个数;
第八步:计算样本xj与Yn的差异度diffjn,公式如下:
Figure BDA0002389156580000131
第九步:终止第七步开始的循环,得到全集X所有样本离第n个正常行为域的差异度向量,用diffn表示,diffn={diff1n,diff2n,...,diffjn};
第十步:终止第三步开始的循环,得到全集X所有样本离1到Z个正常行为域的差异度矩阵。得到类似如下表4的矩阵:
表4
X 正常域1 正常域2 正常域n 正常域Z
<![CDATA[x<sub>1</sub>]]> <![CDATA[diff<sub>11</sub>]]> <![CDATA[diff<sub>12</sub>]]> <![CDATA[diff<sub>1n</sub>]]> <![CDATA[diff<sub>1Z</sub>]]>
<![CDATA[x<sub>2</sub>]]> <![CDATA[diff<sub>21</sub>]]> <![CDATA[diff<sub>22</sub>]]> <![CDATA[diff<sub>2n</sub>]]> <![CDATA[diff<sub>2Z</sub>]]>
<![CDATA[x<sub>j</sub>]]> <![CDATA[diff<sub>j1</sub>]]> <![CDATA[diff<sub>j2</sub>]]> <![CDATA[diff<sub>jn</sub>]]> <![CDATA[diff<sub>jZ</sub>]]>
<![CDATA[x<sub>q</sub>]]> <![CDATA[diff<sub>a1</sub>]]> <![CDATA[diff<sub>q2</sub>]]> <![CDATA[diff<sub>qn</sub>]]> <![CDATA[diff<sub>qZ</sub>]]>
第十一步:对于每个样本x,计算它在上述差异度矩阵中关于行的最小值,该最小值作为该样本的差异度;
第十二步:筛选异常度大于0的所有样本,作为为异常的资产样本,结束。
本实施例中,检测单元异常检测算法过程简化图如图4所示。
在所述步骤S4中,“最优聚类模型”结合异常检测结果分析策略,对检测到的异常进行自动分析,智能输出网络资产异常度、资产异常因子、影响因子的影响度、告警和建议,分析过程如图5所示。
S4.1、网络资产异常度包括:
1)资产异常因子与因子的影响度
由上述算法可知,网络资产异常度与其“差异度”成正比;而差异度正比于资产行为向量与正常行为域的“距离”,反比于正常行为域半径:
Figure BDA0002389156580000141
建模单元得到最优聚类模型时,各个正常行为域的半径可以视作常数,因此网络资产异常度正比于上述“距离”;距离的计算采用欧氏距离算法,n维向量x和y的欧氏距离是两个向量差的平方和,再求平方根。公式如下:
Figure BDA0002389156580000142
因此,网络资产行为向量与正常行为域中心点的距离随着二者行为向量各维度的“差的平方”的增加而递增;本质上提供了更多“差的平方”的维度提供了更多的异常因素,因此“差的平方”最大的TOP N个维度即网络资产最主要的TOP N个异常行为特征。TOP N异常行为特征作为网络资产异常因子,异常因子的影响力可由上述“差的平方”量化。
S4.2、智能输出告警与建议;
根据上述过程可以得到存在异常的网络资产列表、网络资产异常度、资产异常因子、因子影响度,根据专网安全的特定需求,个性化输出相应的自然语言告警,以及针对不同异常因子提出对应的排查和解除威胁的建议。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,相应的程序可以存储于一计算机可读取存储介质中,所述的存储介质,如ROM/RAM、磁盘或光盘等。
实施例2:
如图5所示,本实施例提供了一种网络资产异常检测系统,该系统包括异构数据采集与存储模块1、数据特征处理模块2、建模与检测模块3和检测结果分析模块4,各个模块的具体功能如下:
所述异构数据采集与存储模块1,用于从不同来源采集网络资产的流量数据、探测数据和其他外部数据,并存储至数据库;
所述数据特征处理模块2,用于整合多来源的原始数据,利用“改进型雷尼熵算法”将一组概率分布类型的字段衍生转换成一个新的数据特征字段,利用“基于分位数的高鲁棒性标准化算法”对数据进行标准化处理,生成建模所需要的数据集;
所述建模与检测模块3,利用建模单元获取网络资产数据集,采用“基于原型的自动最优聚类算法”,按照“资产类型”分组建立最优聚类模型,利用检测单元对建模单元输出的聚类结果进行处理,检测出有异常网络行为的资产;
所述检测结果分析模块4,用于使用建模与检测步骤得到的“最优聚类模型”结合异常检测结果分析策略,对检测到的异常进行自动分析,智能输出网络资产异常度、资产异常因子、影响因子的影响度、告警和建议。
在此需要说明的是,上述实施例提供的系统仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
实施例3:
本实施例提供了一种存储介质,该存储介质存储有一个或多个程序,所述程序被处理器执行时,实现上述实施例1的网络资产异常检测方法,如下:
异构数据采集与存储,从不同来源采集网络资产的流量数据、探测数据和其他外部数据,并存储至数据库;
数据特征处理,整合多来源的原始数据,利用“改进型雷尼熵算法”将一组概率分布类型的字段衍生转换成一个新的数据特征字段,利用“基于分位数的高鲁棒性标准化算法”对数据进行标准化处理,生成建模所需要的数据集;
建模与检测,建模单元获取网络资产数据集,采用“基于原型的自动最优聚类算法”,按照“资产类型”分组建立最优聚类模型,检测单元对建模单元输出的聚类结果进行处理,检测出有异常网络行为的资产;
检测结果分析,使用建模与检测步骤得到的“最优聚类模型”结合异常检测结果分析策略,对检测到的异常进行自动分析,智能输出网络资产异常度、资产异常因子、影响因子的影响度、告警和建议。
本实施例中所述的存储介质可以是ROM、RAM、磁盘、光盘等介质。
实施例4:
本实施例提供了一种计算设备,该计算设备包括处理器和存储器,存储器存储有一个或多个程序,处理器执行存储器存储的程序时,实现上述实施例1的网络资产异常检测方法,如下:
异构数据采集与存储,从不同来源采集网络资产的流量数据、探测数据和其他外部数据,并存储至数据库;
数据特征处理,整合多来源的原始数据,利用“改进型雷尼熵算法”将一组概率分布类型的字段衍生转换成一个新的数据特征字段,利用“基于分位数的高鲁棒性标准化算法”对数据进行标准化处理,生成建模所需要的数据集;
建模与检测,建模单元获取网络资产数据集,采用“基于原型的自动最优聚类算法”,按照“资产类型”分组建立最优聚类模型,检测单元对建模单元输出的聚类结果进行处理,检测出有异常网络行为的资产;
检测结果分析,使用建模与检测步骤得到的“最优聚类模型”结合异常检测结果分析策略,对检测到的异常进行自动分析,智能输出网络资产异常度、资产异常因子、影响因子的影响度、告警和建议。
本实施例中所述的计算设备可以是台式电脑、笔记本电脑、智能手机、PDA手持终端、平板电脑或其他具有显示功能的终端设备。
以上所述,仅为本发明专利较佳的实施例,但本发明专利的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明专利所公开的范围内,根据本发明专利的技术方案及其发明构思加以等同替换或改变,都属于本发明专利的保护范围。

Claims (9)

1.网络资产异常检测方法,其特征在于,所述方法包括:
异构数据采集与存储,从不同来源采集网络资产的流量数据、探测数据和其他外部数据,并存储至数据库;
数据特征处理,整合多来源的原始数据,利用“改进型雷尼熵算法”将一组概率分布类型的字段衍生转换成一个新的数据特征字段,利用“基于分位数的高鲁棒性标准化算法”对数据进行标准化处理,生成建模所需要的数据集;所述“改进型雷尼熵算法”具体为:
输入含有网络资产类型的某类概率分布型特征数据集D,D共2+n列;其中第1列为网络资产唯一编号,第2列是资产类型,之后的n列是概率分布型的特征,对于每行的后n列之和为1;
按不同的资产类型,将数据集D划分成若干个数据子集;
分别计算本子集Xn列特征的均值,得到均值向量μ:
计算第i个资产的改进型雷尼熵L(i):
遍历计算第i个资产的改进型雷尼熵的步骤,计算本子集的所有资产的改进型雷尼熵L;
遍历完成,得到全集D所有资产的改进型雷尼熵;
建模与检测,建模单元获取网络资产数据集,采用 “基于原型的自动最优聚类算法”,按照“资产类型”分组建立最优聚类模型,检测单元对建模单元输出的聚类结果进行处理,检测出有异常网络行为的资产;
检测结果分析,使用建模与检测步骤得到的“最优聚类模型”结合异常检测结果分析策略,对检测到的异常进行自动分析,智能输出网络资产异常度、资产异常因子、影响因子的影响度、告警和建议。
2.根据权利要求1所述的网络资产异常检测方法,其特征在于,所述数据特征处理的步骤中,所述 “基于分位数的高鲁棒性标准化算法”公式如下:
其中x 0表示标准化后的x0 ,Qa和Qb分别表示向量X的第a和第b百分位数,0<a<b<100;N表示向量X中xi∈[Qa,Qb]总个数,Qa ≤ xi ≤ Qb ;
原始数据经过数据特征处理模块的预处理之后,最终生成的建模数据集。
3.根据权利要求1所述的网络资产异常检测方法,其特征在于,所述建模与检测的步骤具体为:
所述建模单元的处理方法具体为:
输入网络资产数据集;其中包含资产“IP地址”、“资产类型”,及其他网络行为特征字段;
按照“资产类型”字段划分数据集为多个子集;
采用“基于原型的自动最优聚类算法”,对划分的数据集分别建模;输出“资产类型”分组的多个原型聚类结果;
所述检测单元的处理方法具体为:
输入建模单元输出的聚类结果;
采用“基于距离的异常检测算法”,判断样本是否异常;
输出有异常网络行为的资产列表。
4.根据权利要求3所述的网络资产异常检测方法,其特征在于,所述“基于原型的自动最优聚类算法”具体为:
选择任意一种基于原型的聚类算法,设定最佳聚类簇数的搜索范围,算法自动迭代在簇数范围内建立多个模型,分别计算反映聚类簇紧凑程度的“簇内平方误差”;设计综合损失函数,综合损失与“簇内平方误差”成正比,与自然常数e的“簇数除以二”次幂成正比,搜索综合损失向量的最小值,最小值对应的簇数作为最佳聚类簇数。
5.根据权利要求3所述的网络资产异常检测方法,其特征在于,所述“基于距离的异常检测算法”具体为:
选用一种方法识别多个正常簇,再计算各个正常簇的正常行为域,正常行为域的中心点作为该域的代表,计算每个样本超出各个正常行为域的距离与对应域半径的比例,取该样本该比例的最小值作为该样本的异常度,网络资产样本异常度大于0时检测判定为存在异常。
6.根据权利要求1所述的网络资产异常检测方法,其特征在于,所述检测结果分析的步骤具体为:
网络资产异常度检测,分别计算网络资产相对于多个正常行为域的差异度,该差异度等于网络资产行为数据向量与正常行为域的距离除以域半径,再减1;求网络资产多个差异度的最小值,即网络资产异常度
得到存在异常的网络资产列表、网络资产异常度、资产异常因子、因子影响度,根据专网安全的特定需求,个性化输出相应的自然语言告警,以及针对不同异常因子提出对应的排查和解除威胁的建议。
7.网络资产异常检测系统,其特征在于,所述系统包括:
异构数据采集与存储模块,用于从不同来源采集网络资产的流量数据、探测数据和其他外部数据,并存储至数据库;
数据特征处理模块,用于整合多来源的原始数据,利用“改进型雷尼熵算法”将一组概率分布类型的字段衍生转换成一个新的数据特征字段,利用“基于分位数的高鲁棒性标准化算法”对数据进行标准化处理,生成建模所需要的数据集;所述“改进型雷尼熵算法”具体为:
输入含有网络资产类型的某类概率分布型特征数据集D,D共2+n列;其中第1列为网络资产唯一编号,第2列是资产类型,之后的n列是概率分布型的特征,对于每行的后n列之和为1;
按不同的资产类型,将数据集D划分成若干个数据子集;
分别计算本子集Xn列特征的均值,得到均值向量μ:
计算第i个资产的改进型雷尼熵L(i):
遍历计算第i个资产的改进型雷尼熵的步骤,计算本子集的所有资产的改进型雷尼熵L;
遍历完成,得到全集D所有资产的改进型雷尼熵;
建模与检测模块,利用建模单元获取网络资产数据集,采用 “基于原型的自动最优聚类算法”,按照“资产类型”分组建立最优聚类模型,利用检测单元对建模单元输出的聚类结果进行处理,检测出有异常网络行为的资产;
检测结果分析模块,用于使用建模与检测步骤得到的“最优聚类模型”结合异常检测结果分析策略,对检测到的异常进行自动分析,智能输出网络资产异常度、资产异常因子、影响因子的影响度、告警和建议。
8.存储介质,存储有程序,其特征在于:所述程序被处理器执行时,实现权利要求1-6任一项所述的网络资产异常检测方法。
9.计算设备,包括处理器以及用于存储处理器可执行程序的存储器,其特征在于:所述处理器执行存储器存储的程序时,实现权利要求1-6任一项所述的网络资产异常检测方法。
CN202010108551.5A 2020-02-21 2020-02-21 网络资产异常检测方法、系统、介质和设备 Active CN111339297B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010108551.5A CN111339297B (zh) 2020-02-21 2020-02-21 网络资产异常检测方法、系统、介质和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010108551.5A CN111339297B (zh) 2020-02-21 2020-02-21 网络资产异常检测方法、系统、介质和设备

Publications (2)

Publication Number Publication Date
CN111339297A CN111339297A (zh) 2020-06-26
CN111339297B true CN111339297B (zh) 2023-04-25

Family

ID=71184256

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010108551.5A Active CN111339297B (zh) 2020-02-21 2020-02-21 网络资产异常检测方法、系统、介质和设备

Country Status (1)

Country Link
CN (1) CN111339297B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112039856A (zh) * 2020-08-14 2020-12-04 北京兰云科技有限公司 资产异常行为的检测方法和装置及计算机可读存储介质
CN112348644B (zh) * 2020-11-16 2024-04-02 上海品见智能科技有限公司 一种通过建立单调正相关过滤网的异常物流订单检测方法
CN112994846B (zh) * 2021-03-02 2023-01-31 广州汇通国信科技有限公司 一种应用于电力数据同步校验的治理方法
CN115622720B (zh) * 2021-07-13 2024-07-16 中移物联网有限公司 一种网络异常检测方法、装置及检测设备
CN115034465B (zh) * 2022-06-01 2023-05-12 黄河科技集团创新有限公司 一种基于人工智能的焦炭质量预测方法
CN115396163B (zh) * 2022-08-10 2023-04-11 广州天懋信息系统股份有限公司 一种恶意周期行为检测方法
CN115277249B (zh) * 2022-09-22 2022-12-20 山东省计算中心(国家超级计算济南中心) 一种多层异构网络协同的网络安全态势感知方法
CN115442156B (zh) * 2022-11-03 2023-01-17 联通(广东)产业互联网有限公司 用户终端使用情况识别方法、系统、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101795215A (zh) * 2010-01-28 2010-08-04 哈尔滨工程大学 网络流量异常检测方法及检测装置
CN104424296A (zh) * 2013-09-02 2015-03-18 阿里巴巴集团控股有限公司 查询词分类方法和装置
EP3133532A1 (en) * 2015-08-19 2017-02-22 Xiaomi Inc. Method and device for training classifier and recognizing a type of information
CN107733937A (zh) * 2017-12-01 2018-02-23 广东奥飞数据科技股份有限公司 一种异常网络流量检测方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8612186B2 (en) * 2011-03-01 2013-12-17 Livermore Software Technology Corp. Numerical simulation of structural behaviors using a meshfree-enriched finite element method

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101795215A (zh) * 2010-01-28 2010-08-04 哈尔滨工程大学 网络流量异常检测方法及检测装置
CN104424296A (zh) * 2013-09-02 2015-03-18 阿里巴巴集团控股有限公司 查询词分类方法和装置
EP3133532A1 (en) * 2015-08-19 2017-02-22 Xiaomi Inc. Method and device for training classifier and recognizing a type of information
CN107733937A (zh) * 2017-12-01 2018-02-23 广东奥飞数据科技股份有限公司 一种异常网络流量检测方法

Also Published As

Publication number Publication date
CN111339297A (zh) 2020-06-26

Similar Documents

Publication Publication Date Title
CN111339297B (zh) 网络资产异常检测方法、系统、介质和设备
CN111612041B (zh) 异常用户识别方法及装置、存储介质、电子设备
Xiao et al. Partitive clustering (K‐means family)
Jiang et al. A family of joint sparse PCA algorithms for anomaly localization in network data streams
US11533373B2 (en) Global iterative clustering algorithm to model entities&#39; behaviors and detect anomalies
Lv et al. CciMST: A clustering algorithm based on minimum spanning tree and cluster centers
CN104239553A (zh) 一种基于Map-Reduce框架的实体识别方法
Wang et al. Research on anomaly detection and real-time reliability evaluation with the log of cloud platform
CN112306820B (zh) 一种日志运维根因分析方法、装置、电子设备及存储介质
Zhang et al. An affinity propagation clustering algorithm for mixed numeric and categorical datasets
CN113762377A (zh) 网络流量识别方法、装置、设备及存储介质
CN110544047A (zh) 一种不良数据辨识方法
Mahmud et al. Approximate clustering ensemble method for big data
CN114781688A (zh) 业扩项目的异常数据的识别方法、装置、设备及存储介质
Wang et al. Markov clustering ensemble
CN112583847B (zh) 一种面向中小企业网络安全事件复杂分析的方法
Wang et al. An improved clustering method for detection system of public security events based on genetic algorithm and semisupervised learning
Du et al. An Improved Algorithm Based on Fast Search and Find of Density Peak Clustering for High‐Dimensional Data
CN112463974A (zh) 知识图谱建立的方法和装置
CN116150632A (zh) 智能家居中基于局部敏感哈希的物联网设备识别方法
KR20200051300A (ko) Cf 트리를 활용한 범위 질의 기반의 데이터 클러스터링 장치 및 방법
CN115392351A (zh) 风险用户识别方法、装置、电子设备及存储介质
CN115204155A (zh) 一种配置异常检测方法、装置、计算机设备和存储介质
Wang et al. Enhanced soft subspace clustering through hybrid dissimilarity
Zhang Contributions to Large Scale Data Clustering and Streaming with Affinity Propagation. Application to Autonomic Grids.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant