CN109274677A - 基于机器学习的ip分类方法及系统 - Google Patents

基于机器学习的ip分类方法及系统 Download PDF

Info

Publication number
CN109274677A
CN109274677A CN201811183465.XA CN201811183465A CN109274677A CN 109274677 A CN109274677 A CN 109274677A CN 201811183465 A CN201811183465 A CN 201811183465A CN 109274677 A CN109274677 A CN 109274677A
Authority
CN
China
Prior art keywords
data
flows
unit
machine learning
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811183465.XA
Other languages
English (en)
Other versions
CN109274677B (zh
Inventor
彭恒进
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Changhong Electric Co Ltd
Original Assignee
Sichuan Changhong Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Changhong Electric Co Ltd filed Critical Sichuan Changhong Electric Co Ltd
Priority to CN201811183465.XA priority Critical patent/CN109274677B/zh
Publication of CN109274677A publication Critical patent/CN109274677A/zh
Application granted granted Critical
Publication of CN109274677B publication Critical patent/CN109274677B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/30Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information
    • H04L63/302Network architectures or network communication protocols for network security for supporting lawful interception, monitoring or retaining of communications or communication related information gathering intelligence information for situation awareness or reconnaissance

Abstract

本发明提出一种基于机器学习的IP分类方法及系统,属于计算机网络数据安全技术领域。本发明技术方案要点为:方法包括:采集主机流量和威胁情报数据;设置主机流量维度,威胁情报维度;对流量数据进行分析;将分析后的流量数据形成流量数据分析结果;将流量数据分析结果存储到数据库中;对存储到数据库中的流量数据进行对比筛选,并将筛选结果进行可视化展示。系统包括:数据采集单元、数据清洗单元、数据分析单元、IP数据比对单元以及匹配IP数据可视化单元。本发明能够快速、高效的对IP地址进行分类,实现对威胁情报进行分析和展示。

Description

基于机器学习的IP分类方法及系统
技术领域
本发明涉及计算机网络数据安全技术,特别涉及基于机器学习的IP分类的技术。
背景技术
随着网络和科技的迅速发展,互联网所承载的信息日渐丰富,在一方面为人们带来便利的同时,也存在大量安全隐患,ddos,木马,蠕虫等攻击时有发生,互联网安全形势严峻。当前的主要挑战是建立安全的应用程序,系统和网络,用于企业内部安全访控策略调整,提高企业内部控制异常访问的精确度。一般企业内部资产数量庞大,威胁检测也是基于已发生攻击的检测,缺乏对各种安全威胁的预知和部署,如果没有做好访控调整,可能会导致异常访问控制不到位引起安全风险增加。随着第三方威胁情报平台众多,也带来了丰富的全球安全情报资源,而主动防御讲的就是怎么利用安全情报发现一些可能对企业造成危害的攻击来源,包括用户异常行为关联分析和各种各样的结果。这是一个很好的主动去发现企业可能被攻击的状况,然后调整安全策略的一个方法。
发明内容
本发明的目的是提供一种基于机器学习的IP分类方法及系统,能够快速、高效的对IP地址进行分类,实现对威胁情报进行分析和展示。
本发明解决其技术问题,采用的技术方案是:基于机器学习的IP分类方法,包括如下步骤:
步骤1、采集主机流量和威胁情报数据;
步骤2、设置主机流量维度,威胁情报维度;
步骤3、对流量数据进行分析;
步骤4、将分析后的流量数据形成流量数据分析结果;
步骤5、将流量数据分析结果存储到数据库中;
步骤6、对存储到数据库中的流量数据进行对比筛选,并将筛选结果进行可视化展示。
具体地,步骤1中,通过snmp工具采集主机流量,通过API采集第三方威胁情报数据。
进一步地,步骤2中,设置主机流量维度包括源IP、目的IP及时间,设置威胁情报数据维度包括源IP、攻击数、攻击周期及攻击事件类型。
具体地,步骤3具体包括如下步骤:
步骤301、对流量数据进行标准化,将各指标特征分布在区间[0,1];
步骤302、标准化后的流量数据采用kmeans聚类算法处理,通过交叉验证后得到主机流量采用k1=2,威胁数据采用k2=4;
步骤303、对标准化后的流量数据采用tsne降维算法处理,得到两个低维空间映射相关系数。
再进一步地,步骤6具体是指:对存储到数据库中的流量数据进行对比筛选,筛选出系数相匹配的IP、匹配结果及匹配次数,并将筛选结果生成表格进行展示。
基于机器学习的IP分类系统,包括数据采集单元、数据清洗单元、数据分析单元、IP数据比对单元以及匹配IP数据可视化单元;
所述数据采集单元用于采集主机流量和第三方威胁情报数据;
所述数据清洗单元用于对数据采集单元采集到的数据进行清洗;
所述数据分析单元用于对数据清洗单元处理后的数据进行标准化,使数据标准化到[0,1]之间,再采用kmeans聚类分析和tsne降维分析,对数据进行聚类和分析,并存储到Nosql数据库中;
所述IP数据比对单元用于将主机流量和威胁情报分析结果表中IP、两个相关系数的维度,结合k分类进行比对,筛选出与威胁情报匹配的IP和未匹配的IP;
所述可视化单元用于对IP数据比对单元中的匹配和未匹配的IP进行直观的展示,并添加其匹配结果及匹配次数数据,展示IP分类结果。
具体地,所述清洗包括行列计算和拆分及归并。
本发明的有益效果是,通过上述基于机器学习的IP分类方法及系统,首先,采集主机流量和威胁情报数据;其次,设置主机流量维度,威胁情报维度;然后,对流量数据进行分析;再将分析后的流量数据形成流量数据分析结果;然后,将流量数据分析结果存储到数据库中;最后,对存储到数据库中的流量数据进行对比筛选,并将筛选结果进行可视化展示。
本申请依托于机器学习相关技术,将网络流量和威胁情报数据进行分析和比对,并将处理结果通过态势感知平台可视化直观展示,对运维和安全决策人员十分友好。并且,具有简单易懂的特点,使用者可以在获得流量数据后对数据进行清洗和预处理的时候有更明确的目的性,以及在数据分析的时候有更强的算法选择指导。并且,具有很强的实用性,极大程度地提高了运维了解某一时间段网络安全情况的直观展示。
具体实施方式
下面结合实施例,详细描述本发明的技术方案。
本发明所述基于机器学习的IP分类方法,包括如下步骤:
步骤1、采集主机流量和威胁情报数据;
步骤2、设置主机流量维度,威胁情报维度;
步骤3、对流量数据进行分析;
步骤4、将分析后的流量数据形成流量数据分析结果;
步骤5、将流量数据分析结果存储到数据库中;
步骤6、对存储到数据库中的流量数据进行对比筛选,并将筛选结果进行可视化展示。
基于机器学习的IP分类系统,包括数据采集单元、数据清洗单元、数据分析单元、IP数据比对单元以及匹配IP数据可视化单元;其中,数据采集单元用于采集主机流量和第三方威胁情报数据;数据清洗单元用于对数据采集单元采集到的数据进行清洗;数据分析单元用于对数据清洗单元处理后的数据进行标准化,使数据标准化到[0,1]之间,再采用kmeans聚类分析和tsne降维分析,对数据进行聚类和分析,并存储到Nosql数据库中;IP数据比对单元用于将主机流量和威胁情报分析结果表中IP、两个相关系数的维度,结合k分类进行比对,筛选出与威胁情报匹配的IP和未匹配的IP;可视化单元用于对IP数据比对单元中的匹配和未匹配的IP进行直观的展示,并添加其匹配结果及匹配次数数据,展示IP分类结果。
实施例
本发明实施例中,数据采集方式主要是主机网络流量采集,第三方威胁情报平台API,非API方式,以及其他方式。
优选的,数据预处理包括对主机网络数据和威胁情报数据预处理,其中网络数据只采集目的IP和源IP,以及网络访问时间;威胁情报数据预处理则需要对源IP,攻击数,攻击周期,攻击事件类型,国家,地区,网段等十多个维度进行统计分类。
优选的,数据标准化对数据进行处理和归一化,以解决数据指标之间的可比性。原始数据在经过数据标准化处理后,各指标特征分布在区间[0,1],适合进行综合对比评价,该方法特征公式为:
其中xi是高维数据在高维空间中的点的集合,min(xi),max(xi)分别表示样本xi中的最小值和最大值,z是xi归一化后的结果;
优选的,对于kmeans算法,通过交叉验证结果分析,对主机网络数据采用的k值为2,对威胁情报数据采用的k值为4,标记距离函数为:
其中labeli为每个样本xi对其标记为距离类别中心aj最近的类别,argmin表示为给定函数取最小值的取值集合表达;
优选的,对于tsne降维算法,为了避免噪声、离群点对低维空间映射的干扰,可以先用numpy求出pij
其中pij,pji为高维空间的联合概率密度函数值,Dij,Dji为用来度量距离的高斯似然函数,且:
Dji同理,其中xi,xj分别表示高维空间中距离较近/较远的点
t分布公式定义新的距离:
其中yi,yj为低维空间映射,qji为不同于传统概率密度函数的重新定义的概率密度函数;
损失函数求导:
其中loss为损失函数,用KL散度来定义两个分布的关系:
为避免log函数自变量为0,构建函数时候若pij,i=j=0,则强制pij=max(pij,0.000001);上述max(pij,0.000001)为在pij和0.000001中取最大值。

Claims (7)

1.基于机器学习的IP分类方法,其特征在于,包括如下步骤:
步骤1、采集主机流量和威胁情报数据;
步骤2、设置主机流量维度,威胁情报维度;
步骤3、对流量数据进行分析;
步骤4、将分析后的流量数据形成流量数据分析结果;
步骤5、将流量数据分析结果存储到数据库中;
步骤6、对存储到数据库中的流量数据进行对比筛选,并将筛选结果进行可视化展示。
2.根据权利要求1所述的基于机器学习的IP分类方法,其特征在于,步骤1中,通过snmp工具采集主机流量,通过API采集第三方威胁情报数据。
3.根据权利要求1所述的基于机器学习的IP分类方法,其特征在于,步骤2中,设置主机流量维度包括源IP、目的IP及时间,设置威胁情报数据维度包括源IP、攻击数、攻击周期及攻击事件类型。
4.根据权利要求1所述的基于机器学习的IP分类方法,其特征在于,步骤3具体包括如下步骤:
步骤301、对流量数据进行标准化,将各指标特征分布在区间[0,1];
步骤302、标准化后的流量数据采用kmeans聚类算法处理,通过交叉验证后得到主机流量采用k1=2,威胁数据采用k2=4;
步骤303、对标准化后的流量数据采用tsne降维算法处理,得到两个低维空间映射相关系数。
5.根据权利要求1所述的基于机器学习的IP分类方法,其特征在于,步骤6具体是指:对存储到数据库中的流量数据进行对比筛选,筛选出系数相匹配的IP、匹配结果及匹配次数,并将筛选结果生成表格进行展示。
6.基于机器学习的IP分类系统,其特征在于,包括数据采集单元、数据清洗单元、数据分析单元、IP数据比对单元以及匹配IP数据可视化单元;
所述数据采集单元用于采集主机流量和第三方威胁情报数据;
所述数据清洗单元用于对数据采集单元采集到的数据进行清洗;
所述数据分析单元用于对数据清洗单元处理后的数据进行标准化,使数据标准化到[0,1]之间,再采用kmeans聚类分析和tsne降维分析,对数据进行聚类和分析,并存储到Nosql数据库中;
所述IP数据比对单元用于将主机流量和威胁情报分析结果表中IP、两个相关系数的维度,结合k分类进行比对,筛选出与威胁情报匹配的IP和未匹配的IP;
所述可视化单元用于对IP数据比对单元中的匹配和未匹配的IP进行直观的展示,并添加其匹配结果及匹配次数数据,展示IP分类结果。
7.根据权利要求6所述的基于机器学习的IP分类系统,器特征在于,所述清洗包括行列计算和拆分及归并。
CN201811183465.XA 2018-10-11 2018-10-11 基于机器学习的ip分类方法及系统 Active CN109274677B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811183465.XA CN109274677B (zh) 2018-10-11 2018-10-11 基于机器学习的ip分类方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811183465.XA CN109274677B (zh) 2018-10-11 2018-10-11 基于机器学习的ip分类方法及系统

Publications (2)

Publication Number Publication Date
CN109274677A true CN109274677A (zh) 2019-01-25
CN109274677B CN109274677B (zh) 2021-04-27

Family

ID=65196444

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811183465.XA Active CN109274677B (zh) 2018-10-11 2018-10-11 基于机器学习的ip分类方法及系统

Country Status (1)

Country Link
CN (1) CN109274677B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109951484A (zh) * 2019-03-20 2019-06-28 四川长虹电器股份有限公司 针对机器学习产品进行攻击的测试方法及系统
CN110311991A (zh) * 2019-02-20 2019-10-08 罗向阳 基于svm分类模型的街道级地标获取方法
CN110365636A (zh) * 2019-05-23 2019-10-22 中国科学院信息工程研究所 工控蜜罐攻击数据来源的判别方法及装置
CN110691080A (zh) * 2019-09-25 2020-01-14 光通天下网络科技股份有限公司 自动溯源方法、装置、设备及介质
CN111861830A (zh) * 2020-04-03 2020-10-30 深圳市天彦通信股份有限公司 一种情报云平台
CN112804374A (zh) * 2021-01-06 2021-05-14 光通天下网络科技股份有限公司 Ip识别方法、装置、设备及介质

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103368979A (zh) * 2013-08-08 2013-10-23 电子科技大学 一种基于改进K-means算法的网络安全性验证装置
EP2706721A2 (en) * 2012-09-11 2014-03-12 The Boeing Company Detection of infected network devices via analysis of responseless outgoing network traffic
CN105022960A (zh) * 2015-08-10 2015-11-04 济南大学 基于网络流量的多特征移动终端恶意软件检测方法及系统
CN107196910A (zh) * 2017-04-18 2017-09-22 国网山东省电力公司电力科学研究院 基于大数据分析的威胁预警监测系统、方法及部署架构
CN107391598A (zh) * 2017-06-30 2017-11-24 北京航空航天大学 一种威胁情报自动生成方法及系统
CN107819783A (zh) * 2017-11-27 2018-03-20 深信服科技股份有限公司 一种基于威胁情报的网络安全检测方法及系统
CN110086829A (zh) * 2019-05-14 2019-08-02 四川长虹电器股份有限公司 一种基于机器学习技术进行物联网异常行为检测的方法
CN111711599A (zh) * 2020-04-23 2020-09-25 北京凌云信安科技有限公司 基于多元海量数据融合关联分析的安全态势感知系统

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2706721A2 (en) * 2012-09-11 2014-03-12 The Boeing Company Detection of infected network devices via analysis of responseless outgoing network traffic
CN103368979A (zh) * 2013-08-08 2013-10-23 电子科技大学 一种基于改进K-means算法的网络安全性验证装置
CN105022960A (zh) * 2015-08-10 2015-11-04 济南大学 基于网络流量的多特征移动终端恶意软件检测方法及系统
CN107196910A (zh) * 2017-04-18 2017-09-22 国网山东省电力公司电力科学研究院 基于大数据分析的威胁预警监测系统、方法及部署架构
CN107391598A (zh) * 2017-06-30 2017-11-24 北京航空航天大学 一种威胁情报自动生成方法及系统
CN107819783A (zh) * 2017-11-27 2018-03-20 深信服科技股份有限公司 一种基于威胁情报的网络安全检测方法及系统
CN110086829A (zh) * 2019-05-14 2019-08-02 四川长虹电器股份有限公司 一种基于机器学习技术进行物联网异常行为检测的方法
CN111711599A (zh) * 2020-04-23 2020-09-25 北京凌云信安科技有限公司 基于多元海量数据融合关联分析的安全态势感知系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
R. ASHOK, A. J. LAKSHMI, G. D. V. RANI AND M. NARESH KUMAR: ""Optimized feature selection with k-means clustered triangle SVM for Intrusion Detection"", 《2011 THIRD INTERNATIONAL CONFERENCE ON ADVANCED COMPUTING, CHENNAI, 2011》 *
博客博主: "K-means聚类分析,并用t-SNE可视化聚类结果", 《HTTPS://BLOG.CSDN.NET/LBWEIWAN/ARTICLE/DETAILS/82759670》 *
徐文韬,王轶骏,薛质: ""面向威胁情报的攻击指示器自动生成"", 《通信技术》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110311991A (zh) * 2019-02-20 2019-10-08 罗向阳 基于svm分类模型的街道级地标获取方法
CN110311991B (zh) * 2019-02-20 2022-04-22 中国人民解放军战略支援部队信息工程大学 基于svm分类模型的街道级地标获取方法
CN109951484A (zh) * 2019-03-20 2019-06-28 四川长虹电器股份有限公司 针对机器学习产品进行攻击的测试方法及系统
CN110365636A (zh) * 2019-05-23 2019-10-22 中国科学院信息工程研究所 工控蜜罐攻击数据来源的判别方法及装置
CN110691080A (zh) * 2019-09-25 2020-01-14 光通天下网络科技股份有限公司 自动溯源方法、装置、设备及介质
CN110691080B (zh) * 2019-09-25 2022-06-14 光通天下网络科技股份有限公司 自动溯源方法、装置、设备及介质
CN111861830A (zh) * 2020-04-03 2020-10-30 深圳市天彦通信股份有限公司 一种情报云平台
CN111861830B (zh) * 2020-04-03 2024-04-26 深圳市天彦通信股份有限公司 一种情报云平台
CN112804374A (zh) * 2021-01-06 2021-05-14 光通天下网络科技股份有限公司 Ip识别方法、装置、设备及介质
CN112804374B (zh) * 2021-01-06 2023-11-03 光通天下网络科技股份有限公司 威胁ip识别方法、装置、设备及介质

Also Published As

Publication number Publication date
CN109274677B (zh) 2021-04-27

Similar Documents

Publication Publication Date Title
CN109274677A (zh) 基于机器学习的ip分类方法及系统
CN109347801B (zh) 一种基于多源词嵌入和知识图谱的漏洞利用风险评估方法
Zhong et al. A cyber security data triage operation retrieval system
CN112738015B (zh) 一种基于可解释卷积神经网络cnn与图检测的多步攻击检测方法
Ektefa et al. Intrusion detection using data mining techniques
Hosseini et al. Anomaly process detection using negative selection algorithm and classification techniques
US10425436B2 (en) Identifying bulletproof autonomous systems
CN110545250B (zh) 一种多源攻击痕迹融合关联的溯源方法
US11159564B2 (en) Detecting zero-day attacks with unknown signatures via mining correlation in behavioral change of entities over time
Zhu et al. Android malware detection based on multi-head squeeze-and-excitation residual network
US20230353585A1 (en) Malicious traffic identification method and related apparatus
CN116662989B (zh) 一种安全数据解析方法及系统
Revathi et al. Network intrusion detection system using reduced dimensionality
Sapegin et al. Towards a system for complex analysis of security events in large-scale networks
CN111641634A (zh) 一种基于蜜网的工业控制网络主动防御系统及其方法
Laurenza et al. Malware triage for early identification of advanced persistent threat activities
Dubey et al. A novel approach to intrusion detection system using rough set theory and incremental SVM
Vinayakumar et al. Improved DGA domain names detection and categorization using deep learning architectures with classical machine learning algorithms
CN110519228B (zh) 一种黑产场景下恶意云机器人的识别方法及系统
Rao et al. Zero-shot learning approach to adaptive Cybersecurity using Explainable AI
Mathew et al. Situation awareness of multistage cyber attacks by semantic event fusion
CN109067778B (zh) 一种基于蜜网数据的工控扫描器指纹识别方法
Shukla et al. UInDeSI4. 0: An efficient Unsupervised Intrusion Detection System for network traffic flow in Industry 4.0 ecosystem
Harb et al. Selecting optimal subset of features for intrusion detection systems
Chouhan et al. A survey: Analysis of current approaches in anomaly detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant