CN107645493B - 一种ip组相似度计算方法 - Google Patents
一种ip组相似度计算方法 Download PDFInfo
- Publication number
- CN107645493B CN107645493B CN201710715506.4A CN201710715506A CN107645493B CN 107645493 B CN107645493 B CN 107645493B CN 201710715506 A CN201710715506 A CN 201710715506A CN 107645493 B CN107645493 B CN 107645493B
- Authority
- CN
- China
- Prior art keywords
- group
- attribute
- dimensional
- vector
- alarm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种IP组相似度计算方法,取任一IP,得到IP的本身字段属性、地域信息属性、告警时间属性和告警类型属性的高维特征向量,加权组合得到当前IP的组合特征向量,进而得到所有待分组IP的组合特征向量,聚类得到IP组,以均方根误差RMSE衡量每个IP组的相似度。本发明的方法考量了IP的多维属性,结合IP本身的字段、地域特征及行为模式,得到IP组相似度更有说服力,精准度更高。
Description
技术领域
本发明涉及特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法的技术领域,特别涉及一种网络安全领域的、基于高维映射和加权K-Means聚类的IP组相似度计算方法。
背景技术
IP是Internet Protocol(互联网协议)的外语缩写,在互联网中,它是能使连接到网上的所有计算机网络实现相互通信的一套规则,规定了计算机在互联网上进行通信时应当遵守的规则。任何厂家生产的计算机系统,只要遵守IP协议就可以在互联网上互连互通。
通过计算IP间的相似度,可以使分析视角从单个IP转到整个IP组,从而为IP行为分析和规律发现提供了便利,进而可以更好地保障网络安全。
在现有技术中,IP相似度计算方法是直接根据IP(一般表示为A.B.C.D)本身的4个字段信息,采用聚类方法如DBSCAN、K-Medoids等进行聚类,然后计算IP组相似度,这些聚类方法只考虑了单一的IP字段信息,没有利用IP的其他属性及行为特征,所以聚类效果不尽如人意。
发明内容
本发明的主要目的在于克服现有技术中的不足,提供一种优化的IP组相似度计算方法。
本发明的技术方案为,一种IP组相似度计算方法,所述方法包括以下步骤:
步骤1:取任一IP,所述IP的属性包括IP的本身字段属性、IP的地域信息属性、IP的告警时间属性和IP的告警类型属性;将IP同一属性的字段取值统一到同一高维空间,得到IP的本身字段属性的高维特征向量V1、IP的地域信息属性的高维特征向量V2、IP的告警时间属性的高维特征向量V3和IP的告警类型属性的高维特征向量V4;
步骤2:对得到的高维特征向量进行加权,组合得到当前IP的组合特征向量V=[λ1.*V1,λ2.*V2,λ3×V3,λ4×V4],其中,.*表示向量的对应元素相乘,λ1和λ2为权重向量,λ1和λ2中的每个元素的取值范围为[1,100],λ3和λ4为权重值,λ3、λ4∈[1,100];
步骤3:重复步骤1至步骤2,得到NIP个待分组IP的组合特征向量V后,进行下一步;
步骤5:以均方根误差RMSE衡量每个IP组的相似度。
优选地,所述得到IP的本身字段属性的高维特征向量包括以下步骤:
步骤1.1.1:令所述IP为标准格式A.B.C.D,其中,A、B、C、D为字段,A、B、C、D∈[0,255];
步骤1.1.2:所述IP的字段映射到高维空间的高维特征向量为V1=(A,B,C,D);
步骤1.1.4:以V1'代替V1。
优选地,所述得到IP的地域信息属性的高维特征向量包括以下步骤:
步骤1.2.1:取所述IP的经纬度信息,经度longitude∈[-180°,180°],纬度latitude∈[-90°,90°],其中,东经为正,西经为负,北纬为正,南纬为负;
步骤1.2.2:所述IP的地域信息映射到高维空间的高维特征向量为V2=(longitude,latitude);
步骤1.2.4:以V2'代替V2。
优选地,所述得到IP的告警时间属性的高维特征向量包括以下步骤:
步骤1.3.1:获得在T分钟时间内,对第1分钟至第T分钟的每分钟的告警次数;
步骤1.3.2:所述IP的告警时间属性映射到高维空间的高维特征向量为V3=(c1,…,ci,…,cT),其中,ci表示第i分钟各种安全设备产生告警的次数总和,0<i≤T,i为整数。
优选地,所述得到IP的告警类型属性的高维特征向量包括以下步骤:
步骤1.4.1:令所有安全设备对IP进行告警的类别为N类;
步骤1.4.2:获得在T分钟时间内,第j类告警的次数总和nj,得到IP的告警时间属性映射到高维空间的高维特征向量V4=(n1,…,nj,…,nN),0<j≤N,j为整数。
优选地,所述步骤4中,聚类采用欧氏距离进行距离度量。
优选地,所述步骤5中,以均方根误差RMSE衡量每个IP组的相似度包括以下步骤:
步骤5.1:令第k个IP组的聚类中心为Vk,mean,共有Nk个IP的组合特征向量,集合为X(k);
优选地,所述步骤5.2中,RMSE越小,IP组相似度越大,RMSE越大,IP组相似度越小。
本发明通过对IP的本身字段属性、IP的地域信息属性、IP的告警时间属性和IP的告警类型属性进行高维映射,得到属性对应的高维特征向量,对得到的高维特征向量进行加权,得到IP在高维空间的组合特征向量,然后利用K-Means对不同的IP进行聚类形成IP组,以均方根误差衡量每个IP组的相似度。本发明的方法考量了IP的多维属性,结合IP本身的字段、地域特征及行为模式,得到IP组相似度更有说服力,精准度更高。
具体实施方式
首先需要说明的是,本发明是计算机技术在信息安全技术领域的一种应用。在本发明的实现过程中,会涉及到多个软件功能模块的应用。申请人认为,如在仔细阅读申请文件、准确理解本发明的实现原理和发明目的以后,在结合现有公知技术的情况下,本领域技术人员完全可以运用其掌握的软件编程技能实现本发明,凡本发明申请文件提及的软件功能模块均属此范畴,申请人不再一一列举。
本发明涉及一种IP组相似度计算方法,所述方法包括以下步骤。
步骤1:取任一IP,所述IP的属性包括IP的本身字段属性、IP的地域信息属性、IP的告警时间属性和IP的告警类型属性;将IP同一属性的字段取值统一到同一高维空间,得到IP的本身字段属性的高维特征向量V1、IP的地域信息属性的高维特征向量V2、IP的告警时间属性的高维特征向量V3和IP的告警类型属性的高维特征向量V4。
本发明中,高维映射是指,将IP同一属性字段取值统一到同一个高维空间,IP之间的距离计算更为简便,用于判断其相似性。
所述得到IP的本身字段属性的高维特征向量包括以下步骤:
步骤1.1.1:令所述IP为标准格式A.B.C.D,其中,A、B、C、D为字段,A、B、C、D∈[0,255];
步骤1.1.2:所述IP的字段映射到高维空间的高维特征向量为V1=(A,B,C,D);
步骤1.1.4:以V1'代替V1。
本发明中,IP的形式一般为A.B.C.D,每个字段的取值范围为0至255。一般情况下,两个IP间,对应的字段越相近,说明这两个IP越可能是被同一个人或组织所拥有。
本发明中,归一化可以简化计算,使得向量成为标量,使物理系统数值的绝对值变成某种相对值关系。
所述得到IP的地域信息属性的高维特征向量包括以下步骤:
步骤1.2.1:取所述IP的经纬度信息,经度longitude∈[-180°,180°],纬度latitude∈[-90°,90°],其中,东经为正,西经为负,北纬为正,南纬为负;
步骤1.2.2:所述IP的地域信息映射到高维空间的高维特征向量为V2=(longitude,latitude);
步骤1.2.4:以V2'代替V2。
本发明中,采用经纬度信息表达地域信息,两个IP的地域信息越接近,则越有可能是同一人或组织的IP。
本发明中,前述IP为115.239.210.27,所述地域为浙江省杭州市,杭州市中心的经纬度信息为东经120.2°、北纬30.3°,其经纬度映射到高维空间的向量为V2=(120.2°,30.3°),其经过归一化后的向量为
本发明中,归一化可以简化计算,使得向量成为标量,使物理系统数值的绝对值变成某种相对值关系。
所述得到IP的告警时间属性的高维特征向量包括以下步骤:
步骤1.3.1:获得在T分钟时间内,对第1分钟至第T分钟的每分钟的告警次数;
步骤1.3.2:所述IP的告警时间属性映射到高维空间的高维特征向量为V3=(c1,…,ci,…,cT),其中,ci表示第i分钟各种安全设备产生告警的次数总和,0<i≤T,i为整数。
本发明中,现有的各种安全设备都会对IP进行告警,在T分钟的时间内,对第1分钟至第T分钟的每分钟的告警次数进行统计,产生告警的时间重合度越高,说明越有可能是同一个人或组织。
本发明中,一般情况下,T可以取60。
所述得到IP的告警类型属性的高维特征向量包括以下步骤:
步骤1.4.1:令所有安全设备对IP进行告警的类别为N类;
步骤1.4.2:获得在T分钟时间内,第j类告警的次数总和nj,得到IP的告警时间属性映射到高维空间的高维特征向量V4=(n1,…,nj,…,nN),0<j≤N,j为整数。
本发明中,现有的各种安全设备都会对IP进行告警,告警可以进行归类,如N类,在同一时间段内,产生告警的类型重合度越高,说明越有可能是同一个人或组织。
步骤2:对得到的高维特征向量进行加权,组合得到当前IP的组合特征向量V=[λ1.*V1,λ2.*V2,λ3×V3,λ4×V4],其中,.*表示向量的对应元素相乘,λ1和λ2为权重向量,λ1和λ2中的每个元素的取值范围为[1,100],λ3和λ4为权重值,λ3、λ4∈[1,100]。
本发明中,不同属性在高维空间的重要性有所不同,所以在聚类前,需要对高维特征向量进行加权组合。
本发明中,IP本身字段属性的高维特征向量为V1,权重为λ1,λ1可根据实施环境调整,在当前实施例中为λ1=[8,4,2,1]。
本发明中,地域信息属性的高维特征向量为V2,权重为λ2,λ2可根据实施环境调整,在当前实施例中为λ2=[10,5]。
本发明中,告警时间属性的高维特征向量为V3,权重为λ3,λ3可根据实施环境调整,在当前实施例中为λ3=1。
本发明中,告警类型属性的高维特征向量为V4,权重为λ4,λ4可根据实施环境调整,在当前实施例中为λ4=1。
步骤3:重复步骤1至步骤2,得到NIP个待分组IP的组合特征向量V后,进行下一步。
所述步骤4中,聚类采用欧氏距离进行距离度量。
本发明中,β可取20。
步骤5:以均方根误差RMSE衡量每个IP组的相似度。
所述步骤5中,以均方根误差RMSE衡量每个IP组的相似度包括以下步骤:
步骤5.1:令第k个IP组的聚类中心为Vk,mean,共有Nk个IP的组合特征向量,集合为X(k);
所述步骤5.2中,RMSE越小,IP组相似度越大,RMSE越大,IP组相似度越小。
需要注意的是,以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有很多变形。本领域的普通技术人员能从本发明公开的内容中直接导出或联想到的所有变形,均应认为是本发明的保护范围。
Claims (8)
1.一种IP组相似度计算方法,其特征在于:所述方法包括以下步骤:
步骤1:取任一IP,所述IP的属性包括IP的字段属性、IP的地域信息属性、IP的告警时间属性和IP的告警类型属性;将IP同一属性的字段取值统一到同一高维空间,得到IP的字段属性的高维特征向量V1、IP的地域信息属性的高维特征向量V2、IP的告警时间属性的高维特征向量V3和IP的告警类型属性的高维特征向量V4;
步骤2:对得到的高维特征向量进行加权,组合得到当前IP的组合特征向量V=[λ1.*V1,λ2.*V2,λ3×V3,λ4×V4],其中,.*表示向量的对应元素相乘,λ1和λ2为权重向量,λ1和λ2中的每个元素的取值范围为[1,100],λ3和λ4为权重值,λ3、λ4∈[1,100];
步骤3:重复步骤1至步骤2,得到NIP个待分组IP的组合特征向量V后,进行下一步;
步骤5:以均方根误差RMSE衡量每个IP组的相似度。
4.根据权利要求1所述的一种IP组相似度计算方法,其特征在于:
所述得到IP的告警时间属性的高维特征向量包括以下步骤:
步骤1.3.1:获得在T分钟时间内,对第1分钟至第T分钟的每分钟的告警次数;
步骤1.3.2:所述IP的告警时间属性映射到高维空间的高维特征向量为V3=(c1,…,ci,…,cT),其中,ci表示第i分钟各种安全设备产生告警的次数总和,0<i≤T,i为整数。
5.根据权利要求1所述的一种IP组相似度计算方法,其特征在于:
所述得到IP的告警类型属性的高维特征向量包括以下步骤:
步骤1.4.1:令所有安全设备对IP进行告警的类别为N类;
步骤1.4.2:获得在T分钟时间内,第j类告警的次数总和nj,得到IP的告警时间属性映射到高维空间的高维特征向量V4=(n1,…,nj,…,nN),0<j≤N,j为整数。
6.根据权利要求1所述的一种IP组相似度计算方法,其特征在于:所述步骤4中,聚类采用欧氏距离进行距离度量。
8.根据权利要求7所述的一种IP组相似度计算方法,其特征在于:所述步骤5.2中,RMSE越小,IP组相似度越大,RMSE越大,IP组相似度越小。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710715506.4A CN107645493B (zh) | 2017-08-20 | 2017-08-20 | 一种ip组相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710715506.4A CN107645493B (zh) | 2017-08-20 | 2017-08-20 | 一种ip组相似度计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107645493A CN107645493A (zh) | 2018-01-30 |
CN107645493B true CN107645493B (zh) | 2020-03-06 |
Family
ID=61111142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710715506.4A Active CN107645493B (zh) | 2017-08-20 | 2017-08-20 | 一种ip组相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107645493B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108377275B (zh) * | 2018-02-11 | 2021-08-31 | 北京泰和利通科技有限公司 | 基于神经网络算法的网络安全防护方法 |
CN109034222A (zh) * | 2018-07-13 | 2018-12-18 | 杭州安恒信息技术股份有限公司 | 一种硬件资产分类方法、系统、装置及可读存储介质 |
CN117014334A (zh) * | 2022-04-29 | 2023-11-07 | 华为技术有限公司 | 地址分组方法及相关装置 |
CN115834221A (zh) * | 2022-11-28 | 2023-03-21 | 国网山东省电力公司信息通信公司 | 一种网络安全智能分析方法、系统、设备和存储介质 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101494535A (zh) * | 2009-03-05 | 2009-07-29 | 范九伦 | 基于隐马尔可夫模型的网络入侵场景构建方法 |
CN102075516A (zh) * | 2010-11-26 | 2011-05-25 | 哈尔滨工程大学 | 一种网络多步攻击识别和预测方法 |
CN102118275A (zh) * | 2009-12-30 | 2011-07-06 | 大唐移动通信设备有限公司 | 一种告警风暴的处理方法及处理装置 |
CN103164475A (zh) * | 2011-12-16 | 2013-06-19 | 北京思博途信息技术有限公司 | 多个ip地域信息库的合并方法及系统 |
CN103532949A (zh) * | 2013-10-14 | 2014-01-22 | 刘胜利 | 基于动态反馈的自适应木马通信行为检测方法 |
CN103746961A (zh) * | 2013-12-12 | 2014-04-23 | 中国人民解放军63928部队 | 一种网络攻击场景的因果知识挖掘方法、装置及服务器 |
CN105391694A (zh) * | 2015-10-20 | 2016-03-09 | 中国人民解放军信息工程大学 | 一种多源态势信息融合方法 |
CN106713371A (zh) * | 2016-12-08 | 2017-05-24 | 中国电子科技网络信息安全有限公司 | 一种基于DNS异常挖掘的Fast Flux僵尸网络检测方法 |
CN107070700A (zh) * | 2017-03-07 | 2017-08-18 | 浙江工商大学 | 一种基于身份自动识别的网络服务提供方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8966118B2 (en) * | 2011-11-14 | 2015-02-24 | Microsoft Technology Licensing, Llc | Unauthenticated redirection requests with protection |
-
2017
- 2017-08-20 CN CN201710715506.4A patent/CN107645493B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101494535A (zh) * | 2009-03-05 | 2009-07-29 | 范九伦 | 基于隐马尔可夫模型的网络入侵场景构建方法 |
CN102118275A (zh) * | 2009-12-30 | 2011-07-06 | 大唐移动通信设备有限公司 | 一种告警风暴的处理方法及处理装置 |
CN102075516A (zh) * | 2010-11-26 | 2011-05-25 | 哈尔滨工程大学 | 一种网络多步攻击识别和预测方法 |
CN103164475A (zh) * | 2011-12-16 | 2013-06-19 | 北京思博途信息技术有限公司 | 多个ip地域信息库的合并方法及系统 |
CN103532949A (zh) * | 2013-10-14 | 2014-01-22 | 刘胜利 | 基于动态反馈的自适应木马通信行为检测方法 |
CN103746961A (zh) * | 2013-12-12 | 2014-04-23 | 中国人民解放军63928部队 | 一种网络攻击场景的因果知识挖掘方法、装置及服务器 |
CN105391694A (zh) * | 2015-10-20 | 2016-03-09 | 中国人民解放军信息工程大学 | 一种多源态势信息融合方法 |
CN106713371A (zh) * | 2016-12-08 | 2017-05-24 | 中国电子科技网络信息安全有限公司 | 一种基于DNS异常挖掘的Fast Flux僵尸网络检测方法 |
CN107070700A (zh) * | 2017-03-07 | 2017-08-18 | 浙江工商大学 | 一种基于身份自动识别的网络服务提供方法 |
Non-Patent Citations (3)
Title |
---|
《An Unsupervised Network Anomaly Detection Approach by K-Means Clustering & ID3 Algorithms》;Vasser Yasami,et.al;《IEEE》;20081231;全文 * |
《基于宏观网络流相关性的DDoS攻击检测》;许晓东等;《计算机工程》;20110531;全文 * |
《基于相似度聚类分析方法的异常入侵检测系统的模型及实现》;王丽娜等;《小型微型计算机系统》;20040731;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN107645493A (zh) | 2018-01-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107645493B (zh) | 一种ip组相似度计算方法 | |
Luo et al. | An inherently nonnegative latent factor model for high-dimensional and sparse matrices from industrial applications | |
CN108734355B (zh) | 一种应用于电能质量综合治理场景的短期电力负荷并行预测方法及系统 | |
Li et al. | A comparative analysis of evolutionary and memetic algorithms for community detection from signed social networks | |
CN109995884B (zh) | 确定精确地理位置的方法和装置 | |
CN110188825B (zh) | 基于离散多视图聚类的图像聚类方法、系统、设备及介质 | |
CN107703480A (zh) | 基于机器学习的混合核函数室内定位方法 | |
CN109195110B (zh) | 基于层次聚类技术和在线极限学习机的室内定位方法 | |
CN112800231B (zh) | 电力数据校验方法、装置、计算机设备和存储介质 | |
CN107480621B (zh) | 一种基于人脸图像的年龄识别方法 | |
CN103679639A (zh) | 基于非局部均值的图像去噪方法和装置 | |
CN116665001A (zh) | 一种智慧园区多源数据动态监控和实时分析系统及方法 | |
CN103294647A (zh) | 基于正交张量近邻保持嵌入的头相关传输函数降维方法 | |
CN107977730A (zh) | 一种多传感器数据融合技术的风速测量方法 | |
WO2022028131A1 (zh) | 一种基于隐私保护的数据处理模型获取方法、装置、终端设备及存储介质 | |
CN117056402B (zh) | 一种基于多源信号的电机诊断方法、装置及存储介质 | |
CN113543026A (zh) | 一种基于径向基函数网络的多楼层室内定位方法 | |
CN111766557A (zh) | 一种基于K-Means算法分析影响电能表检测精度的方法 | |
Kartal et al. | Pattern layer reduction for a generalized regression neural network by using a self–organizing map | |
CN109508735A (zh) | 一种基于神经动力学的软间隔支持向量机分类方法 | |
CN115374404A (zh) | 基于多维数据对行业月度电能占比偏差的修正方法 | |
Yin et al. | Spectral Clustering Approach with K-Nearest Neighbor and Weighted Mahalanobis Distance for Data Mining | |
Kamoto et al. | Unsupervised energy disaggregation of home appliances | |
Lu et al. | Enhancing IoT Data and Semantic Interoperability Based on Entity Tree Embedding Under an Edge–Cloud Framework | |
CN113315757B (zh) | 一种面向边缘计算的数据免解码传输方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information |
Address after: Zhejiang Zhongcai Building No. 68 Binjiang District road Hangzhou City, Zhejiang Province, the 310052 and 15 layer Applicant after: Hangzhou Annan information technology Limited by Share Ltd Address before: Zhejiang Zhongcai Building No. 68 Binjiang District road Hangzhou City, Zhejiang Province, the 310052 and 15 layer Applicant before: Dbappsecurity Co.,ltd. |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |