CN111783804B - 异常话单确定方法、装置、设备及存储介质 - Google Patents
异常话单确定方法、装置、设备及存储介质 Download PDFInfo
- Publication number
- CN111783804B CN111783804B CN201910272323.9A CN201910272323A CN111783804B CN 111783804 B CN111783804 B CN 111783804B CN 201910272323 A CN201910272323 A CN 201910272323A CN 111783804 B CN111783804 B CN 111783804B
- Authority
- CN
- China
- Prior art keywords
- ticket
- dpi
- abnormal
- determining
- characteristic value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000002159 abnormal effect Effects 0.000 title claims abstract description 152
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 238000007781 pre-processing Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 230000010354 integration Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 5
- 238000007689 inspection Methods 0.000 claims description 4
- 238000011144 upstream manufacturing Methods 0.000 description 68
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/12—Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Data Mining & Analysis (AREA)
- Computing Systems (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computer Hardware Design (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Telephonic Communication Services (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明实施例公开了一种异常话单确定方法、装置、设备及存储介质。该方法包括:获取物联网深度报文检测DPI话单;根据异常话单确定策略,从获取的DPI话单中确定异常DPI话单。本发明实施例的异常话单确定方法、装置、设备及存储介质,能够确定出物联网DPI话单中的异常话单,进而能够提高检出僵尸网络的能力。
Description
技术领域
本发明涉及物联网技术领域,尤其涉及一种异常话单确定方法、装置、设备及存储介质。
背景技术
物联网是互联网、传统电信网等信息承载体,让所有能行使独立功能的普通物体实现互联互通的网络。物联网的应用领域主要包括以下方面:运输和物流领域、工业制造领域、健康医疗领域、智能环境(家庭、办公、工厂)领域、个人和社会领域等,具有十分广阔的市场和应用前景。
物联网深度报文检测(Deep Packet Inspection,DPI)话单中的异常话单是物联网检测僵尸网络(Botnet)的关键环节,影响检出僵尸网络的能力。
因此,如何确定出物联网DPI话单中的异常话单是亟待解决的问题。
发明内容
本发明实施例提供一种异常话单确定方法、装置、设备及存储介质,能够确定出物联网DPI话单中的异常话单。
一方面,本发明实施例提供了一种异常话单确定方法,方法包括:
获取物联网深度报文检测DPI话单;
根据异常话单确定策略,从获取的DPI话单中确定异常DPI话单。
在本发明的一个实施例中,根据异常话单确定策略,从获取的DPI话单中确定异常DPI话单,包括:
采用四分位(InterQuartile Range,IQR)统计策略,从获取的DPI话单中确定异常DPI话单。
在本发明的一个实施例中,采用IQR统计策略,从获取的DPI话单中确定异常DPI话单,包括:
将获取的DPI话单的特征值进行排序,得到特征值排序序列;
从特征值排序序列中选取上四分位对应的第一特征值和下四分位对应的第二特征值;
计算第一特征值与第二特征值的差值;
根据第一特征值、第二特征值和差值,从获取的DPI话单中确定异常DPI话单。
在本发明的一个实施例中,根据第一特征值、第二特征值和差值,从获取的DPI话单中确定异常DPI话单,包括:
计算第一特征值与预设倍数的差值的和,以及计算第二特征值与预设倍数的差值的差;
依次将获取的DPI话单中每一DPI话单作为目标DPI话单;
若目标DPI话单的特征值大于第一特征值与预设倍数的差值的和,或,目标DPI话单的特征值小于第二特征值与预设倍数的差值的差,将目标DPI话单确定为异常DPI话单。
在本发明的一个实施例中,根据异常话单确定策略,从获取的DPI话单中确定异常DPI话单,包括:
采用聚类策略,从获取的DPI话单中确定异常DPI话单。
在本发明的一个实施例中,采用聚类策略,从获取的DPI话单中确定异常DPI话单,包括:
从获取的DPI话单的特征值中选取K个特征值;
利用K个特征值分别对K个聚类簇的聚类值进行初始化;
分别计算获取的DPI话单的每一目标特征值与K个初始聚类值的距离;
将最小距离对应的聚类簇,作为目标特征值对应的DPI话单所属的聚类簇;
针对每一聚类簇,基于聚类簇包括的DPI话单的特征值,计算聚类簇对应的特征值的第一平均距离;若聚类簇包括的目标DPI话单的特征值与聚类簇的特征值中位数的距离大于预设倍数的第一平均距离,将目标DPI话单确定为异常DPI话单。
在本发明的一个实施例中,将目标DPI话单确定为异常DPI话单,包括:
计算去除目标DPI话单的聚类簇对应的特征值的第二平均距离;若第一平均距离与第二平均距离的差值小于预设距离阈值,将目标DPI话单确定为异常DPI话单。
在本发明的一个实施例中,将目标DPI话单确定为异常DPI话单,包括:
若未去除目标DPI话单的聚类簇的特征值中位数与去除目标DPI话单的聚类簇的特征值中位数的差值小于预设差值,将目标DPI话单确定为异常DPI话单。
在本发明的一个实施例中,在根据异常话单确定策略,从获取的DPI话单中确定异常DPI话单之前,本发明实施例提供的异常话单确定方法还包括:
对获取的DPI话单进行预处理。
在本发明的一个实施例中,预处理包括:
数据清洗、数据集成、数据转换和数据规约。
另一方面,本发明实施例提供了一种异常话单确定装置,装置包括:
获取模块,用于获取物联网深度报文检测DPI话单;
确定模块,用于根据异常话单确定策略,从获取的DPI话单中确定异常DPI话单。
在本发明的一个实施例中,确定模块,具体用于:
采用IQR统计策略,从获取的DPI话单中确定异常DPI话单。
在本发明的一个实施例中,确定模块,包括:
排序单元,用于将获取的DPI话单的特征值进行排序,得到特征值排序序列;
选取单元,用于从特征值排序序列中选取上四分位对应的第一特征值和下四分位对应的第二特征值;
计算单元,用于计算第一特征值与第二特征值的差值;
确定单元,用于根据第一特征值、第二特征值和差值,从获取的DPI话单中确定异常DPI话单。
在本发明的一个实施例中,确定单元,具体用于:
计算第一特征值与预设倍数的差值的和,以及计算第二特征值与预设倍数的差值的差;
依次将获取的DPI话单中每一DPI话单作为目标DPI话单;
若目标DPI话单的特征值大于第一特征值与预设倍数的差值的和,或,目标DPI话单的特征值小于第二特征值与预设倍数的差值的差,将目标DPI话单确定为异常DPI话单。
在本发明的一个实施例中,确定模块,具体用于:
采用聚类策略,从获取的DPI话单中确定异常DPI话单。
在本发明的一个实施例中,确定模块,包括:
选取单元,用于从获取的DPI话单的特征值中选取K个特征值;
初始化单元,用于利用K个特征值分别对K个聚类簇的聚类值进行初始化;
计算单元,用于分别计算获取的DPI话单的每一目标特征值与K个初始聚类值的距离;
聚类单元,用于将最小距离对应的聚类簇,作为目标特征值对应的DPI话单所属的聚类簇;
确定单元,用于针对每一聚类簇,基于聚类簇包括的DPI话单的特征值,计算聚类簇对应的特征值的第一平均距离;若聚类簇包括的目标DPI话单的特征值与聚类簇的特征值中位数的距离大于预设倍数的第一平均距离,将目标DPI话单确定为异常DPI话单。
在本发明的一个实施例中,确定单元,具体用于:
计算去除目标DPI话单的聚类簇对应的特征值的第二平均距离;若第一平均距离与第二平均距离的差值小于预设距离阈值,将目标DPI话单确定为异常DPI话单。
在本发明的一个实施例中,确定单元,具体用于:
若未去除目标DPI话单的聚类簇的特征值中位数与去除目标DPI话单的聚类簇的特征值中位数的差值小于预设差值,将目标DPI话单确定为异常DPI话单。
在本发明的一个实施例中,本发明实施例提供的异常话单确定装置还包括:
预处理模块,用于对获取的DPI话单进行预处理。
在本发明的一个实施例中,预处理包括:
数据清洗、数据集成、数据转换和数据规约。
再一方面,本发明实施例提供一种异常话单确定设备,设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序;
处理器执行计算机程序时实现本发明实施例提供的异常话单确定方法。
再一方面,本发明实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现本发明实施例提供的异常话单确定方法。
本发明实施例的异常话单确定方法、装置、设备及存储介质,能够确定出物联网DPI话单中的异常话单,进而能够提高检出僵尸网络的能力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例提供的异常话单确定方法的流程示意图;
图2示出了本发明实施例提供的异常话单确定装置的结构示意图;
图3示出了能够实现根据本发明实施例的异常话单确定方法及装置的计算设备的示例性硬件架构的结构图。
具体实施方式
下面将详细描述本发明的各个方面的特征和示例性实施例,为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本发明,并不被配置为限定本发明。对于本领域技术人员来说,本发明可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本发明的示例来提供对本发明更好的理解。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
图1示出了本发明实施例提供的异常话单确定方法的流程示意图。异常话单确定方法可以包括:
S101:获取物联网深度报文检测DPI话单。
S102:根据异常话单确定策略,从获取的DPI话单中确定异常DPI话单。其中,异常话单确定策略用于从DPI话单中确定异常DPI话单。
本发明实施例提供的异常话单确定方法,能够确定出物联网DPI话单中的异常话单。进而能够提高检出僵尸网络的能力。
在本发明的一个实施例中,根据异常话单确定策略,从获取的DPI话单中确定异常DPI话单,可以包括:采用IQR统计策略,从获取的DPI话单中确定异常DPI话单。
具体的,采用IQR统计策略,从获取的DPI话单中确定异常DPI话单,可以包括:将获取的DPI话单的特征值进行排序,得到特征值排序序列;从特征值排序序列中选取上四分位对应的第一特征值和下四分位对应的第二特征值;计算第一特征值与第二特征值的差值;根据第一特征值、第二特征值和差值,从获取的DPI话单中确定异常DPI话单。
在本发明的一个实施例中,若特征值从大到小排序,在选取上四分位对应的第一特征值和下四分位对应的第二特征值,可以将第四分之三M位对应的特征值作为上四分位对应的第一特征值,将第四分之一M位对应的特征值作为下四分位对应的第二特征值。其中,M为特征值数量。
在本发明的一个实施例中,在本发明的一个实施例中,根据第一特征值、第二特征值和差值,从获取的DPI话单中确定异常DPI话单,可以包括:计算第一特征值与预设倍数的差值的和,以及计算第二特征值与预设倍数的差值的差;依次将获取的DPI话单中每一DPI话单作为目标DPI话单;若目标DPI话单的特征值大于第一特征值与预设倍数的差值的和,或,目标DPI话单的特征值小于第二特征值与预设倍数的差值的差,将目标DPI话单确定为异常DPI话单。
在本发明的一个实施例中,上述特征包括但不限于:上行流量、上行流量方差、下行流量、下行流量方差、上行包数、上行包数方差、下行包数、下行包数方差、上行包平均流量、上行包平均流量方差、下行包平均流量、下行包平均流向方差、上行流速、上行流速方差、下行流速、下行流速方差、连接数、连接数方差、持续时长、持续时长方差、终端数、终端数方差、用户IP数、用户IP数方差、用户IP与端口数、用户IP与端口数方差、用户IP熵、用户IP熵方差、用户IP平均数、用户IP平均数方差、用户IP中位数、用户IP中位数方差、用户端口数、用户端口数方差、用户端口平均数、用户端口平均数方差、用户端口中位数和用户端口中位数方差。
示例性的,下面以特征为上行流量为例进行说明。
假设获取到8天的DPI话单,其中,第1天的DPI话单的上行流量为50兆字节(MB),第2天的DPI话单的上行流量为70MB,第3天的DPI话单的上行流量为1000MB,第4天的DPI话单的上行流量为100MB,第5天的DPI话单的上行流量为200MB,第6天的DPI话单的上行流量为250MB,第7天的DPI话单的上行流量为300MB,第8天的DPI话单的上行流量为80MB。
将获取的DPI话单的上行流量进行排序,得到的上行流量排序序列为:1000MB、300MB、250MB、200MB、100MB、80MB、70MB和50MB。
则上四分位对应的上行流量值为:300MB,下四分位对应的上行流量值为:80MB,上四分位对应的上行流量值与下四分位对应的上行流量值的差值为300MB-80MB=220MB。
假设预设倍数为2,上四分位对应的上行流量值与预设倍数的差值的和为:300+2*220=740MB。下四分位对应的上行流量值与预设倍数的差值的差为:80-2*220=-360MB。
其中,1000MB大于740MB,则将1000MB对应的DPI话单确定为异常DPI话单,即将第3天的DPI话单确定为异常DPI话单。
在本发明的一个实施例中,还可以基于其他特征进行异常DPI话单,比如下行流量。假设基于下行流量确定出第8天的DPI话单为异常DPI话单。则将第3天的DPI话单和第8天的DPI话单均确定为异常DPI话单。
在本发明的一个实施例中,根据异常话单确定策略,从获取的DPI话单中确定异常DPI话单,可以包括:采用聚类策略,从获取的DPI话单中确定异常DPI话单。
在本发明的一个实施例中,采用聚类策略,从获取的DPI话单中确定异常DPI话单,可以包括:从获取的DPI话单的特征值中选取K个特征值;利用K个特征值分别对K个聚类簇的聚类值进行初始化;分别计算获取的DPI话单的每一目标特征值与K个初始聚类值的距离;将最小距离对应的聚类簇,作为目标特征值对应的DPI话单所属的聚类簇;针对每一聚类簇,基于聚类簇包括的DPI话单的特征值,计算聚类簇对应的特征值的第一平均距离;若聚类簇包括的目标DPI话单的特征值与聚类簇的特征值中位数的距离大于预设倍数的第一平均距离,将目标DPI话单确定为异常DPI话单。
示例性的,下面还以特征为上行流量为例进行说明。
假设获取到15天的DPI话单,第1天至第15天的DPI话单的上行流量依次为:1000MB、370MB、950MB、2000MB、450MB、500MB、900MB、340MB、200MB、550MB、430MB、660MB、760MB、300MB、和250MB。聚类簇数K为3。
选取的3个特征值分别为:1000MB、500MB和200MB。则利用选取的3个特征值分别对3个聚类簇的聚类值进行初始化,得到第1个聚类簇的聚类值为1000、第2个聚类簇的聚类值为8000和第3个聚类簇的聚类值为200。
分别计算获取的DPI话单的每一目标特征值与3个初始聚类值的距离;将最小距离对应的聚类簇,作为目标特征值对应的DPI话单所属的聚类簇。
以第2天的DPI话单的上行流量370MB为例,其距离第1个聚类簇的聚类值的距离为630,距离第2个聚类簇的聚类值的距离为130,距离第3个聚类簇的聚类值的距离为170,则将最小距离130对应的聚类簇,作为第2天的DPI话单所属的聚类簇,即将第2个聚类簇作为第2天的DPI话单所属的聚类簇。
相似的,可以得到其他天的DPI话单所述的聚类簇。聚类结果如下:
第1个聚类簇包括:第1天的DPI话单、第3天的DPI话单、第4天的DPI话单、第7天的DPI话单、第12天的DPI话单和第13天的DPI话单。
第2个聚类簇包括:第6天的DPI话单、第2天的DPI话单、第5天的DPI话单、第10天的DPI话单和第11天的DPI话单。
第3个聚类簇包括:第9天的DPI话单、第8天的DPI话单、第14天的DPI话单和第15天的DPI话单。
下面以第1个聚类簇为例进行说明。
第1天的DPI话单的上行流量与第3天的DPI话单的上行流量距离为50,第1天的DPI话单的上行流量与第4天的DPI话单的上行流量距离为1000,第1天的DPI话单的上行流量与第7天的DPI话单的上行流量距离为100,第1天的DPI话单的上行流量与第12天的DPI话单的上行流量距离为340,第1天的DPI话单的上行流量与第13天的DPI话单的上行流量距离为240,第3天的DPI话单的上行流量与第4天的DPI话单的上行流量距离为1050,第3天的DPI话单的上行流量与第7天的DPI话单的上行流量距离为50,第3天的DPI话单的上行流量与第12天的DPI话单的上行流量距离为290,第3天的DPI话单的上行流量与第13天的DPI话单的上行流量距离为190,第4天的DPI话单的上行流量与第7天的DPI话单的上行流量距离为1100,第4天的DPI话单的上行流量与第12天的DPI话单的上行流量距离为1340,第4天的DPI话单的上行流量与第13天的DPI话单的上行流量距离为1240,第7天的DPI话单的上行流量与第12天的DPI话单的上行流量距离为240,第7天的DPI话单的上行流量与第13天的DPI话单的上行流量距离为140,第12天的DPI话单的上行流量与第13天的DPI话单的上行流量距离为100。
则第1个聚类簇的上行流量的第一平均距离=(50+1000+100+340+240+1050+50+290+190+1100+1340+1240+240+140+100)/15=498。假设预设倍数为2。则2倍的第一平均距离为996。
将第1个聚类簇的上行流量进行排序,得到的上行流量排序序列为:2000MB、1000MB、950MB、900MB、760MB和660MB。
则第1个聚类簇的上行流量的上行流量中位数=(950+900)/2=925。
假设预设倍数为1。则1倍的第1个聚类簇的上行流量中位数为925。
第1个聚类簇的第1天的DPI话单的上行流量与第1个聚类簇的上行流量中位数的距离为1000-925=75小于996,则不将第1个聚类簇的第1天的DPI话单确定为异常DPI话单。
第1个聚类簇的第3天的DPI话单的上行流量与第1个聚类簇的上行流量中位数的距离为950-925=25小于996,则不将第1个聚类簇的第3天的DPI话单确定为异常DPI话单。
第1个聚类簇的第4天的DPI话单的上行流量与第1个聚类簇的上行流量中位数的距离为2000-925=1075大于996,则将第1个聚类簇的第4天的DPI话单确定为异常DPI话单。
第1个聚类簇的第7天的DPI话单的上行流量与第1个聚类簇的上行流量中位数的距离为925-900=25小于996,则不将第1个聚类簇的第7天的DPI话单确定为异常DPI话单。
第1个聚类簇的第12天的DPI话单的上行流量与第1个聚类簇的上行流量中位数的距离为925-660=265小于996,则不将第1个聚类簇的第12天的DPI话单确定为异常DPI话单。
第1个聚类簇的第13天的DPI话单的上行流量与第1个聚类簇的上行流量中位数的距离为925-760=165小于996,则不将第1个聚类簇的第13天的DPI话单确定为异常DPI话单。
类似的,可以确定出第2个聚类簇中的异常DPI话单和第3个聚类簇中的异常DPI话单。
在本发明的一个实施例中,还可以将目标DPI话单先确定为疑似异常DPI话单,将该目标DPI话单从聚类簇中去除,然后基于去除后的聚类簇与去除前的聚类簇的特征值中位数或平均距离,确定疑似异常DPI话单是否为异常DPI话单。
基于此,在本发明的一个实施例中,将目标DPI话单确定为异常DPI话单,可以包括:计算去除目标DPI话单的聚类簇对应的特征值的第二平均距离;若第一平均距离与第二平均距离的差值小于预设距离阈值,将目标DPI话单确定为异常DPI话单。
示例性的,还以上述第1个聚类簇为例进行说明。
首先将第1个聚类簇的第4天的DPI话单确定为疑似异常DPI话单。第1个聚类簇的上行流量的第一平均距离为498。
将第1个聚类簇的第4天的DPI话单从第1个聚类簇中去除。去除第4天的DPI话单的第1个聚类簇包括:第1天的DPI话单、第3天的DPI话单、第7天的DPI话单、第12天的DPI话单和第13天的DPI话单。
第1个聚类簇的上行流量的第二平均距离=(50+100+340+240+50+290+190+1100+1340+1240+140+100)/10=174。
第1个聚类簇的上行流量的第一平均距离与第二平均距离的差值=498-174=324。
假设预设距离阈值为350大于第1个聚类簇的上行流量的第一平均距离与第二平均距离的差值324,则将第1个聚类簇的第4天的DPI话单确定为异常DPI话单。
假设预设距离阈值为300小于第1个聚类簇的上行流量的第一平均距离与第二平均距离的差值324,则不将第1个聚类簇的第4天的DPI话单确定为异常DPI话单。
在本发明的一个实施例中,将目标DPI话单确定为异常DPI话单,可以包括:若未去除目标DPI话单的聚类簇的特征值中位数与去除目标DPI话单的聚类簇的特征值中位数的差值小于预设差值,将目标DPI话单确定为异常DPI话单。
示例性的,还以上述第1个聚类簇为例进行说明。
首先将第1个聚类簇的第4天的DPI话单确定为疑似异常DPI话单。第1个聚类簇的上行流量的上行流量中位数为925。
将第1个聚类簇的第4天的DPI话单从第1个聚类簇中去除。去除第4天的DPI话单的第1个聚类簇包括:第1天的DPI话单、第3天的DPI话单、第7天的DPI话单、第12天的DPI话单和第13天的DPI话单。
第1个聚类簇的上行流量的上行流量中位数为900。
去除第4天的DPI话单前的第1个聚类簇的上行流量中位数与去除第4天的DPI话单后的第1个聚类簇的上行流量中位数的差值为925-900=25。
假设预设差值30大于差值25,则将第1个聚类簇的第4天的DPI话单确定为异常DPI话单。
假设预设差值20小于差值25,则不将第1个聚类簇的第4天的DPI话单确定为异常DPI话单。
需要说明的是,上述以上行流量进行说明,仅为本发明的一具体实例,并不构成对本发明的限定。
在本发明的一个实施例中,在从获取的DPI话单中确定异常DPI话单之前,本发明实施例提供的异常话单确定方法还可以包括:对获取的DPI话单进行预处理。
在本发明的一个实施例中,预处理可以包括:数据清洗、数据集成、数据转换和数据规约。
其中,数据清洗主要是剔除噪声数据,填充缺失字段,以得到满足数据质量和业务要求的数据。
数据集成主要是将数据统一格式,并存储在数据库、数据仓库或大数据平台中,形成一个完整的数据集,同时消除冗余和冲突数据。
数据转换是对数据的取值范围进行规格化操作,比如归一化和标准化,将原始的数据格式转换成数据挖掘所需要的数据格式,从而便于数据挖掘的计算。
数据规约是将与检测结果相关性不高的特征属性剔除掉,选取能够刻画物联网安全特性的字段,从而精炼数据分析的样本集。
本发明实施例的异常话单确定方法,能够确定出物联网DPI话单中的异常话单,进而能够提高检出僵尸网络的能力。
与上述的方法实施例相对应,本发明实施例还提供一种异常话单确定装置。如图2所示,图2示出了本发明实施例提供的异常话单确定装置的结构示意图。异常话单确定装置可以包括:
获取模块201,用于获取物联网深度报文检测DPI话单。
确定模块202,用于根据异常话单确定策略,从获取的DPI话单中确定异常DPI话单。
在本发明的一个实施例中,确定模块202,具体可以用于:
采用IQR统计策略,从获取的DPI话单中确定异常DPI话单。
在本发明的一个实施例中,确定模块202,可以包括:
排序单元,用于将获取的DPI话单的特征值进行排序,得到特征值排序序列;
选取单元,用于从特征值排序序列中选取上四分位对应的第一特征值和下四分位对应的第二特征值;
计算单元,用于计算第一特征值与第二特征值的差值;
确定单元,用于根据第一特征值、第二特征值和差值,从获取的DPI话单中确定异常DPI话单。
在本发明的一个实施例中,确定单元,具体用于:
计算第一特征值与预设倍数的差值的和,以及计算第二特征值与预设倍数的差值的差;
依次将获取的DPI话单中每一DPI话单作为目标DPI话单;
若目标DPI话单的特征值大于第一特征值与预设倍数的差值的和,或,目标DPI话单的特征值小于第二特征值与预设倍数的差值的差,将目标DPI话单确定为异常DPI话单。
在本发明的一个实施例中,确定模块202,具体可以用于:
采用聚类策略,从获取的DPI话单中确定异常DPI话单。
在本发明的一个实施例中,确定模块202,可以包括:
选取单元,用于从获取的DPI话单的特征值中选取K个特征值;
初始化单元,用于利用K个特征值分别对K个聚类簇的聚类值进行初始化;
计算单元,用于分别计算获取的DPI话单的每一目标特征值与K个初始聚类值的距离;
聚类单元,用于将最小距离对应的聚类簇,作为目标特征值对应的DPI话单所属的聚类簇;
确定单元,用于针对每一聚类簇,基于聚类簇包括的DPI话单的特征值,计算聚类簇对应的特征值的第一平均距离;若聚类簇包括的目标DPI话单的特征值与聚类簇的特征值中位数的距离大于预设倍数的第一平均距离,将目标DPI话单确定为异常DPI话单。
在本发明的一个实施例中,确定单元,具体可以用于:
计算去除目标DPI话单的聚类簇对应的特征值的第二平均距离;若第一平均距离与第二平均距离的差值小于预设距离阈值,将目标DPI话单确定为异常DPI话单。
在本发明的一个实施例中,确定单元,具体可以用于:
若未去除目标DPI话单的聚类簇的特征值中位数与去除目标DPI话单的聚类簇的特征值中位数的差值小于预设差值,将目标DPI话单确定为异常DPI话单。
在本发明的一个实施例中,本发明实施例提供的异常话单确定装置还可以包括:
预处理模块,用于对获取的DPI话单进行预处理。
在本发明的一个实施例中,预处理可以包括:
数据清洗、数据集成、数据转换和数据规约。
本发明实施例的异常话单确定装置,能够确定出物联网DPI话单中的异常话单,进而能够提高检出僵尸网络的能力。
图3示出了能够实现根据本发明实施例的异常话单确定方法及装置的计算设备的示例性硬件架构的结构图。如图3所示,计算设备300包括输入设备301、输入接口302、中央处理器303、存储器304、输出接口305、以及输出设备306。其中,输入接口302、中央处理器303、存储器304、以及输出接口305通过总线310相互连接,输入设备301和输出设备306分别通过输入接口302和输出接口305与总线310连接,进而与计算设备300的其他组件连接。
具体地,输入设备301接收来自外部的输入信息,并通过输入接口302将输入信息传送到中央处理器303;中央处理器303基于存储器304中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器304中,然后通过输出接口305将输出信息传送到输出设备306;输出设备306将输出信息输出到计算设备300的外部供用户使用。
也就是说,图3所示的计算设备也可以被实现为异常话单确定设备,该异常话单确定设备可以包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现结合图1和图2描述的异常话单确定方法和装置。
本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现本发明实施例提供的异常话单确定方法。
需要明确的是,本发明并不局限于上文所描述并在图中示出的特定配置和处理。为了简明起见,这里省略了对已知方法的详细描述。在上述实施例中,描述和示出了若干具体的步骤作为示例。但是,本发明的方法过程并不限于所描述和示出的具体步骤,本领域的技术人员可以在领会本发明的精神后,作出各种改变、修改和添加,或者改变步骤之间的顺序。
以上所述的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时,本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。
还需要说明的是,本发明中提及的示例性实施例,基于一系列的步骤或者装置描述一些方法或系统。但是,本发明不局限于上述步骤的顺序,也就是说,可以按照实施例中提及的顺序执行步骤,也可以不同于实施例中的顺序,或者若干步骤同时执行。
以上所述,仅为本发明的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。
Claims (10)
1.一种异常话单确定方法,其特征在于,所述方法包括:
获取物联网深度报文检测DPI话单;
根据异常话单确定策略,从所述DPI话单中确定异常DPI话单;
所述根据异常话单确定策略,从所述DPI话单中确定异常DPI话单,包括:
采用四分位IQR统计策略,从所述DPI话单中确定异常DPI话单;
所述采用四分位IQR统计策略,从所述DPI话单中确定异常DPI话单,包括:
将所述DPI话单的特征值进行排序,得到特征值排序序列;
从所述特征值排序序列中选取上四分位对应的第一特征值和下四分位对应的第二特征值;
计算所述第一特征值与所述第二特征值的差值;
根据所述第一特征值、所述第二特征值和所述差值,从所述DPI话单中确定异常DPI话单;
所述根据所述第一特征值、所述第二特征值和所述差值,从所述DPI话单中确定异常DPI话单,包括:
计算所述第一特征值与预设倍数的所述差值的和,以及计算所述第二特征值与预设倍数的所述差值的差;
依次将所述DPI话单中每一DPI话单作为目标DPI话单;
若所述目标DPI话单的特征值大于所述和,或,所述目标DPI话单的特征值小于所述差,将所述目标DPI话单确定为异常DPI话单。
2.根据权利要求1所述的方法,其特征在于,所述根据异常话单确定策略,从所述DPI话单中确定异常DPI话单,包括:
采用聚类策略,从所述DPI话单中确定异常DPI话单。
3.根据权利要求2所述的方法,其特征在于,所述采用聚类策略,从所述DPI话单中确定异常DPI话单,包括:
从所述DPI话单的特征值中选取K个特征值;
利用所述K个特征值分别对K个聚类簇的聚类值进行初始化;
分别计算所述DPI话单的每一目标特征值与K个初始聚类值的距离;
将最小距离对应的聚类簇,作为所述目标特征值对应的DPI话单所属的聚类簇;
针对每一聚类簇,基于所述聚类簇包括的DPI话单的特征值,计算所述聚类簇对应的特征值的第一平均距离;若所述聚类簇包括的目标DPI话单的特征值与所述聚类簇的特征值中位数的距离大于预设倍数的所述第一平均距离,将所述目标DPI话单确定为异常DPI话单。
4.根据权利要求3所述的方法,其特征在于,所述将所述目标DPI话单确定为异常DPI话单,包括:
计算去除所述目标DPI话单的聚类簇对应的特征值的第二平均距离;若所述第一平均距离与所述第二平均距离的差值小于预设距离阈值,将所述目标DPI话单确定为异常DPI话单。
5.根据权利要求3所述的方法,其特征在于,所述将所述目标DPI话单确定为异常DPI话单,包括:
若未去除所述目标DPI话单的聚类簇的特征值中位数与去除所述目标DPI话单的聚类簇的特征值中位数的差值小于预设差值,将所述目标DPI话单确定为异常DPI话单。
6.根据权利要求1所述的方法,其特征在于,在所述根据异常话单确定策略,从所述DPI话单中确定异常DPI话单之前,所述方法还包括:
对所述DPI话单进行预处理。
7.根据权利要求6所述的方法,其特征在于,所述预处理包括:
数据清洗、数据集成、数据转换和数据规约。
8.一种异常话单确定装置,其特征在于,所述装置包括:
获取模块,用于获取物联网深度报文检测DPI话单;
确定模块,用于根据异常话单确定策略,从所述DPI话单中确定异常DPI话单;
所述确定模块,用于:
采用IQR统计策略,从获取的DPI话单中确定异常DPI话单;
所述确定模块,包括:
排序单元,用于将获取的DPI话单的特征值进行排序,得到特征值排序序列;
选取单元,用于从特征值排序序列中选取上四分位对应的第一特征值和下四分位对应的第二特征值;
计算单元,用于计算第一特征值与第二特征值的差值;
确定单元,用于根据第一特征值、第二特征值和差值,从获取的DPI话单中确定异常DPI话单;
所述确定单元,用于:
计算第一特征值与预设倍数的差值的和,以及计算第二特征值与预设倍数的差值的差;
依次将获取的DPI话单中每一DPI话单作为目标DPI话单;
若目标DPI话单的特征值大于第一特征值与预设倍数的差值的和,或,目标DPI话单的特征值小于第二特征值与预设倍数的差值的差,将目标DPI话单确定为异常DPI话单。
9.一种异常话单确定设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序;
所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的异常话单确定方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的异常话单确定方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910272323.9A CN111783804B (zh) | 2019-04-04 | 2019-04-04 | 异常话单确定方法、装置、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910272323.9A CN111783804B (zh) | 2019-04-04 | 2019-04-04 | 异常话单确定方法、装置、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111783804A CN111783804A (zh) | 2020-10-16 |
CN111783804B true CN111783804B (zh) | 2023-11-24 |
Family
ID=72755383
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910272323.9A Active CN111783804B (zh) | 2019-04-04 | 2019-04-04 | 异常话单确定方法、装置、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783804B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112632609B (zh) * | 2020-12-23 | 2024-07-02 | 深圳云天励飞技术股份有限公司 | 异常检测方法、装置、电子设备及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101986609A (zh) * | 2009-07-29 | 2011-03-16 | 中兴通讯股份有限公司 | 一种实现网络流量清洗的方法及系统 |
CN103686815A (zh) * | 2013-12-26 | 2014-03-26 | 赛特斯信息科技股份有限公司 | 基于话单关联分析实现用户体验故障分析的系统及方法 |
CN104899216A (zh) * | 2014-03-06 | 2015-09-09 | 中国移动通信集团湖南有限公司 | 一种废弃话单处理方法及装置 |
CN104915846A (zh) * | 2015-06-18 | 2015-09-16 | 北京京东尚科信息技术有限公司 | 一种电子商务时间序列数据的异常检测方法及系统 |
US9584419B1 (en) * | 2015-03-18 | 2017-02-28 | Google Inc. | Systems and methods for detecting consistent fabric congestion in a datacenter based on historical traffic data |
CN107196815A (zh) * | 2016-03-14 | 2017-09-22 | 华为技术有限公司 | 一种流量分析能力的差异的确定方法及设备 |
CN109451528A (zh) * | 2018-12-27 | 2019-03-08 | 中国移动通信集团江苏有限公司 | 异常小流量话单处理方法、装置、设备及计算机存储介质 |
CN109522304A (zh) * | 2018-11-23 | 2019-03-26 | 中国联合网络通信集团有限公司 | 异常对象识别方法及装置、存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8874763B2 (en) * | 2010-11-05 | 2014-10-28 | At&T Intellectual Property I, L.P. | Methods, devices and computer program products for actionable alerting of malevolent network addresses based on generalized traffic anomaly analysis of IP address aggregates |
-
2019
- 2019-04-04 CN CN201910272323.9A patent/CN111783804B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101986609A (zh) * | 2009-07-29 | 2011-03-16 | 中兴通讯股份有限公司 | 一种实现网络流量清洗的方法及系统 |
CN103686815A (zh) * | 2013-12-26 | 2014-03-26 | 赛特斯信息科技股份有限公司 | 基于话单关联分析实现用户体验故障分析的系统及方法 |
CN104899216A (zh) * | 2014-03-06 | 2015-09-09 | 中国移动通信集团湖南有限公司 | 一种废弃话单处理方法及装置 |
US9584419B1 (en) * | 2015-03-18 | 2017-02-28 | Google Inc. | Systems and methods for detecting consistent fabric congestion in a datacenter based on historical traffic data |
CN104915846A (zh) * | 2015-06-18 | 2015-09-16 | 北京京东尚科信息技术有限公司 | 一种电子商务时间序列数据的异常检测方法及系统 |
CN107196815A (zh) * | 2016-03-14 | 2017-09-22 | 华为技术有限公司 | 一种流量分析能力的差异的确定方法及设备 |
CN109522304A (zh) * | 2018-11-23 | 2019-03-26 | 中国联合网络通信集团有限公司 | 异常对象识别方法及装置、存储介质 |
CN109451528A (zh) * | 2018-12-27 | 2019-03-08 | 中国移动通信集团江苏有限公司 | 异常小流量话单处理方法、装置、设备及计算机存储介质 |
Non-Patent Citations (3)
Title |
---|
剔除异常数据的稳健性处理方法;林洪桦;中国计量学院学报(第01期);5 * |
基于天气影响分析的公交客流调查日期确定方法;李林波 等;交通科技(第01期);149-152 * |
基于网络数据实现对物联网终端网络行为监控的方法;凌颖 等;电信科学;第33卷(第12期);114-120 * |
Also Published As
Publication number | Publication date |
---|---|
CN111783804A (zh) | 2020-10-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110839016B (zh) | 异常流量监测方法、装置、设备及存储介质 | |
US8443080B2 (en) | System and method for determining application dependency paths in a data center | |
CN110263824B (zh) | 模型的训练方法、装置、计算设备及计算机可读存储介质 | |
CN108235303B (zh) | 识别共享流量用户的方法、装置、设备及介质 | |
KR102086936B1 (ko) | 사용자 데이터 공유 방법 및 디바이스 | |
CN113378899B (zh) | 非正常账号识别方法、装置、设备和存储介质 | |
CN111131493B (zh) | 一种数据获取、用户画像生成方法、装置 | |
CN111783804B (zh) | 异常话单确定方法、装置、设备及存储介质 | |
CN107682354B (zh) | 一种网络病毒检测方法、装置及设备 | |
CN111489074A (zh) | 数据处理方法、装置、设备及存储介质 | |
CN112087450B (zh) | 一种异常ip识别方法、系统及计算机设备 | |
CN111371633A (zh) | 物联网卡使用异常的检测方法、装置、设备和介质 | |
CN113037820A (zh) | 一种物联网设备通讯模块 | |
WO2011114135A1 (en) | Detecting at least one community in a network | |
CN114095808A (zh) | 网络故障检测方法、装置、设备及计算机可读存储介质 | |
CN108174379B (zh) | 基于支持向量机和阈值筛选的恶意用户识别方法及装置 | |
CN116049808A (zh) | 一种基于大数据的设备指纹采集系统及方法 | |
CN114036314B (zh) | 一种基于知识图谱的渗透路径识别方法及系统 | |
CN110190917A (zh) | 一种LTE230MHz电力无线专网的频谱空洞感知方法、装置及设备 | |
CN111901174B (zh) | 一种服务状态通知的方法、相关装置及存储介质 | |
CN115048365A (zh) | 车辆数据的清洗方法、装置、电子装置和存储介质 | |
CN113535067A (zh) | 数据存储方法、装置、设备及存储介质 | |
CN113347021B (zh) | 一种模型生成方法、撞库检测方法、装置、电子设备及计算机可读存储介质 | |
CN112532521B (zh) | 一种NetFlow流量的流出节点信息识别方法 | |
CN113127751B (zh) | 用户画像构建方法、装置、设备及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |