CN112395608A - 网络安全威胁监测方法、装置和可读存储介质 - Google Patents

网络安全威胁监测方法、装置和可读存储介质 Download PDF

Info

Publication number
CN112395608A
CN112395608A CN202011465211.4A CN202011465211A CN112395608A CN 112395608 A CN112395608 A CN 112395608A CN 202011465211 A CN202011465211 A CN 202011465211A CN 112395608 A CN112395608 A CN 112395608A
Authority
CN
China
Prior art keywords
network
data
cyber
behavior
network user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011465211.4A
Other languages
English (en)
Inventor
韩宜宗
林长家
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE ICT Technologies Co Ltd
Original Assignee
ZTE ICT Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE ICT Technologies Co Ltd filed Critical ZTE ICT Technologies Co Ltd
Priority to CN202011465211.4A priority Critical patent/CN112395608A/zh
Publication of CN112395608A publication Critical patent/CN112395608A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/554Detecting local intrusion or implementing counter-measures involving event detection and direct action
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3055Monitoring arrangements for monitoring the status of the computing system or of the computing system component, e.g. monitoring if the computing system is on, off, available, not available
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/9035Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Hardware Design (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种网络安全威胁监测方法、装置和可读存储介质。网络安全威胁监测方法包括以下步骤:获取第一网络流量数据;针对网络流量数据进行随机抽样,构建随机样本集;通过随机样本集,获取网络用户行为;根据网络用户行为,进行数据分析,获取网络用户异常行为数据;基于网络用户异常行为数据,构建网络用户异常行为规则库;应用网络用户异常行为规则库,对第二网络流量数据进行监测,得到网络用户异常行为,将网络用户异常行为标识为网络安全威胁。本发明对网络流量数据进行自动分析,获取网络用户行为,区分出网络用户的正常行为和异常行为,能够高效准确对未知情况进行预判检测,节约大量时间以及成本。

Description

网络安全威胁监测方法、装置和可读存储介质
技术领域
本发明涉及网络安全的技术领域,具体而言,涉及一种网络安全威胁监测方法、装置和可读存储介质。
背景技术
相关技术中,进行网络安全威胁监测时,采用已知的网络攻击模型,基于攻击模型的行为特征监测网络流量,符合特征序列的行为被识别为网络安全威胁。但是,依据网络攻击模型,智能识别特定的网络安全威胁,无法识别未知网络安全威胁。
发明内容
本发明旨在解决上述技术问题的至少之一。
为此,本发明的第一目的在于提供一种网络安全威胁监测方法。
本发明的第二目的在于提供一种网络安全威胁监测装置。
本发明的第三目的在于提供一种可读存储介质。
为实现本发明的第一目的,本发明的实施例提供了一种网络安全威胁监测方法,包括:获取第一网络流量数据;针对网络流量数据进行随机抽样,构建随机样本集;通过随机样本集,获取网络用户行为;根据网络用户行为,进行数据分析,获取网络用户异常行为数据;基于网络用户异常行为数据,构建网络用户异常行为规则库;应用网络用户异常行为规则库,对第二网络流量数据进行监测,得到网络用户异常行为,将网络用户异常行为标识为网络安全威胁。
本技术方案中,对第一网络流量数据进行自动分析,获取网络用户行为,区分出网络用户的正常行为和异常行为,能够有效对未知情况进行预判检测,节约大量时间以及成本。
另外,本发明上述实施例提供的技术方案还可以具有如下附加技术特征:
上述技术方案中,执行应用网络用户异常行为规则库,对第二网络流量数据进行监测,得到网络用户异常行为之后,还包括将网络用户异常行为的数据行为添加至网络用户异常行为规则库。
本技术方案中,通过异常行为数据,不断完善异常行为规则库,进而,能够高效准确的自动检测网络流量数据,进行网络用户行为分析。
上述技术方案中,执行应用网络用户异常行为规则库,对第二网络流量数据进行监测之后,还包括获取网络用户正常行为,进行行为模式挖掘,预测用户行为。
本技术方案中,通过对网络用户行为的分析,对行为模式进行挖掘,预测用户行为,能够有效的对未知情况进行预判,更好的进行网络用户行为分析。
上述任一技术方案中,根据网络用户行为,进行数据分析,获取网络用户异常行为数据,具体包括:将随机样本集进行分割,分割为至少两组划分,对每组划分局部地聚类,生成簇;通过第一步收集,获取异常点信息;基于任意簇小于第一阈值,将簇从样本集中去掉;对簇再次进行聚类,直到样本数据聚类完毕;通过第二步收集,获取异常点信息;探测孤立点,将孤立点收集并汇入异常簇,网络用户异常行为数据包括异常点信息。
本技术方案中,第一阈值为预先设定阈值。通过不断的收集异常点和孤立点,完善异常行为规则库,提高了网络用户行为分析结果的准确率。
上述任一技术方案中,针对网络流量数据进行抽样时,通过以下公式获取采样大小:
Figure BDA0002833870810000021
其中,s是采样大小,f是最低采样率,|u|是簇u的大小,N是整个网络流量数据的大小,δ是从|u|个样本点中采样得到f|u|个样本点的概率,0≤δ≤1。
本技术方案中,通过公式选择采样大小,提高了采样的精度和效率。
上述任一技术方案中,针对网络流量数据进行抽样时,基于两个簇之间的距离小于第二阈值时,将每个簇设定为子簇的集合,分别在子簇上进行采样。
本技术方案中,第二阈值是指聚类算法在对两个簇进行聚类无法区别两个簇时,两个簇之间的距离。将聚类算法无法识别的簇视为子簇的集合,在子簇上进行采样,进而提高采样的精度和效率。
上述任一技术方案中,将样本集进行分割,具体包括:将随机样本集分割为至少两个部分,每个部分中的样本点数为样本集中的样本点数与分割数量的比值;针对每个部分中的样本进行聚类,开始簇合并,基于两个用于合并的两个簇之间的距离大于第三阈值,停止合并;得到每个部分的簇,将每个部分的簇相加,得到完成聚类后产生的簇;再次进行簇合并。
本技术方案中,通过对样本集进行划分,在不降低聚类质量的前提下,加快聚类算法的速度。
上述任一技术方案中,根据网络用户行为,进行数据分析,获取网络用户异常行为数据,还包括:基于当前簇的总数为样本集大小的第四阈值时,进行第一次离群点识别;基于当前簇的总数为样本集大小的第五阈值时,进行第二次离群点识别;其中,第四阈值大于第五阈值。
本技术方案中,通过识别离群点,提高聚类算法的准确度。
为实现本发明的第二目的,本发明的实施例提供了一种网络安全威胁监测装置,包括存储器,存储有程序或指令;处理器,执行程序或指令;其中,处理器在执行程序或指令时,实现如本发明任一实施例的网络安全威胁监测方法的步骤。
本发明实施例提供的网络安全威胁监测装置实现如本发明任一实施例的网络安全威胁监测方法的步骤,因而其具有如本发明任一实施例的网络安全威胁监测方法的全部有益效果,在此不再赘述。
为实现本发明的第三目的,本发明的实施例提供了一种可读存储介质,可读存储介质存储有程序或指令,程序或指令被执行时,实现上述任一实施例的网络安全威胁监测方法的步骤。
本发明实施例提供的可读存储介质实现如本发明任一实施例的网络安全威胁监测方法的步骤,因而其具有如本发明任一实施例的网络安全威胁监测方法的全部有益效果,在此不再赘述。
本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1为本发明一个实施例的网络安全威胁监测方法的流程示意图一;
图2为本发明一个实施例的网络安全威胁监测方法的流程示意图二;
图3为本发明一个实施例的网络安全威胁监测方法的流程示意图三;
图4为本发明一个实施例的网络安全威胁监测方法的流程示意图四;
图5为本发明一个实施例的网络安全威胁监测方法的流程示意图五;
图6为本发明一个实施例的网络安全威胁监测方法的流程示意图六;
图7为本发明一个实施例的网络安全威胁监测装置组成示意框图;
图8为本发明一个具体实施例的网络安全威胁监测方法的流程示意图。
其中,图7中附图标记与部件名称之间的对应关系为:
100:网络安全威胁监测装置,110:存储器,120:处理器。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面参照图1至图8描述本发明一些实施例的网络安全威胁监测方法、网络安全威胁监测装置100和可读存储介质。
实施例1:
如图1所示,本实施例提供了一种网络安全威胁监测方法,包括以下步骤:
步骤S102,获取第一网络流量数据;
步骤S104,针对网络流量数据进行随机抽样,构建随机样本集;
步骤S106,通过随机样本集,获取网络用户行为;
步骤S108,根据网络用户行为,进行数据分析,获取网络用户异常行为数据;
步骤S110,基于网络用户异常行为数据,构建网络用户异常行为规则库;
步骤S112,应用网络用户异常行为规则库,对第二网络流量数据进行监测,得到网络用户异常行为,将网络用户异常行为标识为网络安全威胁。
本实施例中,第一网络流量数据是指采集得到的网络流量数据,第二网络流量数据是指新生成的网络流量数据,通过对第一网络流量,构建网络用户异常行为规则库,不需要基于已知的攻击模型,进而识别网络用户异常行为,并且将网络用户异常行为标识为网络安全威胁,有效提高对未知安全威胁的检测发现能力。
本实施例的目的在于从安全的角度实现对网络用户行为分析,通过本实施例的步骤,建立一个基于网络流量统计的用户行为模型(即网络用户异常行为规则库),得到网络用户行为的分析框架以及分析流程。
本实施例的网络安全威胁监测方法,对第一网络流量数据进行自动分析,获取网络用户行为,区分出网络用户的正常行为和异常行为,能够有效对未知情况进行预判检测,节约大量时间以及成本。本实施例的分析方法能够高效准确识别网络用户的异常行为,其中,得到的异常行为是危害行为的检测率非常高。
数据采集是网络用户行为分析基础。数据采集技术分两种,一种是数据包捕获,将采集主机的网卡设置为混杂模式,则采集主机能够采集所属网段内的所有数据包;另一种是流量数据获取,将经过网络设备的所有数据包顺序组成流量数据进行采集,例如:监视器系统ZEEK(BRO)。
从分析的角度看,分析网络上的单个数据包难度大,且分析出来的数据没作用,而分析流量能够得到大量关于网络运行状况的有用信息,且难度不大。现有网络监控体系一般都是基于流量分析。
本实施例中的网络流量数据的数据源采用ZEEK(BRO)流数据。
本实施例中网络用户行为可以用某些特征量的统计特征或特征量的关联关系定量或定性地表示。网络用户行为一般用四元组(源IP,目的IP,统计参数,统计参数值)来表示。不同类型的变量需要进行相异常度计算。当数据源为ZEEK(BRO)流数据,行为向量可以根据ZEEK(BRO)流数据的格式进行设计。
实施例2:
如图2所示,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征。
执行应用网络用户异常行为规则库,对第二网络流量数据进行监测,得到网络用户异常行为之后,还包括:
步骤S202,将网络用户异常行为的数据添加至网络用户异常行为规则库。
本实施例中,通过对网络用户行为的分析,得到网络用户异常行为的数据,添加至网络用户异常行为规则库,通过异常行为数据,不断完善异常行为规则库,进而,能够高效准确的自动检测网络流量数据,进行网络用户行为分析。
实施例3:
如图3所示,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征。
执行应用网络用户异常行为规则库,对第二网络流量数据进行监测之后,还包括:
步骤S302,获取网络用户正常行为,进行行为模式挖掘,预测用户行为。
本实施例中,通过对网络用户行为的分析,对行为模式进行挖掘,预测用户行为,能够有效的对未知情况进行预判,更好的进行网络用户行为分析。
实施例4:
如图4所示,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征。
根据网络用户行为,进行数据分析,获取网络用户异常行为数据,具体包括以下步骤:
步骤S402,将随机样本集进行分割,分割为至少两组划分,对每组划分局部地聚类,生成簇;
步骤S404,通过第一步收集,获取异常点信息;
步骤S406,基于任意簇小于第一阈值,将簇从样本集中去掉;
步骤S408,对簇再次进行聚类,直到样本数据聚类完毕;
步骤S410,通过第二步收集,获取异常点信息;
步骤S412,探测孤立点,将孤立点收集并汇入异常簇,网络用户异常行为数据包括异常点信息。
第一阈值为预先设定阈值。
现有绝大多数聚类算法(如K-mean)等擅长处理球形和相似大小的聚类,而CURE(Clustering Using Representative)算法是一种针对大数据量的高效的聚类算法,通过采用固定数目的对象表示每个类,CURE算法能够识别非球形和大小变化较大的类,对孤立点不敏感。为了处理大数据集,CURE算法通过随机抽样的方法从大数据集中抽取随机样本。一定大规模的网络数据量大而复杂,存在多维性,无法确定各类数据的形状,因此CURE算法适合用于网络用户行为数据的挖掘,但是CURE算法只是针对聚类,其对异常点进行一次过滤,两次剔除。
举例而言,针对存储网络用户行为的大数据量选用了一个合适的聚类算法即CURE算法,并对CURE算法进行了基于实际应用的改进,在网络用户行为中异常数据往往代表异常行为,对异常行为的分析有助于检测网络内发生的异常,因此通过不断的收集异常点和孤立点,完善异常行为规则库,提高了网络用户行为分析结果的准确率,实验结果表明,改进后的CURE算法不仅能很好地聚类,而且能区分出正常行为和异常行为,通过危害行为评价体系分析,聚类得到的异常行为是危害行为的检测率非常高。对于实时网络上的增量数据,也给出了增量挖掘的算法,符合网络实时分析的需要。
实施例5:
除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征。
针对网络流量数据进行抽样时,通过以下公式获取采样大小:
Figure BDA0002833870810000081
其中,s是采样大小,f是最低采样率,|u|是簇u的大小,N是整个网络流量数据的大小,δ是从|u|个样本点中采样得到f|u|个样本点的概率,0≤δ≤1。
实际应用中,由于采用原始数据集的随机抽样,必然会有一定的可能性丢失重要的聚类信息,或者造成错误的聚类,这是聚类算法所无法避免的,直到现在依旧没有办法可以同时提高精确度和效率。
采样大小依照“切尔霍夫边界”进行证明和推导,通过公式选择采样大小,最终产生很好的聚类效果,提高采样的精度和效率。
实施例6:
除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征。
针对网络流量数据进行抽样时,基于两个簇之间的距离小于第二阈值,将每个簇设定为子簇的集合,分别在子簇上进行采样。
第二阈值是指聚类算法在对两个簇进行聚类无法区别两个簇时,两个簇之间的距离。
如果两个簇之间的距离非常小,随机采样之后进行聚类可能会使得聚类算法无法区别这两个簇,则需要将每个簇视为一个个的子簇的集合,然后分别在这些子簇上进行采样,进而提高采样的精度和效率。
实施例7:
如图5所示,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征。
将随机样本集进行分割,具体包括:
步骤S502,将随机样本集分割为至少两个部分,每个部分中的样本点数为样本集中的样本点数与分割数量的比值;
步骤S504,针对每个部分中的样本进行聚类,开始簇合并,基于两个用于合并的簇之间的距离大于第三阈值,停止合并;
步骤S506,得到每个部分的簇,将每个部分的簇相加,得到完成聚类后产生的簇;
步骤S508,再次进行簇合并。
第三阈值为预先设定阈值。
为了进一步提高算法的运行速度,CURE算法还将抽样得到的数据集进一步分割为p个部分,每个部分中的样本点数为n/p,然后分别在这些部分进行聚类,每个部分产生q个簇,或者设置一个第三阈值,如果当前用于合并的两个簇之间的距离大于这个阈值就停止合并。完成聚类后共产生(n/p)×q个簇,然后将这些簇进一步合并,可以证明,这种方法不会降低聚类质量,而且可以大大加快CURE算法的速度。
实施例8:
如图6所示,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征。
根据网络用户行为,进行数据分析,获取网络用户异常行为数据,还包括:
步骤S602,基于当前簇的总数为样本集大小的第四阈值时,进行第一次离群点识别;
步骤S604,基于当前簇的总数为样本集大小的第五阈值时,进行第二次离群点识别;
其中,第四阈值大于第五阈值。
在进行随机采样时,会过滤掉大部分的离群点,此外,在随机采样得到的数据集中存在的少量离群点由于分布在整个原始数据空间,因而被随机采样进一步隔离了。在进行CURE凝聚层次聚类时,需要将每个点单独初始化为一个簇,并将距离最近的点合并为一个簇,由于离群点往往距离样本中的其它点很远,因此他所代表的簇增长的最为缓慢,以至于簇的大小远远小于正常的簇。
本实施例将层次聚类中的离群点识别分为两个阶段,第一个阶段是在聚类算法执行到某一阶段(或称当前的簇总数减小到某个值)时,根据簇的增长速度和簇的大小对离群点进行一次识别,需要注意的是,如果这个阶段选择的较早(即簇总数依旧很大)的话,会将一部分本应被合并的簇识别为离群点,如果这个阶段选择的较晚(即簇总数过少)的话,离群点很可能在被识别之前就已经合并到某些簇中,因此本实施例中当前簇的总数为数据集大小的第四阈值时,进行离群点的识别,举例而言,第四阈值为1/3。
第一阶段中,当随机采样到的离群点分布的比较近时(即使可能性比较小),这些点会被合并为一个簇,而导致无法将这些点识别出来,这时就需要第二阶段的来进行处理。由于离群点占的比重很小,而在层次聚类的最后几步中,每个正常簇的粒度都是非常高的,因此很容易将他们识别出来,一般当簇的总数缩减到第五阈值时,进行第二阶段的识别。
通过识别离群点,提高聚类算法的准确度。
实施例9:
如图7所示,本实施例提供一种网络安全威胁监测装置100,包括存储器110和处理器120。存储器110存储程序或指令。处理器120执行程序或指令。其中,处理器120在执行程序或指令时,实现上述任一实施例中网络安全威胁监测方法的步骤。
实施例10:
本实施例提供了一种可读存储介质,可读存储介质存储有程序或指令,程序或指令被执行时,实现上述任一实施例中网络安全威胁监测方法的步骤。
具体实施例:
本实施例提供了一种基于CURE算法的网络安全威胁监测方法。
相关技术中,对网络用户异常行为判断的方法主要包括以下几种。具体的,第一种,通过日志审计系统,收集各方日志,通过人工定义规则判断是否有异常行为;第二种,简单的关联分析:通过网络流量结合网络日志,结合简单的聚类等算法,分析用户是否存在异常行为。相关技术中存在的不足是,针对第一种,采用人工定义规则的方式,不能实现自动分析,需要花费大量的时间以及成本,针对第二种,采用简单的聚类算法,不能有效的识别网络用户的异常行为。
相关技术中,利用已知的网络攻击模型,基于攻击模型的行为特征监测网络流量,符合特征序列的行为被识别为网络安全威胁。但是,依据网络攻击模型,智能识别特定的网络安全威胁,无法识别未知络安全威胁。
本实施例中,不基于已知的攻击模型,利用大数据(大量行为)识别非正常行为,把非正常行为标识为安全威胁。而且,CURE是一种聚类算法,聚类算法本来用于发现共性,本实施例中,用于识别非正常网络用户行为。整体而言,本实施例是一种网络安全威胁的监测方法,作为整个网络安全产品的组成部分,为网络安全产品增加对未知安全威胁的检测发现能力。
本实施例通过网络流量ZEEK(BRO),改进CURE算法,不只是聚类,不断将异常点收集起来,完善异常行为规则。
本实施例从安全的角度分析网络用户行为,建立了一个基于网络流量统计的用户行为向量数据模型,提出了一个网络用户行为的分析框架,建立了一个分析流程。针对存储网络用户行为的大数据量选用了一个合适的聚类算法即CURE算法,并对CURE算法进行了基于实际应用的改进。实验结果表明,改进后的CURE算法不仅能很好地聚类,而且能区分出正常行为和异常行为,通过危害行为评价体系分析,聚类得到的异常行为是危害行为的检测率非常高。对于实时网络上的增量数据,本实施例中也给出了增量挖掘的算法,符合网络实时分析的需要。
网络用户行为分析的数据模型包括:
(1)数据采集
数据采集是网络用户行为分析基础。数据采集技术分两种。一种是数据包捕获,将采集主机的网卡设置为混杂模式,那么该采集主机所属网段内的所有数据包都能采集到;另一种是流量数据获取,将经过网络设备的所有数据包顺序组成流量数据进行采集,如:ZEEK(BRO)。
从分析的角度看,分析网络上的单个数据包难度大,且分析出来的数据没作用,而分析流量能够得到大量关于网络运行状况的有用信息,且难度不大。现有网络监控体系一般都是基于流量分析。
(2)网络用户行为
网络用户行为可以用某些特征量的统计特征或特征量的关联关系定了或定性地表示。网络用户行为一般用四元组(源IP,目的IP,统计参数,统计参数值)来表示。不同类型的变量需要进行相异常度计算。
数据源为ZEEK(BRO)流数据,因此行为向量可以根据ZEEK(BRO)流数据的格式进行设计。
一种基于CURE算法的网络安全威胁监测方法,整体实现流程图如图8所示,通过判断正常行为和异常行为分析,不断完善异常行为规则库,具体包括以下步骤:
步骤S702,采集数据;
步骤S704,提取行为;
步骤S706,数据分析;
针对正常行为,进入步骤S708;
针对异常行为,进入步骤S710;
步骤S708,行为模式挖掘;
对用户行为模式进行挖掘,进入步骤S710;
步骤S710,用户行为预测;
对用户行为进行预测;
步骤S712,异常行为分析;
对用户异常行为进行分析;
步骤S714,异常行为规则库;
将异常行为添加到异常行为规则库;
步骤S716,可视化展示/决策;
将数据分析的结果进行展示,数据分析的结果包括用户行为预测和用户异常行为分析。
使用本实施例后可以改进CURE算法,让算法针对数据进行自动分析,达到有效对未知情况的预判检测。
绝大多数聚类算法(如K-mean)等擅长处理球形和相似大小的聚类,而CURE是一种针对大数据量的高效的聚类算法,通过采用固定数目的对象表示每个类,CURE能够识别非球形和大小变化较大的类,对孤立点不敏感。为了处理大数据集,CURE算法通过随机抽样的方法从大数据集中抽取随机样本。
一定大规模的网络数据量大而复杂,存在多维性,无法确定各类数据的形状,因此CURE算法适合用于网络用户行为数据的挖掘。
但CURE算法只是针对聚类,其对异常点进行一次过滤,两次剔除,而在网络用户行为中异常数据往往代表异常行为,对异常行为的分析有助于检测网络内发生的异常。因此须将异常点收集,建立异常行为规则库。
本实施例的改进的CURE算法的基本步骤如下:
(1)对源数据库进行抽样,得到一个随机样本集S;
(2)将样本集S分割为一组划分;
(3)对每个划分局部地聚类;
(4)第一步收集异常点;给定的阈值是否超过,若某个簇不超过,则从样本集中去掉;
(5)对局部的簇再进行聚类,直到样本数据聚类完毕;
(6)第二步收集异常点;对所有进行孤立点集探测,将孤立点收集并汇入异常簇。
CURE算法的改进步骤如下:
(1)采样:
实际上,由于采用原始数据集的随机抽样,必然会有一定的可能性丢失重要的聚类信息,或者造成错误的聚类,这是算法所无法避免的,直到现在依旧没有办法可以同时提高精确度和效率,但是在多次实验中发现,如果选择合适的采样大小,那么最终产生的聚类效果还是很好地,因此对采样大小所依照的“切尔霍夫边界”进行了证明和推导,这里只引用其定义式,簇u最适合的采样大小s可以表示为:
Figure BDA0002833870810000131
其中,s是采样大小,f是最低采样率,它取决于簇的密度和簇之间的分离度,分离度越高、密度越高,f就设置的越高,∣u∣是簇u的大小,N是整个数据集的大小,δ是从∣u∣个样本点中采样得到f∣u∣个样本点的概率(0≤δ≤1)。
如果两个簇之间的距离非常小,随机采样之后进行聚类可能会使得算法无法区别这两个簇,这时需要将每个簇看做一个个子簇的集合,然后分别在这些子簇上进行采样。
(2)分割:
为了进一步提高算法的运行速度,CURE还将抽样得到的数据集进一步分割为p个部分,这样每个部分中的样本点数为n/p,然后分别在这些部分进行CURE聚类,每个部分产生q个簇,或者设置一个阈值,如果当前用于合并的两个簇之间的距离大于这个阈值就停止合并。完成聚类后共产生(n/p)×q个簇,然后将这些簇进一步合并,可以证明,这种方法不会降低聚类质量,而且可以大大加快CURE的速度。
(3)离群点的处理:
在进行随机采样时,会过滤掉大部分的离群点,此外,在随机采样得到的数据集中存在的少量离群点由于分布在整个原始数据空间,因而被随机采样进一步隔离了。在进行CURE凝聚层次聚类时,需要将每个点单独初始化为一个簇,并将距离最近的点合并为一个簇,由于离群点往往距离样本中的其它点很远,因此他所代表的簇增长的最为缓慢,以至于簇的大小远远小于正常的簇。
以上述讨论作为契机,我们将层次聚类中的离群点识别分为两个阶段,第一个阶段是在聚类算法执行到某一阶段(或称当前的簇总数减小到某个值)时,根据簇的增长速度和簇的大小对离群点进行一次识别,需要注意的是,如果这个阶段选择的较早(即簇总数依旧很大)的话,会将一部分本应被合并的簇识别为离群点,如果这个阶段选择的较晚(即簇总数过少)的话,离群点很可能在被识别之前就已经合并到某些簇中,因此推荐当前簇的总数为数据集大小的1/3时,进行离群点的识别。
第一阶段有一个很明显的问题,就是当随机采样到的离群点分布的比较近时(即使可能性比较小),这些点会被合并为一个簇,而导致无法将他们识别出来,这时就需要第二阶段的来进行处理。由于离群点占的比重很小,而在层次聚类的最后几步中,每个正常簇的粒度都是非常高的,因此很容易将他们识别出来,一般当簇的总数缩减到大约为k时,进行第二阶段的识别。
综上,本发明实施例的有益效果为:
1.网络安全威胁监测方法对网络流量数据进行自动分析,获取网络用户行为,区分出网络用户的正常行为和异常行为,能够有效对未知情况进行预判检测,节约大量时间以及成本。
2.网络安全威胁监测方法能够高效准确识别网络用户的异常行为,其中,得到的异常行为是危害行为的检测率非常高。
在本发明中,术语“第一”、“第二”、“第三”仅用于描述的目的,而不能理解为指示或暗示相对重要性;术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
本发明的描述中,需要理解的是,术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本发明的限制。
在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种网络安全威胁监测方法,其特征在于,包括:
获取第一网络流量数据;
针对所述网络流量数据进行随机抽样,构建随机样本集;
通过所述随机样本集,获取网络用户行为;
根据所述网络用户行为,进行数据分析,获取网络用户异常行为数据;
基于所述网络用户异常行为数据,构建网络用户异常行为规则库;
应用所述网络用户异常行为规则库,对第二网络流量数据进行监测,得到网络用户异常行为,将所述网络用户异常行为标识为网络安全威胁。
2.根据权利要求1所述的网络安全威胁监测方法,其特征在于,执行所述应用所述网络用户异常行为规则库,对第二网络流量数据进行监测,得到网络用户异常行为之后,还包括:
将所述网络用户异常行为的数据添加至所述网络用户异常行为规则库。
3.根据权利要求1所述的网络安全威胁监测方法,其特征在于,执行所述应用所述网络用户异常行为规则库,对第二网络流量数据进行监测之后,还包括:
获取网络用户正常行为,进行行为模式挖掘,预测用户行为。
4.根据权利要求1所述的网络安全威胁监测方法,其特征在于,所述根据所述网络用户行为,进行数据分析,获取网络用户异常行为数据,具体包括:
将所述随机样本集进行分割,分割为至少两组划分,对每组划分局部地聚类,生成簇;
通过第一步收集,获取异常点信息;
基于任意簇小于第一阈值,将簇从样本集中去掉;
对簇再次进行聚类,直到样本数据聚类完毕;
通过第二步收集,获取异常点信息;
探测孤立点,将孤立点收集并汇入异常簇,所述网络用户异常行为数据包括异常点信息。
5.根据权利要求4所述的网络安全威胁监测方法,其特征在于,所述针对网络流量数据进行抽样时,通过以下公式获取采样大小:
Figure FDA0002833870800000021
其中,s是采样大小,f是最低采样率,|u|是簇u的大小,N是整个网络流量数据的大小,δ是从|u|个样本点中采样得到f|u|个样本点的概率,0≤δ≤1。
6.根据权利要求4所述的网络安全威胁监测方法,其特征在于,所述针对所述网络流量数据进行抽样时,基于两个簇之间的距离小于第二阈值,将每个簇设定为子簇的集合,分别在子簇上进行采样。
7.根据权利要求4所述的网络安全威胁监测方法,其特征在于,所述将所述随机样本集进行分割,具体包括:
将所述随机样本集分割为至少两个部分,每个部分中的样本点数为样本集中的样本点数与分割数量的比值;
针对每个部分中的样本进行聚类,开始簇合并,基于两个用于合并的簇之间的距离大于第三阈值,停止合并;
得到每个部分的簇,将每个部分的簇相加,得到完成聚类后产生的簇;
再次进行簇合并。
8.根据权利要求4所述的网络安全威胁监测方法,其特征在于,所述根据所述网络用户行为,进行数据分析,获取网络用户异常行为数据,还包括:
基于当前簇的总数为所述随机样本集大小的第四阈值时,进行第一次离群点识别;
基于当前簇的总数为所述随机样本集大小的第五阈值时,进行第二次离群点识别;
其中,所述第四阈值大于所述第五阈值。
9.一种网络安全威胁监测装置(100),其特征在于,包括:
存储器(110),存储有程序或指令;
处理器(120),执行所述程序或指令;
其中,所述处理器(120)在执行所述程序或指令时,实现如权利要求1至8中任一项所述的网络安全威胁监测方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有程序或指令,所述程序或指令被处理器执行时,实现如权利要求1至8中任一项所述的网络安全威胁监测方法的步骤。
CN202011465211.4A 2020-12-14 2020-12-14 网络安全威胁监测方法、装置和可读存储介质 Pending CN112395608A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011465211.4A CN112395608A (zh) 2020-12-14 2020-12-14 网络安全威胁监测方法、装置和可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011465211.4A CN112395608A (zh) 2020-12-14 2020-12-14 网络安全威胁监测方法、装置和可读存储介质

Publications (1)

Publication Number Publication Date
CN112395608A true CN112395608A (zh) 2021-02-23

Family

ID=74624821

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011465211.4A Pending CN112395608A (zh) 2020-12-14 2020-12-14 网络安全威胁监测方法、装置和可读存储介质

Country Status (1)

Country Link
CN (1) CN112395608A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113114690A (zh) * 2021-04-15 2021-07-13 恒安嘉新(北京)科技股份公司 威胁事件识别方法、装置、设备及存储介质
CN113645232A (zh) * 2021-08-10 2021-11-12 克拉玛依和中云网技术发展有限公司 一种面向工业互联网的智能化流量监测方法、系统及存储介质
CN115827414A (zh) * 2023-02-15 2023-03-21 天津戎行集团有限公司 一种基于开源数据的网络用户行为监测分析方法
CN117675506A (zh) * 2023-10-16 2024-03-08 北京智慧城市网络有限公司 一种基于用户行为分析的智能网络运维管理方法和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108306857A (zh) * 2017-12-26 2018-07-20 努比亚技术有限公司 异常操作拦截方法、网络安全设备及计算机可读存储介质
CN108712425A (zh) * 2018-05-21 2018-10-26 南京南瑞集团公司 一种面向工业控制系统网络安全威胁事件的分析监管方法
CN111163065A (zh) * 2019-12-13 2020-05-15 国家计算机网络与信息安全管理中心 异常用户检测方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108306857A (zh) * 2017-12-26 2018-07-20 努比亚技术有限公司 异常操作拦截方法、网络安全设备及计算机可读存储介质
CN108712425A (zh) * 2018-05-21 2018-10-26 南京南瑞集团公司 一种面向工业控制系统网络安全威胁事件的分析监管方法
CN111163065A (zh) * 2019-12-13 2020-05-15 国家计算机网络与信息安全管理中心 异常用户检测方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
周凯: "改进的密度峰值聚类算法研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》, pages 28 - 35 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113114690A (zh) * 2021-04-15 2021-07-13 恒安嘉新(北京)科技股份公司 威胁事件识别方法、装置、设备及存储介质
CN113645232A (zh) * 2021-08-10 2021-11-12 克拉玛依和中云网技术发展有限公司 一种面向工业互联网的智能化流量监测方法、系统及存储介质
CN115827414A (zh) * 2023-02-15 2023-03-21 天津戎行集团有限公司 一种基于开源数据的网络用户行为监测分析方法
CN117675506A (zh) * 2023-10-16 2024-03-08 北京智慧城市网络有限公司 一种基于用户行为分析的智能网络运维管理方法和系统

Similar Documents

Publication Publication Date Title
CN112395608A (zh) 网络安全威胁监测方法、装置和可读存储介质
CN107577588B (zh) 一种海量日志数据智能运维系统
CN109088869B (zh) Apt攻击检测方法及装置
CN110505179B (zh) 一种网络异常流量的检测方法及系统
CN111475680A (zh) 检测异常高密子图的方法、装置、设备及存储介质
EP2337266A2 (en) Detecting and classifying anomalies in communication networks
CN112637193A (zh) 基于sdn的工业互联网安全态势感知系统
CN112134862B (zh) 基于机器学习的粗细粒度混合网络异常检测方法及装置
CN113645182B (zh) 一种基于二次特征筛选的拒绝服务攻击随机森林检测方法
CN111177360B (zh) 一种基于云上用户日志的自适应过滤方法及装置
CN106375295B (zh) 数据存储监控方法
CN113328985A (zh) 一种被动物联网设备识别方法、系统、介质及设备
CN106130806A (zh) 数据层实时监控方法
Zhang et al. Pca-svm-based approach of detecting low-rate dos attack
CN112202718B (zh) 一种基于XGBoost算法的操作系统识别方法、存储介质及设备
CN110753049B (zh) 一种基于工控网络流量的安全态势感知系统
CN115277113A (zh) 一种基于集成学习的电网网络入侵事件检测识别方法
CN113705714A (zh) 基于行为序列的配电物联网设备异常行为检测方法及装置
CN105049286A (zh) 基于层次聚类的云平台测速数据判定方法
CN106372171B (zh) 监控平台实时数据处理方法
CN113612657A (zh) 一种异常http连接的检测方法
CN113850294A (zh) 一种异常加密流量识别方法和系统
CN113285847A (zh) 一种智能换流站监测系统的通信网络异常检测方法及系统
CN117294497A (zh) 一种网络流量异常检测方法、装置、电子设备及存储介质
CN116030955B (zh) 基于物联网的医疗设备状态监测方法及相关装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination