CN114389840A

CN114389840A - 基于glm析因方法确定网络攻击源所在区域的方法及系统

Info

Publication number: CN114389840A
Application number: CN202111503668.4A
Authority: CN
Inventors: 汪媛; 黄兆强; 张乃夫
Original assignee: HUADI COMPUTER GROUP CO Ltd
Current assignee: HUADI COMPUTER GROUP CO Ltd
Priority date: 2021-12-09
Filing date: 2021-12-09
Publication date: 2022-04-22
Anticipated expiration: 2041-12-09
Also published as: CN114389840B

Abstract

本发明公开了一种基于GLM析因方法确定网络攻击源所在区域的方法及系统，包括：根据不同区域和不同时间段的网络安全攻击数据的分析需求，确定需要采集的网络攻击数据信息；基于所述网络攻击数据信息，按照预设采集方法进行数据采集，获取不同区域对应的样本数据；对所述样本数据进行正态性和方差齐性校验；当所述样本数据同时满足正态性和方差齐性时，进行样本因素GLM析因方差分析,获取析因方差分析结果；根据所述析因方差分析结果进行网络攻击溯源，确定网络攻击源所在的区域。本发明能够实现网络安全运营方式向事前安全防护运营方向方式转变，提升网络防护的针对性，提升安全运维部门的运行效率，从而进一步提高网络安全性。

Description

基于GLM析因方法确定网络攻击源所在区域的方法及系统

技术领域

本发明涉及数据分析技术领域，并且更具体地，涉及一种基于GLM析因方法确定网络攻击源所在区域的方法及系统。

背景技术

网络攻击所属现代词，指的是利用网络存在的漏洞和安全缺陷对网络系统的硬件、软件及其系统中的数据进行的攻击。目前网络安全防御策略的研究方法，主要停留网络攻击的事中和事后应答处理方面。对网络攻击的事前分析的研究较少，无法对网络攻击进行事先预防，网络安全防御始终处于被动状态。

相对于传统依赖专业人员主观预测方法，对最近一段时间网络攻击的统计学分析及预测，是网络安全防御领域安全态势的客观评价方法。

因此，需要一种基于GLM析因方法确定网络攻击源所在区域的方法。

发明内容

本发明提出一种基于GLM析因方法确定网络攻击源所在区域的方法及系统，以解决如何进行网络攻击溯源的问题。

为了解决上述问题，根据本发明的一个方面，提供了一种基于GLM析因方法分析的网络攻击溯源分析方法，所述方法包括：

根据不同区域和不同时间段的网络安全攻击数据的分析需求，确定需要采集的网络攻击数据信息；

基于所述网络攻击数据信息，按照预设采集方法进行数据采集，获取不同区域对应的样本数据；

对所述样本数据进行正态性和方差齐性校验；

当所述样本数据同时满足正态性和方差齐性时，进行样本因素GLM析因方差分析,获取析因方差分析结果；

根据所述析因方差分析结果进行网络攻击溯源，确定网络攻击源所在的区域。

优选地，其中所述网络攻击数据信息，包括：

网络攻击来源信息、攻击目的数据信息、攻击手段信息和攻击危害程度信息。

优选地，其中所述方法基于简单随机抽样进行数据采集，获取不同区域对应的样本数据；

其中，采用比例样本容量公式法确定样本容量，包括：

其中，n为样本容量；P为比例值；Z为对应的标准正态分布的分位点值；e为抽样误差；N为总体数量。

优选地，其中在进行样本正态性检验时，若样本分布呈明显的正偏态或负偏态，则样本均数不能反映总体分布情况，此时采用非参数检验方法对样本进行检测，以得到稳健的统计分析结果或者重新进行样本采样；若样本分布通过标准正态性检测，则采用标准的参数分析方法，对样本数据进行分析处理；

基于方齐性校验判断样本数据是否满足样本方差齐性，并当检测到样本方差不齐时，采用校正方法对方差检测结果进行校正；其中，所述校正方法包括：Tamhane’s T2、Dunnett’s、Game-Howell或Dunnett’s C。

优选地，其中所述根据所述析因方差分析结果进行网络攻击溯源，确定网络攻击源所在的区域，包括：

若根据析因方差结果确定分析因素间高阶效应P值小于5％，则确定分析因素间存在高阶交互效应，因素水平间存在统计学差异，选取概率最大的区域为网络攻击源所在的区域。

根据本发明的另一个方面，提供了一种基于GLM析因系统分析的网络溯源攻击的分析系统，所述系统包括：

网络攻击数据信息确定单元，用于根据不同区域和不同时间段的网络安全攻击数据的分析需求，确定需要采集的网络攻击数据信息；

样本数据获取单元，用于基于所述网络攻击数据信息，按照预设采集系统进行数据采集，获取不同区域对应的样本数据；

校验单元，用于对所述样本数据进行正态性和方差齐性校验；

析因方差分析单元，用于当所述样本数据同时满足正态性和方差齐性时，进行样本因素GLM析因方差分析,获取析因方差分析结果；

网络攻击源确定单元，用于根据所述析因方差分析结果进行网络攻击溯源，确定网络攻击源所在的区域。

优选地，其中所述网络攻击数据信息，包括：

优选地，其中所述样本数据获取单元，基于简单随机抽样进行数据采集，获取不同区域对应的样本数据；

其中，采用比例样本容量公式法确定样本容量，包括：

优选地，其中在进行样本正态性检验时，若样本分布呈明显的正偏态或负偏态，则样本均数不能反映总体分布情况，此时采用非参数检验系统对样本进行检测，以得到稳健的统计分析结果或者重新进行样本采样；若样本分布通过标准正态性检测，则采用标准的参数分析系统，对样本数据进行分析处理；

基于方齐性校验判断样本数据是否满足样本方差齐性，并当检测到样本方差不齐时，采用校正系统对方差检测结果进行校正；其中，所述校正系统包括：Tamhane’s T2、Dunnett’s、Game-Howell或Dunnett’s C。

优选地，其中所述网络攻击源确定单元，根据所述析因方差分析结果进行网络攻击溯源，确定网络攻击源所在的区域，包括：

本发明提供了一种基于GLM析因方法确定网络攻击源所在区域的方法及系统，包括：根据不同区域和不同时间段的网络安全攻击数据的分析需求，确定需要采集的网络攻击数据信息；基于所述网络攻击数据信息，按照预设采集方法进行数据采集，获取不同区域对应的样本数据；对所述样本数据进行正态性和方差齐性校验；当所述样本数据同时满足正态性和方差齐性时，进行样本因素GLM析因方差分析,获取析因方差分析结果；根据所述析因方差分析结果进行网络攻击溯源，确定网络攻击源所在的区域。本发明利用当前大数据分析技术的进展，结合网络安全建设的实际需求，利用计算统计学原理和现有计算机硬件的强大算力，客观的分析一段实际内特定区域网络安全态势，实现网络安全运营方式由事中，事后防护，向事前安全防护运营方向方式转变，补足传统网络安全防护方式的短板，提升网络防护的针对性，提升安全运维部门的运行效率，从而进一步提高网络安全性。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1为根据本发明实施方式的基于GLM析因方法确定网络攻击源所在区域的方法100的流程图；

图2为根据本发明实施方式的网络溯源攻击的分析方法的示例图；

图3为根据本发明实施方式的基于GLM析因方法确定网络攻击源所在区域的系统300的结构示意图。

具体实施方式

现在参考附图介绍本发明的示例性实施方式，然而，本发明可以用许多不同的形式来实施，并且不局限于此处描述的实施例，提供这些实施例是为了详尽地且完全地公开本发明，并且向所属技术领域的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中，相同的单元/元件使用相同的附图标记。

除非另有说明，此处使用的术语(包括科技术语)对所属技术领域的技术人员具有通常的理解含义。另外，可以理解的是，以通常使用的词典限定的术语，应当被理解为与其相关领域的语境具有一致的含义，而不应该被理解为理想化的或过于正式的意义。

图1为根据本发明实施方式的基于GLM析因方法确定网络攻击源所在区域的方法100的流程图。如图1所示，本发明实施方式提供的基于GLM析因方法确定网络攻击源所在区域的方法，利用当前大数据分析技术的进展，结合网络安全建设的实际需求，利用计算统计学原理和现有计算机硬件的强大算力，客观的分析一段实际内特定区域网络安全态势，实现网络安全运营方式由事中，事后防护，向事先安全防护运营方向方式转变，补足传统网络安全防护方式的短板，提升网络防护的针对性，提升安全运维部门的运行效率，从而进一步提高网络安全性。本发明实施方式提供的基于GLM析因方法确定网络攻击源所在区域的方法100，从步骤101处开始，在步骤101根据不同区域和不同时间段的网络安全攻击数据的分析需求，确定需要采集的网络攻击数据信息。

优选地，其中所述网络攻击数据信息，包括：

结合图2所示，在本发明的实施方式中，根据不同区域、不同时间段的网络安全攻击数据的分析需求，确认需要采集的网络攻击数据信息。数据采集方法可以通常来源于网络安全日志数据库，常规的信息采集包括，网络攻击来源采集(攻击原I P地址地理信息)，攻击目的数据采集(攻击目的I P地址，攻击目的应用类型，攻击目的数据类型)，攻击手段数据采集(分布式拒绝服务攻击，木马攻击，SQL注入攻击，Web CC攻击等)，攻击危害程度数据采集(分类变量，可采用李克特5分量表，将网络攻击危害分为极弱，弱，一般，强，非常强5个档次)。同时并根据实际网络安全态势，采集对应的网络日志数据。

在步骤102，基于所述网络攻击数据信息，按照预设采集方法进行数据采集，获取不同区域对应的样本数据。

其中，采用比例样本容量公式法确定样本容量，包括：

结合图2所示，为了简化数据采样处理，在本发明的实施方式中，对最近一段时间内(通常为1个月内的数据)的网络安全日志数据进行采集，为保证数据采集的可信度，数据采集方式采用简单随机抽样(Simple random sampling，SRS)。简单随机抽样的特点是：每个样本单位被抽中的概率是相等的，样本的每个单位完全的独立，样本彼此间无一定的关联性和排斥性。在本发明中，简单随机样本数量n小于等于样本总体的个数N。被抽取的样本的总体数量N是有限的，样本是从总体中逐个抽取的，每个个体样本的可能性均为n/N，简单随机抽样是一种不放回的抽样。

在明确采样方法后，本发明实施方式采用比例样本容量公式法确定样本容量，包括：

本发明中由于总体的真值未知，而且也没有以前数据信息可以利用，所以令比例值P＝0.5，此时的方差最大(0.25)，以期求得一个保守(最大)的样本容量。在抽样误差为5％(e值)，置信度为95％的情况(Z＝1.96)下。举例来说：假设某一日志安全攻击数据库的总体容量取值N＝15G(15，000，000K byte)(以常见的安全日志容量为例，各安全部门计算时以实际情况确认)，求得：

依据以上公式计算，可以确定此次样本采样的数量为384K byte。

在步骤103，对所述样本数据进行正态性和方差齐性校验。

在本发明的实施方式中，样本需要进行独立性、正太性及方差齐性校验，包括：

A)样本独立性检验。由于本发明采样采用简单随机抽样，只要在一年周期内，随机采集符合样本数量的样本。则从方法学上可判定样本的独立性符合要求。

B)样本正态性校验。样本正态性校验决定后续分析方法的确认。其中，若样本分布呈明显的正偏态或负偏态(即非对称分布)，则样本均数不能反映总体分布情况，此时采用非参数检验方法对样本进行检测，以期得到稳健的统计分析结果，或者重新进行样本采样。若样本分布大致对称(或通过标准正态性检测)，则可以采用标准的参数分析方法，对样本数据进行分析处理。

其中，GLM(一般线性模型)方差分析对样本正态性具备较高的容忍性，只要样本分布不存在严重的偏态分布，则方差分析得出的结论是稳健的。

C)样本方差齐性检验。由于GLM(一般线性模型)方差分析对样本方差齐性要求较高，特别是样本检测因素正交分组后，各组样本的数量是否均衡较为敏感。因此，采样数据经过清洗后，最好保证样本分组后，各组样本数量均衡。在各组样本数量均衡的前提下，如果依然检测到样本方差不齐，则可以采用校正的方法对方差检测结果进行校正。常见的校正方法有Tamhane’s T2，Dunnett’s，Game-Howell，Dunnett’s C可供选择。

在步骤104，当所述样本数据同时满足独立性、正态性和方差齐性时，进行样本因素GLM析因方差分析,获取析因方差分析结果。

在步骤105，根据所述析因方差分析结果进行网络攻击溯源，确定网络攻击源所在的区域。

在本发明的实施方式中，样本因素析因方差分析的设计原理为：析因设计(Factorial Design)是将两个或两个以上因素的各种水平进行排列组合、交叉分组的实验设计,是对影响因素的作用进行全面分析的设计方法,它可以研究两个或两个以上因素多个水平的效应,也可研究各因素之间是否有交互作用并找到最佳组合。在进行析因设计时,首先为每个因素选定-一定数目的水平,然后在全部可能的水平组合下进行实验。例如两个因素同时进行实验,每个因素取两个水平，实验的总组合数为2²＝4；如果水平为3,则有3²＝9种组合数；若有3个因素,每个因素取4个水平,则有4³＝64种组合数进行实验。在析因设计中，每个因素各水平的选择取决于研究目的，如仅想了解因素的主次及两因素有无交互作用,可将水平设为有、无；如欲探讨两因素的最佳组合,则以两个实际剂量作为两个水平。如果在一次实验中，当一个因素各水平间效应随其他因素的水平不同而变化时,因素间就存在交互作用。析因设计可以分析多种交互作用,两个因素间的交互作用称为一级交互作用,3个因素间的交互作用称为二级交互作用,依此类推。例如,观察3个因素的效应,其一级交互作用为:AxB、AxC与BxC,二级交互作用为AxBxC。当析因设计因素与水平过多时,交互作用的分析内容繁多、计算复杂,而且带来专业解释的困难,故多用简单析因设计,一般要求处理因素最好在4个以内,且各因素包括的水平数不宜划分得过细。实际上,在析因设计中，两个水平的析因设计是最常用的一种。

析因设计的特点:①实验中涉及m个实验因素(m≥2)；②所有m个实验因素的水平都互相搭配到,构成s个实验条件(s为m个因素的水平数之积)；③在每个实验条件下至少要做两次独立重复实验,即总实验次数N≥2s；④实验时,每次都涉及全部因素,即因素是同时施加的；⑤进行统计分析时,将全部因素视为对观测指标的影响是同等重要的，即因索之间在专业上地位平等(应以专业知识为依据),具体体现在分析每一项(包括主效应和交互效应)时所用的误差是相同的,它被称为模型的误差项。

析因设计的优点:①同时观察多个因素的效应,提高了实验效率；②能够分析各因素间的交互作用；③允许一个因素在其他各因素的不同水平上来估计其效应，所得结论在实验条件的范围内是有效的。析因设计的资料分析主要采用方差分析,当有交互作用时，主效应不能反映该因素的真实作用,因此要计算一个因素在另一因素的某一特定水平上的效应。

因此，在本发明的实施方式中，当所述样本数据同时满足独立性、正态性和方差齐性时，进行样本因素GLM析因方差分析,获取析因方差分析结果，然后根据所述析因方差分析结果进行网络攻击溯源，确定网络攻击源所在的区域。具体地，若根据析因方差结果确定分析因素间高阶效应P值小于5％，则确定分析因素间存在高阶交互效应，因素水平间存在统计学差异，选取概率最大的区域为网络攻击源所在的区域。

本发明通过对一段时间内某一确定区域遭受到的网络攻击数据进行统计学数据分析，可以有效的从数学角度，客观的分析，总结并归纳出最近一段时间内，针对于某一特定区域网络攻击的类型，攻击方式，攻击手段，攻击目的。从而可以在事前对网络安全的策略进行调整，有针对性的加强对本区域网络安全的薄弱环节进行网络加固，从而有效的提升网络安全设备的使用效率，提升网络安全的防护等级。

本发明是经过严格数学推导而得出得出的客观数学结论，一种尝试性的减小观念对目前网络安全研究过程中人为因素的影响，是一种努力减少“个人成分”参与的评价或者论证方式。基于本发明的方法能够从数学角度，通过定量化的研究、对网络攻击的来源，攻击类型，攻击手段及危险程度进行定量分析，有助于针对性的提升网络防御系统的效率,实现日常网络安全的精细化运营，大幅度降低网络安全运维的难度和成本,提升网络的安全性、可靠性及可用性。

图3为根据本发明实施方式的基于GLM析因方法确定网络攻击源所在区域的系统300的结构示意图。如图3所示，本发明实施方式提供的基于GLM析因系统分析的网络溯源攻击的分析系统300，包括：网络攻击数据信息确定单元301、样本数据获取单元302、校验单元303、析因方差分析单元304和网络攻击源确定单元305。

优选地，所述网络攻击数据信息确定单元301，用于根据不同区域和不同时间段的网络安全攻击数据的分析需求，确定需要采集的网络攻击数据信息。

优选地，其中所述网络攻击数据信息，包括：

优选地，所述样本数据获取单元302，用于基于所述网络攻击数据信息，按照预设采集系统进行数据采集，获取不同区域对应的样本数据。

优选地，其中所述样本数据获取单元302，基于简单随机抽样进行数据采集，获取不同区域对应的样本数据；

其中，采用比例样本容量公式法确定样本容量，包括：

优选地，所述校验单元303，用于对所述样本数据进行正态性和方差齐性校验。

优选地，所述析因方差分析单元304，用于当所述样本数据同时满足正态性和方差齐性时，进行样本因素GLM析因方差分析,获取析因方差分析结果。

优选地，所述网络攻击源确定单元305，用于根据所述析因方差分析结果进行网络攻击溯源，确定网络攻击源所在的区域。

本发明的实施例的基于GLM析因方法确定网络攻击源所在区域的系统300与本发明的另一个实施例的基于GLM析因方法确定网络攻击源所在区域的方法100相对应，在此不再赘述。

已经通过参考少量实施方式描述了本发明。然而，本领域技术人员所公知的，正如附带的专利权利要求所限定的，除了本发明以上公开的其他的实施例等同地落在本发明的范围内。

通常地，在权利要求中使用的所有术语都根据他们在技术领域的通常含义被解释，除非在其中被另外明确地定义。所有的参考“一个/所述/该[装置、组件等]”都被开放地解释为所述装置、组件等中的至少一个实例，除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行，除非明确地说明。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是：以上实施例仅用以说明本发明的技术方案而非对其限制，尽管参照上述实施例对本发明进行了详细的说明，所属领域的普通技术人员应当理解：依然可以对本发明的具体实施方式进行修改或者等同替换，而未脱离本发明精神和范围的任何修改或者等同替换，其均应涵盖在本发明的权利要求保护范围之内。

Claims

1.一种基于GLM析因方法确定网络攻击源所在区域的方法，其特征在于，所述方法包括：

对所述样本数据进行正态性和方差齐性校验；

2.根据权利要求1所述的方法，其特征在于，所述网络攻击数据信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述方法基于简单随机抽样进行数据采集，获取不同区域对应的样本数据；

其中，采用比例样本容量公式法确定样本容量，包括：

4.根据权利要求1所述的方法，其特征在于，

在进行样本正态性检验时，若样本分布呈明显的正偏态或负偏态，则样本均数不能反映总体分布情况，此时采用非参数检验方法对样本进行检测，以得到稳健的统计分析结果或者重新进行样本采样；若样本分布通过标准正态性检测，则采用标准的参数分析方法，对样本数据进行分析处理；

5.根据权利要求1所述的方法，其特征在于，所述根据所述析因方差分析结果进行网络攻击溯源，确定网络攻击源所在的区域，包括：

6.一种基于GLM析因系统分析的网络溯源攻击的分析系统，其特征在于，所述系统包括：

7.根据权利要求6所述的系统，其特征在于，所述网络攻击数据信息，包括：

8.根据权利要求6所述的系统，其特征在于，所述样本数据获取单元，基于简单随机抽样进行数据采集，获取不同区域对应的样本数据；

其中，采用比例样本容量公式法确定样本容量，包括：

9.根据权利要求6所述的系统，其特征在于，

在进行样本正态性检验时，若样本分布呈明显的正偏态或负偏态，则样本均数不能反映总体分布情况，此时采用非参数检验系统对样本进行检测，以得到稳健的统计分析结果或者重新进行样本采样；若样本分布通过标准正态性检测，则采用标准的参数分析系统，对样本数据进行分析处理；

10.根据权利要求6所述的系统，其特征在于，所述网络攻击源确定单元，根据所述析因方差分析结果进行网络攻击溯源，确定网络攻击源所在的区域，包括：