CN110868382A - 一种基于决策树的网络威胁评估方法、装置及存储介质 - Google Patents
一种基于决策树的网络威胁评估方法、装置及存储介质 Download PDFInfo
- Publication number
- CN110868382A CN110868382A CN201811574714.8A CN201811574714A CN110868382A CN 110868382 A CN110868382 A CN 110868382A CN 201811574714 A CN201811574714 A CN 201811574714A CN 110868382 A CN110868382 A CN 110868382A
- Authority
- CN
- China
- Prior art keywords
- threat
- characteristic
- information
- feature
- decision tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/147—Network analysis or design for predicting network behaviour
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1416—Event detection, e.g. attack signature detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
- H04L63/145—Countermeasures against malicious traffic the attack involving the propagation of malware through the network, e.g. viruses, trojans or worms
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Virology (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明实施例公开一种基于决策树的网络威胁评估方法及装置,涉及网络信息安全领域。所述方法包括:获取历史日志信息,该历史日志信息包括至少一个威胁特征;根据至少一个威胁特征,获取对应的威胁特征集,该威胁特征集包括至少一个威胁特征、每个威胁特征对应的特征值以及威胁特征的威胁预测结果;根据至少一个威胁特征、特征值以及威胁预测结果,计算每个威胁特征的信息增益;通过每个威胁特征的信息增益,确定决策树,该决策树用于对接收到的日志信息是否构成网络威胁进行评估。本发明实现了对网络威胁的自动化分析,应对复杂多变的威胁行为时,采用决策树对网络威胁进行循环型迭代分析评估,有效提高分析效率以及准确性。
Description
技术领域
本发明涉及网络信息安全领域,尤其涉及一种基于决策树的网络威胁评估方法、装置及存储介质。
背景技术
目前,随着网络技术的发展,网络(亦成为互联网)已经逐渐成为公共基础设施,每时每刻大量的信息都通过互联网传输。与此同时,互联网也面临着各式各样的威胁,其中不乏地缘政治、非法牟利等原因,而实施的且具有针对性的威胁。
在现有发现网络威胁的方式中,通常由技术人员根据自身的判断,而直接进行分析。
但是,对于海量的低信噪比数据,由技术人员直接进行分析将极大增加技术人员的记忆负担,并且,其分析过程完全依赖于技术人员的个人经验。这种方式,对于日流量达到TB级的网络重要隘口是不现实的,严重影响分析效率。
发明内容
有鉴于此,本发明实施例提供一种基于决策树的网络威胁评估方法、装置及存储介质,以解决现有网络威胁分析过程完全依赖于技术人员个人经验,而导致对海量数据分析效率低的问题。
第一方面,本发明实施例提供一种基于决策树的网络威胁评估方法,所述方法包括:
获取历史日志信息,所述历史日志信息包括至少一个威胁特征;
根据所述至少一个威胁特征,获取对应的威胁特征集,所述威胁特征集包括所述至少一个威胁特征、每个威胁特征对应的特征值以及威胁特征的威胁预测结果;
根据所述至少一个威胁特征、所述特征值以及所述威胁预测结果,计算每个威胁特征的信息增益;
通过所述每个威胁特征的信息增益,确定决策树,所述决策树用于对接收到的日志信息是否构成网络威胁进行评估。
可选地,所述根据所述至少一个威胁特征、所述特征值以及所述威胁预测结果,计算每个威胁特征的信息增益,具体包括:
根据所述特征值以及所述威胁预测结果,计算所述特征值对应的威胁特征的信息熵;
当所述威胁特征包括多个所述特征值时,将多个所述特征值进行分类,得到多个特征子集,每个特征子集包括相同的特征值;
根据每个特征子集包括的特征值与所述威胁预测结果之间的比重,计算每个特征子集的信息熵;
利用所述威胁特征的信息熵以及每个特征子集的信息熵,计算所述威胁特征的信息增益。
可选地,所述通过所述每个威胁特征的信息增益,确定决策树,具体包括:
从全部威胁特征的信息增益中,获取信息增益的最大值;
将所述信息增益的最大值对应的威胁特征作为所述决策树的根节点,所述信息增益的最大值对应的威胁特征所包括的特征子集的个数作为所述根节点的度;
当所述信息增益的最大值对应的威胁特征所包括的特征子集的信息熵不小于预设熵阈值时,将所述信息增益的次大值对应的威胁特征更新所述下一级叶节点,所述信息增益的次大值对应的威胁特征所包括的特征子集的个数作为所述下一级叶节点的度;
遍历全部威胁特征的信息增益,重复执行依据信息增益的排序,将信息增益对应的威胁特征作为所述决策树节点的过程,直至每个信息增益对应的威胁特征所包括的特征子集的信息熵、每个信息增益对应的威胁特征的信息熵均小于所述预设熵阈值。
可选地,所述信息熵,具体通过下式得到:
其中,所述Ent(D)为所述信息熵,所述pk为当前样本集合D中的第k类样本所占比例,k=1,2,...,|y|。
可选地,所述信息增益,具体通过下式得到:
其中,所述a为所述威胁特征,所述v为所述特征子集的个数。
第二方面,本发明实施例提供一种基于决策树的网络威胁评估装置,所述装置包括:
第一获取单元,用于获取历史日志信息,所述历史日志信息包括至少一个威胁特征;
第二获取单元,用于根据所述至少一个威胁特征,获取对应的威胁特征集,所述威胁特征集包括所述至少一个威胁特征、每个威胁特征对应的特征值以及威胁特征的威胁预测结果;
计算单元,用于根据所述至少一个威胁特征、所述特征值以及所述威胁预测结果,计算每个威胁特征的信息增益;
确定单元,用于通过所述每个威胁特征的信息增益,确定决策树,所述决策树用于对接收到的日志信息是否构成网络威胁进行评估。
可选地,所述计算单元,具体用于,
根据所述特征值以及所述威胁预测结果,计算所述特征值对应的威胁特征的信息熵;
当所述威胁特征包括多个所述特征值时,将多个所述特征值进行分类,得到多个特征子集,每个特征子集包括相同的特征值;
根据每个特征子集包括的特征值与所述威胁预测结果之间的比重,计算每个特征子集的信息熵;
利用所述威胁特征的信息熵以及每个特征子集的信息熵,计算所述威胁特征的信息增益。
可选地,所述确定单元,具体用于,
从全部威胁特征的信息增益中,获取信息增益的最大值;
将所述信息增益的最大值对应的威胁特征作为所述决策树的根节点,所述信息增益的最大值对应的威胁特征所包括的特征子集的个数作为所述根节点的度;
当所述信息增益的最大值对应的威胁特征所包括的特征子集的信息熵不小于预设熵阈值时,将所述信息增益的次大值对应的威胁特征更新所述下一级叶节点,所述信息增益的次大值对应的威胁特征所包括的特征子集的个数作为所述下一级叶节点的度;
遍历全部威胁特征的信息增益,重复执行依据信息增益的排序,将信息增益对应的威胁特征作为所述决策树节点的过程,直至每个信息增益对应的威胁特征所包括的特征子集的信息熵、每个信息增益对应的威胁特征的信息熵均小于所述预设熵阈值。
可选地,所述信息熵,具体通过下式得到:
其中,所述Ent(D)为所述信息熵,所述pk为当前样本集合D中的第k类样本所占比例,k=1,2,...,|y|。
可选地,所述信息增益,具体通过下式得到:
其中,所述a为所述威胁特征,所述v为所述特征子集的个数。
第三方面,本发明实施例提供一种电子设备,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述第一方面所述的一种基于决策树的网络威胁评估方法。
第四方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述任一权利要求1-5所述的一种基于决策树的网络威胁评估方法。
本发明实施例提供的一种基于决策树的网络威胁评估方法、装置及存储介质,在利用威胁特征获取对应的威胁特征集后,通过威胁特征集包括的威胁特征、特征值以及威胁预测结果,计算每个威胁特征的信息增益。再根据每个威胁特征的信息增益,确定决策树,从而利用决策树对后续接收到的日志信息是否构成网络威胁进行评估。前述方案能够解决现有网络威胁分析过程完全依赖于技术人员个人经验,而导致对海量数据分析效率低的问题。实现了对网络威胁的自动化分析,应对复杂多变的威胁行为时,采用决策树对网络威胁进行循环型迭代分析评估,有效提高分析效率以及准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种基于决策树的网络威胁评估方法流程图;
图2为本发明实施例提供的一种决策树示意图;
图3为本发明实施例提供的一种基于决策树的网络威胁评估装置结构示意图;
图4为本发明实施例提供的一种电子设备结构示意图。
具体实施方式
下面结合附图对本发明实施例进行详细描述。
应当明确,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
下面结合附图1,详细说明本发明实施例提供的方案进行说明,图1为本发明实施例提供的一种基于决策树的网络威胁评估方法流程图,在本发明实施例中实施主体为电子设备。该电子设备可为终端设备,例如,个人电脑、台式电脑等。该电子设备也可为服务器。如图1所示,本发明实施例提供的一种基于决策树的网络威胁评估方法具体包括以下步骤:
步骤110、获取历史日志信息,所述历史日志信息包括至少一个威胁特征。
本发明实施例中,历史日志信息为一种电子设备在运行过程中,产生的系统文件。在系统文件中可以记录着电子设备当前运行状态、是否遭受攻击的信息。电子设备获取历史日志信息。
可以理解的是,在历史日志信息中包括至少一个威胁特征。例如,一条历史日志信息具体为资产1.1.1.1通过HTTP协议,访问资产2.2.2.2发现F68AA89C66749E12CD1ED7EB60F07FB9等恶意代码传输行为。
其中,资产1.1.1.1、资产2.2.2.2可具体为一种电子设备。X.X.X.X为该电子设备的地址信息。
步骤120、根据所述至少一个威胁特征,获取对应的威胁特征集,所述威胁特征集包括所述至少一个威胁特征、每个威胁特征对应的特征值以及威胁特征的威胁预测结果。
本发明实施例中,技术人员可在先根据历史日志信息包括的至少一个威胁特征,设置不同的威胁特征集。也即是,技术人员将历史日志信息作为数据集D,对数据集D中的不同威胁特征预设对应的威胁特征集A。
可以理解的是,威胁特征集需要相关技术人员进行设置并存储至电子设备中,威胁特征集中的内容应是十分准确的。如表1所示,威胁特征集的表现形式。
表1威胁特征集
编号 | 恶意代码传输行为 | 遭受C&C攻击 | 威胁预测结果 |
1 | 包含 | 遭受 | 是 |
2 | 不包含 | 未遭受 | 否 |
从上表可知,威胁特征集包括至少一个威胁特征(恶意代码传输行为、遭受C&C攻击)、每个威胁特征对应的特征值(例如,遭受C&C攻击对应的特征值为“遭受”、“未遭受”)、威胁特征的威胁预测结果(例如,包含恶意代码传输行为且同时遭受C&C攻击时,即为威胁;不包含恶意代码传输行为且同时未遭受C&C攻击时,即为未威胁)。
步骤130、根据所述至少一个威胁特征、所述特征值以及所述威胁预测结果,计算每个威胁特征的信息增益。
本发明实施例中,通过威胁特征集中存储的信息,计算每个威胁特征的信息增益。
进一步地,该信息增益可具体通过三个步骤得到。首先,计算威胁特征的信息熵,然后,计算威胁特征包括的每个特征子集的信息熵,最后,通过威胁特征的信息熵以及每个特征子集的信息熵,得到威胁特征的信息增益。在后续实施例中将详细介绍威胁特征的信息增益的计算过程。
步骤140、通过所述每个威胁特征的信息增益,确定决策树,所述决策树用于对接收到的日志信息是否构成网络威胁进行评估。
本发明实施例中,电子设备对威胁特征集中的每个威胁特征计算信息增益后,通过每个威胁特征的信息增益,确定决策树。该决策树用于对后续接收到的日志信息是否构成网络威胁进行评估。
可以理解的是,决策树(Decision Tree)是一个树形结构,包括1个根节点以及多个叶节点。其根节点表示一个威胁特征的测试,每个分支代表这个威胁特征在某个值域上的输出,而每个叶节点存放一个类别。使用决策树进行决策的过程是从根节点开始,测试根节点包括的威胁特征是否符合,并按照其值选择输出分支,直到到达不可划分的叶节点,将不可划分的叶节点存放的类别作为评估结果。
威胁特征集中的每个威胁特征均作为节点存在于决策树中,而且,在本发明实施例中,决策树是不断迭代更新的过程。当一个威胁特征加入决策树后,电子设备遍历威胁特征集A,寻找下一个加入决策树的威胁特征。当威胁特征集中的全部威胁特征已添加至决策树中,且,每个节点的信息熵均小于预设熵阈值时,结束流程,决策树建立完成。
在本发明实施例中,电子设备在利用威胁特征获取对应的威胁特征集后,通过威胁特征集包括的威胁特征、特征值以及威胁预测结果,计算每个威胁特征的信息增益。再根据每个威胁特征的信息增益,确定决策树,从而利用决策树对后续接收到的日志信息是否构成网络威胁进行评估。前述方案能够解决现有网络威胁分析过程完全依赖于技术人员个人经验,而导致对海量数据分析效率低的问题。实现了对网络威胁的自动化分析,应对复杂多变的威胁行为时,采用决策树对网络威胁进行循环型迭代分析评估,有效提高分析效率以及准确性。
本发明实施例提供的基于决策树的网络威胁评估方法,采用决策树的方式在接收到日志信息时即进行高效自动化分析,发现网络威胁;具有循环型迭代分析能力,随着历史日志信息的增长而逐步更新决策树提高;实现可控的机器学习,有效挖掘高风险线索。
下面详细说明本发明实施例提供的方案,在本发明实施例中,实施主体为电子设备。该电子设备可为终端设备,例如,个人电脑、台式电脑等。该电子设备也可为服务器。
具体地,在一个示例中,电子设备获取多条历史日志信息。在实际应用中,电子设备应获取大量的历史日志信息,在此仅举几个例子以示说明。
电子设备获取的历史日志信息具体如下所示:
1、资产1.1.1.1通过HTTP协议,访问资产2.2.2.2发现F68AA89C66749E12CD1ED7EB60F07FB9等恶意代码传输行为。
2、资产3.3.3.3,资产4.4.4.4遭受C&C攻击,病毒名称为Trojan/Linux.Setag(DDOS)。
3、资产5.5.5.5资产6.6.6.6遭受C&C攻击,病毒名称为Trojan/Win32.Nitol(RAT)。
在上述历史日志信息中,均包括一个威胁特征。例如,恶意代码传输行为、遭受C&C攻击等。
电子设备获取多条历史日志信息后,获取与历史日志信息包括的至少一个威胁特征对应的威胁特征集。如表2所示。
表2威胁特征集
编号 | 恶意代码传输行为 | 遭受C&C攻击 | 威胁预测结果 |
1 | 包含 | 遭受 | 是 |
2 | 包含 | 未遭受 | 是 |
3 | 不包含 | 未遭受 | 否 |
通过威胁特征集中存储的信息,电子设备计算每个威胁特征的信息增益。下面以计算威胁特征“恶意代码传输行为”为例进行说明。
首先,计算“恶意代码传输行为”的信息熵。根据“恶意代码传输行为”特征值以及表2中的威胁预测结果,计算“恶意代码传输行为”的信息熵。
根据下式计算“恶意代码传输行为”的信息熵。
其中,Ent(D)为信息熵,pk为当前样本集合D中的第k类样本所占比例,k=1,2,...,|y|。
通过威胁特征集可知,威胁预测结果包括的类别数量即为上式中y的绝对值的取值。在本发明实施例中,威胁预测结果包括两类,即“是”或者“否”,因此,|y|=2。
“恶意代码传输行为”的特征值包括多个特征值,将多个特征值进行分类,得到多个特征子集,每个特征子集包括相同的特征值。在本发明实施例中,对“恶意代码传输行为”的特征值进行分类后,得到两个特征子集,即特征子集D1“包含”、特征子集D2“不包含”。其中,“包含”的个数在威胁预测结果为“是”的占比为2/3,即p1=2/3,“不包含”占比为1/3,即,p2=1/3。
此时,“恶意代码传输行为”的信息熵为:
然后,根据每个特征子集包括的特征值与威胁预测结果之间的比重,计算“恶意代码传输行为”包括的每个特征子集的信息熵。
其中,特征子集D1中包含的特征值数量为两个,特征子集D2中包含的特征值数量为一个。则,特征子集D1包含的特征值在威胁预测结果为“是”的占比为2/3,在威胁预测结果为“否”的占比为1/3。特征子集D2包含的特征值在威胁预测结果为“是”的占比为0,在威胁预测结果为“否”的占比为2/3。
此时,特征子集D1、特征子集D2的信息熵为:
最后,利用威胁特征的信息熵以及每个特征子集的信息熵,计算威胁特征的信息增益。
根据下式计算“恶意代码传输行为”的信息增益。
其中,a为威胁特征,v为特征子集的个数。
具体地,“恶意代码传输行为”的信息增益为:
同理,“遭受C&C攻击”的信息增益为0.22。
电子设备在得到每个威胁特征的信息增益后,从全部威胁特征的信息增益中获取信息增益的最大值。电子设备将信息增益的最大值对应的威胁特征作为决策树的根节点,该信息增益的最大值对应的威胁特征所包括的特征子集的个数作为根节点的度。
电子设备在确定根节点之后,判断根节点对应的威胁特征包括的特征子集的信息熵是否小于预设的熵阈值。该熵阈值为技术人员根据经验设定。如果根节点对应的威胁特征包括的特征子集的信息熵不小于预设的熵阈值,则电子设备将信息增益的次大值对应的威胁特征作为根节点的下一级叶节点,该信息增益的次大值对应的威胁特征所包括的特征子集的个数作为下一级叶节点的度。
电子设备遍历全部威胁特征的信息增益,重复执行依据信息增益的排序,将信息增益对应的威胁特征作为决策树节点的过程,直至每个信息增益对应的威胁特征所包括的特征子集的信息熵、每个信息增益对应的威胁特征的信息熵均小于熵阈值。
需要说明的是,如果信息熵小于熵阈值,则此时,电子设备确定该威胁特征已达到稳定(即,已可以确定该威胁特征是否构成威胁),其无需再次继续分析;如果信息熵不小于熵阈值,则此时,电子设备确定该威胁特征未达到稳定(即,无法确定该威胁特征是否构成威胁),其还需再次向下创建叶节点分析。
在本发明实施例中,按照上述方式得到的决策树如图2所示。在图2中,“恶意代码传输行为”的信息增益大于“遭受C&C攻击”的信息增益”。因此,决策树的根节点为“恶意代码传输行为”。“恶意代码传输行为”包括两个特征子集,即为根节点的度,也称为分支数量。
由于在本发明实施例中,决策树具体为二叉树,因此,每一个节点的度均为2。当根节点的一个特征子集的信息熵不小于熵阈值时,该特征子集还需再次向下创建叶节点,此时,如果还存在未添加至决策树中的威胁特征,则该威胁特征需作为根节点的下一级叶节点,并与该特征子集连接,直至,每个信息增益对应的威胁特征所包括的特征子集的信息熵、每个信息增益对应的威胁特征的信息熵均小于熵阈值。
从图2中可知,“恶意代码传输行为”作为根节点,其包括两个特征子集,即“包含”与“非包含”。“包含”子集的信息熵小于熵阈值,而“非包含”子集的信息熵不大于熵阈值。因此,“遭受C&C攻击”只能作为“恶意代码传输行为”根节点中“非包含”子集的下一级叶节点。“遭受C&C攻击”作为根节点时,其也包括两个特征子集,即“遭受”与“非遭受”,这两个子集的信息熵均小于熵阈值,且全部特征均已添加至决策树中,至此,确定决策树的过程结束。
图3为本发明实施例提供的一种基于决策树的网络威胁评估装置结构示意图,如图3所示,本实施例的基于决策树的网络威胁评估装置可以包括:第一获取单元310、第二获取单元320、计算单元330以及确定单元340。
其中,所述第一获取单元310,用于获取历史日志信息,所述历史日志信息包括至少一个威胁特征;
第二获取单元320,用于根据所述至少一个威胁特征,获取对应的威胁特征集,所述威胁特征集包括所述至少一个威胁特征、每个威胁特征对应的特征值以及威胁特征的威胁预测结果;
计算单元330,用于根据所述至少一个威胁特征、所述特征值以及所述威胁预测结果,计算每个威胁特征的信息增益;
确定单元340,用于通过所述每个威胁特征的信息增益,确定决策树,所述决策树用于对接收到的日志信息是否构成网络威胁进行评估。
可选地,所述计算单元330,具体用于,
根据所述特征值以及所述威胁预测结果,计算所述特征值对应的威胁特征的信息熵;
当所述威胁特征包括多个所述特征值时,将多个所述特征值进行分类,得到多个特征子集,每个特征子集包括相同的特征值;
根据每个特征子集包括的特征值与所述威胁预测结果之间的比重,计算每个特征子集的信息熵;
利用所述威胁特征的信息熵以及每个特征子集的信息熵,计算所述威胁特征的信息增益。
可选地,所述确定单元340,具体用于,
从全部威胁特征的信息增益中,获取信息增益的最大值;
将所述信息增益的最大值对应的威胁特征作为所述决策树的根节点,所述信息增益的最大值对应的威胁特征所包括的特征子集的个数作为所述根节点的度;
当所述信息增益的最大值对应的威胁特征所包括的特征子集的信息熵不小于预设熵阈值时,将所述信息增益的次大值对应的威胁特征更新所述下一级叶节点,所述信息增益的次大值对应的威胁特征所包括的特征子集的个数作为所述下一级叶节点的度;
遍历全部威胁特征的信息增益,重复执行依据信息增益的排序,将信息增益对应的威胁特征作为所述决策树节点的过程,直至每个信息增益对应的威胁特征所包括的特征子集的信息熵、每个信息增益对应的威胁特征的信息熵均小于所述预设熵阈值。
可选地,所述信息熵,具体通过下式得到:
其中,所述Ent(D)为所述信息熵,所述pk为当前样本集合D中的第k类样本所占比例,k=1,2,...,|y|。
可选地,所述信息增益,具体通过下式得到:
其中,所述a为所述威胁特征,所述v为所述特征子集的个数。
本实施例的装置,可以用于执行图1、图2所示方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
相应地,本发明实施例提供的一种基于决策树的网络威胁评估装置还可用另一种结构实现。图4为本发明提供的一个电子设备实施例的结构示意图,可以实现本发明图1-2所示实施例的流程,如图4所示,上述电子设备可以包括:壳体41、处理器42、存储器43、电路板44和电源电路45。其中,电路板44安置在壳体41围成的空间内部,处理器42和存储器43设置在电路板44上;电源电路45,用于为上述电子设备的各个电路或器件供电;存储器43用于存储可执行程序代码;处理器42通过读取存储器43中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述实施例所述的方法。
处理器42对上述步骤的具体执行过程以及处理器42通过运行可执行程序代码来进一步执行的步骤,可以参见本发明图1-2所示实施例的描述,在此不再赘述。
该电子设备:提供计算服务的设备,电子设备的构成包括处理器、硬盘、内存、系统总线等,电子设备和通用的计算机架构类似,但是由于需要提供高可靠的服务,因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。
相应地,本发明实施例提供一种计算机可读存储介质,该计算机可读存储介质存储有一个或者多个程序。其中,一个或者多个程序可被一个或者多个处理器执行,以实现前述实施例所述的基于决策树的网络威胁评估方法。
需要说明的是,在本文中,诸如术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。
在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
为了描述的方便,描述以上装置是以功能分为各种单元/模块分别描述。当然,在实施本发明时可以把各单元/模块的功能在同一个或多个软件和/或硬件中实现。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
Claims (12)
1.一种基于决策树的网络威胁评估方法,其特征在于,所述方法包括:
获取历史日志信息,所述历史日志信息包括至少一个威胁特征;
根据所述至少一个威胁特征,获取对应的威胁特征集,所述威胁特征集包括所述至少一个威胁特征、每个威胁特征对应的特征值以及威胁特征的威胁预测结果;
根据所述至少一个威胁特征、所述特征值以及所述威胁预测结果,计算每个威胁特征的信息增益;
通过所述每个威胁特征的信息增益,确定决策树,所述决策树用于对接收到的日志信息是否构成网络威胁进行评估。
2.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个威胁特征、所述特征值以及所述威胁预测结果,计算每个威胁特征的信息增益,具体包括:
根据所述特征值以及所述威胁预测结果,计算所述特征值对应的威胁特征的信息熵;
当所述威胁特征包括多个所述特征值时,将多个所述特征值进行分类,得到多个特征子集,每个特征子集包括相同的特征值;
根据每个特征子集包括的特征值与所述威胁预测结果之间的比重,计算每个特征子集的信息熵;
利用所述威胁特征的信息熵以及每个特征子集的信息熵,计算所述威胁特征的信息增益。
3.根据权利要求2所述的方法,其特征在于,所述通过所述每个威胁特征的信息增益,确定决策树,具体包括:
从全部威胁特征的信息增益中,获取信息增益的最大值;
将所述信息增益的最大值对应的威胁特征作为所述决策树的根节点,所述信息增益的最大值对应的威胁特征所包括的特征子集的个数作为所述根节点的度;
当所述信息增益的最大值对应的威胁特征所包括的特征子集的信息熵不小于预设熵阈值时,将所述信息增益的次大值对应的威胁特征更新所述下一级叶节点,所述信息增益的次大值对应的威胁特征所包括的特征子集的个数作为所述下一级叶节点的度;
遍历全部威胁特征的信息增益,重复执行依据信息增益的排序,将信息增益对应的威胁特征作为所述决策树节点的过程,直至每个信息增益对应的威胁特征所包括的特征子集的信息熵、每个信息增益对应的威胁特征的信息熵均小于所述预设熵阈值。
6.一种基于决策树的网络威胁评估装置,其特征在于,所述装置包括:
第一获取单元,用于获取历史日志信息,所述历史日志信息包括至少一个威胁特征;
第二获取单元,用于根据所述至少一个威胁特征,获取对应的威胁特征集,所述威胁特征集包括所述至少一个威胁特征、每个威胁特征对应的特征值以及威胁特征的威胁预测结果;
计算单元,用于根据所述至少一个威胁特征、所述特征值以及所述威胁预测结果,计算每个威胁特征的信息增益;
确定单元,用于通过所述每个威胁特征的信息增益,确定决策树,所述决策树用于对接收到的日志信息是否构成网络威胁进行评估。
7.根据权利要求6所述的装置,其特征在于,所述计算单元,具体用于,
根据所述特征值以及所述威胁预测结果,计算所述特征值对应的威胁特征的信息熵;
当所述威胁特征包括多个所述特征值时,将多个所述特征值进行分类,得到多个特征子集,每个特征子集包括相同的特征值;
根据每个特征子集包括的特征值与所述威胁预测结果之间的比重,计算每个特征子集的信息熵;
利用所述威胁特征的信息熵以及每个特征子集的信息熵,计算所述威胁特征的信息增益。
8.根据权利要求7所述的装置,其特征在于,所述确定单元,具体用于,
从全部威胁特征的信息增益中,获取信息增益的最大值;
将所述信息增益的最大值对应的威胁特征作为所述决策树的根节点,所述信息增益的最大值对应的威胁特征所包括的特征子集的个数作为所述根节点的度;
当所述信息增益的最大值对应的威胁特征所包括的特征子集的信息熵不小于预设熵阈值时,将所述信息增益的次大值对应的威胁特征更新所述下一级叶节点,所述信息增益的次大值对应的威胁特征所包括的特征子集的个数作为所述下一级叶节点的度;
遍历全部威胁特征的信息增益,重复执行依据信息增益的排序,将信息增益对应的威胁特征作为所述决策树节点的过程,直至每个信息增益对应的威胁特征所包括的特征子集的信息熵、每个信息增益对应的威胁特征的信息熵均小于所述预设熵阈值。
11.一种电子设备、其特征在于,所述电子设备包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为上述电子设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,用于执行前述任一权利要求1-5所述的一种基于决策树的网络威胁评估方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现前述任一权利要求1-5所述的一种基于决策树的网络威胁评估方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811574714.8A CN110868382A (zh) | 2018-12-21 | 2018-12-21 | 一种基于决策树的网络威胁评估方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811574714.8A CN110868382A (zh) | 2018-12-21 | 2018-12-21 | 一种基于决策树的网络威胁评估方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110868382A true CN110868382A (zh) | 2020-03-06 |
Family
ID=69651575
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811574714.8A Pending CN110868382A (zh) | 2018-12-21 | 2018-12-21 | 一种基于决策树的网络威胁评估方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110868382A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111708681A (zh) * | 2020-06-15 | 2020-09-25 | 北京优特捷信息技术有限公司 | 一种日志处理方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160021122A1 (en) * | 2014-07-15 | 2016-01-21 | Cisco Technology, Inc. | Explaining causes of network anomalies |
CN106899440A (zh) * | 2017-03-15 | 2017-06-27 | 苏州大学 | 一种面向云计算的网络入侵检测方法及系统 |
CN108040076A (zh) * | 2018-02-06 | 2018-05-15 | 中国互联网络信息中心 | 基于Spark Streaming的DNS水刑攻击处理方法及系统 |
CN108449342A (zh) * | 2018-03-20 | 2018-08-24 | 北京搜狐互联网信息服务有限公司 | 恶意请求检测方法及装置 |
CN108809989A (zh) * | 2018-06-14 | 2018-11-13 | 北京中油瑞飞信息技术有限责任公司 | 一种僵尸网络的检测方法及装置 |
-
2018
- 2018-12-21 CN CN201811574714.8A patent/CN110868382A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160021122A1 (en) * | 2014-07-15 | 2016-01-21 | Cisco Technology, Inc. | Explaining causes of network anomalies |
CN106899440A (zh) * | 2017-03-15 | 2017-06-27 | 苏州大学 | 一种面向云计算的网络入侵检测方法及系统 |
CN108040076A (zh) * | 2018-02-06 | 2018-05-15 | 中国互联网络信息中心 | 基于Spark Streaming的DNS水刑攻击处理方法及系统 |
CN108449342A (zh) * | 2018-03-20 | 2018-08-24 | 北京搜狐互联网信息服务有限公司 | 恶意请求检测方法及装置 |
CN108809989A (zh) * | 2018-06-14 | 2018-11-13 | 北京中油瑞飞信息技术有限责任公司 | 一种僵尸网络的检测方法及装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111708681A (zh) * | 2020-06-15 | 2020-09-25 | 北京优特捷信息技术有限公司 | 一种日志处理方法、装置、设备及存储介质 |
CN111708681B (zh) * | 2020-06-15 | 2021-05-07 | 北京优特捷信息技术有限公司 | 一种日志处理方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108768943B (zh) | 一种检测异常账号的方法、装置及服务器 | |
CN111355697B (zh) | 僵尸网络域名家族的检测方法、装置、设备及存储介质 | |
CN106899440B (zh) | 一种面向云计算的网络入侵检测方法及系统 | |
EP3264312A1 (en) | Model-based computer attack analytics orchestration | |
US11270001B2 (en) | Classification apparatus, classification method, and classification program | |
CN111368289B (zh) | 一种恶意软件检测方法和装置 | |
CN113810408B (zh) | 网络攻击组织的探测方法、装置、设备及可读存储介质 | |
US9992216B2 (en) | Identifying malicious executables by analyzing proxy logs | |
Grill et al. | Malware detection using http user-agent discrepancy identification | |
CN112134897A (zh) | 网络攻击数据的处理方法和装置 | |
Nguyen et al. | DGA botnet detection using collaborative filtering and density-based clustering | |
CN116389099A (zh) | 威胁检测方法、装置、电子设备及存储介质 | |
CN107070845B (zh) | 用于检测网络钓鱼脚本的系统和方法 | |
CN110868382A (zh) | 一种基于决策树的网络威胁评估方法、装置及存储介质 | |
CN111914257A (zh) | 文档检测的方法、装置、设备、及计算机存储介质 | |
CN109246083B (zh) | 一种dga域名的检测方法及装置 | |
US8555382B2 (en) | Method and system for automatic invariant byte sequence discovery for generic detection | |
CN116127453A (zh) | 一种apt攻击检测方法、系统、装置、介质及设备 | |
CN115643044A (zh) | 数据处理方法、装置、服务器及存储介质 | |
CN117391214A (zh) | 模型训练方法、装置及相关设备 | |
EP3799367B1 (en) | Generation device, generation method, and generation program | |
CN112580027A (zh) | 恶意样本的确定方法、装置、存储介质及电子设备 | |
CN107770129B (zh) | 用于检测用户行为的方法和装置 | |
CN115883258B (zh) | Ip信息处理方法、装置、电子设备和存储介质 | |
CN115967566A (zh) | 网络威胁信息的处理方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: 150090 Building 7, Innovation Plaza, Science and Technology Innovation City, Harbin Hi-tech Industrial Development Zone, Harbin, Heilongjiang Province (838 Shikun Road) Applicant after: Antan Technology Group Co.,Ltd. Address before: 150090 Building 7, Innovation Plaza, Science and Technology Innovation City, Harbin Hi-tech Industrial Development Zone, Harbin, Heilongjiang Province (838 Shikun Road) Applicant before: Harbin Antian Science and Technology Group Co.,Ltd. |
|
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200306 |