CN117633666A - 网络资产识别方法、装置、电子设备和存储介质 - Google Patents
网络资产识别方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN117633666A CN117633666A CN202410110659.6A CN202410110659A CN117633666A CN 117633666 A CN117633666 A CN 117633666A CN 202410110659 A CN202410110659 A CN 202410110659A CN 117633666 A CN117633666 A CN 117633666A
- Authority
- CN
- China
- Prior art keywords
- asset
- communication behavior
- training
- network
- information table
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 81
- 238000004891 communication Methods 0.000 claims abstract description 195
- 238000012549 training Methods 0.000 claims abstract description 157
- 238000003066 decision tree Methods 0.000 claims abstract description 63
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 47
- 230000006399 behavior Effects 0.000 claims description 173
- 238000012795 verification Methods 0.000 claims description 67
- 238000010586 diagram Methods 0.000 claims description 21
- 238000012545 processing Methods 0.000 claims description 17
- 238000006243 chemical reaction Methods 0.000 claims description 13
- 238000007781 pre-processing Methods 0.000 claims description 13
- 238000011156 evaluation Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 11
- 230000000295 complement effect Effects 0.000 claims description 10
- 238000004140 cleaning Methods 0.000 claims description 7
- 238000010200 validation analysis Methods 0.000 claims description 3
- 238000009825 accumulation Methods 0.000 abstract description 6
- 238000005516 engineering process Methods 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007123 defense Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提供一种网络资产识别方法、装置、电子设备和存储介质,涉及网络安全技术领域。该方法包括:获取待识别的网络资产的目标通信行为信息;将所述目标通信行为信息输入网络资产分类识别模型,输出得到所述网络资产对应的目标分类识别结果;其中,所述网络资产分类识别模型为对目标决策树算法进行训练获得的。该方法克服了传统方法中匹配规则积累不全面导致的网络资产识别不全面和难以识别的问题,能够对各类型的网络资产进行分类识别。
Description
技术领域
本发明涉及网络安全技术领域,尤其涉及一种网络资产识别方法、装置、电子设备和存储介质。
背景技术
随着信息化建设的快速发展,网络的建设规模越来越大,分布越来越广,网络中接入的设备种类、设备数量快速增长,久而久之,产生了大量的无主资产、僵尸资产。网络安全的本质是人和人之间的攻防对抗,网络安全风险评估从网络资产识别开始,所以能否对网络资产进行精准的识别对物联网安全研究有着重要意义。
网络空间的资产识别是一项比较困难复杂的技术,传统的资产识别方法是基于数据库匹配的方式来进行资产的识别,需要人为预先积累大量的匹配规则构建数据库,耗费人工成本。并且由于网络空间是瞬息万变的,基于预先积累的匹配规则进行资产识别不具备全面性和时效性,会导致资产识别不全面和难以识别的问题。
发明内容
本发明提供一种网络资产识别方法、装置、电子设备和存储介质,用以解决现有技术中耗费人力资源,且资产识别不全面和难以识别的缺陷,实现对网络资产的全面、高效的识别。
本发明提供一种网络资产识别方法,包括:
获取待识别的网络资产的目标通信行为信息;
将所述目标通信行为信息输入网络资产分类识别模型,输出得到所述网络资产对应的目标分类识别结果;
其中,所述网络资产分类识别模型为对目标决策树算法进行训练获得的。
根据本发明提供的一种网络资产识别方法,所述网络资产分类识别模型是基于如下步骤训练得到的:
建立数据集,将所述数据集划分为训练集和验证集,所述数据集包括通信行为特征和所述通信行为特征对应的标签;
基于预设参数集,通过训练集对目标决策树算法进行训练获得多个训练模型,通过验证集对各所述训练模型分别进行评估,将评估结果最优且达到预设标准的所述训练模型作为所述网络资产分类识别模型,所述预设参数集包括多种超参数,各所述超参数对应有多种取值。
根据本发明提供的一种网络资产识别方法,所述建立数据集,将所述数据集划分为训练集和验证集,包括:
根据已识别网络资产的通信行为信息和资产信息建立所述数据集;
基于预设比例对所述数据集进行划分,将所述数据集划分为所述训练集和验证集。
根据本发明提供的一种网络资产识别方法,所述训练集包括通信行为训练特征和训练标签,所述验证集包括通信行为验证特征和验证标签;
所述基于预设参数集,通过训练集对目标决策树算法进行训练获得多个训练模型,通过验证集对各所述训练模型分别进行评估,包括:
基于网络搜索方法遍历所述预设参数集中所述超参数的所有取值组合;
将各所述取值组合分别作为所述目标决策树算法的超参数;
采用所述通信行为训练特征和所述训练标签对采用不同取值组合的所述目标决策树算法分别进行训练,获得多个训练模型;
采用所述通信行为验证特征和所述验证标签对多个所述训练模型分别进行评估。
根据本发明提供的一种网络资产识别方法,所述根据已识别网络资产的通信行为信息和资产信息建立所述数据集,包括:
获取所述已识别网络资产对应的初始通信行为信息表和初始资产信息表;
对所述初始通信行为信息表和所述初始资产信息表分别进行数据预处理,获得通信行为信息表和资产信息表;
对所述通信行为信息表和所述资产信息表进行关联处理,获得完整资产信息表,所述完整资产信息表包括各所述已识别网络资产对应的通信行为信息和资产信息;
对所述完整资产信息表中字符串类型的通信行为信息和资产信息分别进行数值转换处理;
基于数值转换后的所述完整资产信息表建立数据集,将所述完整资产信息表中的各所述通信行为信息作为所述数据集中的通信行为特征,将各所述通信行为信息对应的资产信息确定为所述标签。
根据本发明提供的一种网络资产识别方法,所述对所述初始通信行为信息表和所述初始资产信息表分别进行数据预处理,包括:
对所述初始通信行为信息表和所述初始资产信息表分别进行数据清洗,以去除所述初始通信行为信息表和所述初始资产信息表中的特殊字符;
对所述初始通信行为信息表和所述初始资产信息表分别进行数据补全处理,以对所述初始通信行为信息表和所述初始资产信息表中的缺失信息进行补全。
根据本发明提供的一种网络资产识别方法,还包括:
输出所述目标分类识别结果对应的决策树生成图,所述决策树生成图的各叶节点表征对应的分类中网络资产的数量。
本发明还提供一种网络资产识别装置,包括:
采集模块,用于获取待识别的网络资产的目标通信行为信息;
识别模块,用于将所述目标通信行为信息输入网络资产分类识别模型,输出得到所述网络资产对应的目标分类识别结果;
其中,所述网络资产分类识别模型为对目标决策树算法进行训练获得的。
根据本发明提供的一种网络资产识别装置,所述网络资产分类识别模型是基于如下步骤训练得到的:
建立数据集,将所述数据集划分为训练集和验证集,所述数据集包括通信行为特征和所述通信行为特征对应的标签;
基于预设参数集,通过训练集对目标决策树算法进行训练获得多个训练模型,通过验证集对各所述训练模型分别进行评估,将评估结果最优且达到预设标准的所述训练模型作为所述网络资产分类识别模型,所述预设参数集包括多种超参数,各所述超参数对应有多种取值。
根据本发明提供的一种网络资产识别装置,所述建立数据集,将所述数据集划分为训练集和验证集,包括:
根据已识别网络资产的通信行为信息和资产信息建立所述数据集;
基于预设比例对所述数据集进行划分,将所述数据集划分为所述训练集和验证集。
根据本发明提供的一种网络资产识别装置,所述训练集包括通信行为训练特征和训练标签,所述验证集包括通信行为验证特征和验证标签;
所述基于预设参数集,通过训练集对目标决策树算法进行训练获得多个训练模型,通过验证集对各所述训练模型分别进行评估,包括:
基于网络搜索方法遍历所述预设参数集中所述超参数的所有取值组合;
将各所述取值组合分别作为所述目标决策树算法的超参数;
采用所述通信行为训练特征和所述训练标签对采用不同取值组合的所述目标决策树算法分别进行训练,获得多个训练模型;
采用所述通信行为验证特征和所述验证标签对多个所述训练模型分别进行评估。
根据本发明提供的一种网络资产识别装置,所述根据已识别网络资产的通信行为信息和资产信息建立所述数据集,包括:
获取所述已识别网络资产对应的初始通信行为信息表和初始资产信息表;
对所述初始通信行为信息表和所述初始资产信息表分别进行数据预处理,获得通信行为信息表和资产信息表;
对所述通信行为信息表和所述资产信息表进行关联处理,获得完整资产信息表,所述完整资产信息表包括各所述已识别网络资产对应的通信行为信息和资产信息;
对所述完整资产信息表中字符串类型的通信行为信息和资产信息分别进行数值转换处理;
基于数值转换后的所述完整资产信息表建立数据集,将所述完整资产信息表中的各所述通信行为信息作为所述数据集中的通信行为特征,将各所述通信行为信息对应的资产信息确定为所述标签。
根据本发明提供的一种网络资产识别装置,所述对所述初始通信行为信息表和所述初始资产信息表分别进行数据预处理,包括:
对所述初始通信行为信息表和所述初始资产信息表分别进行数据清洗,以去除所述初始通信行为信息表和所述初始资产信息表中的特殊字符;
对所述初始通信行为信息表和所述初始资产信息表分别进行数据补全处理,以对所述初始通信行为信息表和所述初始资产信息表中的缺失信息进行补全。
根据本发明提供的一种网络资产识别装置,还包括输出模块;
所述输出模块用于输出所述目标分类识别结果对应的决策树生成图,所述决策树生成图的各叶节点表征对应的分类中网络资产的数量。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述网络资产识别方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述网络资产识别方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述网络资产识别方法。
本发明提供的网络资产识别方法、装置、电子设备和存储介质,通过训练的网络资产分类识别模型进行网络资产的分类识别,相较于传统的数据库匹配识别的方法,无需人为预先的积累大量的匹配规则,节省了人工成本;并且该方法通过训练好的网络资产分类识别模型进行网络资产的识别,克服了传统方法中匹配规则积累不全面导致的网络资产识别不全面和难以识别的问题,能够对各类型的网络资产进行分类识别。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的网络资产识别方法的流程示意图;
图2是本发明提供的训练获得网络资产分类识别模型的流程示意图;
图3是本发明提供的决策树生成图的示意图;
图4是本发明提供的网络资产识别装置的结构示意图;
图5是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
网络空间的资产识别是一项比较困难复杂的技术,通常,对网络资产进行识别时是先获取网络资产的一些信息数据,如网络资产的源IP、源端口、目的IP和目的端口等信息数据,基于这些信息数据去数据库中进行匹配以对网络资产进行识别。但是数据库中的匹配规则为人工预先进行积累的,人工积累匹配规则一方面耗费人力成本和时间成本,另一方面,网络空间是瞬息万变的,网络资产的数据具有动态性、不确定性和多样性,并且快速演进,也不受地域因素的限制。在这样的现实场景中,人工积累的匹配规则必然是不全面的,并且一些网络资产的匹配规则难以被及时的积累至数据库中,基于上述这些情况,在通过数据库匹配的方式进行网络资产的识别时,就会造成资产识别不全面,如有的网络资产可能识别出来,有的网络资产难以识别的问题,并且,数据库执行能力有限,当有大量的网络资产需要识别时,其识别效率低。
针对上述问题,本发明提供一种网络资产识别方法,图1是本发明提供的网络资产识别方法的流程示意图,如图1所示,该网络资产识别方法包括:
步骤101:获取待识别的网络资产的目标通信行为信息;
步骤102:将所述目标通信行为信息输入网络资产分类识别模型,输出得到所述网络资产对应的目标分类识别结果;
其中,所述网络资产分类识别模型为对目标决策树算法进行训练获得的。
具体的,需要对网络资产进行识别时,获取待识别的网络资产的目标通信行为信息,目标通信行为信息例如包括:源IP、源端口、目的IP、目的端口、源主机名、目的主机名、目的域名、协议、服务、通信时刻、通信时长和通信包数中的多种或者全部,当然,目标通信行为信息还可以包括其他信息,在本实施例中不做具体的限定。
在获得待识别的网络资产的目标通信行为信息后,将该目标通信行为信息输入至网络资产分类识别模型中进行网络资产的识别,网络资产分类识别模型输出网络资产对应的目标分类识别结果。
上述网络资产分类识别模型为对目标决策树算法进行训练获得的,该目标决策树算法例如可以是CART算法。示例性的,目标决策树算法还可以是其他决策树算法,例如ID3、C4.5或C5.0等。决策树算法是一种基于树结构的分类算法,通过一系列决策节点和叶节点对数据进行分类。在网络资产识别中,决策树算法可以利用网络资产的特征属性构建分类模型,进而实现对不同类型网络资产的识别和分类,且识别分类效率较高。
本发明提供的网络资产识别方法,通过训练的网络资产分类识别模型进行网络资产的分类识别,相较于传统的数据库匹配识别的方法,无需人为预先的积累大量的匹配规则,节省了人工成本;并且该方法通过训练好的网络资产分类识别模型进行网络资产的识别,克服了传统方法中匹配规则积累不全面导致的网络资产识别不全面和难以识别的问题,能够对各类型的网络资产进行分类识别。
在一个实施例中,所述网络资产分类识别模型是基于如下步骤训练得到的:
建立数据集,将所述数据集划分为训练集和验证集,所述数据集包括通信行为特征和所述通信行为特征对应的标签;
基于预设参数集,通过训练集对目标决策树算法进行训练获得多个训练模型,通过验证集对各所述训练模型分别进行评估,将评估结果最优且达到预设标准的所述训练模型作为所述网络资产分类识别模型,所述预设参数集包括多种超参数,各所述超参数对应有多种取值。
具体的,网络资产分类识别模型的训练方法可以包括:
建立数据集,数据集中可以包括多个通信行为特征和各通信行为特征对应的标签。建立好数据集后将该数据集划分为训练集和验证集,训练集用于对目标决策树算法进行训练,验证集用于对获得的训练模型进行验证。
预设参数集为预先设置的参数集,该预设参数集中包括多种超参数,例如:max_depth(树的深度)、min_samples_leaf(叶子节点的最小样本数)、min_samples_split0(最小分割样本数)、max_features(最大特征数)、criterion(决策树的分割标准)等,每种超参数均对应有多种取值。
在进行训练时,基于预设参数集中的各超参数的多种取值,通过训练集对目标决策树算法进行训练,以训练获得多个训练模型。在训练获得训练模型后,采用验证集对各训练模型分别进行验证评估,将评估结果最优且达到预设标准的训练模型作为网络资产分类识别模型,用于后续对各网络资产进行识别。当评估最优的训练模型不达标时,则需要重新预设参数集,以对目标决策树算法进行重新训练。预设标准为预先进行设置的,预设标准例如可以包括以下中的至少一种:识别准确率在第一阈值以上、精确率在第二阈值以上、召回率在第三阈值以上和F1分数在第四阈值以上等。
通过有监督的训练学习,目标决策树算法从训练集的数据中学习规律,进而获得训练模型,使其能够自动对没有标签的通信行为特征进行分类,进而能够对通信行为特征所属的网络资产进行分类识别。经验证集进行验证评估确定的网络资产分类识别模型能够对网络资产按照类型进行分类,进而可以获知网络资产的类别,可以持续进行网络资产的识别,并且,对于新增类型的网络资产,通过网络资产的通信行为特征也可以进行预测,不受限于既有的数据库中匹配规则的积累。
在一个实施例中,所述建立数据集,将所述数据集划分为训练集和验证集,包括:
根据已识别网络资产的通信行为信息和资产信息建立所述数据集;
基于预设比例对所述数据集进行划分,将所述数据集划分为所述训练集和验证集。
具体的,数据集为根据已识别的网络资产的通信行为信息和资产信息建立的,已识别网络资产例如可以是通过传统的数据库匹配方法识别后的网络资产,其中资产信息中包括根据数据库匹配方法进行识别后的识别结果。
基于预设比例对数据集进行划分,将数据集划分为训练集和验证集,预设比例例如可以是7比3或8比2等,以高比例划分为训练集,将低比例划分为验证集。
上述实施例中的网络资产识别方法,为了防止获得的网络资产分类识别模型产生过拟合的问题,在数据训练以及验证评估的过程,对数据集进行了划分,划分为训练集和验证集,使得训练集和验证集不相交,进而使训练模型的评估结果更具有说服力。
在一个实施例中,所述根据已识别网络资产的通信行为信息和资产信息建立所述数据集,包括:
获取所述已识别网络资产对应的初始通信行为信息表和初始资产信息表;
对所述初始通信行为信息表和所述初始资产信息表分别进行数据预处理,获得通信行为信息表和资产信息表;
对所述通信行为信息表和所述资产信息表进行关联处理,获得完整资产信息表,所述完整资产信息表包括各所述已识别网络资产对应的通信行为信息和资产信息;
对所述完整资产信息表中字符串类型的通信行为信息和资产信息分别进行数值转换处理;
基于数值转换后的所述完整资产信息表建立数据集,将所述完整资产信息表中的各所述通信行为信息作为所述数据集中的通信行为特征,将各所述通信行为信息对应的资产信息确定为所述标签。
具体的,图2是本发明提供的训练获得网络资产分类识别模型的流程示意图,如图2所示,数据集的具体建立方法如下:
获取已识别网络资产对应的初始通信行为信息表和初始资产信息表,初始通信行为信息表和初始资产信息表中分别包括多个网络资产对应的信息。初始通信行为信息表例如可以包括各网络资产的以下信息:源IP、源端口、目的IP、目的端口、源主机名、目的主机名、目的域名、协议、服务、通信时刻、通信时长和通信包数,其中,源IP、源端口、目的IP、目的端口、源主机名、目的主机名、目的域名、协议、服务、通信时刻、通信时长和通信包数为网络资产的通信行为信息。初始资产信息表中例如可以包括各网络资产的以下信息:源IP(Source IP,Source Internet Protocol)、源端口和下述信息中的其中一种:资产设备信息、资产OS(OS Asset,Operating System Asset)信息、资产服务信息和资产应用信息,其中,资产设备信息、资产OS信息、资产服务信息和资产应用信息为网络资产的资产信息。
获取初始通信行为信息表和初始资产信息表后,需要对初始通信行为信息表和初始资产信息表分别进行数据预处理,获得通信行为信息表和资产信息表。
在一个实施例中,所述对所述初始通信行为信息表和所述初始资产信息表分别进行数据预处理,包括:
对所述初始通信行为信息表和所述初始资产信息表分别进行数据清洗,以去除所述初始通信行为信息表和所述初始资产信息表中的特殊字符;
对所述初始通信行为信息表和所述初始资产信息表分别进行数据补全处理,以对所述初始通信行为信息表和所述初始资产信息表中的缺失信息进行补全。
具体的,数据预处理包括数据清洗和数据补全,初始通信行为信息表和初始资产信息表中可能存在特殊字符,数据清洗的目的就是去除初始通信行为信息表和初始资产信息表中的特殊字符。
数据补全即是初始通信行为信息表和初始资产信息表中可能存在数据空缺,且该空缺可以进行补全,例如当初始通信行为信息表中缺少服务信息时,可以通过查询初始资产信息表中的资产应用信息以对初始通信行为信息表中的服务信息进行补全。
在对初始通信行为信息表和初始资产信息表分别进行数据预处理后,对获得的通信行为信息表和资产信息表进行关联处理。例如初始通信行为信息表和初始资产信息表中均包括有网络资产的源IP信息和源端口信息,因此可以通过匹配源IP信息和源端口信息,以将通信行为信息表和资产信息表中各网络资产对应的信息进行关联,进而可以获得完成资产信息表,该完整资产信息表包括有各网络资产对应的通信行为信息和资产信息。例如针对某个网络资产,对应的信息有:通信行为信息:源IP、源端口、目的IP、目的端口、源主机名、目的主机名、目的域名、协议、服务、通信时刻、通信时长和通信包数,资产信息:下述信息中的其中一种:资产设备信息、资产OS信息、资产服务信息和资产应用信息。
将完整资产信息表中字符串类型的通信行为信息和资产信息进行数值转换处理,以将字符串类型的信息以数值类型表示,便于后续训练目标决策树算法。示例性的,当通信行为信息包括源IP、源端口、目的IP、目的端口、源主机名、目的主机名、目的域名、协议、服务、通信时刻、通信时长和通信包数时,其中的源IP、目的IP、源主机名、目的主机名、目的域名、协议、服务和通信时刻均为字符串类型的信息,需要将这些信息进行数值转换处理,以将字符串类型的信息转换为数值类型的信息。
基于数值转换后的所述完整资产信息表建立数据集,将完整资产信息表中的通信行为信息确定为数据集的通信行为特征,将各通信行为信息对应的资产信息确定为标签。
可以理解的是,通过一些具有明显特征的通信行为信息可以训练目标决策树算法以进行网络资产的识别预测。进一步的,初始通信行为信息表中信息种类越多,则表示描述网络资产的通信行为的信息种类越多,通过增加不同相关度的通信行为信息,可以提高获得的训练模型的识别准确性。
在一个实施例中,所述训练集包括通信行为训练特征和训练标签,所述验证集包括通信行为验证特征和验证标签;
所述基于预设参数集,通过训练集对目标决策树算法进行训练获得多个训练模型,通过验证集对各所述训练模型分别进行评估,包括:
基于网络搜索方法遍历所述预设参数集中所述超参数的所有取值组合;
将各所述取值组合分别作为所述目标决策树算法的超参数;
采用所述通信行为训练特征和所述训练标签对采用不同取值组合的所述目标决策树算法分别进行训练,获得多个训练模型;
采用所述通信行为验证特征和所述验证标签对多个所述训练模型分别进行评估。
具体的,训练集包括通信行为训练特征和训练标签,验证集包括通信行为验证特征和验证标签。
图2是本发明提供的训练获得网络资产分类识别模型的流程示意图,如图2所示,训练、评估获得网络资产分类识别模型的方法如下:
基于网格搜索方法遍历预设参数集中的超参数的所有取值组合,即可以获得多个取值组合。在获的多个取值组合后,将各取值组合分别作为目标决策树算法的超参数,采用通信行为训练特征和训练标签针对每个取值组合对应的目标决策树算法进行训练,即可获得多个训练模型。决策树(Decision Tree)算法能够从一系列有特征和标签的数据中总结出决策规则,并用树状图的结构来呈现这些规则,以解决分类和回归问题。
在获训练模型后,采用验证集中的通信行为验证特征和验证标签对多个训练模型分别进行评估,具体为:将验证集中的通信行为验证特征作为训练模型的输入,输出得到训练模型的预测结果,其中,预测结果中包括各网络资产的通信行为信息和资产信息。基于各训练模型对应的预测结果和验证标签分别计算各训练模型的准确率、精确率、召回率和F1分数,基于准确率、精确率、召回率和F1分数对各训练模型进行评估,将最优的训练模型作为网络资产分类识别模型。
上述实施例中的网络资产识别方法,在对训练模型进行评估的过程中,采用了多种数值化的评估指标,更准确的体现了各训练模型的评估结果。
经实验,通过上述方法确定的网络资产分类识别模型,对应的准确率、精确率、召回率和F1分数分别为:
(1)准确率:0.931899641577061:网络资产分类识别模型对网络资产通信行为数据进行分类的准确性达到93%。
(2)精确率:0.921046272804156:网络资产分类识别模型在判断资产设备信息或资产OS信息或资产服务信息或资产应用信息时的精确性达到92%。
(3)召回率:0.931899641577061:网络资产分类识别模型能够正确识别出网络资产的资产设备信息或资产OS信息或资产服务信息或资产应用信息的比例达到93%。
(4)F1分数:0.922168743244012:综合考虑精确率和召回率,网络资产分类识别模型的F1分数达到92%,表明网络资产分类识别模型在分类任务中的整体表现良好。
通过以上实验结果,可以看出:利用决策树算法构建的网络资产分类识别模型具有较高的准确性和可靠性。该网络资产分类识别模型可以帮助提升网络安全领域中对于网络资产的识别,以为实际应用提供有价值的决策支持。
在一个实施例中,还包括:
输出所述目标分类识别结果对应的决策树生成图,所述决策树生成图的各叶节点表征对应的分类中网络资产的数量。
具体的,图3是本发明提供的决策树生成图的示意图,如图3中所示,在采用网络资产分类识别模型对待识别的网络资产进行识别时,可以输出对应的决策树生成图,该决策树生成图的各叶节点可以通过颜色深浅来表征对应的分类中网络资产的数量,例如颜色越深则表示该叶节点对应的分类中的网络资产的数量越多。
上述实施例中的网络资产识别方法,通过决策树生成图将分类识别结果以可视化的方式进行展示,更加直观的展示的网络资产的分类识别结果。
下面对本发明提供的网络资产识别装置进行描述,下文描述的网络资产识别装置与上文描述的网络资产识别方法可相互对应参照。
图4是本发明提供的网络资产识别装置的结构示意图,如图4所示,该网络资产识别装置400包括:采集模块401和识别模块402;
采集模块401,用于获取待识别的网络资产的目标通信行为信息;
识别模块402,用于将所述目标通信行为信息输入网络资产分类识别模型,输出得到所述网络资产对应的目标分类识别结果;
其中,所述网络资产分类识别模型为对目标决策树算法进行训练获得的。
本发明提供的网络资产识别装置,通过训练的网络资产分类识别模型进行网络资产的分类识别,相较于传统的数据库匹配识别的方法,无需人为预先的积累大量的匹配规则,节省了人工成本;并且该方法通过训练好的网络资产分类识别模型进行网络资产的识别,克服了传统方法中匹配规则积累不全面导致的网络资产识别不全面和难以识别的问题,能够对各类型的网络资产进行分类识别。
在一个实施例中,所述网络资产分类识别模型是基于如下步骤训练得到的:
建立数据集,将所述数据集划分为训练集和验证集,所述数据集包括通信行为特征和所述通信行为特征对应的标签;
基于预设参数集,通过训练集对目标决策树算法进行训练获得多个训练模型,通过验证集对各所述训练模型分别进行评估,将评估结果最优且达到预设标准的所述训练模型作为所述网络资产分类识别模型,所述预设参数集包括多种超参数,各所述超参数对应有多种取值。
在一个实施例中,所述建立数据集,将所述数据集划分为训练集和验证集,包括:
根据已识别网络资产的通信行为信息和资产信息建立所述数据集;
基于预设比例对所述数据集进行划分,将所述数据集划分为所述训练集和验证集。
在一个实施例中,所述训练集包括通信行为训练特征和训练标签,所述验证集包括通信行为验证特征和验证标签;
所述基于预设参数集,通过训练集对目标决策树算法进行训练获得多个训练模型,通过验证集对各所述训练模型分别进行评估,包括:
基于网络搜索方法遍历所述预设参数集中所述超参数的所有取值组合;
将各所述取值组合分别作为所述目标决策树算法的超参数;
采用所述通信行为训练特征和所述训练标签对采用不同取值组合的所述目标决策树算法分别进行训练,获得多个训练模型;
采用所述通信行为验证特征和所述验证标签对多个所述训练模型分别进行评估。
在一个实施例中,所述根据已识别网络资产的通信行为信息和资产信息建立所述数据集,包括:
获取所述已识别网络资产对应的初始通信行为信息表和初始资产信息表;
对所述初始通信行为信息表和所述初始资产信息表分别进行数据预处理,获得通信行为信息表和资产信息表;
对所述通信行为信息表和所述资产信息表进行关联处理,获得完整资产信息表,所述完整资产信息表包括各所述已识别网络资产对应的通信行为信息和资产信息;
对所述完整资产信息表中字符串类型的通信行为信息和资产信息分别进行数值转换处理;
基于数值转换后的所述完整资产信息表建立数据集,将所述完整资产信息表中的各所述通信行为信息作为所述数据集中的通信行为特征,将各所述通信行为信息对应的资产信息确定为所述标签。
在一个实施例中,所述对所述通信行为信息表和所述资产信息表分别进行数据预处理,包括:
对所述初始通信行为信息表和所述初始资产信息表分别进行数据清洗,以去除所述初始通信行为信息表和所述初始资产信息表中的特殊字符;
对所述初始通信行为信息表和所述初始资产信息表分别进行数据补全处理,以对所述初始通信行为信息表和所述初始资产信息表中的缺失信息进行补全。
在一个实施例中,还包括输出模块;
所述输出模块用于输出所述目标分类识别结果对应的决策树生成图,所述决策树生成图的各叶节点表征对应的分类中网络资产的数量。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行网络资产识别方法,该方法包括:
获取待识别的网络资产的目标通信行为信息;
将所述目标通信行为信息输入网络资产分类识别模型,输出得到所述网络资产对应的目标分类识别结果;
其中,所述网络资产分类识别模型为对目标决策树算法进行训练获得的。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的网络资产识别方法,该方法包括:
获取待识别的网络资产的目标通信行为信息;
将所述目标通信行为信息输入网络资产分类识别模型,输出得到所述网络资产对应的目标分类识别结果;
其中,所述网络资产分类识别模型为对目标决策树算法进行训练获得的。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的网络资产识别方法,该方法包括:
获取待识别的网络资产的目标通信行为信息;
将所述目标通信行为信息输入网络资产分类识别模型,输出得到所述网络资产对应的目标分类识别结果;
其中,所述网络资产分类识别模型为对目标决策树算法进行训练获得的。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种网络资产识别方法,其特征在于,包括:
获取待识别的网络资产的目标通信行为信息;
将所述目标通信行为信息输入网络资产分类识别模型,输出得到所述网络资产对应的目标分类识别结果;
其中,所述网络资产分类识别模型为对目标决策树算法进行训练获得的。
2.根据权利要求1所述的网络资产识别方法,其特征在于,所述网络资产分类识别模型是基于如下步骤训练得到的:
建立数据集,将所述数据集划分为训练集和验证集,所述数据集包括通信行为特征和所述通信行为特征对应的标签;
基于预设参数集,通过训练集对目标决策树算法进行训练获得多个训练模型,通过验证集对各所述训练模型分别进行评估,将评估结果最优且达到预设标准的所述训练模型作为所述网络资产分类识别模型,所述预设参数集包括多种超参数,各所述超参数对应有多种取值。
3.根据权利要求2所述的网络资产识别方法,其特征在于,所述建立数据集,将所述数据集划分为训练集和验证集,包括:
根据已识别网络资产的通信行为信息和资产信息建立所述数据集;
基于预设比例对所述数据集进行划分,将所述数据集划分为所述训练集和验证集。
4.根据权利要求3所述的网络资产识别方法,其特征在于,所述训练集包括通信行为训练特征和训练标签,所述验证集包括通信行为验证特征和验证标签;
所述基于预设参数集,通过训练集对目标决策树算法进行训练获得多个训练模型,通过验证集对各所述训练模型分别进行评估,包括:
基于网络搜索方法遍历所述预设参数集中所述超参数的所有取值组合;
将各所述取值组合分别作为所述目标决策树算法的超参数;
采用所述通信行为训练特征和所述训练标签对采用不同取值组合的所述目标决策树算法分别进行训练,获得多个训练模型;
采用所述通信行为验证特征和所述验证标签对多个所述训练模型分别进行评估。
5.根据权利要求3所述的网络资产识别方法,其特征在于,所述根据已识别网络资产的通信行为信息和资产信息建立所述数据集,包括:
获取所述已识别网络资产对应的初始通信行为信息表和初始资产信息表;
对所述初始通信行为信息表和所述初始资产信息表分别进行数据预处理,获得通信行为信息表和资产信息表;
对所述通信行为信息表和所述资产信息表进行关联处理,获得完整资产信息表,所述完整资产信息表包括各所述已识别网络资产对应的通信行为信息和资产信息;
对所述完整资产信息表中字符串类型的通信行为信息和资产信息分别进行数值转换处理;
基于数值转换后的所述完整资产信息表建立数据集,将所述完整资产信息表中的各所述通信行为信息作为所述数据集中的通信行为特征,将各所述通信行为信息对应的资产信息确定为所述标签。
6.根据权利要求5所述的网络资产识别方法,其特征在于,所述对所述初始通信行为信息表和所述初始资产信息表分别进行数据预处理,包括:
对所述初始通信行为信息表和所述初始资产信息表分别进行数据清洗,以去除所述初始通信行为信息表和所述初始资产信息表中的特殊字符;
对所述初始通信行为信息表和所述初始资产信息表分别进行数据补全处理,以对所述初始通信行为信息表和所述初始资产信息表中的缺失信息进行补全。
7.根据权利要求1至6任一项所述的网络资产识别方法,其特征在于,还包括:
输出所述目标分类识别结果对应的决策树生成图,所述决策树生成图的各叶节点表征对应的分类中网络资产的数量。
8.一种网络资产识别装置,其特征在于,包括:
采集模块,用于获取待识别的网络资产的目标通信行为信息;
识别模块,用于将所述目标通信行为信息输入网络资产分类识别模型,输出得到所述网络资产对应的目标分类识别结果;
其中,所述网络资产分类识别模型为对目标决策树算法进行训练获得的。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述网络资产识别方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述网络资产识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410110659.6A CN117633666A (zh) | 2024-01-26 | 2024-01-26 | 网络资产识别方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410110659.6A CN117633666A (zh) | 2024-01-26 | 2024-01-26 | 网络资产识别方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117633666A true CN117633666A (zh) | 2024-03-01 |
Family
ID=90036044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410110659.6A Pending CN117633666A (zh) | 2024-01-26 | 2024-01-26 | 网络资产识别方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117633666A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117851547A (zh) * | 2024-03-07 | 2024-04-09 | 国网江西省电力有限公司电力科学研究院 | 基于深度学习的网络资产指纹识别方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114584497A (zh) * | 2022-05-05 | 2022-06-03 | 北京安盟信息技术股份有限公司 | 一种被动式工业控制系统资产识别方法及装置 |
CN115830649A (zh) * | 2022-12-16 | 2023-03-21 | 北京安天网络安全技术有限公司 | 一种网络资产指纹特征的识别方法、装置及电子设备 |
CN116318936A (zh) * | 2023-03-07 | 2023-06-23 | 东北大学 | 一种基于改进决策树的联网工业控制资产识别方法 |
CN116719868A (zh) * | 2023-05-30 | 2023-09-08 | 上海观安信息技术股份有限公司 | 网络资产的识别方法、装置及设备 |
CN116760571A (zh) * | 2023-05-19 | 2023-09-15 | 奇安信科技集团股份有限公司 | 资产识别方法、装置、电子设备及存储介质 |
WO2023229894A1 (en) * | 2022-05-25 | 2023-11-30 | Bluevoyant Llc | Devices, systems, and methods for identifying cyber assets and generating cyber risk mitigation actions based on a democratic matching algorithm |
-
2024
- 2024-01-26 CN CN202410110659.6A patent/CN117633666A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114584497A (zh) * | 2022-05-05 | 2022-06-03 | 北京安盟信息技术股份有限公司 | 一种被动式工业控制系统资产识别方法及装置 |
WO2023229894A1 (en) * | 2022-05-25 | 2023-11-30 | Bluevoyant Llc | Devices, systems, and methods for identifying cyber assets and generating cyber risk mitigation actions based on a democratic matching algorithm |
CN115830649A (zh) * | 2022-12-16 | 2023-03-21 | 北京安天网络安全技术有限公司 | 一种网络资产指纹特征的识别方法、装置及电子设备 |
CN116318936A (zh) * | 2023-03-07 | 2023-06-23 | 东北大学 | 一种基于改进决策树的联网工业控制资产识别方法 |
CN116760571A (zh) * | 2023-05-19 | 2023-09-15 | 奇安信科技集团股份有限公司 | 资产识别方法、装置、电子设备及存储介质 |
CN116719868A (zh) * | 2023-05-30 | 2023-09-08 | 上海观安信息技术股份有限公司 | 网络资产的识别方法、装置及设备 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117851547A (zh) * | 2024-03-07 | 2024-04-09 | 国网江西省电力有限公司电力科学研究院 | 基于深度学习的网络资产指纹识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112926990B (zh) | 欺诈识别的方法和装置 | |
CN109936582B (zh) | 构建基于pu学习的恶意流量检测模型的方法及装置 | |
CN114389834B (zh) | 一种api网关异常调用识别的方法、装置、设备及产品 | |
CN111523119A (zh) | 漏洞检测的方法和装置、电子设备及计算机可读存储介质 | |
CN111090807B (zh) | 一种基于知识图谱的用户识别方法及装置 | |
CN117633666A (zh) | 网络资产识别方法、装置、电子设备和存储介质 | |
CN109063433B (zh) | 虚假用户的识别方法、装置及可读存储介质 | |
CN110245693B (zh) | 结合混合随机森林的关键信息基础设施资产识别方法 | |
CN114553591B (zh) | 随机森林模型的训练方法、异常流量检测方法及装置 | |
CN115830649A (zh) | 一种网络资产指纹特征的识别方法、装置及电子设备 | |
Yassin et al. | Signature-Based Anomaly intrusion detection using Integrated data mining classifiers | |
CN116881430B (zh) | 一种产业链识别方法、装置、电子设备及可读存储介质 | |
CN113590451A (zh) | 一种根因定位方法、运维服务器及存储介质 | |
CN116956026A (zh) | 一种网络资产识别模型的训练方法及系统 | |
CN113472754A (zh) | 基于网络安全大数据的安全防护配置方法及网络安全系统 | |
Alothman | Raw network traffic data preprocessing and preparation for automatic analysis | |
CN113706100B (zh) | 配电网物联终端设备实时探测识别方法与系统 | |
CN115225336A (zh) | 一种面向网络环境的漏洞可利用性的计算方法及装置 | |
CN116032741A (zh) | 一种设备识别方法、装置、电子设备和计算机存储介质 | |
CN112015895A (zh) | 一种专利文本分类方法及装置 | |
CN116821087A (zh) | 输电线路故障数据库构建方法、装置、终端及存储介质 | |
EP4068163A1 (en) | Using multiple trained models to reduce data labeling efforts | |
CN115859191A (zh) | 故障诊断方法、装置、计算机可读存储介质及计算机设备 | |
CN113282686A (zh) | 一种不平衡样本的关联规则确定方法及装置 | |
CN114528908A (zh) | 网络请求数据分类模型训练方法、分类方法及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |