CN115913971B - 一种网络dna特征表示与提取方法 - Google Patents

一种网络dna特征表示与提取方法 Download PDF

Info

Publication number
CN115913971B
CN115913971B CN202210221426.4A CN202210221426A CN115913971B CN 115913971 B CN115913971 B CN 115913971B CN 202210221426 A CN202210221426 A CN 202210221426A CN 115913971 B CN115913971 B CN 115913971B
Authority
CN
China
Prior art keywords
network
equipment
feature vector
initial
flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210221426.4A
Other languages
English (en)
Other versions
CN115913971A (zh
Inventor
吴皓敏
刘宇
刘义
秦富童
赵亚新
王鹏
周云彦
刘迎龙
苗泉强
吴迪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Unit 63891 Of Pla
Original Assignee
Unit 63891 Of Pla
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Unit 63891 Of Pla filed Critical Unit 63891 Of Pla
Priority to CN202210221426.4A priority Critical patent/CN115913971B/zh
Publication of CN115913971A publication Critical patent/CN115913971A/zh
Application granted granted Critical
Publication of CN115913971B publication Critical patent/CN115913971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种网络DNA特征表示与提取方法,利用文本挖掘技术,选择能够最大化保留初始设备信息关键要素的网络设备特征;利用频繁模式挖掘技术,可对提取出来的网络拓扑特征对应的数据集进行频繁子项挖掘,挖掘出这些特征集之间的频繁子项,找出区分度最高的特征值用以区分不同的网络特征;利用信息增益特征选择方法既可以对提取出来的网络流量特征进行降维处理、删除数据集中的冗余属性,避免高维特征引发噪声,同时又能保留初始数据中的关键要素;自编码器不仅可以对裁切的特征向量进行特征降维,还可以提取更有效的新特征,从而生成高度浓缩目标网络信息的网络DNA。

Description

一种网络DNA特征表示与提取方法
技术领域:
本发明属于网络通信技术领域,主要涉及的是一种网络DNA特征表示与提取方法。
背景技术:
随着信息化在各个领域的快速发展和广泛应用,各类通用、专用网络成为信息系统高效、可靠运行的重要基础设施。为了对系统进行安全测试,往往会构建的虚拟网络和原始网络进行分析比对,构建虚拟化的目标网络成为一项基础性工作。类比人类DAN分子,网络DNA高度浓缩了目标网络信息,目标网络基础性状的特征包括节点设备特征、网络流量特征和网络拓扑特征,针对设备、流量以及拓扑采用已有的捕获和扫描技术可抓取大量目标网络信息,但是其中存在大量数据冗余,不便于进行网络的比对分析。
发明内容:
为了克服上述的不足,本发明提供了一种网络DNA特征表示与提取方法。
本发明解决其技术问题所采用的技术方案:
一种网络DNA特征表示与提取方法,包括如下步骤:
S1,使用网络扫描、流量捕获、流量分析和拓扑测量的技术手段获取目标网络设备特征、网络流量特征和网络拓扑特征数据;
S2,使用基于特征匹配的网络设备特征向量生成方法,生成目标网络的初始设备特征向量,采用文本挖掘的方法,对初始设备特征向量进行裁切;
S3,使用基于图变分自编码的网络拓扑特征向量生成方法,生成目标网络的初始拓扑特征向量,采用频繁模式挖掘的方法,对初始拓扑特征向量进行裁切;
S4,使用基于自然语言理解的网络流量特征向量生成方法,生成目标网络的初始流量特征向量,采用信息增益的方法,对初始流量特征向量进行裁切;
S5,利用自编码器将裁切后的上述三种特征向量整合聚类生成网络DNA。
所述的S1的网络设备特征包含网络各节点设备的类型及型号、设备的系统版本、网络中设备使用的协议和开放端口与服务以及其开放状态、配置SDN交换机的隧道端口;
网络拓扑特征包括网络中各节点之间的连接关系、网络拓扑的图结构、网络邻接矩阵、关联矩阵和平均路径长度;
网络流量特征包括各流量会话的数据包个数、包长字节数、数据包之间的间隔时间、网络会话的持续时间、源IP地址、目的IP地址、源端口、目的端口、应用层协议和传输层协议。
所述的S2中基于特征匹配的网络设备特征向量生成方法包括如下步骤:
S21,利用网络扫描工具nmap,对网络中节点的设备的类型及型号、设备的系统版本进行识别,构造出节点的网络设备向量;
S22,根据nmap-os-db数据库对网络的设备种类和设备系统特征向量进行统计,并依据分析结果构造相应向量;
S23,将上述所有向量进行拼接,形成初始设备特征向量;
所述的S3中基于图变分自编码的网络拓扑特征向量生成方法包括如下步骤:
S31,利用SNMP协议对网络拓扑图进行发现与构造,判断其拓扑结构类型,并分析其图、邻接矩阵、节点连接指标,依据判断分析结果构造相应向量;
S32,使用图卷积神经网络GCN对网络拓扑图进行处理,以向量形式输出网络拓扑的结构信息;
S33,将上述所有向量进行拼接,形成初始拓扑特征向量;
所述的S4中基于自然语言理解的网络流量特征向量生成方法包括如下步骤:
S41,采用流量捕获及流量分析技术,对网络中各流量会话的进行捕获;
S42,基于自然语言理解技术提取数据包个数、包长字节数、数据包之间的间隔时间、网络会话的持续时间、源IP地址、目的IP地址、源端口、目的端口、应用层协议、传输层协议特征,构造出各流量会话的特征向量;
S43,将上述所有向量进行拼接,形成初始流量特征向量;
所述的S5中生成网络DNA的步骤包括:
S51,搭建编码器,负责接收输入的裁切后的特征向量x,并通过编码函数变换为信号y;
S52,搭建解码器,负责接收编码器输出的编码信号y,并通过解码函数得到重构信号r;
S53,定义误差e为原始输入x与重构信号r之差,e=x-r,训练的目标是减少均方误差,误差被反向传播回隐藏层,激活函数为ReLU函数;
S54,使用步骤S2、S3、S4采集到的裁切后的特征向量对自编码器模型进行无监督训练,直至损失函数收敛;
S55,将目标网络的裁切后的特征向量输入编码器,获得编码后的网络DNA信息。
由于采用如上所述的技术方案,本发明具有如下优越性:
本发明提供的一种网络DNA特征表示与提取方法,利用文本挖掘技术,选择能够最大化保留初始设备信息关键要素的网络设备特征,包含网络各节点设备的类型及型号、设备的系统版本、网络中设备使用的协议和开放端口与服务以及其开放状态;利用频繁模式挖掘技术,可对提取出来的网络拓扑特征对应的数据集进行频繁子项挖掘,挖掘出这些特征集之间的频繁子项,找出区分度最高的特征值用以区分不同的网络特征;利用信息增益特征选择方法既可以对提取出来的网络流量特征进行降维处理、删除数据集中的冗余属性,避免高维特征引发噪声,同时又能保留初始数据中的关键要素;自编码器不仅可以对裁切的特征向量进行特征降维,还可以提取更有效的新特征,从而生成高度浓缩目标网络信息的网络DNA。
附图说明:
图1为本发明的流程框架示意图。
图2为本发明基于特征匹配的网络设备特征向量的生成方法的示意图。
图3为本发明基于图变分自编码的网络拓扑特征向量的生成方法的示意图。
图4为本发明基于自然语言理解的网络流量特征向量的生成方法的示意图。
图5为本发明利用自编码器组合形成网络DNA的示意图。
具体实施方式:
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
如图1所示,本实施例的基于生物DNA网络特征表示与提取方法,其具体步骤为:
S1,使用网络扫描、流量捕获、流量分析和拓扑测量等技术手段获取目标网络的设备特征、流量特征和拓扑特征数据;
S2,使用基于特征匹配的网络设备特征向量的生成方法,生成目标网络的初始设备特征向量,采用文本挖掘的方法,对初始设备特征向量进行裁切;
S3,使用基于图变分自编码的网络拓扑特征向量的生成方法,生成目标网络的初始拓扑特征向量,采用频繁模式挖掘的方法,对初始拓扑特征向量进行裁切;
S4,使用基于自然语言理解的网络流量特征向量的生成方法,生成目标网络的初始流量特征向量,采用信息增益的方法,对初始流量特征向量进行裁切;
S5,利用自编码器将裁切后的三种特征向量整合聚类生成网络DNA。自编码器(Autoencoder)是一种无监督的学习算法,一种利用反向传播算法使得输出值等于输入值的神经网络,它先将输入压缩成潜在空间表征,然后通过这种表征来重构输出,其主要用于数据的降维或者特征的抽取,自编码器包含编码器和解码器两部分。常见自编码器有:堆栈自动编码器、欠完备自编码器、正则自编码器、去噪自编码器等。
如图2所示,S2中基于特征匹配的网络设备特征向量生成方法包括如下步骤:
S21,利用网络扫描工具nmap,对网络中节点的设备的类型及型号、设备的系统版本进行识别,构造出节点的网络设备向量;
S22,根据nmap-os-db数据库对网络的设备种类和设备系统等特征向量进行统计,并依据分析结果构造相应向量;
S23,将上述所有向量进行拼接,形成初始设备特征向量;
S24,采用文本挖掘(TF-IDF)的方法对初始设备特征向量进行裁切,生成裁切后的设备特征向量。在信息检索中,TF-IDF(词频-逆文档频率)是一种统计方法,用以评估一个单词在一个文档集合或语料库中的重要程度。经常被用作信息检索、文本挖掘以及用户模型的权重因素。TF-IDF的值会随着单词在文档中出现的次数的增加而增大,也会随着单词在语料库中出现的次数的增多而减小。TF-IDF是如今最流行的词频加权方案之一。TF-IDF的各种改进版本经常被搜索引擎用作在给定用户查询时对文档的相关性进行评分和排序的主要工具。TF-IDF可以成功地用于各种主题字段的停用词过滤,包括文本摘要和分类。
如图3,S3中基于图变分自编码的网络拓扑特征向量生成方法包括如下步骤:
S31,利用SNMP协议对网络拓扑图进行发现与构造,判断其拓扑结构类型,并分析其图、邻接矩阵、节点连接等指标,依据判断分析结果构造相应向量;
S32,使用图卷积神经网络GCN对网络拓扑图进行处理,以向量形式输出网络拓扑的结构信息;
S33,将上述所有向量进行拼接,形成初始拓扑特征向量;
S34,采用频繁模式挖掘的方法对初始拓扑特征向量进行裁切,生成裁切后的拓扑特征向量。频繁模式挖掘是在数据集中出现的频率不小于用户制定的阈值的项目集、子序列或子结构,本质上属于关联规则挖掘。关联分析发现关联规则,这些规则展示属性值频繁地在给定数据集中一起出现的条件。关联规则挖掘就是发现大量数据中项集之间的关联或相关联系。例如在购物历史数据库中,先购买PC,然后是数码相机,最后是存储卡,这便是一种频繁的顺序模式。发现频繁模式在挖掘关联、关联和数据之间的许多其他有趣关系中扮演着重要的角色。此外,它还有助于数据索引、分类、集群和其他数据挖掘任务。因此,频繁的模式挖掘已经成为数据挖掘研究中的一个重要的数据挖掘任务和一个聚焦的主题。自关联规则挖掘提出以来,主要有Apriori及其改进算法和FP-growth及改进算法的两类算法。
如图4所示,S4中基于自然语言理解的网络流量特征向量生成方法包括如下步骤:
S41,采用高速流量捕获及流量分析技术,对网络中各流量会话的进行捕获;
S42,基于自然语言理解技术提取数据包个数、包长字节数、数据包之间的间隔时间、网络会话的持续时间、源IP地址、目的IP地址、源端口、目的端口、应用层协议、传输层协议等特征,构造出各流量会话的特征向量;
S43,将上述所有向量进行拼接,形成初始流量特征向量;
S44,采用信息增益的方法对初始拓扑特征向量进行裁切,生成裁切后的流量特征向量。在使用相关机器学习算法对提取出来的特征进行检测时,需要准确地发现、检测出其主要特征或异常行为,但是在数据处理的过程之中会产生非常多的冗余特征,这就需要使用相关的特征选择方法筛选出关键特征,去除多余重复的特征。目前属性约简算法主要有主成分分析法(PCA)、奇异值分解法(SVD)和信息增益(IG)等,其中PCA和SVD会导致损失部分重要的信息。信息增益是一种过滤式的特征选择方法,数据样本属性特征之间的信息越多,那么这些特征间的联系就越紧密,同时特征之间的信息增益也就越大。信息增益主要通过信息熵来实现,在信息论中,信息量的评估标准通过信息熵来衡量,而信息熵是不确定性的度量。
如图5所示,S5中生成网络DNA的步骤包括:
S51,选取去噪自编码器模型,搭建编码器,负责接收输入的裁切后的特征向量x,并通过编码函数变换为信号y;
S52,搭建解码器,负责接收编码器输出的编码信号y,并通过解码函数得到重构信号r;
S53,定义误差e为原始输入x与重构信号r之差,e=x-r,训练的目标是减少均方误差(MSE),误差被反向传播回隐藏层,激活函数为ReLU函数;
S54,使用步骤S2、S3、S4采集到的裁切后的特征向量对自编码器模型进行无监督训练,直至损失函数收敛;
S55,将目标网络的裁切后的特征向量输入编码器,获得编码后的网络DNA信息。
本发明根据设备、流量与拓扑分别选取相应的捕获与扫描技术,获取目标网络的节点设备、网络拓扑和网络流量数据,并分别采用基于特征匹配的网络设备特征向量生成方法、使用基于图变分自编码的网络拓扑特征向量生成方法、基于自然语言理解的网络流量特征向量生成方法,生成初始特征向量,随后分别采用文本挖掘、频繁模式挖掘、信息增益方法对初始特征向量进行裁切,最后将三种裁切后的特征向量整合作为输入,采用自编码器对其进行降维处理得到网络DNA。
以上内容中未细述部份为现有技术,故未做细述。

Claims (1)

1.一种网络DNA特征表示与提取方法,其特征在于:包括如下步骤:S1,使用网络扫描、流量捕获、流量分析和拓扑测量的技术手段获取目标网络设备特征、网络流量特征和网络拓扑特征数据;S2,使用基于特征匹配的网络设备特征向量生成方法,生成目标网络的初始设备特征向量,采用文本挖掘的方法,对初始设备特征向量进行裁切;S3,使用基于图变分自编码的网络拓扑特征向量生成方法,生成目标网络的初始拓扑特征向量,采用频繁模式挖掘的方法,对初始拓扑特征向量进行裁切;S4,使用基于自然语言理解的网络流量特征向量生成方法,生成目标网络的初始流量特征向量,采用信息增益的方法,对初始流量特征向量进行裁切;S5,利用自编码器将裁切后的初始设备特征向量、初始拓扑特征向量和初始流量特征向量整合聚类生成网络DNA;
所述的S1的网络设备特征包含网络各节点设备的类型及型号、设备的系统版本、网络中设备使用的协议和开放端口与服务以及其开放状态、配置SDN交换机的隧道端口;网络拓扑特征包括网络中各节点之间的连接关系、网络拓扑的图结构、网络邻接矩阵、关联矩阵和平均路径长度;网络流量特征包括各流量会话的数据包个数、包长字节数、数据包之间的间隔时间、网络会话的持续时间、源IP地址、目的IP地址、源端口、目的端口、应用层协议和传输层协议;
所述的S2中基于特征匹配的网络设备特征向量生成方法包括如下步骤:S21,利用网络扫描工具nmap,对网络中节点的设备的类型及型号、设备的系统版本进行识别,构造出节点的网络设备向量;S22,根据nmap-os-db数据库对网络的设备种类和设备系统特征向量进行统计,并依据分析结果构造相应向量;S23,将步骤S21和步骤S22中的各向量进行拼接,形成初始设备特征向量;
所述的S3中基于图变分自编码的网络拓扑特征向量生成方法包括如下步骤:S31,利用SNMP协议对网络拓扑图进行发现与构造,判断其拓扑结构类型,并分析其图、邻接矩阵、节点连接指标,依据判断分析结果构造相应向量;S32,使用图卷积神经网络GCN对网络拓扑图进行处理,以向量形式输出网络拓扑的结构信息;S33,将步骤S31和步骤S32中的各向量进行拼接,形成初始拓扑特征向量;
所述的S4中基于自然语言理解的网络流量特征向量生成方法包括如下步骤:S41,采用流量捕获及流量分析技术,对网络中各流量会话的进行捕获;S42,基于自然语言理解技术提取数据包个数、包长字节数、数据包之间的间隔时间、网络会话的持续时间、源IP地址、目的IP地址、源端口、目的端口、应用层协议、传输层协议特征,构造出各流量会话的特征向量;S43,将步骤S41和步骤S42中的各向量进行拼接,形成初始流量特征向量;
所述的S5中生成网络DNA的步骤包括:S51,搭建编码器,负责接收输入的裁切后的特征向量x,并通过编码函数变换为信号y;S52,搭建解码器,负责接收编码器输出的编码信号y,并通过解码函数得到重构信号r;S53,定义误差e为原始输入x与重构信号r之差,e=x-r,训练的目标是减少均方误差,误差被反向传播回隐藏层,激活函数为ReLU函数;S54,使用步骤S2、S3、S4采集到的裁切后的特征向量对自编码器模型进行无监督训练,直至损失函数收敛;S55,将目标网络的裁切后的特征向量输入编码器,获得编码后的网络DNA信息。
CN202210221426.4A 2022-03-09 2022-03-09 一种网络dna特征表示与提取方法 Active CN115913971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210221426.4A CN115913971B (zh) 2022-03-09 2022-03-09 一种网络dna特征表示与提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210221426.4A CN115913971B (zh) 2022-03-09 2022-03-09 一种网络dna特征表示与提取方法

Publications (2)

Publication Number Publication Date
CN115913971A CN115913971A (zh) 2023-04-04
CN115913971B true CN115913971B (zh) 2024-05-03

Family

ID=86483724

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210221426.4A Active CN115913971B (zh) 2022-03-09 2022-03-09 一种网络dna特征表示与提取方法

Country Status (1)

Country Link
CN (1) CN115913971B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019094729A1 (en) * 2017-11-09 2019-05-16 Strong Force Iot Portfolio 2016, Llc Methods and systems for the industrial internet of things
CN111144470A (zh) * 2019-12-20 2020-05-12 中国科学院信息工程研究所 一种基于深度自编码器的未知网络流量识别方法及系统
WO2021196240A1 (zh) * 2020-04-03 2021-10-07 清华大学 面向跨网络的表示学习算法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019094729A1 (en) * 2017-11-09 2019-05-16 Strong Force Iot Portfolio 2016, Llc Methods and systems for the industrial internet of things
CN111144470A (zh) * 2019-12-20 2020-05-12 中国科学院信息工程研究所 一种基于深度自编码器的未知网络流量识别方法及系统
WO2021196240A1 (zh) * 2020-04-03 2021-10-07 清华大学 面向跨网络的表示学习算法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于多信息融合表示学习的关联用户挖掘算法;韩忠明;郑晨烨;段大高;董健;;计算机科学;20190415(第04期);全文 *

Also Published As

Publication number Publication date
CN115913971A (zh) 2023-04-04

Similar Documents

Publication Publication Date Title
CN111506599B (zh) 基于规则匹配和深度学习的工控设备识别方法及系统
CN112398779A (zh) 一种网络流量数据分析方法及系统
EP3948604B1 (en) Computer security
CN114221790A (zh) 一种基于图注意力网络的bgp异常检测方法及系统
US11533373B2 (en) Global iterative clustering algorithm to model entities' behaviors and detect anomalies
CN114172688B (zh) 基于gcn-dl的加密流量网络威胁关键节点自动提取方法
GB2583892A (en) Adaptive computer security
US11436320B2 (en) Adaptive computer security
US20220150268A1 (en) Pre-emptive computer security
GB2582609A (en) Pre-emptive computer security
Akash et al. Botnet detection in IoT devices using random forest classifier with independent component analysis
CN112765313B (zh) 一种基于原文和评论信息分析算法的虚假信息检测方法
CN115913971B (zh) 一种网络dna特征表示与提取方法
Benjelloun et al. Outlier detection techniques for big data streams: focus on cyber security
CN111814436B (zh) 一种基于互信息和熵的用户行为序列检测方法及系统
Ramström Botnet detection on flow data using the reconstruction error from Autoencoders trained on Word2Vec network embeddings
Haneef et al. A FEATURE SELECTION TECHNIQUE FOR INTRUSION DETECTION SYSTEM BASED ON IWD AND ACO.
CN106250910B (zh) 基于标签序列和nGrams的半结构化数据分类方法
Greau-Hamard et al. Performance analysis and comparison of sequence identification algorithms in iot context
CN112069036B (zh) 基于集群计算的管理与监控系统
Ivchenko et al. Agmv approach for reduce complexity of classification tasks
Martignano Real-time anomaly detection on financial data
Gioacchini Automatic Detection of Coordinated Events in Darknet Traffic
CN118070281A (zh) 一种基于日志信息和图神经网络的恶意代码检测方法
Zhang et al. Aggregating knowledge and collaborative information for sequential recommendation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant