CN117527367A - 基于多粒度密文流量流转关联特征表征模型的溯源方法、装置、处理器及其存储介质 - Google Patents
基于多粒度密文流量流转关联特征表征模型的溯源方法、装置、处理器及其存储介质 Download PDFInfo
- Publication number
- CN117527367A CN117527367A CN202311501789.4A CN202311501789A CN117527367A CN 117527367 A CN117527367 A CN 117527367A CN 202311501789 A CN202311501789 A CN 202311501789A CN 117527367 A CN117527367 A CN 117527367A
- Authority
- CN
- China
- Prior art keywords
- ciphertext
- tracing
- flow
- association
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012512 characterization method Methods 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 70
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000004458 analytical method Methods 0.000 claims abstract description 19
- 238000000605 extraction Methods 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000010845 search algorithm Methods 0.000 claims description 9
- 230000006870 function Effects 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000012098 association analyses Methods 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims description 3
- 238000012549 training Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007635 classification algorithm Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003542 behavioural effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- VKYKSIONXSXAKP-UHFFFAOYSA-N hexamethylenetetramine Chemical compound C1N(C2)CN3CN1CN2C3 VKYKSIONXSXAKP-UHFFFAOYSA-N 0.000 description 1
- 239000003999 initiator Substances 0.000 description 1
- 238000003064 k means clustering Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1408—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
- H04L63/1425—Traffic logging, e.g. anomaly detection
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L9/00—Cryptographic mechanisms or cryptographic arrangements for secret or secure communications; Network security protocols
- H04L9/40—Network security protocols
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L2463/00—Additional details relating to network architectures or network communication protocols for network security covered by H04L63/00
- H04L2463/146—Tracing the source of attacks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Hardware Design (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种基于多粒度密文流量流转关联特征表征模型的溯源方法,其中,所述的方法包括以下步骤:(1)对获取到的密文流量进行数据特征提取和表征处理;(2)对通过提取和表征处理所得的密文流量特征建立有向流转关联特征表征模型,并进行以违规流转特征为主线的综合分析;(3)结合备案信息,根据密文流量有向流转关联特征表征模型的综合分析结果,追踪重要数据违规流转路径,以实现对违规流转事件的完整溯源。本发明还涉及一种相应的装置、处理器及其存储介质。采用了本发明的该基于多粒度密文流量流转关联特征表征模型的溯源方法、装置、处理器及其存储介质,结合其备案机制的特点,能够准确、可靠地定位潜在违规流转源头。
Description
技术领域
本发明涉及网络安全技术领域,尤其涉及网络环境中密文流量流转的溯源处理,具体是指一种基于多粒度密文流量流转关联特征表征模型的溯源方法、装置、处理器及其计算机可读存储介质。
背景技术
目前,随着互联网的快速发展,网络安全问题日益突出,恶意攻击和数据泄露等事件频繁发生,为保护敏感数据的安全,加密数据已成为关键有效的技术手段,网络空间中的密文流量激增,但由于传统的网络监测等方法往往无法直接检测或识别加密流量的内容,导致重要数据违规流转难以被发现。
已有的密文流量识别技术主要用于识别是否为异常流量、流量加密与否、加密协议类型、加密应用、加密服务等,无法直接应用于重要数据违规流转溯源。
已有的溯源方法多结合网络取证和威胁情报,对网络攻击发起者、攻击源进行攻击者地理位置、主机信息、攻击工具和攻击状态等溯源,存在效率低、误报率高、无法处理大规模数据等问题,而且不适用于具有备案机制的重要数据流转溯源情形。
因此,需要一种能适用于具有备案机制的重要数据违规流转事件的密文流量溯源方法。
发明内容
本发明的目的是克服了上述现有技术的缺点,提供了一种基于多粒度密文流量流转关联特征表征模型的溯源方法、装置、处理器及其计算机可读存储介质。
为了实现上述目的,本发明的基于多粒度密文流量流转关联特征表征模型的溯源方法、装置、处理器及其计算机可读存储介质如下:
该基于多粒度密文流量流转关联特征表征模型的溯源方法,其主要特点是,所述的方法包括以下步骤:
(1)对获取到的密文流量进行数据特征提取和表征处理;
(2)对通过提取和表征处理所得的密文流量特征建立有向流转关联特征表征模型,并进行以违规流转特征为主线的综合分析;
(3)结合备案信息,根据密文流量有向流转关联特征表征模型的综合分析结果,追踪重要数据违规流转路径,以实现对违规流转事件的完整溯源。
较佳地,所述的步骤(1)具体以下步骤:
(1.1)对密文流量进行特征提取,包括:对所述的密文流量的分组数据包特征、数据包五元组特征、数据包统计特征进行提取,并利用聚类算法和分类方法对相应的特征进行分类处理,最终得到经过数据预处理和整合后的特征;
(1.2)对密文流量进行特征表征处理,包括:对提取出的密文流量特征按照包级特征、会话级特征和连接级特征进行不同层面的表征处理。
较佳地,所述的分组数据包特征包括:数据包长度、数据包达到间隔时间顺序;
所述的数据包五元组特征包括:源IP地址、目标IP地址、端口号、协议类型;
所述的数据包统计特征包括:均包大小、最大包大小、最小包大小、标准差包大小、协议类型分布;
所述的包级特征具体为:通过图关系表征数据包层面的关系特征;
所述的会话级特征具体为:通过图关系表征会话层面的关系特征;
所述的连接级特征具体为:通过图关系表征IP层面的链接特征。
较佳地,所述的步骤(2)具体包括以下步骤:
(2.1)对通过提取和表征处理所得的密文流量特征进行包级有向流转关联模型的建立,具体为:根据数据包级流转关系建立有向的关联模型,其中流转方向分为正向和负向,流向目标为正向,流向源头为负向;
(2.2)对通过提取和表征处理所得的密文流量特征进行会话级时序有向关联模型的建立,具体为:根据会话级时序关系建立有向的关联模型,其中,时序方向分为正向和负向,时间戳之差大于0为正向,时间戳之差小于0为负向;
(2.3)对通过提取和表征处理所得的密文流量特征进行IP级有向流转关联模型建立,具体为:根据IP级流转关系建立有向的关联模型,其中,流转方向分为正向和负向,从IP流出为正向,流入IP为负向;
(2.4)对建立的包级有向流转关联模型、会话级时序有向关联模型和IP级有向流转关联模型进行以违规流转特征为主线的综合分析。
尤佳地,所述的步骤(2.1)具体包括以下步骤:
(2.1.1)定义数据包之间的关联关系:将每个数据包表示为一个节点,基于包括分组包特征分类标识及数据包的源地址和目的地址、传输协议、端口号的属性,将流向目标定义为正向,流向源头定义为为负向,使用有向边连接相关节点之间的关联关系;
(2.1.2)使用图论算法分析和推理数据包之间的关联关系:使用深度优先搜索算法或广度优先搜索算法遍历图中的节点和边,从而发现和识别对应的关联关系;
(2.1.3)使用图的属性和特征进行关联分析:包括计算节点的度数以及节点之间的最短路径和连通性。
尤佳地,所述的步骤(2.2)具体包括以下步骤:
(2.2.1)定义各个会话之间的关联关系:基于相似包组特征、相同的参与者的要素,将每个会话创建一个节点,并用唯一的标识符进行表示;
(2.2.1)根据定义好的关联关系,添加边连接不同的会话节点,其中,如果会话节点A和会话节点B具有相同的参与者,则计算会话级时间戳之差,如果时间戳之差大于0,则边的方向为正向,从而在节点A和节点B之间添加一条正向边;
(2.2.3)为每条边定义一个权重,以表示关联关系的强度或重要性,其中,所述的权重能够预先定义或者根据度量指标进行计算得出。
尤佳地,所述的步骤(2.3)具体包括以下步骤:
(2.3.1)将每个IP地址看作一个节点,且所述的IP地址作为节点的唯一标识符;
(2.3.2)根据网络流量数据,添加边连接不同的IP地址节点,即从IP地址A发送的数据包被IP地址B接收到,则在所述的节点A和节点B之间添加一条有向边,用于表示数据流从A流向B;
(2.3.3)为每条边定义一个权重,以表示关联关系的强度,其中,所述的权重基于流量的数量、频率或其他度量指标进行定义。
尤佳地,所述的步骤(2.4)具体包括以下步骤:
(2.4.1)使用图论算法和分析结果对分组数据包进行相关操作和决策;
(2.4.2)分析图模型并发现不同会话之间的关联关系,包括查找特定节点的邻居节点、计算节点的重要性、查找某个节点的最短路径、全部路径;
(2.4.3)通过分析图模型发现不同IP地址之间的关联关系,包括使用图论算法查找特定节点的邻居节点、计算节点的重要性,查找到达节点的全部路径。
尤佳地,所述的步骤(3)具体包括:进行流转源头锁定、中间路径日志标记以及完整溯源链条输出的处理;其中,
所述的流转源头锁定,具体为:根据流转关联特征表征模型追溯重要数据违规流转源头,比对备案信息,并将无备案信息的视为违规流转,对其进行源头IP锁定;
所述的中间路径日志标记,具体为:结合网络日志信息,将流转关联特征表征模型追溯过程中的中间节点进行标记,其中,标记方式为通过网络中的每个路由器上启用的日志功能,将流转流量经过的路由器日志进行记录存档;
所述的完整溯源链条输出,具体为:根据有向流转关联特征表征模型追溯的路径将一次违规流转事件的完整溯源链条输出。
该实现基于多粒度密文流量流转关联特征表征模型的溯源装置,其主要特点是,所述的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述所述的基于多粒度密文流量流转关联特征表征模型的溯源方法的步骤。
该实现基于多粒度密文流量流转关联特征表征模型的溯源处理器,其主要特点是,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述所述的基于多粒度密文流量流转关联特征表征模型的溯源方法的步骤。
该计算机可读存储介质,其主要特点是,所述的计算机程序可被处理器执行以实现上述所述的基于多粒度密文流量流转关联特征表征模型的溯源方法的步骤。
采用了本发明的该基于多粒度密文流量流转关联特征表征模型的溯源方法、装置、处理器及其计算机可读存储介质,通过将密文流量的多粒度多层面特征进行提取与表征,建立不同层级有向流转关联特征表征模型,能够多维度分析并有效追踪和溯源重要数据的违规流转和泄露行为轨迹,结合其备案机制的特点,能够准确、可靠地定位潜在违规流转源头。同时,本技术方案提出的基于多粒度密文流量流转关联特征表征模型的溯源方法,在网络实际应用中具有高效性和可操作性,可安全便捷地在电子政务、电子商务等领域大规模应用。
附图说明
图1为本发明进行密文流量数据特征表征的示意图。
图2为本发明的有向流转关联特征表征模型的示意图。
图3为本发明的基于备案信息的流转源头锁定和溯源的示意图。
具体实施方式
为了能够更清楚地描述本发明的技术内容,下面结合具体实施例来进行进一步的描述。
在详细说明根据本发明的实施例前,应该注意到的是,在下文中,术语“包括”、“包含”或任何其他变体旨在涵盖非排他性的包含,由此使得包括一系列要素的过程、方法、物品或者设备不仅包含这些要素,而且还包含没有明确列出的其他要素,或者为这种过程、方法、物品或者设备所固有的要素。
作为本发明的优选实施方式,所述的方法包括以下步骤:
(1)对获取到的密文流量进行数据特征提取和表征处理;
(2)对通过提取和表征处理所得的密文流量特征建立有向流转关联特征表征模型,并进行以违规流转特征为主线的综合分析;
(3)结合备案信息,根据密文流量有向流转关联特征表征模型的综合分析结果,追踪重要数据违规流转路径,以实现对违规流转事件的完整溯源。
请参阅图1所示,所述的步骤(1)具体包括以下步骤:
(1.1)对密文流量进行特征提取,包括:对所述的密文流量的分组数据包特征、数据包五元组特征、数据包统计特征进行提取,并利用聚类算法和分类方法对相应的特征进行分类处理,最终得到经过数据预处理和整合后的特征;
(1.2)对密文流量进行特征表征处理,包括:对提取出的密文流量特征按照包级特征、会话级特征和连接级特征进行不同层面的表征处理。
作为本发明的优选实施方式,所述的分组数据包特征包括:数据包长度、数据包达到间隔时间顺序;
所述的数据包五元组特征包括:源IP地址、目标IP地址、端口号、协议类型;
所述的数据包统计特征包括:均包大小、最大包大小、最小包大小、标准差包大小、协议类型分布;
所述的包级特征具体为:通过图关系表征数据包层面的关系特征;
所述的会话级特征具体为:通过图关系表征会话层面的关系特征;
所述的连接级特征具体为:通过图关系表征IP层面的链接特征。
请参阅图2所示,所述的步骤(2)具体包括以下步骤:
(2.1)对通过提取和表征处理所得的密文流量特征进行包级有向流转关联模型的建立,具体为:根据数据包级流转关系建立有向的关联模型,其中流转方向分为正向和负向,流向目标为正向,流向源头为负向;
(2.2)对通过提取和表征处理所得的密文流量特征进行会话级时序有向关联模型的建立,具体为:根据会话级时序关系建立有向的关联模型,其中,时序方向分为正向和负向,时间戳之差大于0为正向,时间戳之差小于0为负向;
(2.3)对通过提取和表征处理所得的密文流量特征进行IP级有向流转关联模型建立,具体为:根据IP级流转关系建立有向的关联模型,其中,流转方向分为正向和负向,从IP流出为正向,流入IP为负向;
(2.4)对建立的包级有向流转关联模型、会话级时序有向关联模型和IP级有向流转关联模型进行以违规流转特征为主线的综合分析。
作为本发明的优选实施方式,所述的步骤(2.1)具体包括以下步骤:
(2.1.1)定义数据包之间的关联关系:将每个数据包表示为一个节点,基于包括分组包特征分类标识及数据包的源地址和目的地址、传输协议、端口号的属性,将流向目标定义为正向,流向源头定义为为负向,使用有向边连接相关节点之间的关联关系;
(2.1.2)使用图论算法分析和推理数据包之间的关联关系:使用深度优先搜索算法或广度优先搜索算法遍历图中的节点和边,从而发现和识别对应的关联关系;
(2.1.3)使用图的属性和特征进行关联分析:包括计算节点的度数以及节点之间的最短路径和连通性。
作为本发明的优选实施方式,所述的步骤(2.2)具体包括以下步骤:
(2.2.1)定义各个会话之间的关联关系:基于相似包组特征、相同的参与者的要素,将每个会话创建一个节点,并用唯一的标识符进行表示;
(2.2.1)根据定义好的关联关系,添加边连接不同的会话节点,其中,如果会话1和会话2具有相同的参与者,则计算会话级时间戳之差,如果时间戳之差大于0,则边的方向为正向,从而在节点A和节点B之间添加一条正向边;
(2.2.3)为每条边定义一个权重,以表示关联关系的强度或重要性,其中,所述的权重能够预先定义或者根据度量指标进行计算得出。
作为本发明的优选实施方式,所述的步骤(2.3)具体包括以下步骤:
(2.3.1)将每个IP地址看作一个节点,且所述的IP地址作为节点的唯一标识符;
(2.3.2)根据网络流量数据,添加边连接不同的IP地址节点,即从IP地址A发送的数据包被IP地址B接收到,则在所述的节点A和节点B之间添加一条有向边,用于表示数据流从A流向B;
(2.3.3)为每条边定义一个权重,以表示关联关系的强度,其中,所述的权重基于流量的数量、频率或其他度量指标进行定义。
作为本发明的优选实施方式,所述的步骤(2.4)具体包括以下步骤:
(2.4.1)使用图论算法和分析结果对分组数据包进行相关操作和决策;
(2.4.2)分析图模型并发现不同会话之间的关联关系,包括查找特定节点的邻居节点、计算节点的重要性、查找某个节点的最短路径、全部路径;
(2.4.3)通过分析图模型发现不同IP地址之间的关联关系,包括使用图论算法查找特定节点的邻居节点、计算节点的重要性,查找到达节点的全部路径。
请参阅图3所示,所述的步骤(3)具体包括:进行流转源头锁定、中间路径日志标记以及完整溯源链条输出的处理;其中,
所述的流转源头锁定,具体为:根据流转关联特征表征模型追溯重要数据违规流转源头,比对备案信息,并将无备案信息的视为违规流转,对其进行源头IP锁定;
所述的中间路径日志标记,具体为:结合网络日志信息,将流转关联特征表征模型追溯过程中的中间节点进行标记,其中,标记方式为通过网络中的每个路由器上启用的日志功能,将流转流量经过的路由器日志进行记录存档;
所述的完整溯源链条输出,具体为:根据有向流转关联特征表征模型追溯的路径将一次违规流转事件的完整溯源链条输出。
在实际应用当中,本技术方案的该基于多粒度密文流量流转关联特征表征模型的溯源方法,包括密文流量数据特征提取和表征、有向流转关联特征表征模型建立和分析、基于备案信息的流转源头锁定和溯源。
在一种较佳的实施例中,所述的密文流量数据特征提取和表征如图1所示,包括密文流量特征提取和密文流量特征表征。
在一种较佳的实施例中,所述的密文流量特征提取,指对密文流量的分组数据包特征、数据包五元组特征、数据包统计特征进行提取,并利用聚类算法、分类算法等进行特征分类;分类后的特征再进行预处理和整合;在一种较佳的实施例中,分组数据包特征可包括数据包长度、数据包达到间隔时间顺序等,数据包五元组特征可包括源IP地址、目标IP地址、端口号、协议类型等,数据包统计特征可包括均包大小、最大包大小、最小包大小、标准差包大小、协议类型分布等。假设行为异常数据包组有4个数据包,包大小分别为{D1,D2,D3,D4},数据包的协议类型涉及两种,到达的时间戳分别为{t1,t2,t3,t4},则分组数据包特征为{{D1,D2,D3,D4},{SPLT1,SPLT2,SPLT3}};数据包五元组特征为{{IP1 s,IP1 e,Pn1 s,Pns1 e,T1},{IP2 s,IP2 e,Pn2 s,Pns2 e,T2},{IP3 s,IP3 e,Pn3 s,Pns3 e,T3},{IP4 s,IP4 e,Pn4 s,Pns4 e,T4}};数据包统计特征为{{mean_packet_size1-4,max_packet_size1-4,min_packet_size1-4,std_packet_size1-4},{prorocol_distribution1,protocol_distribution2}};将除五元组特征外的其余两类特征进行归一化处理,并将这两类特征通过五元组特征进行关联,以K-means聚类算法为例描述对分组数据包特征、数据包统计特征分别进行聚类的步骤:
(1)初始化:随机选择K个分组数据包特征或数据包统计特征作为初始的聚类中心;
(2)分配数据包:对于每个分组数据包特征或数据包统计特征,计算其与各个聚类中心的距离,并将其分配给距离最近步骤(3)的聚类中心所在的簇;
(3)更新聚类中心:对每个簇内的分组数据包特征或数据包统计特征,重新计算其聚类中心(即计算簇内数据包的平均值);
(4)重复步骤(2)和(3),直到聚类中心不再发生变化或达到预设的迭代次数;
(5)完成以上步骤后,分簇后的分组数据包特征、数据包统计特征再通过五元组特征进行再次关联,如分组数据包特征、数据包统计特征通过聚类方法划分的簇不一致,则重复(1)-(4)步骤,直到分组数据包特征、数据包统计特征通过聚类方法划分的簇一致,每个簇代表一种特定类型的流转行为,并增加唯一标识。
其中,考虑到聚类效果,聚类算法也可使用划分聚类、密度聚类等方法。
对聚类后形成的簇,以支持向量机SVM方法为例描述对不同簇的数据包进行分类的步骤:
(1)将聚类得到的不同簇作为不同类别的训练数据,并按照8:2的比例将数据集分成训练集和测试集,同时将标记好的异常流转行为类型作为标签;
(2)对数据进行特征提取和预处理:采用Z-Score离群值检测方法计算数据点与平均值之间的标准差,来判断是否为离群值,一旦发现离群值,采用数据集的中位数替换离群值;转换特征数据格式,计算最大值与最小值之差作为归一化系数,将所有特征值数据利用原始值与最小值之差除以归一化系数的方式将其范围缩放到[0,1]之间,实现数据的标准化处理;
(3)利用SVM算法对准备好的训练数据进行训练,得到分类模型;
(4)使用测试数据对分类模型进行评估,计算分类准确率指标;
(5)根据评估结果对模型进行优化和调整,调整参数、或替换不同的核函数等。
其中,考虑到分类效果,分类算法可使用支持向量机、决策树等方法。在一种较佳的实施例中,所述的密文流量特征表征,指对提取的密文流量特征按照包级特征、会话级特征、连接级特征等不同层面进行表征;在一种较佳的实施例中,包级特征是通过图关系表征数据包层面的关系特征,会话级特征是通过图关系表征会话层面的关系特征,连接级特征是通过图关系表征IP层面的链接特征。
在一种具体的实施例中,所述的有向流转关联特征表征模型建立和分析如图2所示:
包括包级有向流转关联模型建立、会话级时序有向关联模型建立、IP级有向流转关联模型建立,以及不同模型的综合分析;
包级有向流转关联模型建立,指根据数据包级流转关系建立有向的关联模型,流转方向分为正向和负向,流向目标为正向,流向源头为负向;在一种较佳的实施例中,包级有向流转关联模型建立具体包括如下步骤:
(1)定义数据包之间的关联关系:将每个数据包表示为一个节点,基于分组包特征分类标识及数据包的源地址和目的地址、传输协议、端口号等属性,将流向目标定义为正向,流向源头定义为为负向,使用有向边连接相关节点之间的关联关系;
(2)使用图论算法来分析和推理数据包之间的关联关系,使用深度优先搜索算法或广度优先搜索算法来遍历图中的节点和边,以发现和识别关联关系,具体如下:
a)根据数据包之间的关系,将数据包表示为图的节点,关联关系表示为图的边,使用邻接表等数据结构来表示图;
b)根据实际情况选择合适的搜索算法,深度优先搜索(堆栈)或广度优先搜索(队列);
从图中的任意节点开始,将该节点标记为已访问,并将其加入待搜索堆栈或队列中;
c)进入循环,直到待搜索堆栈或队列为空,从堆栈或队列中取出一个节点,检查与该节点相连的未访问节点;
d)对于每个未访问节点,通过查找边的信息来检查其与当前节点之间是否存在关联关系;将已检查的节点标记为已访问,并将其加入待搜索堆栈或队列中;
e)返回步骤c),继续搜索下一个节点;在搜索过程中,通过统计关联频次、计算关联权重记录找到的关联关系;当待搜索队列或栈为空时,搜索结束。
(3)使用图的属性和特征来进行分析:计算节点的度数,即与节点相连的边的数量;使用最短路径算法来计算节点之间的最短路径,即从一个节点到另一个节点所需的最小权重路径;通过检查图中的连通分量来分析图的连通性,其中,连通分量是指图中由相互连通的节点组成的子图,可存在孤立的节点。
会话级时序有向关联模型建立,指根据会话级时序关系建立有向的关联模型,时序方向分为正向和负向,时间戳之差大于0为正向,时间戳之差小于0为负向;在一种较佳的实施例中,会话级时序有向关联模型建立具体包括如下步骤:
(1)定义会话之间的关联关系:基于相似包组特征、相同的参与者等要素,将每个会话创建一个节点,并用唯一的标识符来表示。
(2)根据定义好的关联关系,添加边连接不同的会话节点。如果会话节点A和会话节点B具有相同的参与者,计算会话级时间戳之差,如果时间戳之差大于0,则边的方向为正向,在节点A和节点B之间添加一条正向边。
(3)为每条边定义一个权重,以表示关联关系的强度或重要性。权重可以是预先定义的,也可以根据一些度量指标来计算得出。
IP级有向流转关联模型建立,指根据IP级流转关系建立有向的关联模型,流转方向分为正向和负向,从IP流出为正向,流入IP为负向;在一种较佳的实施例中,IP级有向流转关联模型建立具体包括如下步骤:
(1)每个IP地址被看作是一个节点,IP地址作为节点的唯一标识符。
(2)根据网络流量数据,添加边连接不同的IP地址节点,如果从IP地址A发送的数据包被IP地址B接收到,那么可以在节点A和节点B之间添加一条有向边,表示数据流从A到B。
(3)为每条边定义一个权重,以表示关联关系的强度,基于流量的数量、频率或其他度量指标来定义。
不同模型的综合分析,指将包级流转有向关联模型、会话级时序有向关联模型、IP级流转有向关联模型进行以违规流转特征为主线的综合分析;在一种较佳的实施例中,综合分析具体包括如下步骤:
(1)使用图论算法和分析结果来进行分组数据包的相关操作和决策:依据包级有向流转关联模型计算两个节点之间的所有路径权重,记录两个节点之间的最短路径。
(2)分析图模型发现不同会话之间的关联关系:对于给定的节点,通过会话级时序有向关联模型查找与其直接相连的邻居节点;通过每个节点两侧的权重之和来确定每个节点的重要性指标;依据会话级时序有向关联模型计算两个节点之间的所有路径权重,记录两个节点之间的最短路径;通过广度优先搜索来查找两个节点之间的全部路径并记录。
(3)通过分析图模型发现不同IP地址之间的关联关系:通过IP级有向流转关联模型查找与其直接相连的邻居节点;通过每个节点两侧的权重之和来确定每个节点的重要性指标;通过广度优先搜索来查找到达指定节点的全部路径。
在一种具体的实施例中,所述的基于备案信息的流转源头锁定和溯源如图3所示:
包括流转源头锁定、中间路径日志标记、完整溯源链条输出;
流转源头锁定,指根据流转关联特征表征模型追溯重要数据违规流转源头,比对备案信息,无备案的视为违规流转,将源头IP锁定;在一种较佳的实施例中,根据有向流转关联特征表征模型分析结果,通过图模型溯源流转源头IP,查询备案信息,如未备案或未按照备案目标IP进行流传,则确定违规,采取IP锁定措施;
中间路径日志标记,指结合网络日志信息,将流转关联特征表征模型追溯过程中的中间节点进行标记,标记方式是通过网络中的每个路由器上启用的日志功能,将流转流量经过的路由器日志记录存档;在一种较佳的实施例中,根据有向流转关联特征表征模型分析结果,追踪违规流转的全部路径中的IP节点,将途经的路由器的日志记录进行存档。
完整溯源链条输出,指根据有向流转关联特征表征模型追溯的路径将一次违规流转事件的完整溯源链条输出;在一种较佳的实施例中,根据有向流转关联特征表征模型分析结果,经追踪的全部路径存档日志以文本形式进行输出,作为一次违规流转事件的完整溯源链条输出。
该实现基于多粒度密文流量流转关联特征表征模型的溯源装置,其中,所述的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述所述的基于多粒度密文流量流转关联特征表征模型的溯源方法的步骤。
该实现基于多粒度密文流量流转关联特征表征模型的溯源处理器,其中,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现上述所述的基于多粒度密文流量流转关联特征表征模型的溯源方法的步骤。
该计算机可读存储介质,其中,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现上述所述的基于多粒度密文流量流转关联特征表征模型的溯源方法的步骤。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。
本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成的,程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
上述提到的存储介质可以是只读存储器,磁盘或光盘等。
在本说明书的描述中,参考术语“一实施例”、“一些实施例”、“示例”、“具体示例”、或“实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。
采用了本发明的该基于多粒度密文流量流转关联特征表征模型的溯源方法、装置、处理器及其计算机可读存储介质,通过将密文流量的多粒度多层面特征进行提取与表征,建立不同层级有向流转关联特征表征模型,能够多维度分析并有效追踪和溯源重要数据的违规流转和泄露行为轨迹,结合其备案机制的特点,能够准确、可靠地定位潜在违规流转源头。同时,本技术方案提出的基于多粒度密文流量流转关联特征表征模型的溯源方法,在网络实际应用中具有高效性和可操作性,可安全便捷地在电子政务、电子商务等领域大规模应用。
在此说明书中,本发明已参照其特定的实施例作了描述。但是,很显然仍可以作出各种修改和变换而不背离本发明的精神和范围。因此,说明书和附图应被认为是说明性的而非限制性的。
Claims (12)
1.一种基于多粒度密文流量流转关联特征表征模型的溯源方法,其特征在于,所述的方法包括以下步骤:
(1)对获取到的密文流量进行数据特征提取和表征处理;
(2)对通过提取和表征处理所得的密文流量特征建立有向流转关联特征表征模型,并进行以违规流转特征为主线的综合分析;
(3)结合备案信息,根据密文流量有向流转关联特征表征模型的综合分析结果,追踪重要数据违规流转路径,以实现对违规流转事件的完整溯源。
2.根据权利要求1所述的基于多粒度密文流量流转关联特征表征模型的溯源方法,其特征在于,所述的步骤(1)具体包括以下步骤:
(1.1)对密文流量进行特征提取,包括:对所述的密文流量的分组数据包特征、数据包五元组特征、数据包统计特征进行提取,并利用聚类算法和分类方法对相应的特征进行分类处理,最终得到经过数据预处理和整合后的特征;
(1.2)对密文流量进行特征表征处理,包括:对提取出的密文流量特征按照包级特征、会话级特征和连接级特征进行不同层面的表征处理。
3.根据权利要求2所述的基于多粒度密文流量流转关联特征表征模型的溯源方法,其特征在于,
所述的分组数据包特征包括:数据包长度、数据包达到间隔时间顺序;
所述的数据包五元组特征包括:源IP地址、目标IP地址、端口号、协议类型;
所述的数据包统计特征包括:均包大小、最大包大小、最小包大小、标准差包大小、协议类型分布;
所述的包级特征具体为:通过图关系表征数据包层面的关系特征;
所述的会话级特征具体为:通过图关系表征会话层面的关系特征;
所述的连接级特征具体为:通过图关系表征IP层面的链接特征。
4.根据权利要求2所述的基于多粒度密文流量流转关联特征表征模型的溯源方法,其特征在于,所述的步骤(2)具体包括以下步骤:
(2.1)对通过提取和表征处理所得的密文流量特征进行包级有向流转关联模型的建立,具体为:根据数据包级流转关系建立有向的关联模型,其中流转方向分为正向和负向,流向目标为正向,流向源头为负向;
(2.2)对通过提取和表征处理所得的密文流量特征进行会话级时序有向关联模型的建立,具体为:根据会话级时序关系建立有向的关联模型,其中,时序方向分为正向和负向,时间戳之差大于0为正向,时间戳之差小于0为负向;
(2.3)对通过提取和表征处理所得的密文流量特征进行IP级有向流转关联模型建立,具体为:根据IP级流转关系建立有向的关联模型,其中,流转方向分为正向和负向,从IP流出为正向,流入IP为负向;
(2.4)对建立的包级有向流转关联模型、会话级时序有向关联模型和IP级有向流转关联模型进行以违规流转特征为主线的综合分析。
5.根据权利要求4所述的基于多粒度密文流量流转关联特征表征模型的溯源方法,其特征在于,所述的步骤(2.1)具体包括以下步骤:
(2.1.1)定义数据包之间的关联关系:将每个数据包表示为一个节点,基于包括分组包特征分类标识及数据包的源地址和目的地址、传输协议、端口号的属性,将流向目标定义为正向,流向源头定义为为负向,使用有向边连接相关节点之间的关联关系;
(2.1.2)使用图论算法分析和推理数据包之间的关联关系:使用深度优先搜索算法或广度优先搜索算法遍历图中的节点和边,从而发现和识别对应的关联关系;
(2.1.3)使用图的属性和特征进行关联分析:包括计算节点的度数以及节点之间的最短路径和连通性。
6.根据权利要求4所述的基于多粒度密文流量流转关联特征表征模型的溯源方法,其特征在于,所述的步骤(2.2)具体包括以下步骤:
(2.2.1)定义各个会话之间的关联关系:基于相似包组特征、相同的参与者的要素,将每个会话创建一个节点,并用唯一的标识符进行表示;
(2.2.1)根据定义好的关联关系,添加边连接不同的会话节点,其中,如果会话节点A和会话节点B具有相同的参与者,则计算会话级时间戳之差,如果时间戳之差大于0,则边的方向为正向,从而在节点A和节点B之间添加一条正向边;
(2.2.3)为每条边定义一个权重,以表示关联关系的强度或重要性,其中,所述的权重能够预先定义或者根据度量指标进行计算得出。
7.根据权利要求4所述的基于多粒度密文流量流转关联特征表征模型的溯源方法,其特征在于,所述的步骤(2.3)具体包括以下步骤:
(2.3.1)将每个IP地址看作一个节点,且所述的IP地址作为节点的唯一标识符;
(2.3.2)根据网络流量数据,添加边连接不同的IP地址节点,即从IP地址A发送的数据包被IP地址B接收到,则在所述的节点A和节点B之间添加一条有向边,用于表示数据流从A流向B;
(2.3.3)为每条边定义一个权重,以表示关联关系的强度,其中,所述的权重基于流量的数量、频率或其他度量指标进行定义。
8.根据权利要求5至7中任一项所述的基于多粒度密文流量流转关联特征表征模型的溯源方法,其特征在于,所述的步骤(2.4)具体包括以下步骤:
(2.4.1)使用图论算法和分析结果对分组数据包进行相关操作和决策;
(2.4.2)分析图模型并发现不同会话之间的关联关系,包括查找特定节点的邻居节点、计算节点的重要性、查找某个节点的最短路径、全部路径;
(2.4.3)通过分析图模型发现不同IP地址之间的关联关系,包括使用图论算法查找特定节点的邻居节点、计算节点的重要性,查找到达节点的全部路径。
9.根据权利要求8所述的基于多粒度密文流量流转关联特征表征模型的溯源方法,其特征在于,所述的步骤(3)具体包括:进行流转源头锁定、中间路径日志标记以及完整溯源链条输出的处理;其中,
所述的流转源头锁定,具体为:根据流转关联特征表征模型追溯重要数据违规流转源头,比对备案信息,并将无备案信息的视为违规流转,对其进行源头IP锁定;
所述的中间路径日志标记,具体为:结合网络日志信息,将流转关联特征表征模型追溯过程中的中间节点进行标记,其中,标记方式为通过网络中的每个路由器上启用的日志功能,将流转流量经过的路由器日志进行记录存档;
所述的完整溯源链条输出,具体为:根据有向流转关联特征表征模型追溯的路径将一次违规流转事件的完整溯源链条输出。
10.一种实现基于多粒度密文流量流转关联特征表征模型的溯源装置,其特征在于,所述的装置包括:
处理器,被配置成执行计算机可执行指令;
存储器,存储一个或多个计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现权利要求9所述的基于多粒度密文流量流转关联特征表征模型的溯源方法的步骤。
11.一种实现基于多粒度密文流量流转关联特征表征模型的溯源处理器,其特征在于,所述的处理器被配置成执行计算机可执行指令,所述的计算机可执行指令被所述的处理器执行时,实现权利要求9所述的基于多粒度密文流量流转关联特征表征模型的溯源方法的步骤。
12.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述的计算机程序可被处理器执行以实现权利要求9所述的基于多粒度密文流量流转关联特征表征模型的溯源方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311501789.4A CN117527367A (zh) | 2023-11-10 | 2023-11-10 | 基于多粒度密文流量流转关联特征表征模型的溯源方法、装置、处理器及其存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311501789.4A CN117527367A (zh) | 2023-11-10 | 2023-11-10 | 基于多粒度密文流量流转关联特征表征模型的溯源方法、装置、处理器及其存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117527367A true CN117527367A (zh) | 2024-02-06 |
Family
ID=89752533
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311501789.4A Pending CN117527367A (zh) | 2023-11-10 | 2023-11-10 | 基于多粒度密文流量流转关联特征表征模型的溯源方法、装置、处理器及其存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117527367A (zh) |
-
2023
- 2023-11-10 CN CN202311501789.4A patent/CN117527367A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11310162B2 (en) | System and method for classifying network traffic | |
Yuan et al. | ProgME: towards programmable network measurement | |
Silveira et al. | URCA: Pulling out anomalies by their root causes | |
Law et al. | You can run, but you can't hide: an effective statistical methodology to trace back DDoS attackers | |
CN114143037B (zh) | 一种基于进程行为分析的恶意加密信道检测方法 | |
Zali et al. | Real-time attack scenario detection via intrusion detection alert correlation | |
CN113271303A (zh) | 一种基于行为相似性分析的僵尸网络检测方法及系统 | |
Kozik et al. | Pattern extraction algorithm for NetFlow‐based botnet activities detection | |
Qiu et al. | Global Flow Table: A convincing mechanism for security operations in SDN | |
Layeghy et al. | Benchmarking the Benchmark--Analysis of Synthetic NIDS Datasets | |
Özdel et al. | Payload-based network traffic analysis for application classification and intrusion detection | |
Oudah et al. | A novel features set for internet traffic classification using burstiness | |
KR101338223B1 (ko) | 네트워크 트래픽 분석 시스템 및 방법 | |
Wang et al. | Efficient mining of the multidimensional traffic cluster hierarchy for digesting, visualization, and anomaly identification | |
CN112235254A (zh) | 一种高速主干网中Tor网桥的快速识别方法 | |
Oujezsky et al. | Botnet C&C traffic and flow lifespans using survival analysis | |
CN117527367A (zh) | 基于多粒度密文流量流转关联特征表征模型的溯源方法、装置、处理器及其存储介质 | |
Wu et al. | Bcac: Batch classifier based on agglomerative clustering for traffic classification in a backbone network | |
TW202017337A (zh) | 骨幹網路異常流量偵測方法和系統 | |
Ramström | Botnet detection on flow data using the reconstruction error from Autoencoders trained on Word2Vec network embeddings | |
Yuan et al. | Harvesting unique characteristics in packet sequences for effective application classification | |
Li et al. | Composite lightweight traffic classification system for network management | |
Li et al. | Improved automated graph and FCM based DDoS attack detection mechanism in software defined networks | |
Atmojo et al. | A New Approach for ARP Poisoning Attack Detection Based on Network Traffic Analysis | |
Kozik | Distributed system for botnet traffic analysis and anomaly detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |