CN116668152A

CN116668152A - 基于混淆执行特征识别的匿名网络流量关联方法及装置

Info

Publication number: CN116668152A
Application number: CN202310725209.3A
Authority: CN
Inventors: 张宇光; 张位; 冯毓; 毛得明; 饶志宏; 匡志凯; 郝楠; 周鹏太; 张淑文
Original assignee: CETC 30 Research Institute
Current assignee: CETC 30 Research Institute
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-08-29

Abstract

本发明公开了一种基于混淆执行特征识别的匿名网络流量关联方法及装置，属于匿名网络流量关联技术领域，包括步骤：S1，指定多水印生成方式；S2，同步多水印生成方式到发送端与接收端；S3，在发送端执行多流量水印注入配置；在接收端执行水印特征消除配置；S4，启动接收端流量水印特征消除；S5，启动发送端水印注入；S6，启动发送端与接收端的流量镜像转发；S7，控制台接收监听流量并预处理；S8，使用人工智能模型执行流量关联；S9，将流量关联的结果进行呈现。本发明解决了由于匿名通信网络使用了先进流量混淆技术而使得传统的匿名网络流量关联技术难以对匿名通信双方进行有效关联的技术问题。

Description

基于混淆执行特征识别的匿名网络流量关联方法及装置

技术领域

本发明涉及匿名网络流量关联技术领域，更为具体的，涉及一种基于混淆执行特征识别的匿名网络流量关联方法及装置。

背景技术

匿名网络流量关联是网络安全领域的重要研究方向，是指对于在匿名网络环境中产生的流量数据进行分析和关联，以此来识别和追踪数据流在网络中的源头和目的地。这个过程涉及到破解或绕过流量的匿名性，实现对于网络行为的跟踪和审计。匿名网络流量关联技术在网络攻击溯源、恶意行为追踪、网络犯罪取证等场景中具有应用价值。

现有的匿名网络流量关联方法主要可以归纳为统计特征匹配、水印调制检测、人工智能识别、流量指纹构建、主动渗透追踪等技术类别。统计特征匹配通过监控通信两端的数据包大小、传输时序、传输速率、包间隔等统计规律，匹配出进行通信的网络节点，Raptor是一种典型统计特征匹配方法，利用了流量时间序列来实现流量的关联。水印调制检测通过对包载荷、流量速率、包时间、包数量、包长度、包顺序等流量特征的整形，向发送流中注入特殊的流量运行模式，利用在接收端捕获相同的水印特征来进行关联识别。人工智能识别通过利用机器学习或者深度学习技术，以训练判别模型的方式将相关联的网络流量特征烧制到近似函数中，判别时将发送端与接收端流量信息输入近似函数中，得到其两端流量关联的概率输出，DeepCorr是这种技术的典型方案，从收发流量的时序信息中利用深度学习模型学习到通信信道固有的噪音特性，从而实现匿名网络流量关联。流量指纹构建通常应用于特定网站的访问者的判定过程，这种技术通过提取特定的网站访问通信的数据交互特征，来识别具有相同数据流特征的访问者。主动渗透追踪通过主动的网络攻击手段对通信进行直接的干预或者破坏，利用观测网络的检测或者恢复状态变化来得到关联信息，渗透技术应用广泛，包括数据包破坏、中间人攻击、重放攻击等，准确率较高，但是需要具备专门的漏洞知识，技术难度较大，且需要干扰用户的正常通信，易被抵御识别。

技术的发展伴随着攻防两方的博弈。匿名网络流量关联技术的研究也促使匿名通信技术和流量混淆技术的更新，以防避溯源和审计。近年来出现了许许多多的流量混淆技术，主要分为随机化混淆技术、流量类型伪装技术、隧道混淆技术、混淆网络技术等。随机化混淆技术通过数据包随机填充、传输时序随机化调整、传输间隔随机化调节等手段来混淆流量传输特征，达到流量特征隐藏的目的。Tor网络使用了obfs4混淆技术来实现这一功能。流量类型伪装技术通过整形拟合另一种流量类型特征来将网络流量伪装成其他应用流量，从而绕过监管。典型技术是Meek类型伪装技术，Meek网桥将Tor的网络流量伪装成访问微软Azure或亚马逊云服务，使匿名用户看起来像在使用Microsoft网站。Dyer KP等人公开的FTE(format-transforming encryption)也属于这种混淆技术。隧道混淆技术将发送端流量先通过网络隧道传输至代理服务器，通过利用代理服务器与目标节点进行通信，实现对真正通信源的隐藏。Flshproxy和Snowflake都属于这种技术，其中Snowflake通过WebRTC发送流量。混淆网络技术是近年来出现的一种新兴的网络混淆技术，典型的是Nym隐私平台，Nym专注于为构建在区块链网络上的去中心化应用程序(dApp)提供隐私和匿名性。它旨在通过使用基于Sphinx匿名通信协议的混淆网络系统保护用户身份和交易元数据。Nym允许dApp通过一组混合节点路由其流量，通过将数据包打撒封装、随机化混淆以及多路并传的方式混淆交易的来源和目的地，为用户提供隐私保护。

上述流量混淆技术极大的模糊了网络流量的数据包特征，数据包传输特征以及流量统计特征，不仅使得直接的统计特征匹配失效，还能够破坏水印调制信号、阻碍人工智能特征抽取、抹平流量指纹特异性，造成上述技术难以成效的结果。此外，主动渗透技术由于其知识门槛高、专用性强、且需要干扰匿名通信双方的正常通信，仅仅适用于非常有限的应用场景。

综上所述，当今不断增强的流量混淆技术增加了传统匿名网络流量关联技术抽取流量特征的难度，降低甚至解除了现有匿名网络流量关联技术的有效性，使其难以满足网络监控、溯源工作的实际需求。因此，亟需针对不断更新的流量混淆技术，研发先进匿名网络流量关联技术，从而保持网络监控的技术优势，防范和打击网络犯罪。

发明内容

本发明的目的在于克服现有技术的不足，提供一种基于混淆执行特征识别的匿名网络流量关联方法及装置，解决了由于匿名通信网络使用了先进流量混淆技术而使得传统的匿名网络流量关联技术难以对匿名通信双方进行有效关联的技术问题。

本发明的目的是通过以下方案实现的：

一种基于混淆执行特征识别的匿名网络流量关联方法，包括以下步骤：

S1，指定多水印生成方式：为网络流量指定多水印的构成与组合方式；

S2，同步多水印生成方式到发送端与接收端：将选择的多水印生成方式同步到发送端和接收端，确保发送端和接收端对水印的处理方式一致，并进行信息同步；

S3，在发送端执行多流量水印注入配置：配置发送端流量水印注入模块，使其能够根据指定的方式注入水印；在发送端接收到多水印生成方式的同步信号后，通过内部进程完成发送端流量水印注入模块的配置；

在接收端执行水印特征消除配置：配置接收端水印特征消除模块，使其能够消除水印特征；在接收端接收到多水印生成方式的同步信号后，通过内部进程完成接收端水印特征消除模块的配置；

S4，启动接收端流量水印特征消除：在接收端根据步骤S3的配置，开启水印特征消除功能；

S5，启动发送端水印注入：在发送端根据步骤S3的配置，启动实际执行流量水印的注入；

S6，启动发送端与接收端的流量镜像转发：启动镜像转发，即将发送端和接收端的流量信息进行复制并转发至指定的位置，用于后续的流量关联分析；

S7，控制台接收监听流量并预处理：控制台接收到镜像转发的流量信息，并对其进行预处理；

S8，使用人工智能模型执行流量关联：将预处理后的流量数据输入到人工智能模型中，进行流量关联分析；

S9，将流量关联的结果进行呈现。

进一步地，在步骤S1中，包括子步骤：

水印的构成用水印集合W＝{w₁,w₂,w₃...,w_n}形式化表达，其中w_i表示第i种水印模式，1<＝i<＝n；

水印的组合方式包括多水印的同期混合，按照时序的动态切换，或者是这两种方式的混合使用；其中，水印的组合用映射函数f:T->2^W表达，T为时间序列T＝{t₁,t₂,t₃...,t_m}，元素t_j表示第j个时间点或时间段，1<＝j<＝m，2^W表示W的幂集，f将时间序列T映射到W的幂集，表示在每个时间点或时间段应用的水印模式的组合；对于每个时间点t_j，有f(t_j)＝{w_i1,w_i2,...,w_ik}，其中{w_i1,w_i2,...,w_ik}是W的一个子集，表示在时间点t_j应用的所有水印模式。

进一步地，在步骤S2中，所述进行信息同步，具体包括通过网络协议或者API接口实现模块间的信息同步。

进一步地，在步骤S3中，在接收端执行水印特征消除配置中，包括子步骤：如果水印在经过匿名服务网络的流量混淆作用之后已经变得模糊，则配置为不做任何动作。

进一步地，在步骤S6中，所述镜像转发，包括子步骤：通过网络设备或软件工具或利用开源代码进行二次开发实现流量信息的镜像转发。

进一步地，在步骤S7中，所述预处理包括子步骤：将原始的网络流量转化为匹配后续分析的格式，提取后续分析有用的特征，去除无用的数据，使用数据处理工具和编程语言实现预处理。

进一步地，在步骤S8中，所述将预处理后的流量数据输入到人工智能模型中，进行流量关联分析，具体包括子步骤：

使用深度学习的方法通过抽取非线性和高维关联特征来处理时序的流量数据，得到两个网络节点之间进行通信的概率；

或采用机器学习方法通过二分类问题的求解来进行相关或不相关的判断。

进一步地，在步骤S9中，所述将流量关联的结果进行呈现，具体包括子步骤：使用数据可视化工具，或者生成报告文档，使用户能够直观地理解流量关联的结果，便于进行决策或进一步的分析。

进一步地，在步骤S9之后，还包括步骤：

S10，关闭发送端流量水印注入：停止发送端的水印注入功能，在完成流量关联分析后，恢复网络流量的正常状态；

关闭接收端流量水印特征消除：停止接收端的水印特征消除功能，在完成流量关联分析后，恢复网络流量的正常状态。

一种基于混淆执行特征识别的匿名网络流量关联装置，包括：

所述任务协同管理模块、多水印构成与组合方式指定模块、流量水印注入模块、发送端监听模块、接收端监听模块、水印特征消除模块、监听数据接收模块、人工智能流量关联模块和关联结果输出模块；

所述任务协同管理模块，用于运行启断控制、时序协同以及水印模式的设定和人工智能判定模型的选择；

所述多水印构成与组合方式指定模块，用于存储预定义的水印模式集合，每个模式的具体特征，以及水印模式的组合方式；

所述流量水印注入模块，用于根据设定的水印模式及其组合方式，将水印信号注入到通信源发出的流量中；

所述发送端监听模块，用于监听注入水印后的流量，并进行流量信息镜像转发；

所述接收端监听模块，用于监听通过匿名服务网络混淆后的流量，对流量信息进行镜像转发；

所述水印特征消除模块，用于根据设定的水印模式，消除通信流量中的水印特征，使流量恢复到无水印的状态；

所述监听数据接收模块，用于接收发送端监听模块和接收端监听模块发送的流量信息数据，并进行数据预处理；

所述人工智能流量关联模块，用于将预处理后的流量信息数据输入到选定的人工智能模型中，进行流量关联分析；

所述关联结果输出模块，用于将流量关联的结果进行呈现。

本发明的有益效果包括：

本发明提出了基于混淆策略执行特征识别的匿名网络流量关联方法及装置。突破现有匿名网络流量关联技术利用某些流量特征在收发两端的一致性来关联匿名网络流量的传统思路，创新性的通过识别匿名通信网络中所使用的流量混淆技术对流水印的损伤过程的固有特征来关联匿名网络流量，实现了在流量混淆技术防御下对匿名网络流量的有效关联。

在实现方案中，本发明没有采取传统流水印关联方法所使用的在接收端匹配从发送端注入的流水印特征的识别方式，而是将水印信号作为基础信号，通过在接收端观测其被流量混淆机制作用的整形结果，抽取匿名网络混淆机制执行的固有特征，利用人工智能模型拟合的方式获取关联概率，以此规避因为流水印受到混淆技术的破坏而关联失效的问题。其次，本发明采用同期混合或动态切换多种水印模式的多水印生成方法，通过不同的水印模式从多个角度感知流量混淆技术的混淆作用，增大流量混淆执行特征抽取的覆盖范围。同时，若以指定的时序对水印模式进行串行连接，还能够检测出混淆策略对不同水印的影响的时序特征，进一步丰富流量特征层次，提高识别准确性。最后，本技术利用人工智能识别与流水印技术配合执行流量关联，充分利用人工智能模型，尤其是深度学习模型对流量形变中的多维特征的高敏感、高效率的抽取和拟合能力，有利于实现更高准确率的匿名网络流量关联识别。

本发明通过多水印与人工智能识别协同的流量关联机制，不需要在接收端通过水印比对的方式匹配水印模式，因此回避了因为流水印受到混淆技术的破坏而关联失效的问题。人工智能模型训练技术能够自动地从流量数据中发现关联模式，提高了流量关联的效率。此外，这种方法还可以处理非线性和复杂的关联模式，提高了流量关联的适用性和准确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的匿名网络流量关联场景模型；

图2为本发明实施例的匿名网络流量关联总体流程；

图3为本发明实施例的匿名网络流量关联任务执行流程；

图4为本发明实施例的匿名网络流量关联装置；

图5为本发明实施例的循环多流量水印；

图6为本发明实施例的深度学习关联识别。

具体实施方式

本说明书中所有实施例公开的所有特征，或隐含公开的所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以以任何方式组合和/或扩展、替换。

本发明技术方案应用于如图1所示的匿名网络流量关联场景。图中通信源1、2、3直到i与通信目标1、2、3直到k利用包含中继1、2、3直到j的匿名服务网络展开匿名通信。本场景需要在通信源与入口中继节点之间、和出口中继节点与通信目标之间分别设置发送端监听和接收端监听设施，从而实现对通信源端流量和通信目标端流量的监听。在图1所示场景中，信源1与中继1之间部署发送端监听设施。该设施可以部署在信源1出口上，或中继1的相应入口上，或二者之间的流量转发设备上，这里统一以信源1与中继1连接线的中点表示，记为发11。同理有发送端监听点发21、发34、发i7。中继3与目标1之间部署接收端监听设施。该设施可以部署在中继3的相应出口上，或目标1入口上，或二者之间的流量转发设备上，这里统一以中继3与目标1连接线的中点表示，记为收31。同理有接收端监听点收62、收63、收9k。在这些通信源节点与通信目标节点分别对外通信过程中，通过发送端监听和接收端监听能够捕获到相应位置的网络流量，匿名网络流量关联的目标是识别出正在进行通信的信源节点和目标节点。例如在图1中，需要通过流量信息关联识别出信源2正在与目标3通信，而信源i正在与目标1通信。

本发明总体上使用了多流量水印与人工智能识别协同的流量关联机制，总体流程如图2所示。依次包含如下步骤：

1)从发送端向匿名网络流量注入多水印

流量水印向数据流中注入特定模式，用于后续的检测和识别。可以通过对包载荷、流量速率、包时间、包数量、包长度、包顺序等流量特征的调整整形来实现。本发明不固定使用某种特定模式的单水印，而以同期混合或动态切换多种水印模式的方法来从多个角度感知信道的流量混淆干扰，从而提取出信道的流量混淆机制执行中的更加丰富的特征。

2)在发送端和接收端监听匿名网络流量

此步骤旨在获取网络流量的原始数据，为后续的流量关联分析提供数据基础。可以使用Wireshark或TCPDUMP等流量嗅探工具捕获流经网络接口的所有数据包，也可以利用DPDK等开源的高性能数据包处理框架接收和转发网络设备上的数据包，实现匿名网络流量的监听。

3)使用人工智能识别模型执行流量关联

人工智能识别模型通过学习大量的流量样本，提取出匿名通信网络中所使用的流量混淆机制对流水印的损伤过程的代表性特征，进行流量关联分析。可以使用深度学习的方法，如卷积神经网络(CNN)或者长短期记忆网络(LSTM)，来处理时序的流量数据，得到两个网络节点之间进行通信的概率。或采用决策树、朴素贝叶斯、K近邻算法等经典机器学习方法通过二分类问题的求解来进行相关或不相关的判断。

通过多水印与人工智能识别协同的流量关联机制，不需要在接收端通过水印比对的方式匹配水印模式，因此回避了因为流水印受到混淆技术的破坏而关联失效的问题。人工智能模型训练技术能够自动地从流量数据中发现关联模式，提高了流量关联的效率。此外，这种方法还可以处理非线性和复杂的关联模式，提高了流量关联的适用性和准确性。

在进一步的实施方式中，本发明实施例的匿名网络流量关联任务执行流程如图3所示，依次包含如下步骤：

1)指定多水印生成方法

为网络流量指定多水印的构成与组合的方式。水印的构成用水印集合W＝{w₁,w₂,w₃...,w_n}形式化表达，其中w_i(1<＝i<＝n)表示第i种水印模式，例如时间间隔、包大小调整、频率模型等。水印的组合方式可以是多水印的同期混合，也可以是按照某种时序的动态切换，或者是这两种方式的混合使用。水印的组合用映射函数f:T->2^W表达，T为时间序列T＝{t₁,t₂,t₃...,t_m}，元素t_j(1<＝j<＝m)表示第j个时间点或时间段，2^W表示W的幂集(也就是W所有可能的子集的集合)，f将时间序列T映射到W的幂集，表示在每个时间点或时间段应用的水印模式的组合。对于每个时间点t_j，有f(t_j)＝{w_i1,w_i2,...,w_ik}，其中{w_i1,w_i2,...,w_ik}是W的一个子集，表示在时间点t_j应用的所有水印模式。

2)同步多水印生成方式到发送端与接收端

将选择的多水印生成方法同步到发送端和接收端。确保发送端和接收端对水印的处理方式一致，可以准确地注入和清除水印。可以通过网络协议或者API接口实现模块间的信息同步。

3)发送端执行多流量水印注入配置

配置发送端流量水印注入模块，使其能够根据指定的方式注入水印。在发送端接收到多水印生成方法的同步信号后，通过内部进程完成模块的配置。

4)接收端执行水印特征消除配置

配置接收端水印特征消除模块，使其能够消除水印特征，从而避免被恶意分析者检测到。在接收端接收到多水印生成方法的同步信号后，通过内部进程完成模块的配置。如果水印在经过匿名服务网络的流量混淆作用之后已经变得非常模糊不易察觉，也可以配置为不做任何动作。

5)启动接收端流量水印特征消除

接收端根据第4步的配置，开启水印特征消除功能。可以通过网络协议或者API接口实现启动信号传输。

6)启动发送端水印注入

发送端根据第3步的配置，启动实际执行流量水印的注入，为后续的流量关联提供基础。可以通过网络协议或者API接口实现启动信号传输。这个步骤应该在第5步之后进行，以确保注入的水印能够不被匿名通信接收方所捕获。

7)启动发送端与接收端的流量镜像转发

启动镜像转发，即将发送端和接收端的流量信息进行复制并转发至指定的位置，用于后续的流量关联分析。可以通过网络设备(如交换机、路由器)或软件工具(如Wireshark、TCPDUMP、iptables、tc等)或利用开源代码进行二次开发(DPDK)实现流量信息的镜像转发。

8)控制台接收监听流量并预处理

控制台接收到镜像转发的流量信息，并对其进行预处理。将原始的网络流量转化为适合后续分析的格式，提取有用的特征、去除无用的数据等。可以使用数据处理工具和编程语言(如Python、R等)实现预处理。

9)使用人工智能模型执行流量关联

将预处理后的流量数据输入到人工智能模型中，进行流量关联分析。可以使用深度学习的方法，如卷积神经网络(CNN)或者长短期记忆网络(LSTM)，来处理时序的流量数据，得到两个网络节点之间进行通信的概率。或采用决策树、朴素贝叶斯、K近邻算法等经典机器学习方法通过二分类问题的求解来进行相关或不相关的判断。建议使用深度学习的方法(如CNN、LSTM等)抽取非线性和复杂的高维关联特征，提高流量关联的适用性和准确性。

10)流量关联结果呈现

将流量关联的结果进行可视化或其他形式的呈现。使用户能够直观地理解流量关联的结果，便于进行决策或进一步的分析。可以使用数据可视化工具(如Matplotlib、Seaborn等)，或者生成报告文档(如Word、PDF等)。

11)关闭发送端流量水印注入

停止发送端的水印注入功能。在完成流量关联分析后，恢复网络流量的正常状态。可以通过网络协议或者API接口实现关闭信号传输。

12)关闭接收端流量水印特征消除

停止接收端的水印特征消除功能。在完成流量关联分析后，恢复网络流量的正常状态。可以通过网络协议或者API接口实现关闭信号传输。

13)关闭发送端与接收端的流量镜像转发

停止流量信息的镜像转发。在完成流量关联分析后，恢复网络的初始通信状态。发送端和接收端应分别在第11步和第12步执行时或执行后直接关闭流量的镜像转发。

本发明还提供一种匿名网络流量关联装置的技术方案，涉及匿名网络流量关联装置如图4所示。图中灰色模块是匿名通信双方利用匿名服务网络进行私密通信的自有业务模块，分为通信源、匿名服务网络流量混淆、通信目标三个模块。其中匿名服务网络流量混淆将使用流量混淆技术隐蔽通信源和通信目标之间的通信关系。白色模块是本发明所提出的匿名网络流量关联方法的执行模块，分为任务协同管理、多水印构成与组合方式指定、流量水印注入、发送端监听、接收端监听、水印特征消除、监听数据接收、人工智能流量关联、关联结果输出九个模块。用实线箭头表示匿名通信数据流，虚线箭头表示流量关联工作的相关控制流量和数据流量。

其中任务协同管理模块由系统操作员控制负责整个系统运行的启断控制、时序协同以及水印模式的设定和人工智能判定模型的选择；多水印构成与组合方式指定模块负责存储预定义的水印模式集合，每个模式的具体特征，以及水印模式的组合方式(包括同时间混合使用以及动态切换等)；流量水印注入模块根据设定的水印模式及其组合方式，将水印信号注入到通信源发出的流量中；发送端监听模块监听注入水印后的流量，并进行流量信息镜像转发；接收端监听模块则监听通过匿名服务网络混淆后的流量，对流量信息进行镜像转发；水印特征消除模块根据设定的水印模式，消除通信流量中的水印特征，使流量恢复到无水印的状态；监听数据接收模块负责接收发送端监听模块和接收端监听模块发送的流量信息数据，并进行数据预处理；人工智能流量关联模块则是将预处理后的流量信息数据输入到选定的人工智能模型中，进行流量关联分析；关联结果输出模块则将流量关联的结果进行可视化或以其他方式进行呈现，便于操作员进行决策或进一步的分析。以上九个模块协同工作，共同实现匿名网络流量关联功能。

在发明实施例中，多流量水印示例如下：图5展示了一种多水印的生成方法示例。图中使用的多水印由基于流量速率的水印设计、基于数据包间延迟的水印设计、基于间隔质心的水印设计三种水印模式构成。这三种水印模式的调制函数分别为：

流量速率调制函数：R_i＝R+w_i*Δ

R_i表示第i个时间段的流量速率。R是基本的流量速率。w_i是第i个水印位，如果w_i为1，那么增加额外的速率Δ；如果w_i为0，那么速率保持不变。Δ是水印的单位额外速率。基于流量速率的水印设计的优点是在数据流量较大的环境下表现较好，隐藏性较高，且不易被简单的时间扰动破解。缺点是可能受到网络拥塞、带宽限制等因素的影响，且在数据流量较小的环境下可能会影响水印的准确度。

包间延迟调制函数：T_i＝T_i-1+D+w_i*Δ

T_i表示第i个数据包的发送时间。T_i-1表示第i-1个数据包的发送时间。D是固定的数据包间延迟。w_i是第i个水印位，如果w_i是1，那么就增加额外的延迟Δ；如果w_i是0，那么就不增加。Δ是单位水印延迟。基于数据包间延迟的水印设计的优点是隐藏性好，不易被察觉。而且即使网络有一定的延迟抖动，只要这个抖动小于我们设定的水印延迟Δ，则仍然可以准确地提取出水印。

间隔质心调制函数：G_i＝Σ(w_i*l_i)/Σ(l_i)

G_i表示第i个质心的位置。w_i是第i个水印位的权重，我们可以根据w_i调整质心的位置。l_i是第i个间隔的时间。基于间隔质心的水印设计的优点是它在面对网络延迟抖动时有更好的稳定性，因为质心的位置不会因为单个间隔的微小改变而发生大的偏移。同时，这种方法也提供了一种在网络流量中隐藏更多信息的可能。缺点是计算复杂性相对较高，需要在每个水印位处进行质心的计算。而且如果网络有大规模的数据包丢弃，可能会对质心的位置造成影响，这需要在实际应用中进行考虑。

上述水印模式按照相同的时间周期串行循环切换，切换周期Δt＝5s。通过以上方式构造的多水印可以在流量中注入不同的特性，亦将在经过匿名通信网络时被流量混淆技术施加不同程度的影响，从而更容易通过对发送端和接收端流量的差异的提炼抽取出多维度的通信线路固有特征，从而实现匿名流量的关联。

在发明实施例中，人工智能模型示例如下：图6展示了在流量关联系统中使用卷积神经网络(CNN)模型执行匿名流量关联的示例。CNN是一种深度学习模型，主要用于处理具有网格结构数据的任务，通过一系列的卷积层、池化层和全连接层来提取特征并进行分类或回归。与经典机器学习模型相比，CNN能够自动学习和提取输入数据中的特征，不需要手动设计特征。选择CNN的另一个重要原因是本应用场景中的网络流量可以被建模为时间序列，CNN在处理时间序列方面具有良好的性能。

本实施例中，CNN的输入输出的关系函数为：p_i,k＝Θ(F_i,k)。其中i为通信源的编号，k为通信目标的编号。函数的输入为F_i,k,，表示经过预处理之后的发送端i和接收端k的组合监听数据。F_i,k,可以进一步展开为F_i,k＝[T_i ^u；T_k ^u；T_i ^d；T_k ^d]，其中T_i ^u为信源i的上行流量的时间戳序列；T_k ^u为目标k的上行流量的时间戳序列；T_i ^d为信源i的下行流量的时间戳序列；T_k ^d为目标k的下行流量的时间戳序列。如果本例中所配置的多水印生成方式采取了第5节中的基于流量速率、基于数据包间延迟、基于间隔质心的水印模式，那么对于一对待关联节点来说，上述四个时间序列就能够包含所有的水印相关的特征信息，可以作为流量关联的完整输入。函数的输出为p_i,k，表示信源i和目标k之间通信关联的概率，p_i,k∈[0,1]。

CNN的训练可以用y_i,k＝1作为正样本来标记相关的流量对，反之用y_i,k＝0作为负样本来标记不相关的流量对，采用以交叉熵为损失函数的经典深度学习训练方法进行。

需要说明的是，在本发明权利要求书中所限定的保护范围内，以下实施例均可以从上述具体实施方式中，例如公开的技术原理，公开的技术特征或隐含公开的技术特征等，以合乎逻辑的任何方式进行组合和/或扩展、替换。

实施例1

S9，将流量关联的结果进行呈现。

实施例2

在实施例1的基础上，在步骤S1中，包括子步骤：

实施例3

在实施例1的基础上，在步骤S2中，所述进行信息同步，具体包括通过网络协议或者API接口实现模块间的信息同步。

实施例4

在实施例1的基础上，在步骤S3中，在接收端执行水印特征消除配置中，包括子步骤：如果水印在经过匿名服务网络的流量混淆作用之后已经变得模糊，则配置为不做任何动作。

实施例5

在实施例1的基础上，在步骤S6中，所述镜像转发，包括子步骤：通过网络设备或软件工具或利用开源代码进行二次开发实现流量信息的镜像转发。

实施例6

在实施例1的基础上，在步骤S7中，所述预处理包括子步骤：将原始的网络流量转化为匹配后续分析的格式，提取后续分析有用的特征，去除无用的数据，使用数据处理工具和编程语言实现预处理。

实施例7

在实施例1的基础上，在步骤S8中，所述将预处理后的流量数据输入到人工智能模型中，进行流量关联分析，具体包括子步骤：

实施例8

在实施例1的基础上，在步骤S9中，所述将流量关联的结果进行呈现，具体包括子步骤：使用数据可视化工具，或者生成报告文档，使用户能够直观地理解流量关联的结果，便于进行决策或进一步的分析。

实施例9

在实施例1的基础上，在步骤S9之后，还包括步骤：

实施例10

任务协同管理模块、多水印构成与组合方式指定模块、流量水印注入模块、发送端监听模块、接收端监听模块、水印特征消除模块、监听数据接收模块、人工智能流量关联模块和关联结果输出模块；

所述关联结果输出模块，用于将流量关联的结果进行呈现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现，所描述的单元也可以设置在处理器中。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。

根据本发明实施例的一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各种可选实现方式中提供的方法。

作为另一方面，本发明实施例还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被一个该电子设备执行时，使得该电子设备实现上述实施例中所述的方法。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

上述技术方案只是本发明的一种实施方式，对于本领域内的技术人员而言，在本发明公开了应用方法和原理的基础上，很容易做出各种类型的改进或变形，而不仅限于本发明上述具体实施方式所描述的方法，因此前面描述的方式只是优选的，而并不具有限制性的意义。

除以上实例以外，本领域技术人员根据上述公开内容获得启示或利用相关领域的知识或技术进行改动获得其他实施例，各个实施例的特征可以互换或替换，本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于混淆执行特征识别的匿名网络流量关联方法，其特征在于，包括以下步骤：

S9，将流量关联的结果进行呈现。

2.根据权利要求1所述的基于混淆执行特征识别的匿名网络流量关联方法，其特征在于，在步骤S1中，包括子步骤：

3.根据权利要求1所述的基于混淆执行特征识别的匿名网络流量关联方法，其特征在于，在步骤S2中，所述进行信息同步，具体包括通过网络协议或者API接口实现模块间的信息同步。

4.根据权利要求1所述的基于混淆执行特征识别的匿名网络流量关联方法，其特征在于，在步骤S3中，在接收端执行水印特征消除配置中，包括子步骤：如果水印在经过匿名服务网络的流量混淆作用之后已经变得模糊，则配置为不做任何动作。

5.根据权利要求1所述的基于混淆执行特征识别的匿名网络流量关联方法，其特征在于，在步骤S6中，所述镜像转发，包括子步骤：通过网络设备或软件工具或利用开源代码进行二次开发实现流量信息的镜像转发。

6.根据权利要求1所述的基于混淆执行特征识别的匿名网络流量关联方法，其特征在于，在步骤S7中，所述预处理包括子步骤：将原始的网络流量转化为匹配后续分析的格式，提取后续分析有用的特征，去除无用的数据，使用数据处理工具和编程语言实现预处理。

7.根据权利要求1所述的基于混淆执行特征识别的匿名网络流量关联方法，其特征在于，在步骤S8中，所述将预处理后的流量数据输入到人工智能模型中，进行流量关联分析，具体包括子步骤：

8.根据权利要求1所述的基于混淆执行特征识别的匿名网络流量关联方法，其特征在于，在步骤S9中，所述将流量关联的结果进行呈现，具体包括子步骤：使用数据可视化工具，或者生成报告文档，使用户能够直观地理解流量关联的结果，便于进行决策或进一步的分析。

9.根据权利要求1所述的基于混淆执行特征识别的匿名网络流量关联方法，在步骤S9之后，还包括步骤：

10.一种基于混淆执行特征识别的匿名网络流量关联装置，其特征在于，包括：

所述关联结果输出模块，用于将流量关联的结果进行呈现。