CN117240799B

CN117240799B - 用于汇聚分流设备的报文去重方法及其系统

Info

Publication number: CN117240799B
Application number: CN202311523048.6A
Authority: CN
Inventors: 吴梓聪
Original assignee: Beijing Zhongke Network Core Technology Co ltd
Current assignee: Beijing Zhongke Network Core Technology Co ltd
Priority date: 2023-11-16
Filing date: 2023-11-16
Publication date: 2024-02-02
Anticipated expiration: 2043-11-16
Also published as: CN117240799A

Abstract

本申请公开了一种用于汇聚分流设备的报文去重方法及其系统。其首先获取待处理汇聚分流设备在预定时间段内多个预定时间点的网络流量数据和报文数据，接着，从所述报文数据中提取报文特征，然后，对所述各个预定时间点的报文特征进行特征间时序关联编码以得到报文特征间时序关联特征，接着，对所述多个预定时间点的网络流量数据进行时序特征分析以得到网络流量时序特征，然后，对所述报文特征间时序关联特征和所述网络流量时序特征进行特征融合分析以得到报文特征‑网络流量时序融合特征，最后，基于所述报文特征‑网络流量时序融合特征，确定增大去重表的容量或者减小去重表的容量。这样，可以有效减少网络流量和存储空间的占用。

Description

用于汇聚分流设备的报文去重方法及其系统

技术领域

本申请涉及汇聚分流设备领域，且更为具体地，涉及一种用于汇聚分流设备的报文去重方法及其系统。

背景技术

汇聚分流设备是网络中常用的设备之一，用于将来自不同源的数据流汇聚到一个或多个目标设备上。在汇聚过程中，可能会存在大量的重复报文，这些重复报文将严重影响网络处理器的处理、传输速度，导致汇聚分流设备处理性能较低，并会增加网络负载和处理开销。因此，需要使用报文去重方法来识别和删除重复的报文，以提高网络性能和效率。

报文去重是一种在汇聚分流设备中提高网络效率和安全性的技术，它可以消除网络中重复的报文，从而减少网络负载和延迟。报文去重的核心是去重表，它是一种存储报文特征的数据结构，用于判断报文是否重复。去重表的设计和管理对去重系统的性能和适应性有着重要的影响。然而，传统的去重表设计管理通常采用固定的参数和策略，例如固定的表大小、哈希算法和清理策略等，这些参数和策略往往不能适应网络流量的动态变化，导致去重效果不理想或者资源浪费。

因此，期望一种优化的用于汇聚分流设备的报文去重方案。

发明内容

有鉴于此，本申请提出了一种用于汇聚分流设备的报文去重方法及其系统，其可以有效地减少网络流量和存储空间的占用，同时也可以防止重放攻击等网络威胁。

根据本申请的一方面，提供了一种用于汇聚分流设备的报文去重方法，其包括：

获取待处理汇聚分流设备在预定时间段内多个预定时间点的网络流量数据和报文数据；

从所述报文数据中提取报文特征，其中，所述报文特征包括报文的大小、协议类型、源地址和目的地址；

对所述各个预定时间点的报文特征进行特征间时序关联编码以得到报文特征间时序关联特征；

对所述多个预定时间点的网络流量数据进行时序特征分析以得到网络流量时序特征；

对所述报文特征间时序关联特征和所述网络流量时序特征进行特征融合分析以得到报文特征-网络流量时序融合特征；以及

基于所述报文特征-网络流量时序融合特征，确定增大去重表的容量或者减小去重表的容量。

根据本申请的另一方面，提供了一种用于汇聚分流设备的报文去重系统，其包括：

数据获取模块，用于获取待处理汇聚分流设备在预定时间段内多个预定时间点的网络流量数据和报文数据；

报文特征提取模块，用于从所述报文数据中提取报文特征，其中，所述报文特征包括报文的大小、协议类型、源地址和目的地址；

特征间时序关联编码模块，用于对所述各个预定时间点的报文特征进行特征间时序关联编码以得到报文特征间时序关联特征；

时序特征分析模块，用于对所述多个预定时间点的网络流量数据进行时序特征分析以得到网络流量时序特征；

特征融合分析模块，用于对所述报文特征间时序关联特征和所述网络流量时序特征进行特征融合分析以得到报文特征-网络流量时序融合特征；以及

去重表容量分析模块，用于基于所述报文特征-网络流量时序融合特征，确定增大去重表的容量或者减小去重表的容量。

根据本申请的实施例，其首先获取待处理汇聚分流设备在预定时间段内多个预定时间点的网络流量数据和报文数据，接着，从所述报文数据中提取报文特征，然后，对所述各个预定时间点的报文特征进行特征间时序关联编码以得到报文特征间时序关联特征，接着，对所述多个预定时间点的网络流量数据进行时序特征分析以得到网络流量时序特征，然后，对所述报文特征间时序关联特征和所述网络流量时序特征进行特征融合分析以得到报文特征-网络流量时序融合特征，最后，基于所述报文特征-网络流量时序融合特征，确定增大去重表的容量或者减小去重表的容量。这样，可以有效减少网络流量和存储空间的占用。

根据下面参考附图对示例性实施例的详细说明，本申请的其它特征及方面将变得清楚。

附图说明

包含在说明书中并且构成说明书的一部分的附图与说明书一起示出了本申请的示例性实施例、特征和方面，并且用于解释本申请的原理。

图1示出根据本申请的实施例的用于汇聚分流设备的报文去重方法的流程图。

图2示出根据本申请的实施例的用于汇聚分流设备的报文去重方法的架构示意图。

图3示出根据本申请的实施例的用于汇聚分流设备的报文去重方法的子步骤S130的流程图。

图4示出根据本申请的实施例的用于汇聚分流设备的报文去重方法的子步骤S140的流程图。

图5示出根据本申请的实施例的用于汇聚分流设备的报文去重系统的框图。

图6示出根据本申请的实施例的用于汇聚分流设备的报文去重方法的应用场景图。

具体实施方式

下面将结合附图对本申请实施例中的技术方案进行清楚、完整地描述，显而易见地，所描述的实施例仅仅是本申请的部分实施例，而不是全部的实施例。基于本申请实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，也属于本申请保护的范围。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其他的步骤或元素。

以下将参考附图详细说明本申请的各种示例性实施例、特征和方面。附图中相同的附图标记表示功能相同或相似的元件。尽管在附图中示出了实施例的各种方面，但是除非特别指出，不必按比例绘制附图。

另外，为了更好的说明本申请，在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解，没有某些具体细节，本申请同样可以实施。在一些实例中，对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述，以便于凸显本申请的主旨。

报文去重方法是一种用于汇聚分流设备的技术，它可以在不影响报文传输的情况下，消除报文的重复内容，从而提高网络效率和安全性。报文去重方法的基本原理是，对每个报文进行哈希计算，得到一个唯一的标识符，然后将该标识符与已经处理过的报文的标识符进行比较，如果发现重复，则丢弃该报文，否则，将该报文转发给目的地址。报文去重方法可以有效地减少网络流量和存储空间的占用，同时也可以防止重放攻击等网络威胁。

具体地，在本申请的技术方案中，提出了一种用于汇聚分流设备的报文去重方法，其能够对于汇聚分流设备的网络流量变化趋势和特征，例如流量的峰值、波动性、流量类型等进行分析，以了解当前网络环境的特点，并基于这些信息来动态地调整去重表的大小，以适应不同的流量负载。具体来说，如果网络流量增加，可以增加去重表的容量，以确保足够的去重效果；反之，如果网络流量减少，可以减小去重表的容量，以节省资源。

基于此，本申请的技术构思为通过监控汇聚分流设备的网络流量数据和报文数据，并在后端引入数据处理和分析算法来进行该汇聚分流设备的网络流量变化和报文特征的分析，以实时地优化去重表的大小，通过这样的方式，能够自动调整去重算法的参数和策略，实现了自适应的去重表管理，从而能够提高去重系统的性能和适应性，优化汇聚分流设备的报文去重效果和效率。

图1示出根据本申请的实施例的用于汇聚分流设备的报文去重方法的流程图。图2示出根据本申请的实施例的用于汇聚分流设备的报文去重方法的架构示意图。如图1和图2所示，根据本申请实施例的用于汇聚分流设备的报文去重方法，包括步骤：S110，获取待处理汇聚分流设备在预定时间段内多个预定时间点的网络流量数据和报文数据；S120，从所述报文数据中提取报文特征，其中，所述报文特征包括报文的大小、协议类型、源地址和目的地址；S130，对所述各个预定时间点的报文特征进行特征间时序关联编码以得到报文特征间时序关联特征；S140，对所述多个预定时间点的网络流量数据进行时序特征分析以得到网络流量时序特征；S150，对所述报文特征间时序关联特征和所述网络流量时序特征进行特征融合分析以得到报文特征-网络流量时序融合特征；以及，S160，基于所述报文特征-网络流量时序融合特征，确定增大去重表的容量或者减小去重表的容量。

具体地，在本申请的技术方案中，首先，获取待处理汇聚分流设备在预定时间段内多个预定时间点的网络流量数据和报文数据。应可以理解，报文的大小、协议类型、源地址和目的地址是常见的报文特征，它们可以提供有关于报文的关键信息来判断报文是否重复，因此，需要从所述报文数据中提取报文特征，其中，所述报文特征包括报文的大小、协议类型、源地址和目的地址。

接着，考虑到每个预定时间点的报文特征中的各个数据参数之间都具有着关联关系，这种关联关系对于报文的特征分析和去重具有重要意义。因此，在本申请的技术方案中，进一步对所述各个预定时间点的报文特征进行编码以得到多个报文编码向量。通过这样的编码方式，能够捕捉到每个所述预定时间点下的报文特征中的各个数据参数之间的关联特征信息，并且将这种关联特征转化为向量表示，以便计算机能够理解和处理。

然后，还考虑到所述报文特征中的各个数据参数不仅在样本维度上具有着关联关系，而且在时间维度上还具有着时序的动态变化特性。也就是说，在报文去重的过程中，报文通常是按照时间顺序到达的，而报文的特征之间存在一定的时序关联性关系。因此，在本申请的技术方案中，进一步将所述多个报文编码向量通过基于Bi-LSTM模型的时序上下编码器中进行编码，以提取出所述各个报文特征之间的时序关联特征信息，从而得到报文特征间时序关联特征向量。

相应地，如图3所示，对所述各个预定时间点的报文特征进行特征间时序关联编码以得到报文特征间时序关联特征，包括：S131，对所述各个预定时间点的报文特征进行编码以得到多个报文编码向量；以及，S132，将所述多个报文编码向量通过基于Bi-LSTM模型的时序上下编码器以得到报文特征间时序关联特征向量作为所述报文特征间时序关联特征。

值得一提的是，Bi-LSTM（Bidirectional Long Short-Term Memory）模型是一种循环神经网络（Recurrent Neural Network，RNN）的变体，它在处理序列数据时能够捕捉到前后时序的信息。传统的LSTM模型在处理序列数据时只考虑了当前时刻之前的上下文信息，而Bi-LSTM模型则在每个时刻同时考虑了当前时刻之前和之后的上下文信息。它由两个独立的LSTM层组成，一个按正序处理输入序列，另一个按逆序处理输入序列。这样，Bi-LSTM模型能够同时捕捉到过去和未来的上下文信息，从而更好地理解和建模序列数据。在报文特征的时序关联编码中，步骤S132中提到的基于Bi-LSTM模型的时序上下编码器就是指利用Bi-LSTM模型对多个报文编码向量进行编码，以获取报文特征间的时序关联特征。具体而言，Bi-LSTM模型的时序上下编码器会将多个报文编码向量按照预定的时间顺序输入到Bi-LSTM层中，正向和逆向两个LSTM层分别处理输入序列，然后将它们的输出进行拼接或合并操作，得到报文特征间的时序关联特征向量。这个特征向量可以用于后续的分析和应用，例如序列分类、序列生成等任务。总结来说，Bi-LSTM模型是一种能够同时考虑前后时序信息的循环神经网络模型，用于对报文特征进行时序关联编码，以获得报文特征间的时序关联特征。

应可以理解，所述网络流量数据随着时间的变化是在不断变化的，这种时序的变化特性使得所述多个预定时间点的网络流量数据之间存在着时序的关联关系。因此，为了能够对于网络流量数据进行时序分析以对于网络环境的特点进行捕捉，在本申请的技术方案中，需要将所述多个预定时间点的网络流量数据按照时间维度排列为网络流量时序输入向量后通过向量-图像格式转换器以得到网络流量时序图像。应可以理解，图像数据具有直观性和可视化性，可以更容易地发现和理解网络流量的模式和趋势。因此，通过将所述网络流量数据转换为网络流量时序图像，可以识别出网络流量的周期性变化、异常行为、峰值和低谷等特征，从而更好地进行网络流量分析和监控。

继而，再使用在图像的隐含特征提取方面具有优异表现性能的基于卷积神经网络模型的特征提取器来对所述网络流量时序图像进行特征挖掘，以提取出所述网络流量时序图像中有关于网络流量的时序分布信息，从而得到网络流量时序特征图。

相应地，如图4所示，对所述多个预定时间点的网络流量数据进行时序特征分析以得到网络流量时序特征，包括：S141，将所述多个预定时间点的网络流量数据按照时间维度排列为网络流量时序输入向量后通过向量-图像格式转换器以得到网络流量时序图像；以及，S142，将所述网络流量时序图像通过基于卷积神经网络模型的特征提取器以得到网络流量时序特征图作为所述网络流量时序特征。

值得一提的是，向量-图像格式转换器（Vector-to-Image Converter）是一种用于将向量数据转换为图像数据的技术或模型。它可以将输入的向量表示转换为对应的图像表示，以便更好地观察和分析数据的时序特征。在网络流量数据的时序特征分析中，步骤S141中提到的向量-图像格式转换器用于将多个预定时间点的网络流量数据按照时间维度排列为网络流量时序输入向量，然后将这些向量转换为网络流量时序图像。在一个示例中，具体而言，向量-图像格式转换器可以使用各种图像生成技术，例如生成对抗网络（GenerativeAdversarial Networks，GANs）或变分自编码器（Variational Autoencoders，VAEs）。这些模型可以将输入的向量数据映射到图像空间，并生成与输入向量对应的图像。通过向量-图像格式转换器，网络流量时序输入向量可以被转换为网络流量时序图像，其中每个图像代表一个时间点的网络流量特征。这种转换可以提供更直观的可视化表示，使得时序特征更容易被人类观察和分析。总结来说，向量-图像格式转换器是一种技术或模型，用于将向量数据转换为图像数据。在网络流量数据的时序特征分析中，它用于将网络流量时序输入向量转换为网络流量时序图像，以便更好地观察和分析网络流量的时序特征。

进一步地，由于所述网络流量时序特征图包含了汇聚分流设备的网络流量数据的时序特征分布信息，所述报文特征间时序关联特征向量表示所述汇聚分流设备的各个报文特征之间的时序关联特征信息。因此，在本申请的技术方案中，进一步将所述网络流量时序特征图和所述报文特征间时序关联特征向量通过Meta融合模块以得到报文特征-网络流量时序融合特征图。通过所述Meta融合模块将这两个特征进行融合，可以综合考虑汇聚分流设备的网络流量时序特征和报文关联特征，从而使得所述报文特征的时序关联特征信息和所述网络流量时序特征信息在融合后能够相互补充和增强，以提供更丰富的信息来支持网络环境分析和报文去重任务。

相应地，对所述报文特征间时序关联特征和所述网络流量时序特征进行特征融合分析以得到报文特征-网络流量时序融合特征，包括：将所述网络流量时序特征图和所述报文特征间时序关联特征向量通过Meta融合模块以得到报文特征-网络流量时序融合特征图作为所述报文特征-网络流量时序融合特征。

进而，将所述报文特征-网络流量时序融合特征图通过分类器以得到分类结果，所述分类结果用于表示增大去重表的容量或者减小去重表的容量。也就是说，利用所述汇聚分流设备的报文特征间时序关联特征和网络流量时序特征之间的融合特征信息来进行分类处理，从而对于去重表的容量进行实时控制和优化，实现自适应的去重表管理，提高了去重系统的性能和适应性。

相应地，基于所述报文特征-网络流量时序融合特征，确定增大去重表的容量或者减小去重表的容量，包括：将所述报文特征-网络流量时序融合特征图通过分类器以得到分类结果，所述分类结果用于表示增大去重表的容量或者减小去重表的容量。

具体地，将所述报文特征-网络流量时序融合特征图通过分类器以得到分类结果，所述分类结果用于表示增大去重表的容量或者减小去重表的容量，包括：将所述报文特征-网络流量时序融合特征图按照行向量或者列向量展开为分类特征向量；使用所述分类器的全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量；以及，将所述编码分类特征向量输入所述分类器的Softmax分类函数以得到所述分类结果。

也就是，在本申请的技术方案中，所述分类器的标签包括增大去重表的容量(第一标签)，以及，减小去重表的容量(第二标签)，其中，所述分类器通过软最大值函数来确定所述报文特征-网络流量时序融合特征图属于哪个分类标签。值得注意的是，这里的所述第一标签p1和所述第二标签p2并不包含人为设定的概念，实际上在训练过程当中，计算机模型并没有“增大去重表的容量或者减小去重表的容量”这种概念，其只是有两种分类标签且输出特征在这两个分类标签下的概率，即p1和p2之和为一。因此，增大去重表的容量或者减小去重表的容量的分类结果实际上是通过分类标签转化为符合自然规律的二分类的类概率分布，实质上用到的是标签的自然概率分布的物理意义，而不是“增大去重表的容量或者减小去重表的容量”的语言文本意义。

应可以理解，分类器的作用是利用给定的类别、已知的训练数据来学习分类规则和分类器，然后对未知数据进行分类（或预测）。逻辑回归（logistics）、SVM等常用于解决二分类问题，对于多分类问题（multi-class classification），同样也可以用逻辑回归或SVM，只是需要多个二分类来组成多分类，但这样容易出错且效率不高，常用的多分类方法有Softmax分类函数。

进一步地，在本申请的技术方案中，所述的用于汇聚分流设备的报文去重方法，其还包括训练步骤：用于对所述基于Bi-LSTM模型的时序上下编码器、所述基于卷积神经网络模型的特征提取器、所述Meta融合模块和所述分类器进行训练。应可以理解，在用于汇聚分流设备的报文去重方法中，训练步骤用于对各个组件（基于Bi-LSTM模型的时序上下编码器、基于卷积神经网络模型的特征提取器、Meta融合模块和分类器）进行训练。这些训练步骤的目的是为了使这些组件能够学习并适应特定的任务，以提高报文去重的准确性和性能。具体来说，训练步骤的作用如下：1.基于Bi-LSTM模型的时序上下编码器的训练：通过对训练数据进行前向传播和反向传播，调整模型的参数，使其能够捕捉报文特征间的时序关联信息。这样，时序上下编码器能够更好地编码报文特征，并生成报文特征间的时序关联特征向量。2.基于卷积神经网络模型的特征提取器的训练：通过对训练数据进行前向传播和反向传播，调整模型的参数，使其能够从网络流量时序图像中提取有用的网络流量时序特征。这样，特征提取器能够学习到对报文去重任务有帮助的特征表示。3.Meta融合模块和分类器的训练：Meta融合模块用于将时序上下编码器和特征提取器的输出进行融合，生成最终的特征表示。分类器则使用这些特征表示进行报文去重的分类任务。通过对训练数据进行前向传播和反向传播，调整这些模块的参数，使其能够在报文去重任务上达到较高的准确性和性能。通过训练步骤，各个组件能够逐渐优化并学习到报文去重任务所需的知识和能力。训练过程中，模型会根据训练数据的反馈进行参数调整，以最大程度地提升报文去重的效果。训练步骤的目的是为了让模型能够自动学习并适应任务需求，从而提高报文去重的准确性和性能。

其中，在一个示例中，所述训练步骤，包括：获取训练数据，所述训练数据包括待处理汇聚分流设备在预定时间段内多个预定时间点的训练网络流量数据和训练报文数据，以及，所述增大去重表的容量或者减小去重表的容量的真实值；从所述训练报文数据中提取训练报文特征；对所述各个预定时间点的训练报文特征进行编码以得到多个训练报文编码向量；将所述多个训练报文编码向量通过所述基于Bi-LSTM模型的时序上下编码器以得到训练报文特征间时序关联特征向量；将所述多个预定时间点的训练网络流量数据按照时间维度排列为训练网络流量时序输入向量后通过所述向量-图像格式转换器以得到训练网络流量时序图像；将所述训练网络流量时序图像通过所述基于卷积神经网络模型的特征提取器以得到训练网络流量时序特征图；将所述训练网络流量时序特征图和所述训练报文特征间时序关联特征向量通过所述Meta融合模块以得到训练报文特征-网络流量时序融合特征图；对所述训练报文特征-网络流量时序融合特征图沿通道维度的各个特征矩阵展开后得到的训练报文特征-网络流量时序融合特征向量进行特征分布优化以得到优化训练报文特征-网络流量时序融合特征图；将所述优化训练报文特征-网络流量时序融合特征图通过所述分类器以得到分类损失函数值；以及，基于所述分类损失函数值并通过梯度下降的方向传播来对所述基于Bi-LSTM模型的时序上下编码器、所述基于卷积神经网络模型的特征提取器、所述Meta融合模块和所述分类器进行训练。

特别地，在本申请的技术方案中，所述训练网络流量时序特征图的各个特征矩阵表达网络流量对于全局时域下通过向量-图像格式转换确定的局部时域的局部时域内-局部时域间时序关联特征，而其各个特征矩阵之间遵循所述卷积神经网络模型的通道分布，而所述训练报文特征间时序关联特征向量用于表达报文编码特征的近程-远程双向时序上下文关联特征，也就是，具有基于报文时序上下文的向量内编码和向量间时序编码。由此，将所述训练网络流量时序特征图和所述训练报文特征间时序关联特征向量通过Meta融合模块后，会基于所述训练报文特征间时序关联特征向量的时序上下文报文特征编码分布来对所述训练网络流量时序特征图的通道分布进行约束，从而使得所述训练网络流量时序特征图在整体的时序特征表达维度上，具有时域下的多尺度时序关联分布性质，这就使得在将所述训练报文特征-网络流量时序融合特征图通过分类器进行分类回归时，需要提升分类回归的效率。

因此，本申请的申请人对所述训练报文特征-网络流量时序融合特征图在通过分类器进行分类回归时，展开后得到的训练报文特征-网络流量时序融合特征向量进行了优化。

相应地，在一个示例中，对所述训练报文特征-网络流量时序融合特征图沿通道维度的各个特征矩阵展开后得到的训练报文特征-网络流量时序融合特征向量进行特征分布优化以得到优化训练报文特征-网络流量时序融合特征图，包括：以如下优化公式对所述训练报文特征-网络流量时序融合特征图沿通道维度的各个特征矩阵展开后得到的训练报文特征-网络流量时序融合特征向量进行特征分布优化以得到所述优化训练报文特征-网络流量时序融合特征图；其中，所述优化公式为：

其中，是所述训练报文特征-网络流量时序融合特征向量的第/>个位置的特征值，是所述训练报文特征-网络流量时序融合特征向量的所有特征值的全局均值，且/>是所述训练报文特征-网络流量时序融合特征向量的最大特征值，/>表示数值的指数运算，所述数值的指数运算表示计算以所述数值为幂的自然指数函数值，/>是所述优化训练报文特征-网络流量时序融合特征图沿通道维度的各个特征矩阵展开后得到的优化训练报文特征-网络流量时序融合特征向量。

也就是，通过全局分布参数的正则化仿函数的概念，上述优化基于所述训练报文特征-网络流量时序融合特征向量的全局分布的参数向量式表征，来以回归概率的正则式表达模拟代价函数，从而对所述训练报文特征-网络流量时序融合特征向量在高维特征空间内的特征流形表征对于类回归概率下的基于分类器的权重矩阵的逐点回归特性进行建模，以捕获待分类的训练报文特征-网络流量时序融合特征向量经由分类器模型的参数空间在高维特征流形的场景几何形状下的参数平滑式优化轨迹，提高所述训练报文特征-网络流量时序融合特征向量在所述分类器的分类概率回归下的训练效率。这样，能够基于汇聚分流设备的网络流量和报文特征的时序变化情况来实时地优化去重表的大小，通过这样的方式，能够自动调整去重算法的参数和策略，实现了自适应的去重表管理，从而能够提高去重系统的性能和适应性，优化汇聚分流设备的报文去重效果和效率。

进一步地，将所述优化训练报文特征-网络流量时序融合特征图通过所述分类器以得到分类损失函数值，包括：所述分类器以如下训练损失公式对所述优化训练报文特征-网络流量时序融合特征图进行处理以生成训练分类结果；其中，所述训练损失公式为：

其中，表示将所述优化训练报文特征-网络流量时序融合特征图投影为向量，/>至/>为各层全连接层的权重矩阵，/>至/>表示各层全连接层的偏置矩阵；以及，计算所述训练分类结果与所述真实值之间的交叉熵值作为所述分类损失函数值。

综上，基于本申请实施例的用于汇聚分流设备的报文去重方法，其可以有效减少网络流量和存储空间的占用。

图5示出根据本申请的实施例的用于汇聚分流设备的报文去重系统100的框图。如图5所示，根据本申请实施例的用于汇聚分流设备的报文去重系统100，包括：数据获取模块110，用于获取待处理汇聚分流设备在预定时间段内多个预定时间点的网络流量数据和报文数据；报文特征提取模块120，用于从所述报文数据中提取报文特征，其中，所述报文特征包括报文的大小、协议类型、源地址和目的地址；特征间时序关联编码模块130，用于对所述各个预定时间点的报文特征进行特征间时序关联编码以得到报文特征间时序关联特征；时序特征分析模块140，用于对所述多个预定时间点的网络流量数据进行时序特征分析以得到网络流量时序特征；特征融合分析模块150，用于对所述报文特征间时序关联特征和所述网络流量时序特征进行特征融合分析以得到报文特征-网络流量时序融合特征；以及，去重表容量分析模块160，用于基于所述报文特征-网络流量时序融合特征，确定增大去重表的容量或者减小去重表的容量。

在一种可能的实现方式中，所述特征间时序关联编码模块130，包括：报文编码单元，用于对所述各个预定时间点的报文特征进行编码以得到多个报文编码向量；以及，时序上下编码单元，用于将所述多个报文编码向量通过基于Bi-LSTM模型的时序上下编码器以得到报文特征间时序关联特征向量作为所述报文特征间时序关联特征。

这里，本领域技术人员可以理解，上述用于汇聚分流设备的报文去重系统100中的各个单元和模块的具体功能和操作已经在上面参考图1到图4的用于汇聚分流设备的报文去重方法的描述中得到了详细介绍，并因此，将省略其重复描述。

如上所述，根据本申请实施例的用于汇聚分流设备的报文去重系统100可以实现在各种无线终端中，例如具有用于汇聚分流设备的报文去重算法的服务器等。在一种可能的实现方式中，根据本申请实施例的用于汇聚分流设备的报文去重系统100可以作为一个软件模块和/或硬件模块而集成到无线终端中。例如，该用于汇聚分流设备的报文去重系统100可以是该无线终端的操作系统中的一个软件模块，或者可以是针对于该无线终端所开发的一个应用程序；当然，该用于汇聚分流设备的报文去重系统100同样可以是该无线终端的众多硬件模块之一。

替换地，在另一示例中，该用于汇聚分流设备的报文去重系统100与该无线终端也可以是分立的设备，并且该用于汇聚分流设备的报文去重系统100可以通过有线和/或无线网络连接到该无线终端，并且按照约定的数据格式来传输交互信息。

图6示出根据本申请的实施例的用于汇聚分流设备的报文去重方法的应用场景图。如图6所示，在该应用场景中，首先，获取待处理汇聚分流设备在预定时间段内多个预定时间点的网络流量数据（例如，图6中所示意的D1）和报文数据（例如，图6中所示意的D2），然后，将所述多个预定时间点的网络流量数据和所述报文数据输入至部署有用于汇聚分流设备的报文去重算法的服务器（例如，图6中所示意的S）中，其中，所述服务器能够使用所述用于汇聚分流设备的报文去重算法对所述多个预定时间点的网络流量数据和所述报文数据进行处理以得到用于表示增大去重表的容量或者减小去重表的容量的分类结果。

附图中的流程图和框图显示了根据本申请的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

以上已经描述了本申请的各实施例，上述说明是示例性的，并非穷尽性的，并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下，对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择，旨在最好地解释各实施例的原理、实际应用或对市场中的技术的改进，或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims

1.一种用于汇聚分流设备的报文去重方法，其特征在于，包括：

对所述报文特征间时序关联特征和所述网络流量时序特征进行特征融合分析以得到报文特征-网络流量时序融合特征图作为报文特征-网络流量时序融合特征；以及

基于所述报文特征-网络流量时序融合特征，确定增大去重表的容量或者减小去重表的容量；

其中，对所述各个预定时间点的报文特征进行特征间时序关联编码以得到报文特征间时序关联特征，包括：

对所述各个预定时间点的报文特征进行编码以得到多个报文编码向量；以及

将所述多个报文编码向量通过基于Bi-LSTM模型的时序上下编码器以得到报文特征间时序关联特征向量作为所述报文特征间时序关联特征；

其中，基于所述报文特征-网络流量时序融合特征，确定增大去重表的容量或者减小去重表的容量，包括：

将所述报文特征-网络流量时序融合特征图通过分类器以得到分类结果，所述分类结果用于表示增大去重表的容量或者减小去重表的容量。

2.根据权利要求1所述的用于汇聚分流设备的报文去重方法，其特征在于，对所述多个预定时间点的网络流量数据进行时序特征分析以得到网络流量时序特征，包括：

将所述多个预定时间点的网络流量数据按照时间维度排列为网络流量时序输入向量后通过向量-图像格式转换器以得到网络流量时序图像；以及

将所述网络流量时序图像通过基于卷积神经网络模型的特征提取器以得到网络流量时序特征图作为所述网络流量时序特征。

3.根据权利要求2所述的用于汇聚分流设备的报文去重方法，其特征在于，对所述报文特征间时序关联特征和所述网络流量时序特征进行特征融合分析以得到报文特征-网络流量时序融合特征，包括：

将所述网络流量时序特征图和所述报文特征间时序关联特征向量通过Meta融合模块以得到报文特征-网络流量时序融合特征图作为所述报文特征-网络流量时序融合特征。

4.根据权利要求3所述的用于汇聚分流设备的报文去重方法，其特征在于，还包括训练步骤：用于对所述基于Bi-LSTM模型的时序上下编码器、所述基于卷积神经网络模型的特征提取器、所述Meta融合模块和所述分类器进行训练。

5.根据权利要求4所述的用于汇聚分流设备的报文去重方法，其特征在于，所述训练步骤，包括：

获取训练数据，所述训练数据包括待处理汇聚分流设备在预定时间段内多个预定时间点的训练网络流量数据和训练报文数据，以及，所述增大去重表的容量或者减小去重表的容量的真实值；

从所述训练报文数据中提取训练报文特征；

对所述各个预定时间点的训练报文特征进行编码以得到多个训练报文编码向量；

将所述多个训练报文编码向量通过所述基于Bi-LSTM模型的时序上下编码器以得到训练报文特征间时序关联特征向量；

将所述多个预定时间点的训练网络流量数据按照时间维度排列为训练网络流量时序输入向量后通过所述向量-图像格式转换器以得到训练网络流量时序图像；

将所述训练网络流量时序图像通过所述基于卷积神经网络模型的特征提取器以得到训练网络流量时序特征图；

将所述训练网络流量时序特征图和所述训练报文特征间时序关联特征向量通过所述Meta融合模块以得到训练报文特征-网络流量时序融合特征图；

对所述训练报文特征-网络流量时序融合特征图沿通道维度的各个特征矩阵展开后得到的训练报文特征-网络流量时序融合特征向量进行特征分布优化以得到优化训练报文特征-网络流量时序融合特征图；

将所述优化训练报文特征-网络流量时序融合特征图通过所述分类器以得到分类损失函数值；以及

基于所述分类损失函数值并通过梯度下降的方向传播来对所述基于Bi-LSTM模型的时序上下编码器、所述基于卷积神经网络模型的特征提取器、所述Meta融合模块和所述分类器进行训练。

6.根据权利要求5所述的用于汇聚分流设备的报文去重方法，其特征在于，将所述优化训练报文特征-网络流量时序融合特征图通过所述分类器以得到分类损失函数值，包括：

所述分类器以如下训练损失公式对所述优化训练报文特征-网络流量时序融合特征图进行处理以生成训练分类结果；其中，所述训练损失公式为：

softmax{(W_n,B_n):...:(W₁,B₁)|Project(F)}

其中，project(F)表示将所述优化训练报文特征-网络流量时序融合特征图投影为向量，W₁至W_n为各层全连接层的权重矩阵，B₁至B_n表示各层全连接层的偏置矩阵；以及

计算所述训练分类结果与所述真实值之间的交叉熵值作为所述分类损失函数值。

7.一种用于汇聚分流设备的报文去重系统，其特征在于，包括：

特征融合分析模块，用于对所述报文特征间时序关联特征和所述网络流量时序特征进行特征融合分析以得到报文特征-网络流量时序融合特征图作为报文特征-网络流量时序融合特征；以及

去重表容量分析模块，用于基于所述报文特征-网络流量时序融合特征，确定增大去重表的容量或者减小去重表的容量；

其中，所述特征间时序关联编码模块，包括：

报文编码单元，用于对所述各个预定时间点的报文特征进行编码以得到多个报文编码向量；以及

时序上下编码单元，用于将所述多个报文编码向量通过基于Bi-LSTM模型的时序上下编码器以得到报文特征间时序关联特征向量作为所述报文特征间时序关联特征；

其中，所述去重表容量分析模块，包括：