CN117749535A

CN117749535A - 一种网络流量异常检测方法及装置

Info

Publication number: CN117749535A
Application number: CN202410191390.9A
Authority: CN
Inventors: 周洪海; 金志浩; 谢丽萍; 赵玉薇
Original assignee: Jinshu Information Technology Suzhou Co ltd
Current assignee: Jinshu Information Technology Suzhou Co ltd
Priority date: 2024-02-21
Filing date: 2024-02-21
Publication date: 2024-03-22
Anticipated expiration: 2044-02-21
Also published as: CN117749535B

Abstract

本发明公开了一种网络流量异常检测方法及装置，以提升网络安全威胁的识别效率和准确性。其中，该方法收集企业或组织的网络流量数据，这些数据包括IP地址、端口号、数据包大小和TCP标志，并进行预处理。随后，定义时间窗口，以提取特定时间段内的数据点，并计算窗口内异常类型与总数据点的比例，以确定异常等级标签。该方法进一步将数据点转化为故事元素，包括将IP地址转换为故事角色、端口号和TCP标志转换为行动、数据包大小转换为事件情境。利用大语言模型，基于故事元素生成故事线索。这些线索与异常等级标签融合，形成新的数据集。最后，对该数据集进行分析，以识别网络流量异常。

Description

一种网络流量异常检测方法及装置

技术领域

本发明涉及信息安全技术领域，尤其涉及一种网络流量异常检测方法及装置。

背景技术

在网络安全领域，传统的网络流量异常分析技术面临着日益增长的挑战。随着网络攻击手段的多样化和复杂化，传统方法如固定规则或基础统计分析在准确识别和应对新型或复杂网络威胁方面显示出局限性。尤其在处理大规模和动态网络环境中的安全威胁时，这些方法往往难以有效适应和响应。现有技术的主要问题在于它们在数据解释性和适应性方面的不足，导致面对新的威胁模式时效率低下，并伴随着高误报率。

此外，现有技术在处理非结构化网络数据时的局限性导致了对潜在威胁的识别不够精确。在快速变化的网络环境中，网络数据的复杂性和体量迅速增加，传统方法由于数据分析能力，在分析和处理这些数据时面临巨大挑战。

因此，研发一种新的网络流量异常检测方法非常有必要。

发明内容

本申请提供一种网络流量异常检测方法及装置，以提升网络安全威胁的识别效率和准确性。

本申请提供一种网络流量异常检测方法，包括：

收集企业或组织的网络流量数据，所述网络流量数据包括IP地址、端口号、数据包大小及TCP标志，并对所述数据进行预处理，其中，所述预处理包括使用网络模型或人工经验对所述网络流量数据进行初步异常流量标记，获得包括时间戳、源IP地址、目的IP地址、端口号、数据包大小、TCP标志和初步网络流量异常标签的多维数据集；

利用预先定义的时间窗口，遍历预处理后的网络流量数据，获得一系列时间戳在/>和/>之间的数据点；其中，/>是时间窗口/>的起始时间，/>是时间窗口的终止时间，/>是时间窗口的序数；

计算时间窗口内的异常类型总数和时间窗口/>内的数据点总数的比例，根据所述比例，确定多个异常等级标签/>；

将时间窗口内的数据点转换为故事元素/>，包括将源IP和目的IP转换为故事中的角色、将端口号和TCP标志转换为行动、将数据包大小转换为事件的情境，以及将初步网络流量异常标签转换为特定事件；

利用大语言模型，基于所述故事元素创建故事线索/>；并将所述故事线索/>与确定的多个异常等级标签/>进行融合，生成新的数据集：

；

对于所述新的数据集进行分析，获得网络流量异常检测结果。

更进一步地，所述初步网络流量异常标签包括正常、DDoS攻击、端口扫描、数据泄露、恶意软件通信、网络钓鱼和异常行为中的一种。

更进一步地，所述将初步网络流量异常标签转换为特定事件，包括：

当初步网络流量异常标签为正常，则特定事件为正常的网络流量；

当初步网络流量异常标签为端口扫描，则特定事件为尝试发现开放端口以寻找安全漏洞；

当初步网络流量异常标签为数据泄露，则特定事件为敏感数据非法传输；

当初步网络流量异常标签为恶意软件通信，则特定事件为与已知恶意软件的通信；

当初步网络流量异常标签为网络钓鱼，则特定事件为欺骗用户以获取敏感信息；

当初步网络流量异常标签为异常行为，则特定事件为不符合正常模式的行为，可能指示安全威胁。

更进一步地，所述预先定义的时间窗口根据网络活动的峰值时段和非峰值时段进行定义，以便在不同网络使用模式下更有效地捕捉异常行为。

更进一步地，所述利用大语言模型，基于所述故事元素创建故事线索/>，包括：

利用大语言模型，基于所述故事元素并考虑历史网络流量数据和已知的安全事件，创建故事线索/>。

更进一步地，所述使用网络模型或人工经验对所述网络流量数据进行初步异常流量标记，包括：

使用一个训练过的混合神经网络模型对所述网络流量数据进行处理，获得初步网络流量异常标签；

其中，所述混合神经网络模型包括自编码器、双向循环神经网络、时间卷积网络以及集成学习机制；所述自编码器用于接收并处理所述网络流量数据，获得所述网络流量数据的特征压缩表示；所述双向循环神经网络用于接收并处理所述自编码器提供的特征压缩表示，获得包括时间依赖性的特征表示；所述时间卷积网络用于接收并处理所述双向循环神经网络提供的包括时间依赖性的特征表示，捕获时间序列局部模式的特征；所述集成学习机制用于接收并处理所述自编码器提供的重构误差以及所述时间卷积网络输出的时间序列局部模式的特征，获得初步网络流量异常标签；

利用所述初步网络流量异常标签，对所述网络流量数据进行初步异常流量标记。

本申请提供一种网络流量异常检测装置，包括：

收集单元，用于收集企业或组织的网络流量数据，所述网络流量数据包括IP地址、端口号、数据包大小及TCP标志，并对所述数据进行预处理，其中，所述预处理包括使用网络模型或人工经验对所述网络流量数据进行初步异常流量标记，获得包括时间戳、源IP地址、目的IP地址、端口号、数据包大小、TCP标志和初步网络流量异常标签的多维数据集；

遍历单元，用于利用预先定义的时间窗口，遍历预处理后的网络流量数据，获得一系列时间戳在/>和/>的数据点；其中，/>是时间窗口/>的起始时间，/>是时间窗口/>的终止时间，/>是时间窗口的序数；

计算单元，用于计算时间窗口内的异常类型总数和时间窗口/>内的数据点总数的比例，根据所述比例，确定多个异常等级标签/>；

转换单元，用于将时间窗口内的数据点转换为故事元素/>，包括将源IP和目的IP转换为故事中的角色、将端口号和TCP标志转换为行动、将数据包大小转换为事件的情境，以及将初步网络流量异常标签转换为特定事件；

创建单元，用于利用大语言模型，基于所述故事元素创建故事线索/>；并将所述故事线索/>与确定的多个异常等级标签/>进行融合，生成新的数据集：

；

分析单元，用于对于所述新的数据集进行分析，获得网络流量异常检测结果。

本申请提供一种网络流量异常检测设备，包括：

处理器；

存储器，用于存储程序，所述程序在被所述处理器读取执行时，执行如前提供的网络流量异常检测方法。

本申请提供一种计算机可读取存储介质，其上存储有计算机程序，该程序被处理器执行时，执行如前提供的网络流量异常检测方法。

本申请提供的技术方案的有益效果包括：

（1）通过将技术性的网络流量数据转换为故事元素，本发明极大地提高了数据的解释性。这使得一般技术人员也能更容易理解网络流量的特性和潜在的异常模式。（2）利用大语言模型创建故事线索，可以揭示隐藏在数据中的复杂模式和关联，从而提高异常检测的准确性。这种方法特别适合于识别复杂的网络攻击和隐蔽的安全威胁。（3）通过计算每个时间窗口内的异常类型占比，确定多个异常等级标签，本发明提供了一种更灵活和细粒度的方式来分类网络流量异常。这有助于更精确地响应和处理不同等级的安全事件。（4）将故事线索与异常等级标签融合，生成新的数据集，不仅创新地结合了技术数据和自然语言处理的优势，而且为后续的数据分析提供了丰富的信息源。（5）在网络安全领域，误报是一个重要问题。本发明利用高级自然语言处理能力和细致的异常类型分析，有助于减少误报，提高安全系统的效率。

附图说明

图1是本申请第一实施例提供的一种网络流量异常检测方法的流程图。

图2是本申请第二实施例提供的一种网络流量异常检测装置的示意图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本申请内涵的情况下做类似推广，因此本申请不受下面公开的具体实施的限制。

本申请第一实施例提供一种网络流量异常检测方法。请参看图1，该图为本申请第一实施例的示意图。以下结合图1对本申请第一实施例提供一种网络流量异常检测方法进行详细说明。

步骤S101：收集企业或组织的网络流量数据，所述网络流量数据包括IP地址、端口号、数据包大小及TCP标志，并对所述数据进行预处理，其中，所述预处理包括使用网络模型或人工经验对所述网络流量数据进行初步异常流量标记，获得包括时间戳、源IP地址、目的IP地址、端口号、数据包大小、TCP标志和初步网络流量异常标签的多维数据集。

在步骤S101中，首先收集企业或组织的网络流量数据。这一过程涉及获取涵盖多个维度的网络流量信息，包括但不限于IP地址、端口号、数据包大小以及TCP标志等关键参数。

具体来说，IP地址包括源IP地址和目的IP地址，这些信息有助于确定数据流向和来源。端口号则提供了关于网络服务或应用的信息，例如，HTTP通常使用80端口，而HTTPS使用443端口。数据包大小提供了传输数据量的指标，可以用来判断通信的性质，例如，大数据包可能表示大量数据传输。TCP标志则用于识别连接的状态，例如SYN标志表示连接开始，ACK标志表示确认收到数据。

在收集了这些数据之后，接下来的步骤是进行预处理。预处理步骤的目的是对原始网络流量数据进行初步的分析和格式化，以便于后续处理。这包括使用网络模型或依据专家的人工经验来对网络流量数据进行初步的异常流量标记。预处理过程中，每个数据点将被标记为正常或异常，形成初步的异常流量标签。例如，如果一个数据点的行为与已知的异常模式相符，如频繁的端口扫描或非典型的数据包大小，它可能会被标记为异常。

在步骤S101的网络流量数据预处理中，对数据进行初步异常流量标记是一个关键环节。这一过程涵盖了对网络流量数据进行细致的分类，以便于后续的更精确分析。在这个阶段，每个数据点都会被赋予一个初步网络流量异常标签，这些标签不仅包括“正常”状态，还包括多种具体的异常类型，例如DDoS攻击、端口扫描、数据泄露、恶意软件通信、网络钓鱼和异常行为等。

以下是对这些初步网络流量异常标签的详细说明：

1. 正常：这个标签被用于那些看似不含有任何异常特征的网络流量数据点。这意味着数据流量符合企业或组织的日常网络使用模式，没有明显的异常迹象。

2. DDoS攻击：分布式拒绝服务(DDoS)攻击是一种常见的网络攻击形式。在此类攻击中，攻击者利用多个网络资源同时向目标发送大量请求，以致于目标的网络服务或资源被耗尽，从而无法为合法用户提供服务。在初步标记过程中，如果检测到异常流量突增或来自多个源的大量同步请求，可能会被标记为DDoS攻击。

3. 端口扫描：此标签用于识别网络中的端口扫描活动，这通常是攻击者为发现网络中可利用的安全漏洞而进行的一种探测行为。端口扫描的特征包括频繁地尝试连接到多个端口，以确定哪些端口是开放的。

4. 数据泄露：此标签用于标记那些可能涉及敏感或机密数据非法传输的流量。例如，如果检测到某个数据点正在传输大量数据到未授权的目的地，或者数据流与已知的数据泄露模式相匹配，可能会被标记为数据泄露。

5. 恶意软件通信：这个标签用于识别可能与已知恶意软件或病毒通信相关的网络流量。例如，如果某个数据点的流量特征与已知恶意软件的通信模式相似，或者流量被发送到已知的恶意域名或IP地址，就可能被标记为恶意软件通信。

6. 网络钓鱼：此标签用于标记那些可能涉及网络钓鱼活动的流量。网络钓鱼是一种社会工程学手段，攻击者通过使用不真实电子邮件或网站，致使用户泄露敏感信息。这种行为可以通过检测指向已知网络钓鱼相关的域名或IP地址的流量来识别。

7. 异常行为：这个标签是一个泛用标签，用于标记那些不符合正常网络流量模式，但又不属于上述任何一类具体异常的流量。例如，如果某个数据点的行为与历史数据显著不同，或者与企业或组织的正常网络使用模式不符，就可能被标记为异常行为。

通过对网络流量数据进行这样的初步异常标记，可以更准确地对网络安全状况进行评估，同时也为后续的深入分析提供了坚实的基础。这种多维度、分类明确的标记方法，使得检测和识别网络流量异常变得更加高效和准确。

预处理的结果是一个多维数据集，其中每一条数据包括时间戳、源IP地址、目的IP地址、端口号、数据包大小、TCP标志和初步的异常标签。时间戳记录了每个数据点的具体时间，有助于后续分析数据流的时间序列特征。通过这样的预处理，原始的网络流量数据被转化为一种更加结构化和易于分析的格式，为后续的步骤奠定基础。

在本实施例提供的网络流量异常检测方法中，利用混合神经网络模型对网络流量数据进行初步异常流量标记的步骤涉及复杂的数据处理流程，旨在准确识别网络中的异常行为。

混合神经网络模型的构建与应用包括：

1.混合神经网络模型的组成：模型由自编码器、双向循环神经网络（Bi-RNN）、时间卷积网络（TCN），以及集成学习机制组成。每个组件都有其特定的作用，共同工作以提高异常检测的准度和效率。

2.自编码器的应用：自编码器首先接收网络流量数据，如IP地址、端口号、数据包大小和TCP标志等。它负责处理这些数据，提取关键特征，并将它们压缩为更高效的表示形式。这种压缩表示有助于捕获数据的基本结构，同时减少噪声的影响。

3.双向循环神经网络的角色： Bi-RNN接收自编码器提供的压缩特征表示，并进一步处理这些数据。由于其双向结构，Bi-RNN能够捕获前后文信息，揭示特征之间的时间依赖性。这对于理解网络流量中的时间序列模式至关重要。

4.时间卷积网络的运作： TCN接手Bi-RNN的输出，即包含时间依赖性的特征表示。TCN专注于识别时间序列数据中的局部模式，如短期的流量波动或周期性活动，这些可能是异常行为的重要指标。

5.集成学习机制的整合：集成学习机制综合自编码器产生的重构误差和TCN识别的时间序列局部模式特征。它分析这些信息，生成初步的网络流量异常标签。这些标签可能包括“正常”、“DDoS攻击”、“端口扫描”等，代表模型对流量性质的初步判断。

6.应用初步异常标签：最后，利用生成的初步异常标签，对网络流量数据进行标记。这为后续的故事线索生成和异常检测提供了基础。

下面是一个混合神经网络模型的参考实现框架，基于TensorFlow框架：

import tensorflow as tf

from tensorflow.keras.layers import Input, LSTM, Dense,TimeDistributed, Conv1D, Bidirectional, concatenate

from tensorflow.keras.models import Model

# 假设输入数据的维度为（时间步数，特征数）

input_shape = (None, num_features)

# 自编码器部分

input_layer = Input(shape=input_shape)

encoded = Dense(encoding_dim, activation='relu')(input_layer)

decoded = Dense(num_features, activation='sigmoid')(encoded)

# 计算重构误差

reconstruction_error = tf.keras.losses.mean_squared_error(input_layer, decoded)

# 双向循环神经网络（Bi-RNN）部分

bi_rnn = Bidirectional(LSTM(units, return_sequences=True))(decoded)

# 时间卷积网络（TCN）部分

tcn = Conv1D(filters, kernel_size, strides=1, padding='causal',activation='relu')(bi_rnn)

# 集成学习机制

combined_features = concatenate([reconstruction_error, tcn])

# 输出层

output_layer = Dense(num_classes, activation='softmax')(combined_features)

# 构建并编译模型

model = Model(input_layer, output_layer)

model.compile(optimizer='adam', loss='categorical_crossentropy',metrics=['accuracy'])

在这个示例中：

reconstruction_error计算了输入数据和自编码器重构输出之间的均方误差。

concatenate函数将重构误差和TCN层的输出合并在一起，形成集成学习机制的输入。

请注意，这个代码是一个基本框架。在实际应用中，可能需要进一步的调整和优化，以适应具体的数据集和应用场景。

本混合神经网络模型的训练步骤可以分解为以下几个主要环节：

首先，需要准备和预处理网络流量数据以及其对应的初步网络流量异常标签。这涉及到收集企业或组织的网络流量数据，其中包括IP地址、端口号、数据包大小及TCP标志等信息。这些数据需要通过一系列预处理步骤，如标准化、去噪、缺失值处理等，以确保模型能够有效地从中学习。

其次，模型的构建是关键环节。模型包含几个核心部分：自编码器、双向循环神经网络（Bi-RNN）、时间卷积网络（TCN），以及一个集成学习机制。自编码器负责接收原始网络流量数据，并将其转换为更紧凑的特征表示。接着，双向循环神经网络处理这些特征表示，捕捉时间依赖性。紧接着，时间卷积网络进一步处理这些数据，特别是用于捕捉时间序列中的局部模式。最后，集成学习机制将自编码器的重构误差和TCN输出的特征综合起来，用于最终的异常流量识别。

接下来是模型的训练。在这个阶段，网络流量数据被输入到模型中。模型通过反复迭代学习，逐步调整其内部参数，以最小化预测错误。训练过程中，模型会使用一定比例的数据进行学习，而另一部分数据用于验证模型的性能。

最后一步是模型的评估和调优。在训练完成后，使用未参与训练的测试数据集对模型进行评估。这里主要关注模型在识别网络流量异常方面的准确性和效率。根据评估结果，可能需要对模型结构或参数进行调整，以改进其性能。

整个训练过程中，混合神经网络模型的目标是学习如何有效地从网络流量数据中识别潜在的异常行为，以提供精确、高效的网络安全监控解决方案。

通过上述步骤，混合神经网络模型能够从复杂的网络流量数据中提取关键特征，识别潜在的异常行为，为进一步的分析打下坚实的基础。

整个S101步骤的关键在于，通过综合利用网络流量数据的多个维度信息，并结合专业知识或已有的网络模型，有效地进行初步的异常流量识别和数据整理，为进一步的分析和处理打下坚实的基础。这样的处理方法确保了网络流量异常检测方法的精度和效率，是实现高效网络安全监控的关键环节。

步骤S102：利用定义的时间窗口，遍历预处理后的网络流量数据，获得一系列时间戳在/>和/>之间的数据点；其中，/>是时间窗口/>的起始时间，/>是时间窗口/>的终止时间，/>是时间窗口的序数。

在步骤S102中，关键的任务是对预处理后的网络流量数据进行细致的遍历，以便在定义的时间窗口内捕获和组织相关数据点。这一步骤是建立在成功完成步骤S101的基础上的，即已经收集并预处理了网络流量数据，包括对数据的初步异常流量标记。

在具体实施中，首先需要定义时间窗口，其中/>代表时间窗口的序数，例如，代表第一个时间窗口，/>代表第十个时间窗口等。时间窗口是网络流量数据分析中的一个关键概念，它允许在特定的时间范围内观察和分析数据。每个窗口/>由两个关键参数定义：起始时间/>和终止时间/>。这些时间参数确定了将被分析和处理的数据范围。时间窗口的选择可以根据需要进行调整，以反映不同的监控和分析需求，例如，可以是几分钟、几小时甚至更长的时间段。

在确定了时间窗口后，接着涉及对预处理数据集的遍历。在这个阶段，系统将检查每个数据点，以确定哪些数据点的时间戳落在当前窗口的范围内（即/>和/>之间）。这意味着只有当数据点的时间戳与窗口的时间范围相匹配时，该数据点才会被选中并纳入进一步的分析。

通过这种方式，每个时间窗口都会生成一系列相应的数据点。这些数据点代表了在特定时间范围内的网络活动，并包含了之前预处理阶段中获得的多维信息，如IP地址、端口号、数据包大小、TCP标志以及初步的异常标签等。

与传统的固定或随机时间窗口不同，本实施例根据网络的实际使用模式，特别是网络活动的峰值时段和非峰值时段来定义时间窗口。这种动态调整时间窗口的方法使得异常行为的捕捉更加精准，因为不同时间段的网络行为模式是不同的。例如，在工作日的上班时间和夜间的休息时间，网络的使用模式可能截然不同。通过对时间窗口的灵活设置，可以更有效地识别出在特定时段中不符合常规模式的流量行为。

具体来说，这种方法可能涉及到分析历史网络流量数据，以确定何时是网络活动的峰值时段，何时是非峰值时段。基于这些信息，时间窗口可以被适当地调整，以反映出不同时间段内的正常网络活动模式。

在网络活动的峰值时段，时间窗口可能被设定得更短，以便于捕捉到高频度的数据交换和潜在的异常行为。例如，如果在工作日的上午10点到下午3点是网络流量的高峰期，这个时段的时间窗口可以设定为5分钟或10分钟。这样做的目的是为了在高流量时段更敏感地捕捉到可能的异常行为。

在网络活动的非峰值时段，时间窗口可以被设定得相对较长。这是因为在这些时段内网络流量较少，异常行为相对容易被识别，因此不需要频繁地检查数据。例如，如果夜间时段（如晚上10点到早上6点）是网络流量较低的时期，时间窗口可以设定为30分钟或更长。

步骤S102的实施对于整个异常检测方法来说至关重要，因为它为后续的分析提供了精确划分和组织的数据。通过有效地切分时间和组织数据，这一步骤确保了后续处理能够在可控的时间范围内准确分析网络流量，为发现潜在的异常模式和行为提供了基础。

步骤S103：计算时间窗口内的异常类型总数和时间窗口/>内的数据点总数的比例，根据所述比例，确定多个异常等级标签/>。

步骤S103的核心任务是对每个定义的时间窗口中的数据进行深入分析，以计算并确定各个时间窗口中的异常流量类型的总数和总数据点数的比例。这一步骤的关键目的是为每个时间窗口生成一个量化的异常等级，从而为后续的异常流量检测提供基础。

首先，此步骤涉及对每个时间窗口内的数据点进行统计。这包括计算窗口中的所有数据点总数，这些数据点是在步骤S102中通过遍历预处理后的网络流量数据获得的。统计的目的是获取时间窗口内网络活动的一个总体量度。

接着，需要对时间窗口内的异常类型的数量进行统计。这是通过分析每个数据点的初步网络流量异常标签来完成的。初步网络流量异常标签可能包括各种类型，如DDoS攻击、端口扫描、数据泄露、恶意软件通信、网络钓鱼、异常行为等。每个数据点的异常标签都是在步骤S101中的预处理阶段确定的。在这一步骤中，将对这些异常标签进行计数，以确定窗口内的异常类型总数。

随后，步骤S103要求计算异常类型总数与窗口内数据点总数的比例。这一比例是通过将异常类型的总数除以时间窗口中的数据点总数得到的。这个比例反映了窗口内异常流量的程度，并将用于确定异常等级标签。/>代表第i个异常等级标签，例如

这些异常等级标签代是基于计算出的比例确定的。标签可以采用多种形式，如代表“无异常”、/>代表“轻微异常”、/>代表“中度异常”、/>代表“大量异常”、/>代表“严重异常”等，每个标签对应于不同的异常比例阈值。例如，如果一个窗口内的异常比例p非常低，可能会被标记为“无异常”或“轻微异常”。相反，如果异常比例p很高，可能会被标记为“严重异常”。

整个步骤S103为网络流量异常检测方法提供了一个量化的基础，使得后续步骤能够更有针对性地处理数据。通过量化每个时间窗口内的异常程度，该方法能够更准确地识别和标记网络活动的异常模式。这一步骤对于确保整个检测方法的有效性和准确性至关重要。

步骤S104：将时间窗口内的数据点转换为故事元素/>，包括将源IP和目的IP转换为故事中的角色、将端口号和TCP标志转换为行动、将数据包大小转换为事件的情境，以及将初步网络流量异常标签转换为特定事件。

首先，源IP和目的IP的转换成故事中的角色是一个关键环节。例如，假设源IP地址为192.168.1.10，目的IP地址为192.168.1.20，则这一转换结果可能被描述为：“发送者192.168.1.10向接收者192.168.1.20发送了一个消息。” 这种表述不仅反映了网络通信的实质内容，而且以易于理解的方式呈现了通信的过程。

接下来，将端口号和TCP标志转换为行动。端口号的转换依据其所代表的服务或活动。例如，端口80通常用于HTTP服务，故其转换为：“发送者通过HTTP端口开始建立一个新的连接。” 同时，TCP标志则表示连接的不同状态，例如SYN标志表示开始一个新的连接，而ACK表示确认收到数据。这些转换为故事增添了动态和细节。

以下是一些类似的例子，以增强对将端口号和TCP标志转换为行动的理解：

FTP服务端口转换：假设端口号为21，这通常与FTP（文件传输协议）服务相关联。因此，该端口的活动可以转换为：“发送者通过FTP端口请求文件传输。” 同时，如果TCP标志是PSH（推送），表示数据被推送到接收应用程序，转换后的故事可能是：“发送者紧急推送文件到接收者。”

SSH安全通信端口转换：如果端口号是22，通常用于SSH（安全外壳协议）服务。转换后的故事元素可能是：“发送者通过SSH端口进行安全连接。” 假设TCP标志是RST（重置），表示连接被突然中断，故事元素则变为：“安全连接被意外中断。”

SMTP邮件服务端口转换：端口25经常与SMTP（简单邮件传输协议）服务相关。转换的故事元素可能是：“发送者通过SMTP端口发送电子邮件。” 如果TCP标志是FIN（结束），表示结束连接，故事元素则为：“发送者完成邮件发送并结束连接。”

DNS服务端口转换：端口53是DNS（域名系统）服务的标准端口。其转换可能是：“发送者通过DNS端口请求域名解析。” 假设TCP标志为ACK（确认），则表示确认收到域名解析的响应，转换后的故事元素为：“发送者收到域名解析结果。”

此外，数据包大小的转换为故事提供了情境。例如，1500字节的数据包可以被转换为：“发送者传递了一段详细的信息。” 这样的描述帮助读者理解通信内容的丰富程度。

如果数据包大小仅为100字节，这通常指示着简短的通信或小信息的传输。在这种情况下，故事元素可能被转换为：“发送者向接收者发送了一个简短的信号。” 这暗示了通信的快速和简洁性质。

假设数据包大小为500字节，这可以表示一定程度的详细信息传输。转换后的故事可能是：“发送者通过中等长度的信息与接收者进行了交流。” 这表明信息内容既不过于简短，也不是非常详细，适中地传达了必要的数据。

对于大小为2000字节的数据包，它可能指示着较为复杂或详尽的通信内容。因此，故事元素可以是：“发送者传递了一份内容丰富的报告给接收者。” 这表明所传输的信息可能包含多种数据或详细的内容。

在极端情况下，假设数据包大小达到5000字节或更多，这表明通信中存在大量的信息。这种情况下，故事转换可能是：“发送者发送了一个包含众多细节和数据的大型文件。” 这样的描述强调了通信中信息量的巨大和复杂性。

最后，初步网络流量异常标签的转换至关重要。例如，如果初步标签为“DDoS攻击”，则该事件可被转换为：“此行动可能是一次DDoS攻击。” 这样的转换不仅明确了网络活动的性质，还为后续分析提供了重要线索。

将初步网络流量异常标签转换为特定事件具体包括：

通过这样的转换，网络流量数据不再仅仅是单纯的数字和技术术语，而是变成了一个充满活力和故事性的叙述。这种转换的创新之处在于，它将技术数据转换为故事元素，提高了数据的可解释性，为进一步的异常流量检测提供了新的视角和工具。

步骤S105：利用大语言模型，基于所述故事元素创建故事线索/>；并将所述故事线索/>与确定的多个异常等级标签/>进行融合，生成新的数据集：

。

在步骤S105中，任务是使用一个大型语言模型（例如GPT-3或GPT-4）来将之前得到的故事元素转换成连贯的故事线索/>，并将这些故事线索与相应的异常等级标签/>融合，从而生成一个新的数据集/>。/>表示在第/>个时间窗口/>中创建的故事线索。

下面是一个故事线索的创建示例：

假设在一个时间窗口内，收集到的网络流量数据点包括以下信息：

源IP地址：192.168.1.10

目的IP地址：192.168.1.20

端口号：80 (表示HTTP服务)

TCP标志：SYN (表示连接开始)

数据包大小：1500字节

初步网络流量异常标签：DDoS攻击

基于这些信息，可以创建以下故事元素：

角色：发送者（源IP 192.168.1.10）和接收者（目的IP 192.168.1.20）

行动：通过HTTP端口开始建立连接（端口号80和TCP标志SYN）

事件的情境：发送者传递了一段详细的信息（数据包大小1500字节）

特定事件：此行动可能是一次DDoS攻击（初步网络流量异常标签）

接下来，使用大型语言模型（如GPT-3或GPT-4），将这些故事元素合成为一个连贯的故事线索。

在使用大型语言模型（如GPT-3或GPT-4）将故事元素合成为一个连贯的故事线索时，重要的是要理解这些模型的高级自然语言处理能力。以下是一个将故事元素转换为连贯故事线索的详细过程：

1.输入故事元素：首先，将网络流量的技术数据（如IP地址、端口号、TCP标志和数据包大小）以及初步网络流量异常标签转换成故事元素。这些元素包括角色（如发送者和接收者的IP地址）、行动（如通过特定端口的连接尝试和TCP标志）和情境（如数据包大小所暗示的信息量级）。

2.设定上下文：在输入数据到大型语言模型之前，为模型提供适当的上下文是关键。这可能包括网络安全的背景知识、当前的网络活动模式、已知的安全威胁类型等。

3.生成故事线索：将上述转换后的故事元素输入到大型语言模型中。模型会根据它的训练和学习能力，基于提供的信息和上下文，构造一个连贯且有意义的故事线索。例如，模型可能会将一个大数据包、频繁的SYN标志和特定IP地址的行为结合起来，判断这可能是一种DDoS攻击的迹象。

4.细化和调整：生成的故事线索可能需要进一步细化和调整，以确保其准确性和与现实情况的一致性。这可能包括调整故事中的某些细节，以更准确地反映网络流量数据和潜在的安全威胁。

5.应用与分析：生成的故事线索随后可用于网络安全分析。由于故事线索采用更易于理解的自然语言格式，它可以帮助技术人员或安全分析师更快地识别和响应潜在的网络安全问题。

例如，假设有一系列数据点显示，来自特定源IP地址的大量SYN请求指向特定的目的IP地址，且伴随着大量数据传输。在这种情况下，大型语言模型可能会生成如下故事线索：

“一个名为192.168.1.10的发送者在短时间内频繁地向192.168.1.20的接收者发起连接请求。每次尝试都伴随着大量的数据传输，标记为SYN，暗示着连接的开始。这种异常的活动模式引起了警觉，因为它看起来像是一次DDoS攻击，意图淹没接收者的网络。”

这样的故事线索不仅使技术数据更易于理解，还提供了对潜在安全威胁的直观洞察，从而帮助加快响应时间并提高网络安全。

一旦得到了故事线索，下一步是将它们与相应的异常等级标签/>结合起来。这个过程涉及到将每个时间窗口/>内的数据点的故事线索与其对应的异常等级标签相结合。

以前面的例子为基础，假设在时间窗口内，计算出的异常类型总数与数据点总数的比例是80%，假定根据标准，这将对应于一个“大量异常”的等级标签。因此，将故事线索与此标签结合，形成新的数据集的一个元素：

-时间窗口的故事线索：上述生成的连贯的故事线索

-异常等级标签：大量异常。

最终，这个过程重复进行，直到所有的时间窗口都被处理，从而形成新的数据集，其中包含了每个时间窗口的故事线索和相应的异常等级标签。例如，/>可以是如下形式：

这样，新的数据集为网络安全分析提供了更加丰富和直观的信息，使得网络安全分析师能够更快地识别和响应潜在的网络安全问题。

本实施例提供的网络流量异常检测方法，特别涉及利用大型语言模型根据故事元素创建故事线索/>的过程。这一过程考虑了历史网络流量数据和已知的安全事件，以生成更加准确和深入的故事线索。以下是详细实施步骤：

1.故事元素的收集和处理：首先，需要从网络流量数据中收集故事元素。这些故事元素包括但不限于源IP和目的IP（被视为故事中的角色）、端口号和TCP标志（被视为角色的行动）、数据包大小（被视为事件的情境）以及初步异常标签（被视为特定事件）。这些元素提供了网络行为的基本框架和上下文。

2.融合历史网络流量数据：接着，将收集的故事元素与历史网络流量数据融合。这一步骤的目的是提供更广泛的上下文，包括网络流量的常规模式、以往异常事件的记录和历史安全事件的信息。这样做可以帮助大语言模型更好地理解当前网络活动与过往活动的关联。

3.利用大型语言模型：然后，使用大型语言模型（例如GPT-3或GPT-4）处理融合了历史数据的故事元素。大型语言模型将基于这些输入，构建出一个连贯的故事线索。这个故事线索将网络活动转化为易于理解的叙述，揭示潜在的异常行为和安全威胁。

4.考虑已知安全事件：在创建故事线索的过程中，模型还会考虑已知的安全事件。这可能包括已知的网络攻击模式、安全漏洞或者其他安全相关的信息。这样可以确保故事线索不仅反映了当前的网络活动，而且还能与过去的安全事件相联系，提供更全面的安全分析。

5.生成故事线索：最后，大型语言模型生成的故事线索将详细描述网络中的行为，识别和解释复杂的网络行为模式，如潜在的攻击活动或异常通信模式。例如，故事线索可能表述为：“发送者IP地址192.168.1.10在短时间内频繁请求目的IP地址192.168.1.20，类似于历史记录中的DDoS攻击事件，可能表示当前网络正在遭受类似攻击。”

通过上述方法，所创建的故事线索不仅融合了当前的网络活动和历史数据，而且还结合了已知的安全事件，从而为网络安全分析提供了深入的洞察，有助于更准确地检测和响应网络流量异常。

步骤S106：对于所述新的数据集进行分析，获得流量异常检测结果。

在步骤S106中，目标是分析经过上述步骤处理和融合后的新数据集，以获取最终的流量异常检测结果。这一步骤是该方法的关键环节，因为它将所有前期的数据处理和分析集成，为决策者提供实用的信息。

首先，数据集包含了一系列经过时间窗口处理和故事化转换的网络流量数据点。每个数据点都已经被转换成故事线索，并且与相应的异常等级标签/>结合在一起。这种格式的数据为深入分析和解释提供了基础。

进行分析的过程包括但不限于以下几个方面：

1.模式识别和比较：通过比较不同时间窗口内的故事线索，分析人员可以识别出异常流量的模式和趋势。例如，如果多个时间窗口的故事线索显示类似的异常行为模式，这可能表明一个持续的或发展中的安全威胁。

2.异常等级分析：每个时间窗口的故事线索都与一个异常等级标签相关联。分析这些标签可以帮助确定网络流量的整体健康状况，以及需要关注的特定时间段。

3.深度分析：针对具有较高异常等级的时间窗口进行更深入的分析。例如，如果一个时间窗口被标记为“严重异常”，则可能需要更详细地研究该时间段内的数据，以确定潜在的攻击源或安全漏洞。

4.趋势预测和响应：基于历史数据和当前的分析结果，可以预测未来的趋势，并制定相应的安全措施。例如，如果分析显示特定类型的攻击正在增加，可以加强与这些攻击类型相关的防御措施。

5.可视化和报告：为了更好地理解和传达分析结果，可以将数据可视化，并生成包含关键发现和建议的报告。

整个分析过程需要结合专业知识和经验，以确保从数据中提取出最有价值的洞察。此外，分析中关键决策和解释需要人工参与，以确保准确性和上下文相关性。通过这种综合分析，该方法能够有效地检测和响应网络流量异常，从而增强网络安全。

下面结合一个具体的例子来说明如何判断网络异常。

假设数据集包含一个时间窗口/>的故事线索/>，标记为“中度异常”。故事线索/>可能描述了如下场景：

“在一个繁忙的工作日，发送者192.168.1.10尝试通过SSH端口（端口22）连接到接收者192.168.1.20。连接尝试频繁且急迫，似乎有些异常。每次尝试都以SYN标志开始，但从未有ACK确认。接收者192.168.1.20似乎对发送者的这些尝试视而不见，没有任何响应。这种行为在整个时间窗口内重复发生，引起了系统的警觉。”

在这个例子中，分析过程可以如下：

1.理解故事线索：在故事线索中，频繁且未成功的SSH连接尝试被描述得生动而具体。通过将技术细节转化为故事情节，分析人员可以更直观地理解网络行为。

2.识别异常模式：故事线索提供了一种更人性化的视角，帮助分析人员快速捕捉到异常模式。在本例中，频繁的、未完成的SSH尝试是一个明显的异常迹象。

3.联系异常等级：通过将故事线索与“中度异常”的标签相结合，可以强调问题的严重性，并提示需要进一步调查。

4.深度分析：基于故事线索，分析人员可能怀疑这是一种暴力破解SSH密码的企图。这需要检查源IP的历史行为，以确定是否存在系统性的恶意行为。

5.制定响应策略：依据故事线索的分析结果，可以采取相应的安全措施，例如增强对SSH端口的监控，或者暂时封锁源IP地址以防止进一步的尝试。

通过这个例子可以看到，故事线索不仅提供了技术数据的直观解释，还强化了数据分析的可理解性。这种方法使得网络安全分析更具洞察力，有效提升了对潜在威胁的响应速度和准确性。

在上述的实施例中，提供了一种网络流量异常检测方法，与之相对应的，本申请还提供一种网络流量异常检测装置。请参看图2，其为本申请的一种网络流量异常检测装置实施例的示意图。由于本实施例，即第二实施例，基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

本申请第二实施例提供的一种网络流量异常检测装置，包括：

收集单元201，用于收集企业或组织的网络流量数据，所述网络流量数据包括IP地址、端口号、数据包大小及TCP标志，并对所述数据进行预处理，其中，所述预处理包括使用网络模型或人工经验对所述网络流量数据进行初步异常流量标记，获得包括时间戳、源IP地址、目的IP地址、端口号、数据包大小、TCP标志和初步网络流量异常标签的多维数据集；

遍历单元202，用于利用预先定义的时间窗口，遍历预处理后的网络流量数据，获得一系列时间戳在/>和/>的数据点；其中，/>是时间窗口/>的起始时间，是时间窗口/>的终止时间，/>是时间窗口的序数；

计算单元203，用于计算时间窗口内的异常类型总数和时间窗口/>内的数据点总数的比例，根据所述比例，确定多个异常等级标签/>；

转换单元204，用于将时间窗口内的数据点转换为故事元素/>，包括将源IP和目的IP转换为故事中的角色、将端口号和TCP标志转换为行动、将数据包大小转换为事件的情境，以及将初步网络流量异常标签转换为特定事件；

创建单元205，用于利用大语言模型，基于所述故事元素创建故事线索/>；并将所述故事线索/>与确定的多个异常等级标签/>进行融合，生成新的数据集：

；/>

分析单元206，用于对于所述新的数据集进行分析，获得网络流量异常检测结果。

本申请第三实施例提供一种电子设备，所述电子设备包括：

处理器；

存储器，用于存储程序，所述程序在被所述处理器读取执行时，执行本申请第一实施例中提供的网络流量异常检测方法。

本申请第四实施例提供一种计算机可读取存储介质，其上存储有计算机程序，该程序被处理器执行时，执行本申请第一实施例中提供的网络流量异常检测方法。

本申请虽然以较佳实施例公开如上，但其并不是用来限定本申请，任何本领域技术人员在不脱离本申请的精神和范围内，都可以做出可能的变动和修改，因此本申请的保护范围应当以本申请权利要求所界定的范围为准。

Claims

1.一种网络流量异常检测方法，其特征在于，包括：

利用预先定义的时间窗口，遍历预处理后的网络流量数据，获得一系列时间戳在和/>之间的数据点；其中，/>是时间窗口/>的起始时间，/>是时间窗口/>的终止时间，/>是时间窗口的序数；

；

2.根据权利要求1所述的网络流量异常检测方法，其特征在于，所述初步网络流量异常标签包括正常、DDoS攻击、端口扫描、数据泄露、恶意软件通信、网络钓鱼和异常行为中的一种。

3.根据权利要求1所述的网络流量异常检测方法，其特征在于，所述将初步网络流量异常标签转换为特定事件，包括：

4.根据权利要求1所述的网络流量异常检测方法，其特征在于，所述预先定义的时间窗口根据网络活动的峰值时段和非峰值时段进行定义，以便在不同网络使用模式下更有效地捕捉异常行为。

5.根据权利要求1所述的网络流量异常检测方法，其特征在于，所述利用大语言模型，基于所述故事元素创建故事线索/>，包括：

6.根据权利要求1所述的网络流量异常检测方法，其特征在于，所述使用网络模型或人工经验对所述网络流量数据进行初步异常流量标记，包括：

7.一种网络流量异常检测装置，其特征在于，包括：

；

8.一种网络流量异常检测设备，其特征在于，包括：

处理器；

存储器，用于存储程序，所述程序在被所述处理器读取执行时，执行权利要求1-6中任意一项提供的所述网络流量异常检测方法。

9.一种计算机可读取存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时，执行权利要求1-6中任意一项提供的所述网络流量异常检测方法。