CN116708208A

CN116708208A - 一种基于机器学习的网络数据传输态势预测方法

Info

Publication number: CN116708208A
Application number: CN202310980269.XA
Authority: CN
Inventors: 陈从刚; 王洪义; 蔡鹏�; 刘广福; 刘臻睿
Original assignee: Shandong Huibeihang Information Technology Co ltd
Current assignee: Shandong Huibeihang Information Technology Co ltd
Priority date: 2023-08-07
Filing date: 2023-08-07
Publication date: 2023-09-05
Anticipated expiration: 2043-08-07
Also published as: CN116708208B

Abstract

本发明公开了一种基于机器学习的网络数据传输态势预测方法，涉及网络数据传输技术领域，包括如下步骤：步骤一、数据获取；步骤二、数据处理；步骤三、构建传输性能分析模型；步骤四、基线分析；步骤五：异常判定；其技术要点为：通过多线程同步对各个数据流进行同步处理，提高对数据处理的效率，使用基于基线的机器学习算法对不同传输协议连接数进行对比，能够对网络传输是否正常进行初步判断，而后对比网络传输态势评估系数与评估系数阈值的大小即可进一步完成对网络传输异常的判断，并能够根据网络传输态势评估系数的大小获取数据传输态势发生异常的程度，能够准确、有效地完成对网络数据传输态势的预测和评估。

Description

一种基于机器学习的网络数据传输态势预测方法

技术领域

本发明涉及网络数据传输技术领域，具体为一种基于机器学习的网络数据传输态势预测方法。

背景技术

网络数据传输是指在计算机网络中，将数据从一个地点传输到另一个地点的过程，在网络通信中，数据的传输是通过将数据分割成较小的数据块（也称为数据流）进行传输，这些数据流通过网络中的各种设备（如路由器、交换机等）通过一系列的传输协议进行传递和重新组装，最终到达目标地点。

在对网络数据传输态势预测过程中，需要经过数据采集，构建相关模型进行数据分析以及对传输性能进行评估的操作，对于数据采集通常是直接获取网络传输数据，在对数据清洗后输入至相关模型进行分析操作，而后进行数据分析时可利用监测学习模型或是无监督学习模型进行的分析，获取数据传输中的相关指标，最后对指标数据与正常指标值进行对比，即可完成对网络传输态势的分析操作，实现网络传输性能的评估。

然而，在现有的网络数据传输态势预测方法中，由于网络数据量过大，导致在进行数据采集时容易发生遗漏的情况，而后在对于网络传输性能的评估时，只是能够通过带宽测试、延迟测试这类简单的方式发现网络传输的异常，对于异常判定的准确度有待提高，也无法适用在需要判定异常程度的场景下。

发明内容

（一）解决的技术问题

针对现有技术的不足，本发明提供了一种基于机器学习的网络数据传输态势预测方法，在对网络数据获取后，通过多线程同步对各个数据流进行同步处理，提高对数据处理的效率，使用基于基线的机器学习算法对不同传输协议连接数进行对比，能够对网络传输是否正常进行初步判断，结合传输性能分析模型的构建，能够进一步完成对网络传输异常的判断，解决了背景技术中提出的问题。

（二）技术方案

为实现以上目的，本发明通过以下技术方案予以实现：

一种基于机器学习的网络数据传输态势预测方法，包括如下步骤：

数据获取：从网络中获取网络传输数据，形成每一条通讯的会话元数据；

数据处理：利用无锁算法对会话元数据的行为特征和流量特征进行处理；

需要说明的是：无锁算法是一种多线程或并发编程的技术，用于实现线程或进程间的同步操作，而无需使用传统的锁机制（如互斥锁或信号量）；在多线程或并发环境中，传统的锁机制可能会引起线程之间的竞争和争用，从而导致性能下降和死锁的问题，而无锁算法能够使得线程之间可以独立地访问共享资源，而无需互斥锁的保护，使得多个线程可以并发地执行，提高了系统的吞吐量和响应性能。

构建传输性能分析模型：基于行为特征和流量特征的处理结果，利用无监督学习算法来构建传输性能分析模型，在传输性能分析模型中通过聚合计算获取不同传输协议下对应传输指标平均值；

具体的，流量特征分析包括的即为本申请所使用到的传输重传率、传输延迟以及传输抖动率；其中，传输重传率是指在网络传输过程中重新发送的数据包所占总发送数据包的比例，可以通过在发送端和接收端记录发送和接收的数据包数量，并计算重传的数据包数量来获取传输重传率，具体计算公式为：重传率=重传数据包数/发送数据包数；传输延迟是指数据从发送端到接收端所需的时间，可以通过在发送端和接收端记录发送和接收的时间戳，并计算两者之间的时间差来获取传输延迟，具体计算公式为：传输延迟=接收时间-发送时间；传输抖动率是指数据到达接收端的时间间隔的变化程度，抖动通常由网络延迟的波动和数据包的重新排序引起，可以通过在接收端记录连续数据包到达的时间戳，并计算时间间隔的标准差来获取传输抖动率，具体计算公式为：传输抖动率=标准时间间隔内平均延迟的导数的移动平均值；

其中，构建传输性能分析模型时利用到的无监督学习算法为自编码器，用于将汇总后的数据传输指标压缩成低维表示，并通过自编码器内置的解码单元进行重构。

基线分析：使用基于基线的机器学习算法对不同传输协议连接数进行对比，若是目标传输协议的总连接数超过基准值，则判定网络传输异常，反之则正常，提取正常传输协议下的传输指标平均值，经过处理后通过公式建立网络传输态势评估系数Ars；

异常判定：设置评估系数阈值，通过对比网络传输态势评估系数Ars是否大于评估系数阈值，来判断对应传输协议下的数据传输态势是否发生异常，并根据异常程度，发出对应的预警信号；

需要说明的是：评估系数阈值的设置可以通过实验和验证进行获取：在设定评估系数阈值之后，通过模拟不同的传输情况和异常情况，观察网络传输态势评估系数Ars的变化，并根据实验结果调整和优化评估系数阈值的设定，最终可根据具体的应用场景和需求进行确定。

进一步的，获取到的网络传输数据为：经过解包和逐层分析的网络流量报文。

进一步的，对每个会话元数据的行为特征和流量特征进行处理的具体步骤为：

数据分割：对会话元数据根据协议类型进行分割，获取若干数据流；

并行处理：利用多线程并行处理方式，每个线程负责一个数据流，多个线程同步对数据流进行预处理，包括数据清洗、去除异常值以及填充缺失值；

提取汇总：解析每个线程的数据流，提取数据传输指标，且数据传输指标至少包括：协议类型、传输重传率、传输延迟以及传输抖动率，对提取到的数据传输指标进行汇总，得到处理结果。

进一步的，构建传输性能分析模型时利用到的无监督学习算法为自编码器，用于将汇总后的数据传输指标压缩成低维表示，并通过自编码器内置的解码单元进行重构。

进一步的，在传输性能分析模型中的数据计算过程为：

获取到的协议类型至少包括：TCP和UDP；

其中，TCP是一种传输层协议，用于在网络中可靠地传输数据，TCP提供了数据分段、排序、重传、流量控制和拥塞控制功能，以确保数据的可靠性和完整性，TCP是面向连接的协议，通过三次握手建立可靠的通信连接，并提供双向的数据传输能力；UDP也是一种传输层协议，用于在网络中进行无连接的数据传输，与TCP不同，UDP不提供可靠性和流量控制功能，UDP适用于对实时性要求较高，但对数据传输的可靠性要求相对较低的应用场景，UDP的优点是传输速度快，开销小。

计算不同传输协议下对应的传输指标平均值，包括传输重传率平均值、传输延迟平均值以及传输抖动率平均值。

进一步的，基于基线的机器学习算法对不同传输协议连接数进行对比，其对比步骤如下：

定义基线：建立一个基准值作为对比的参考对象；

数据采集：使用网络流量采集工具，收集不同传输协议下的连接数数据；

数据计算：对每个传输协议下的连接数数据进行聚合计算，获取每个传输协议下的总连接数；

对比判定：将不同传输协议下的总连接数均与基准值进行对比，用于判定网络传输是否异常。

进一步的，通过公式建立网络传输态势评估系数，表达式为：

；

式中，为数据传输安全评估系数，/>为传输重传率平均值、/>为传输延迟平均值以及/>传输抖动率平均值，/>分别为传输重传率、传输延迟以及传输抖动率的预设比例系数，且/>。

进一步的，所述传输重传率平均值的获取方式为：将同一传输协议下每个会话的传输重传率相加，然后除以同一传输协议下的会话总数，即可得到传输重传率平均值；

所述传输延迟平均值的获取方式为：将同一传输协议下每个会话的传输延迟相加，然后除以同一传输协议下的会话总数，即可得到传输延迟平均值；

所述传输抖动率平均值的获取方式为：将同一传输协议下每个会话的传输抖动率相加，然后除以同一传输协议下的会话总数，即可得到传输抖动率平均值。

进一步的，在对比网络传输态势评估系数Ars是否大于评估系数阈值时，具体的情况为：

当网络传输态势评估系数Ars＞评估系数阈值，对应传输协议下的数据传输态势发生异常，且数据传输态势发生异常的程度与网络传输态势评估系数Ars的大小呈正相关；

当网络传输态势评估系数Ars≤评估系数阈值，对应传输协议下的数据传输态势处于正常状态。

进一步的，根据异常程度发出对应的预警信号，具体为：

依据数据传输态势发生异常的程度与网络传输态势评估系数Ars的大小呈正相关，对应传输协议下的网络传输态势评估系数Ars越大，则单位时间内，预警灯的频闪次数越多，预警灯的频闪次数越快，则表示数据传输态势发生异常的程度越高，此时检修人员可根据情况进行后续的检修或调整操作。

（三）有益效果

本发明提供了一种基于机器学习的网络数据传输态势预测方法，具备以下有益效果：

通过在对网络数据获取后，利用并行技术进行全数据分析，以保证不遗漏每条数据，通过多线程同步对各个数据流进行同步处理，也能够提高对数据处理的效率，适用于大量数据的分析和处理场景；

使用基于基线的机器学习算法对不同传输协议连接数进行对比，能够对网络传输是否正常进行初步判断，而后在构建传输性能分析模型的基础上，经过聚合计算获取不同传输协议下的传输重传率平均值、传输延迟平均值以及传输抖动率平均值，并建立网络传输态势评估系数，对比网络传输态势评估系数与评估系数阈值的大小即可进一步完成对网络传输异常的判断，并能够根据网络传输态势评估系数的大小获取数据传输态势发生异常的程度，能够准确、有效地完成对网络数据传输态势的预测和评估。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于机器学习的网络数据传输态势预测方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1，本发明提供一种基于机器学习的网络数据传输态势预测方法，包括如下步骤：

步骤一、数据获取：从网络中获取网络传输数据，形成每一条通讯的会话元数据；

其中，获取到的网络传输数据为：经过解包和逐层分析的网络流量报文。

步骤二、数据处理：利用无锁算法对会话元数据的行为特征和流量特征进行处理；

其中，对每个会话元数据的行为特征和流量特征进行处理的具体步骤为：

S201、数据分割：对会话元数据根据协议类型进行分割，获取若干数据流；

S202、并行处理：利用多线程并行处理方式，每个线程负责一个数据流，多个线程同步对数据流进行预处理，包括数据清洗、去除异常值以及填充缺失值，确保数据的完整性和可靠性，并行处理的方式能够充分利用系统的多核处理能力和资源，加快数据处理速度；

其中，数据清洗：数据清洗是指清理和修正数据集中存在的错误、不一致或不完整的数据，数据清洗可以使用编程语言（如Python或SQL）中的函数、过滤器或数据处理库来实现；

异常值处理：异常值是指与其他观测值显著不同的数据点，异常值可能是由于测量误差、数据录入错误或其他原因导致的，处理异常值的方法包括删除异常值、替换为缺失值、用均值或中位数替代，识别和处理异常值常使用离群值检测方法（如箱线图、Z-Score、3-Sigma）来辅助判断；

缺失值填充：缺失值是指数据集中存在的空值或未知值，缺失值可能会影响数据分析的准确性和完整性，缺失值填充的方法可以根据具体情况选择，包括使用均值、中位数、众数填充数值型数据，使用最频繁类别填充分类型数据，在填充缺失值之前，可以先进行缺失值分析和理解缺失值产生的原因；

在进行数据清洗、异常值处理和缺失值填充时，要根据数据的特点和分析目标选择合适的方法，并保持数据处理的合理性和可解释性，还可以根据具体问题进行交叉验证和评估处理后的数据质量，以确保数据预处理的有效性。

S202、提取汇总：解析每个线程的数据流，提取数据传输指标，且数据传输指标至少包括：协议类型、传输重传率、传输延迟以及传输抖动率，对提取到的数据传输指标进行汇总，得到处理结果。

使用时，结合步骤一和步骤二的内容：

通过在对网络数据获取后，利用并行技术进行全数据分析，以保证不遗漏每条数据，通过多线程同步对各个数据流进行同步处理，也能够提高对数据处理的效率，适用于大量数据的分析和处理场景。

步骤三、构建传输性能分析模型：基于行为特征和流量特征的处理结果，利用无监督学习算法来构建传输性能分析模型，在传输性能分析模型中通过聚合计算获取不同传输协议下对应传输指标平均值；

具体的，行为特征分析的内容还可以包括：会话持续时间，计算会话的开始时间和结束时间之间的时间差，以了解会话的时长和活跃度；会话状态，以了解会话是否成功；数据流数量，统计会话中传输的数据流数量，以了解会话的数据交互程度和活动强度；传输速率：根据会话的持续时间和传输的数据量，计算会话的传输速率，以了解会话的数据传输效率和带宽利用情况；传输方向：分析会话传输的方向，即数据是从源地址传输到目标地址，还是反之，可以帮助了解数据流向和网络通信的模式。本申请中则是只提取协议类型，识别会话所使用的传输协议，如TCP、UDP，根据协议类型的分布，可以了解会话所涉及的应用和服务；

流量特征分析包括的即为本申请所使用到的传输重传率、传输延迟以及传输抖动率；其中，传输重传率是指在网络传输过程中重新发送的数据包所占总发送数据包的比例，可以通过在发送端和接收端记录发送和接收的数据包数量，并计算重传的数据包数量来获取传输重传率，具体计算公式为：

重传率=重传数据包数/发送数据包数；

传输延迟是指数据从发送端到接收端所需的时间，可以通过在发送端和接收端记录发送和接收的时间戳，并计算两者之间的时间差来获取传输延迟，具体计算公式为：

传输延迟=接收时间-发送时间；

传输抖动率是指数据到达接收端的时间间隔的变化程度，抖动通常由网络延迟的波动和数据包的重新排序引起，可以通过在接收端记录连续数据包到达的时间戳，并计算时间间隔的标准差来获取传输抖动率，具体计算公式为：

传输抖动率=标准时间间隔内平均延迟的导数的移动平均值；

在传输性能分析模型中的数据计算过程为：

获取到的协议类型至少包括：TCP和UDP；

在具体应用中还可以包括HTTP，需要说明的是：

TCP是一种传输层协议，用于在网络中可靠地传输数据，TCP提供了数据分段、排序、重传、流量控制和拥塞控制功能，以确保数据的可靠性和完整性，TCP是面向连接的协议，通过三次握手建立可靠的通信连接，并提供双向的数据传输能力；

UDP也是一种传输层协议，用于在网络中进行无连接的数据传输，与TCP不同，UDP不提供可靠性和流量控制功能，UDP适用于对实时性要求较高，但对数据传输的可靠性要求相对较低的应用场景，UDP的优点是传输速度快，开销小；

HTTP是一种应用层协议，用于在万维网上传输超文本和其他资源；HTTP基于客户端-服务器模型，客户端发送请求，服务器返回响应，通过HTTP，可以进行网页浏览、文件下载、表单数据提交操作，HTTP通常使用TCP作为传输层协议来提供可靠的数据传输。

步骤四、基线分析：使用基于基线的机器学习算法对不同传输协议连接数进行对比，若是目标传输协议的总连接数超过基准值，则判定网络传输异常，反之则正常，提取正常传输协议下的传输指标平均值，经过处理后通过公式建立网络传输态势评估系数Ars；

其中，基于基线的机器学习算法对不同传输协议连接数进行对比，其对比步骤如下：

S401、定义基线：建立一个基准值作为对比的参考对象；

S402、数据采集：使用网络流量采集工具，收集不同传输协议下的连接数数据；

S403、数据计算：对每个传输协议下的连接数数据进行聚合计算，获取每个传输协议下的总连接数；

S404、对比判定：将不同传输协议下的总连接数均与基准值进行对比，用于判定网络传输是否异常。

通过公式建立网络传输态势评估系数，表达式为：

；

式中，为数据传输安全评估系数，/>为传输重传率平均值、/>为传输延迟平均值以及/>传输抖动率平均值，/>分别为传输重传率、传输延迟以及传输抖动率的预设比例系数，且/>；所述传输重传率平均值的获取方式为：将同一传输协议下每个会话的传输重传率相加，然后除以同一传输协议下的会话总数，即可得到传输重传率平均值；所述传输延迟平均值的获取方式为：将同一传输协议下每个会话的传输延迟相加，然后除以同一传输协议下的会话总数，即可得到传输延迟平均值；所述传输抖动率平均值的获取方式为：将同一传输协议下每个会话的传输抖动率相加，然后除以同一传输协议下的会话总数，即可得到传输抖动率平均值。

需要说明的是：基于基线的机器学习算法是指在特征工程之前或模型训练之初，使用简单和基本的算法作为比较的基准，本申请中使用的基线的机器学习算法具体为常规统计方法，可计算总数、均值以及中位数。

步骤五、异常判定：设置评估系数阈值，通过对比网络传输态势评估系数Ars是否大于评估系数阈值，来判断对应传输协议下的数据传输态势是否发生异常，并根据异常程度，发出对应的预警信号；

其中，在对比网络传输态势评估系数Ars是否大于评估系数阈值时，具体的情况为：

当网络传输态势评估系数Ars≤评估系数阈值，对应传输协议下的数据传输态势处于正常状态；

根据异常程度发出对应的预警信号，具体为：

依据数据传输态势发生异常的程度与网络传输态势评估系数Ars的大小呈正相关，对应传输协议下的网络传输态势评估系数Ars越大，则单位时间内，预警灯的频闪次数越多，在具体应用场景中，预警灯的频闪次数越快，则表示数据传输态势发生异常的程度越高，此时检修人员可根据情况进行后续的检修或调整操作。

使用时，结合步骤三至步骤五的内容：

基于基线的机器学习算法对不同传输协议连接数进行对比，能够对网络传输是否正常进行初步判断，而后在构建传输性能分析模型的基础上，经过聚合计算获取不同传输协议下的传输重传率平均值、传输延迟平均值以及传输抖动率平均值，并建立网络传输态势评估系数，对比网络传输态势评估系数与评估系数阈值的大小即可进一步完成对网络传输异常的判断，以应对需要获取异常程度的实用场景，根据网络传输态势评估系数的大小获取数据传输态势发生异常的程度，能够准确、有效地完成对网络数据传输态势的预测和评估。

上述实施例，可以全部或部分地通过软件、硬件、固件或其他任意组合来实现。当使用软件实现时，上述实施例可以全部或部分地以计算机程序产品的形式实现。本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。

Claims

1.一种基于机器学习的网络数据传输态势预测方法，其特征在于：包括如下步骤：

异常判定：设置评估系数阈值，通过对比网络传输态势评估系数Ars是否大于评估系数阈值，来判断对应传输协议下的数据传输态势是否发生异常，并根据异常程度，发出对应的预警信号。

2.根据权利要求1所述的一种基于机器学习的网络数据传输态势预测方法，其特征在于：获取到的网络传输数据为：经过解包和逐层分析的网络流量报文。

3.根据权利要求1所述的一种基于机器学习的网络数据传输态势预测方法，其特征在于：对每个会话元数据的行为特征和流量特征进行处理的具体步骤为：

4.根据权利要求3所述的一种基于机器学习的网络数据传输态势预测方法，其特征在于：构建传输性能分析模型时利用到的无监督学习算法为自编码器，用于将汇总后的数据传输指标压缩成低维表示，并通过自编码器内置的解码单元进行重构。

5.根据权利要求3所述的一种基于机器学习的网络数据传输态势预测方法，其特征在于：在传输性能分析模型中的数据计算过程为：

获取到的协议类型至少包括：TCP和UDP；

6.根据权利要求1所述的一种基于机器学习的网络数据传输态势预测方法，其特征在于：基于基线的机器学习算法对不同传输协议连接数进行对比，其对比步骤如下：

定义基线：建立一个基准值作为对比的参考对象；

7.根据权利要求3所述的一种基于机器学习的网络数据传输态势预测方法，其特征在于：通过公式建立网络传输态势评估系数，表达式为：

；

8.根据权利要求7所述的一种基于机器学习的网络数据传输态势预测方法，其特征在于：所述传输重传率平均值的获取方式为：将同一传输协议下每个会话的传输重传率相加，然后除以同一传输协议下的会话总数，即可得到传输重传率平均值；

9.根据权利要求7所述的一种基于机器学习的网络数据传输态势预测方法，其特征在于：在对比网络传输态势评估系数Ars是否大于评估系数阈值时，具体的情况为：

10.根据权利要求9所述的一种基于机器学习的网络数据传输态势预测方法，其特征在于：根据异常程度发出对应的预警信号，具体为：

依据数据传输态势发生异常的程度与网络传输态势评估系数Ars的大小呈正相关，对应传输协议下的网络传输态势评估系数Ars越大，则单位时间内，预警灯的频闪次数越多。