CN117155792B

CN117155792B - 一种芯粒间通信动态带宽调整方法及系统

Info

Publication number: CN117155792B
Application number: CN202311414226.1A
Authority: CN
Inventors: 王嘉诚; 张少仲
Original assignee: Zhongcheng Hualong Computer Technology Co Ltd
Current assignee: Zhongcheng Hualong Computer Technology Co Ltd
Priority date: 2023-10-30
Filing date: 2023-10-30
Publication date: 2024-01-12
Anticipated expiration: 2043-10-30
Also published as: CN117155792A

Abstract

本发明公开了一种芯粒间通信动态带宽调整方法及系统，涉及芯粒带宽调整通信领域，包括步骤：S1：系统启动初始化通信模块；S2：实时采集芯粒的数据形成矩阵向量；S3：采用改进的强化学习PPO算法模型进行芯粒带宽的动态调整；S34：在经验回放缓冲区中随机抽取经验样本计算PPO算法损失函数；S35：使用梯度下降算法对神经网络模型中的参数进行更新，以最小化PPO损失函数；S4：重复S2‑S35步骤直到满足停止条件或达到指定迭代次数。本申请将强化学习PPO算法模型与卷积神经网络结合应用在芯粒间通信的带宽自动调节上，进行芯粒间带宽、通信协议的动态调整；大大提升了自动化程度及准确度。

Description

一种芯粒间通信动态带宽调整方法及系统

技术领域

本发明涉及芯粒带宽调整通信领域，具体涉及一种芯粒间通信动态带宽调整方法及系统。

背景技术

由于通信环境的复杂多变性以及多芯粒结构内部通信复杂性，如何根据实时的数据传输需求动态调整各个芯粒的通信带宽成为了一个亟待解决的技术难题。传统的带宽调整方法通常基于预先设定的规则或策略，例如静态的带宽分配或按需分配，这些方法往往不能很好地适应动态变化的通信需求和复杂的通信环境。同时，在实际的通信过程中，由于芯粒间存在着复杂的依赖关系，单一的调整某一芯粒的带宽可能会影响到其他芯粒的通信效果。因此，如何在保证整体通信质量的前提下，智能化地实现芯粒间带宽的动态调整，也是目前研究的一个重要方向。

但目前通信带宽调整仍然是一个挑战。首先，通信网络的状态可能包括大量的参数，如数据传输量、通信模式、数据流量、延迟和工作负载等，这使得状态空间非常大。其次，如何为每个芯粒合理地计算奖励值也是一个需要解决的问题。最后，由于通信网络的动态性和复杂性，如何有效地训练和更新PPO模型也是一个重要的问题。

综上所述，如何利用PPO算法有效地进行通信的动态带宽调整，仍然是一个亟待解决的问题。

发明内容

针对现有技术中提到的上述问题，为解决上述技术问题，本发明提供了一种芯粒间通信动态带宽调整方法及系统，该方法采用改进的强化学习PPO算法模型进行芯粒间带宽、通信协议的动态调整，卷积神经网络模型输出概率分布，选择概率最大的配置策略为每个芯粒分配带宽、选择通信协议，同时使用梯度下降算法对神经网络模型中的参数进行更新，以最小化PPO损失函数，实现了芯粒通信动态带宽、协议的动态调整。

一种芯粒间通信动态带宽调整方法，包括步骤：

S1：系统启动初始化通信模块，并设置芯粒默认带宽、通信协议；

S2：实时采集N个芯粒的数据传输量、通信模式、延迟、工作负载、通信协议，形成矩阵向量；

S3：采用改进的强化学习PPO算法模型进行芯粒间带宽、通信协议的动态调整；具体包括：

S31：将矩阵向量输入至卷积神经网络模型，卷积神经网络模型根据当前的参数输出芯粒分配带宽、通信协议选择的概率分布；/>为神经网络可训练参数组成的向量；

S32：根据输出的概率分布，选择概率最大的配置策略为每个芯粒分配带宽、选择通信协议：

S33：根据为每个芯粒分配的带宽和预期芯粒带宽计算奖励值，差异越小则奖励值/>越高；/>；

其中，表示实际的传输速率对应第i个芯粒的带宽，/>表示第i个芯粒的预期带宽；将芯粒/>矩阵向量和对应的奖励值存储到经验回放缓冲区，N 代表芯粒的数量，D代表每个芯粒的特征数量；

S34：在经验回放缓冲区中随机抽取经验样本计算PPO算法损失函数：

；

是将芯粒/>矩阵向量输入至更新前的神经网络与输入至当前神经网络后输出的最大概率之比，/>是优势函数，/>是设定的超参数在0.1到0.3之间，/>为求解期望值，/>为裁剪函数，确保/>在/>，/>区间内；t表示时间步；

S35：使用梯度下降算法对神经网络模型中的参数进行更新，以最小化PPO损失函数；

S4：重复S2-S34步骤，不断扩大经验回放缓冲区数据量并更新神经网络直到满足停止条件或达到指定迭代次数。

优选地，所述芯粒芯粒支持通信协议包括InfiniBand、Ethernet、Fibre Channel、OTN。

优选地，所述为裁剪函数，/>为：当/>的值大于/>时，则将取值区间的边界值/>；当/>的值小于/>时，则将取值区间的边界值。

优选地，所述是优势函数，

。

优选地，所述S35：使用梯度下降算法对神经网络模型中的参数进行更新，以最小化PPO损失函数包括：步骤S351：使用反向传播计算PPO损失函数关于每个网络参数的梯度；步骤S352：根据所计算的梯度和预设的学习率，对每个网络参数进行更新；步骤S353：重复上述步骤，直到PPO损失函数值收敛或满足其他预定的停止条件；所述神经网络模型中的参数/>包括：全连接层、卷积层、循环层中的权重以及每个神经元或卷积核对应的偏置参数。

本申请还提供一种芯粒间通信动态带宽调整系统，包括：

初始化通信模块，系统启动并设置芯粒默认带宽、通信协议；

信息采集模块，实时采集N个芯粒的数据传输量、通信模式、延迟、工作负载、通信协议，形成矩阵向量；

动态调制模块，采用改进的强化学习PPO算法模型进行芯粒间带宽、通信协议的动态调整；

卷积神经网络预测模块，将矩阵向量输入至卷积神经网络模型，卷积神经网络模型根据当前的参数输出芯粒分配带宽、通信协议选择的概率分布；/>为卷积神经网络可训练参数组成的向量；

调节选择模块，根据输出的概率分布，选择概率最大的配置策略为每个芯粒分配带宽、选择通信协议：

奖励值计算模块，根据为每个芯粒分配的带宽和预期芯粒带宽计算奖励值，差异越小则奖励值/>越高； />；

其中，表示实际的传输速率对应第i个芯粒的带宽，/>表示第i个芯粒的预期带宽；将芯粒/>矩阵向量和对应的奖励值存储到经验回放缓冲区；

损失函数计算模块，在经验回放缓冲区中随机抽取经验样本计算PPO算法损失函数：

；

参数更新模块，使用梯度下降算法对神经网络模型中的参数进行更新，以最小化PPO损失函数；

判断模块，重复信息采集模块-参数更新模块，不断扩大经验回放缓冲区数据量并更新神经网络直到满足停止条件或达到指定迭代次数。

优选地，所述芯粒支持通信协议包括InfiniBand、Ethernet、Fibre Channel、OTN 。

优选地，所述是优势函数，

。

优选地，所述参数更新模块：使用梯度下降算法对神经网络模型中的参数进行更新，以最小化PPO损失函数包括：梯度计算模块：使用反向传播计算PPO损失函数关于每个网络参数的梯度；参数调整模块：根据所计算的梯度和预设的学习率，对每个网络参数进行更新；迭代模块：重复上述步骤，直到PPO损失函数值收敛或满足其他预定的停止条件；所述神经网络模型中的参数/>包括：全连接层、卷积层、循环层中的权重以及每个神经元或卷积核对应的偏置参数。

本发明提供了一种芯粒间通信动态带宽调整方法及系统，所能实现的有益技术效果如下：

1、本申请将强化学习PPO算法模型与卷积神经网络结合应用在芯粒通信的带宽自动调节上，通过实时采集N个芯粒的数据传输量、通信模式、延迟、工作负载、通信协议，形成矩阵向量；采用改进的强化学习PPO算法模型进行芯粒间带宽、通信协议的动态调整；将矩阵向量输入至卷积神经网络模型，卷积神经网络模型根据当前的参数/>输出芯粒分配带宽、通信协议选择的概率分布；选择概率最大的配置策略为每个芯粒分配带宽、选择通信协议，实现了带宽、网络协议的自动选择动态调整，大大提升了自动化程度，且通过强化学习通过奖励值的计算大大提高了带宽调节的准确度提升了通信效率降低了能耗。

2、本发明强化学习PPO算法中，是时间步t时的优势函数，通过选择一个芯粒与所有芯粒的奖励值的平均进行比较，优势函数计算过程中，结合芯粒特性，将芯粒的奖励值加入到优势函数的计算，实现了优势函数的高效计算，大大提供了学习效率。；

3、本发明根据为每个芯粒分配的带宽和预期芯粒带宽计算奖励值，将芯粒矩阵向量和对应的奖励值存储到经验回放缓冲区；在经验回放缓冲区中随机抽取经验样本计算PPO算法损失函数/>，通过存储芯粒的数据和奖励值到经验回放缓冲区，并从中随机抽取样本来更新PPO损失函数，使得模型能够更好地从历史经验中学习。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1是本发明的一种芯粒间通信动态带宽调整方法步骤示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

实施例1：

针对现有技术中提到的上述问题，为解决上述技术问题，如附图1所示：一种芯粒间通信动态带宽调整方法，包括步骤：

S1：系统启动初始化通信模块，并设置芯粒默认带宽、通信协议；通信模块的初始化：每当系统启动或重启时，通信模块需要进行初始化。初始化过程包括激活模块、测试连接的完整性、校准以及配置初始参数。设置芯粒默认带宽：芯粒，也可被称为通信的通道或路径，是数据中心或交换网络中的数据通信单元。在初始化过程中，每个芯粒都会被分配一个默认的带宽。例如，如果一个系统的总带宽是100Gbps，并且有10个芯粒，那么每个芯粒可能会被分配10Gbps的默认带宽。设置通信协议：通信协议是数据交换的规则和格式。在初始化过程中，通信模块需要配置一个默认的通信协议。例如，系统可能会选择使用一种标准的通信协议，如OTN (Optical Transport Network) 或 DWDM (DenseWavelength DivisionMultiplexing)。在一个拥有10个芯粒的数据中心中，系统启动时首先对通信模块进行初始化，包括激活模块、测试和校准电路。然后，为每个芯粒分配10Gbps的默认带宽。接着，选择OTN作为默认的通信协议。S2：实时采集N个芯粒的数据传输量、通信模式、延迟、工作负载、通信协议，形成矩阵向量；在一个实施例中：一个通信系统，其中包含三个芯粒（N=3）。每个芯粒都有其特定的数据传输量、通信模式、延迟、工作负载、通信协议。

芯粒1：数据传输量: 10Gbps、通信模式: 单播、延迟: 5ms、工作负载: 60%、通信协议: OTN；

芯粒2：数据传输量: 8Gbps、通信模式: 广播、延迟: 7ms、工作负载: 75%、通信协议: DWDM；

芯粒3：数据传输量: 12Gbps、通信模式: 多播、延迟: 4ms、工作负载: 55%、通信协议: OTN。：

在一些实施例中，通信模式、通信协议可能会被转换为数字编码或独热编码，以便于神经网络处理。例如，单播、广播、多播可能被编码为[1,0,0]、[0,1,0]。

S31：将矩阵向量输入至卷积神经网络模型，卷积神经网络模型根据当前的参数/>输出芯粒分配带宽、通信协议选择的概率分布；/>为神经网络可训练参数组成的向量，N 代表芯粒的数量，D 代表每个芯粒的特征数量；

在一些实施例中，一个简化的通信系统，其中包含两个芯粒（N=2）。每个芯粒都有两个特性（D=2）：数据传输量和延迟。使用卷积神经网络来确定每个芯粒的带宽分配、通信协议。输入数据：

矩阵向量：数据传输量 10 8

延迟 5 7

卷积神经网络模型：输入层：接收一个2x2的矩阵作为输入。卷积层：使用一个1x2的滤波器，然后应用ReLU激活函数。全连接层：将卷积层的输出扁平化，并连接到一个有6个神经元的全连接层。这6个神经元分别代表两个芯粒的带宽分配、通信协议选择的概率。输出层：使用softmax函数，确保输出代表有效的概率分布。

网络参数：卷积滤波器的权重和偏差。全连接层的权重和偏差。这些参数在训练过程中被调整，以最小化预测的概率分布和实际结果之间的差异。

输出：

经过训练，当我们为网络提供上述2x2的矩阵时，网络输出以下概率分布：

芯粒1的带宽分配:0.6

芯粒1的通信协议:0.2

芯粒2的带宽分配:0.4

芯粒2的通信协议:0.5

这意味着，基于当前的网络参数和输入数据，模型建议为芯粒1分配更高的带宽，并为芯粒2选择不同的通信协议。通过这种方式，我们可以使用卷积神经网络为每个芯粒动态地分配带宽、选择通信协议，以最大化整个系统的效率和性能。

在一些实施例中，有一个简化的通信系统，其中包含两个芯粒。每个芯粒都有两种配置策略选项：带宽分配、通信协议选择。基于之前的卷积神经网络输出，得到以下概率分布：

芯粒1的带宽分配:[0.3,0.6,0.1](分别对应10Mbps, 20Mbps, 30Mbps)

芯粒1的通信协议:[0.2,0.5,0.3](分别对应协议A, 协议B, 协议C)

芯粒2的带宽分配:[0.4,0.4,0.2](分别对应10Mbps, 20Mbps, 30Mbps)

芯粒2的通信协议:[0.5,0.4,0.1](分别对应协议A, 协议B, 协议C)

根据上述概率分布，我们选择概率最大的配置策略为每个芯粒分配带宽、选择通信协议。选择结果：

芯粒1:

带宽：20Mbps (因为0.6是这三个概率值中的最大值)

通信协议：协议B (因为0.5是最大值)

芯粒2:

带宽：10Mbps或20Mbps (因为它们都是0.4，所以可以根据其他优化标准或随机选择)

通信协议：协议A (因为0.5是最大值)

通过根据卷积神经网络输出的概率分布选择最大概率的配置策略，为每个芯粒动态地分配带宽、选择通信协议，以期最大化整个系统的效率和性能。

S33：根据为每个芯粒分配的带宽和预期芯粒带宽计算奖励值，差异越小则奖励值/>越高； />

1. 预期带宽：

芯粒1的预期带宽为：25Mbps

芯粒2的预期带宽为：15Mbps

2. 实际分配的带宽（基于神经网络的决策）：

芯粒1的实际带宽为：20Mbps

芯粒2的实际带宽为：10Mbps

3. 计算奖励值：

在一些实施例中，奖励值可以用预期带宽和实际带宽之间的差异的倒数来表示。差异越小，奖励值越高。

S4：重复S2-S35步骤，不断扩大经验回放缓冲区数据量并更新神经网络直到满足停止条件或达到指定迭代次数。

优选地，所述为裁剪函数，/>为：当/>的值大于时，则将取值区间的边界值/>；当/>的值小于/>时，则将取值区间的边界值/>。

优选地，所述是优势函数，

。

本申请还提供一种芯粒间通信动态带宽调整系统，包括：

卷积神经网络预测模块，将矩阵向量输入至卷积神经网络模型，卷积神经网络模型根据当前的参数/>输出芯粒分配带宽、通信协议选择的概率分布；/>为卷积神经网络可训练参数组成的向量；

预期带宽是每个芯粒达到的目标带宽，而实际分配的带宽是通过神经网络模型和其他决策过程得到的。奖励值的计算旨在奖励那些实际带宽接近预期带宽的情况，并惩罚那些偏离预期带宽较大的情况。

首先，计算每个芯粒的实际带宽与预期带宽之间的差异。

差异=实际带宽−预期带宽

奖励值确定：

如果差异为零或非常小（即实际带宽非常接近预期带宽），则给予正的奖励值，例如 +1。

如果差异较大（即实际带宽远离预期带宽），则给予负的奖励值，例如 -1。

在一个实施例中，有三个芯粒A、B和C，它们的预期带宽分别是100Mbps、200Mbps和300Mbps。

在某次决策后，它们的实际带宽分别是：

芯粒A: 105Mbps

芯粒B: 190Mbps

芯粒C: 290Mbps

对于芯粒A，差异是5Mbps，这是一个很小的差异，所以它可能获得接近+1的奖励值。

对于芯粒B和C，它们的差异分别是10Mbps和10Mbps，这也是相对较小的差异，所以它们也可能获得接近+1的奖励值。

然而，如果某个芯粒的实际带宽是50Mbps，而其预期带宽是300Mbps，那么这个差异是250Mbps，这是一个非常大的差异。因此，这个芯粒可能会获得接近-1的奖励值。

预期芯粒带宽的确定可以基于多种考虑和方法，以下是一些常见的方法和策略：基于历史数据：如果系统已经运行了一段时间，您可以使用过去的数据来估计每个芯粒的预期带宽。这可以通过对过去的实际带宽使用进行统计分析来实现。

静态配置：在某些场景中，系统管理员或网络工程师可能会基于对系统工作负载和需求的了解，为每个芯粒手动设置预期带宽。

基于负载均衡：如果所有芯粒的处理能力和需求大致相同，预期带宽可以平均分配给所有芯粒。

动态调整：一种更先进的方法是，系统可以根据实时工作负载和其他环境因素动态地调整每个芯粒的预期带宽。例如，如果某个芯粒的工作负载突然增加，系统可以临时提高其预期带宽。

基于应用和服务需求：如果系统上运行的不同应用和服务的带宽需求是已知的，这些需求可以用作设置每个芯粒的预期带宽的依据。

反馈机制：在更先进的设置中，芯粒之间或与中央控制器之间可以有反馈机制，使得当某些芯粒面临带宽不足时，可以请求更多的带宽资源。

优化和迭代：在系统运行过程中，预期带宽可以根据实际效果进行优化和迭代。例如，如果发现某个芯粒的实际带宽经常超出或低于预期带宽，可以调整其预期带宽。

芯粒支持的通信协议：

InfiniBand:是一个非常高速的通信协议，常用于高性能计算和数据中心。

Ethernet是最常用的局域网技术，适用于各种应用，从家庭网络到大型数据中心。

Fibre Channel:主要用于存储区域网络（SAN），提供高速、可靠的数据存储和访问。

优选地，所述为裁剪函数，/>为：当/>的值大于/>时，则将取值区间的边界值/>；当/>的值小于/>时，则将取值区间的边界值/>。

优选地，所述是优势函数，

。

1、本申请将强化学习PPO算法模型与卷积神经网络结合应用在芯粒间通信的带宽自动调节上，通过实时采集N个芯粒的数据传输量、通信模式、延迟、工作负载、通信协议，形成矩阵向量；采用改进的强化学习PPO算法模型进行芯粒间带宽、通信协议的动态调整；将矩阵向量输入至卷积神经网络模型，卷积神经网络模型根据当前的参数/>输出芯粒分配带宽、通信协议的概率分布；选择概率最大的配置策略为每个芯粒分配带宽、选择通信协议，实现了带宽、网络协议的自动选择动态调整，大大提升了自动化程度，且通过强化学习通过奖励值的计算大大提高了带宽调节的准确度提升了通信效率降低了能耗。

以上对一种芯粒间通信动态带宽调整方法及系统进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的核心思想；同时，对于本领域的一般技术人员，依据本发明的思想和方法，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种芯粒间通信动态带宽调整方法，其特征在于，包括步骤：

其中，表示实际的传输速率对应第i个芯粒的带宽，/>表示第i个芯粒的预期带宽；将芯粒/>矩阵向量和对应的奖励值存储到经验回放缓冲区，N 代表芯粒的数量，D 代表每个芯粒的特征数量；

；

是将芯粒/>矩阵向量输入至更新前的神经网络与输入至当前神经网络后输出的最大概率之比，/>是优势函数，/>是设定的超参数在0.1到0.3之间，/>为求解期望值，为裁剪函数，确保/>在/>区间内；t表示时间步；

S4：重复所述S2-S35，不断扩大经验回放缓冲区数据量并更新神经网络直到满足停止条件或达到指定迭代次数。

2.如权利要求1所述的一种芯粒间通信动态带宽调整方法，其特征在于，所述芯粒支持通信协议包括InfiniBand、Ethernet、Fibre Channel、OTN 。

3.如权利要求1所述的一种芯粒间通信动态带宽调整方法，其特征在于，所述为裁剪函数，/>为：当/>的值大于/>时，则/>的值为取值区间的边界值/>；当/>的值小于/>时，则/>的值为取值区间的边界值/>。

4.如权利要求1所述的一种芯粒间通信动态带宽调整方法，其特征在于，所述是优势函数，公式如下：

。

5.如权利要求1所述的一种芯粒间通信动态带宽调整方法，其特征在于，所述S35中：使用梯度下降算法对神经网络模型中的参数进行更新，以最小化PPO损失函数，还包括：

步骤S351：使用反向传播计算PPO损失函数关于每个网络参数的梯度；

步骤S352：根据所计算的梯度和预设的学习率，对每个网络参数进行更新；

步骤S353：重复上述步骤，直到PPO损失函数值收敛或满足其他预定的停止条件；

所述神经网络模型中的参数包括：全连接层、卷积层、循环层中的权重以及每个神经元或卷积核对应的偏置参数。

6.一种芯粒间通信动态带宽调整系统，其特征在于，包括：

动态调制模块，采用改进的强化学习PPO算法模型进行芯粒间带宽、通信协议的动态调整；具体包括：

奖励值计算模块，根据为每个芯粒分配的带宽和预期芯粒带宽计算奖励值，差异越小则奖励值/>越高；/>；

；

7.如权利要求6所述的一种芯粒间通信动态带宽调整系统，其特征在于，所述芯粒支持通信协议包括InfiniBand、Ethernet、Fibre Channel、OTN。

8.如权利要求6所述的一种芯粒间通信动态带宽调整系统，其特征在于，所述为裁剪函数，/>为：当/>的值大于/>时，则/>的值为取值区间的边界值/>；当/>的值小于/>时，则/>的值为取值区间的边界值/>。

9.如权利要求6所述的一种芯粒间通信动态带宽调整系统，其特征在于，所述是优势函数，

。

10.如权利要求6所述的一种芯粒间通信动态带宽调整系统，其特征在于，所述使用梯度下降算法对神经网络模型中的参数进行更新，以最小化PPO损失函数包括：梯度计算模块：使用反向传播计算PPO损失函数关于每个网络参数的梯度；参数调整模块：根据所计算的梯度和预设的学习率，对每个网络参数进行更新；迭代模块：重复上述步骤，直到PPO损失函数值收敛或满足其他预定的停止条件；所述神经网络模型中的参数/>包括：全连接层、卷积层、循环层中的权重以及每个神经元或卷积核对应的偏置参数。