CN117155792B - 一种芯粒间通信动态带宽调整方法及系统 - Google Patents
一种芯粒间通信动态带宽调整方法及系统 Download PDFInfo
- Publication number
- CN117155792B CN117155792B CN202311414226.1A CN202311414226A CN117155792B CN 117155792 B CN117155792 B CN 117155792B CN 202311414226 A CN202311414226 A CN 202311414226A CN 117155792 B CN117155792 B CN 117155792B
- Authority
- CN
- China
- Prior art keywords
- core
- bandwidth
- neural network
- value
- communication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000006854 communication Effects 0.000 title claims abstract description 144
- 238000004891 communication Methods 0.000 title claims abstract description 143
- 238000000034 method Methods 0.000 title claims abstract description 45
- 239000007771 core particle Substances 0.000 claims abstract description 65
- 230000006870 function Effects 0.000 claims abstract description 62
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 39
- 239000013598 vector Substances 0.000 claims abstract description 37
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 36
- 239000011159 matrix material Substances 0.000 claims abstract description 34
- 238000003062 neural network model Methods 0.000 claims abstract description 22
- 230000002787 reinforcement Effects 0.000 claims abstract description 17
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 230000005540 biological transmission Effects 0.000 claims description 19
- 238000004364 calculation method Methods 0.000 claims description 17
- 210000002569 neuron Anatomy 0.000 claims description 8
- 239000000835 fiber Substances 0.000 claims description 7
- 230000008569 process Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 4
- 230000004913 activation Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000005265 energy consumption Methods 0.000 description 2
- 230000008713 feedback mechanism Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000003213 activating effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000001934 delay Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0896—Bandwidth or capacity management, i.e. automatically increasing or decreasing capacities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0803—Configuration setting
- H04L41/0813—Configuration setting characterised by the conditions triggering a change of settings
- H04L41/0816—Configuration setting characterised by the conditions triggering a change of settings the condition being an adaptation, e.g. in response to network events
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/08—Configuration management of networks or network elements
- H04L41/0894—Policy-based network configuration management
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/16—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明公开了一种芯粒间通信动态带宽调整方法及系统,涉及芯粒带宽调整通信领域,包括步骤:S1:系统启动初始化通信模块;S2:实时采集芯粒的数据形成矩阵向量;S3:采用改进的强化学习PPO算法模型进行芯粒带宽的动态调整;S34:在经验回放缓冲区中随机抽取经验样本计算PPO算法损失函数;S35:使用梯度下降算法对神经网络模型中的参数进行更新,以最小化PPO损失函数;S4:重复S2‑S35步骤直到满足停止条件或达到指定迭代次数。本申请将强化学习PPO算法模型与卷积神经网络结合应用在芯粒间通信的带宽自动调节上,进行芯粒间带宽、通信协议的动态调整;大大提升了自动化程度及准确度。
Description
技术领域
本发明涉及芯粒带宽调整通信领域,具体涉及一种芯粒间通信动态带宽调整方法及系统。
背景技术
由于通信环境的复杂多变性以及多芯粒结构内部通信复杂性,如何根据实时的数据传输需求动态调整各个芯粒的通信带宽成为了一个亟待解决的技术难题。传统的带宽调整方法通常基于预先设定的规则或策略,例如静态的带宽分配或按需分配,这些方法往往不能很好地适应动态变化的通信需求和复杂的通信环境。同时,在实际的通信过程中,由于芯粒间存在着复杂的依赖关系,单一的调整某一芯粒的带宽可能会影响到其他芯粒的通信效果。因此,如何在保证整体通信质量的前提下,智能化地实现芯粒间带宽的动态调整,也是目前研究的一个重要方向。
但目前通信带宽调整仍然是一个挑战。首先,通信网络的状态可能包括大量的参数,如数据传输量、通信模式、数据流量、延迟和工作负载等,这使得状态空间非常大。其次,如何为每个芯粒合理地计算奖励值也是一个需要解决的问题。最后,由于通信网络的动态性和复杂性,如何有效地训练和更新PPO模型也是一个重要的问题。
综上所述,如何利用PPO算法有效地进行通信的动态带宽调整,仍然是一个亟待解决的问题。
发明内容
针对现有技术中提到的上述问题,为解决上述技术问题,本发明提供了一种芯粒间通信动态带宽调整方法及系统,该方法采用改进的强化学习PPO算法模型进行芯粒间带宽、通信协议的动态调整,卷积神经网络模型输出概率分布,选择概率最大的配置策略为每个芯粒分配带宽、选择通信协议,同时使用梯度下降算法对神经网络模型中的参数进行更新,以最小化PPO损失函数,实现了芯粒通信动态带宽、协议的动态调整。
一种芯粒间通信动态带宽调整方法,包括步骤:
S1:系统启动初始化通信模块,并设置芯粒默认带宽、通信协议;
S2:实时采集N个芯粒的数据传输量、通信模式、延迟、工作负载、通信协议,形成矩阵向量;
S3:采用改进的强化学习PPO算法模型进行芯粒间带宽、通信协议的动态调整;具体包括:
S31:将矩阵向量输入至卷积神经网络模型,卷积神经网络模型根据当前的参数输出芯粒分配带宽、通信协议选择的概率分布;/>为神经网络可训练参数组成的向量;
S32:根据输出的概率分布,选择概率最大的配置策略为每个芯粒分配带宽、选择通信协议:
S33:根据为每个芯粒分配的带宽和预期芯粒带宽计算奖励值,差异越小则奖励值/>越高;/>;
其中,表示实际的传输速率对应第i个芯粒的带宽,/>表示第i个芯粒的预期带宽;将芯粒/>矩阵向量和对应的奖励值存储到经验回放缓冲区,N 代表芯粒的数量,D代表每个芯粒的特征数量;
S34:在经验回放缓冲区中随机抽取经验样本计算PPO算法损失函数:
;
是将芯粒/>矩阵向量输入至更新前的神经网络与输入至当前神经网络后输出的最大概率之比,/>是优势函数,/>是设定的超参数在0.1到0.3之间,/>为求解期望值,/>为裁剪函数,确保/>在/>,/>区间内;t表示时间步;
S35:使用梯度下降算法对神经网络模型中的参数进行更新,以最小化PPO损失函数;
S4:重复S2-S34步骤,不断扩大经验回放缓冲区数据量并更新神经网络直到满足停止条件或达到指定迭代次数。
优选地,所述芯粒芯粒支持通信协议包括InfiniBand、Ethernet、Fibre Channel、OTN。
优选地,所述为裁剪函数,/>为:当/>的值大于/>时,则将取值区间的边界值/>;当/>的值小于/>时,则将取值区间的边界值。
优选地,所述是优势函数,
。
优选地,所述S35:使用梯度下降算法对神经网络模型中的参数进行更新,以最小化PPO损失函数包括:步骤S351:使用反向传播计算PPO损失函数关于每个网络参数的梯度;步骤S352:根据所计算的梯度和预设的学习率,对每个网络参数进行更新;步骤S353:重复上述步骤,直到PPO损失函数值收敛或满足其他预定的停止条件;所述神经网络模型中的参数/>包括:全连接层、卷积层、循环层中的权重以及每个神经元或卷积核对应的偏置参数。
本申请还提供一种芯粒间通信动态带宽调整系统,包括:
初始化通信模块,系统启动并设置芯粒默认带宽、通信协议;
信息采集模块,实时采集N个芯粒的数据传输量、通信模式、延迟、工作负载、通信协议,形成矩阵向量;
动态调制模块,采用改进的强化学习PPO算法模型进行芯粒间带宽、通信协议的动态调整;
卷积神经网络预测模块,将矩阵向量输入至卷积神经网络模型,卷积神经网络模型根据当前的参数输出芯粒分配带宽、通信协议选择的概率分布;/>为卷积神经网络可训练参数组成的向量;
调节选择模块,根据输出的概率分布,选择概率最大的配置策略为每个芯粒分配带宽、选择通信协议:
奖励值计算模块,根据为每个芯粒分配的带宽和预期芯粒带宽计算奖励值,差异越小则奖励值/>越高; />;
其中,表示实际的传输速率对应第i个芯粒的带宽,/>表示第i个芯粒的预期带宽;将芯粒/>矩阵向量和对应的奖励值存储到经验回放缓冲区;
损失函数计算模块,在经验回放缓冲区中随机抽取经验样本计算PPO算法损失函数:
;
是将芯粒/>矩阵向量输入至更新前的神经网络与输入至当前神经网络后输出的最大概率之比,/>是优势函数,/>是设定的超参数在0.1到0.3之间,/>为求解期望值,/>为裁剪函数,确保/>在/>,/>区间内;t表示时间步;
参数更新模块,使用梯度下降算法对神经网络模型中的参数进行更新,以最小化PPO损失函数;
判断模块,重复信息采集模块-参数更新模块,不断扩大经验回放缓冲区数据量并更新神经网络直到满足停止条件或达到指定迭代次数。
优选地,所述芯粒支持通信协议包括InfiniBand、Ethernet、Fibre Channel、OTN 。
优选地,所述为裁剪函数,/>为:当/>的值大于/>时,则将取值区间的边界值/>;当/>的值小于/>时,则将取值区间的边界值。
优选地,所述是优势函数,
。
优选地,所述参数更新模块:使用梯度下降算法对神经网络模型中的参数进行更新,以最小化PPO损失函数包括:梯度计算模块:使用反向传播计算PPO损失函数关于每个网络参数的梯度;参数调整模块:根据所计算的梯度和预设的学习率,对每个网络参数进行更新;迭代模块:重复上述步骤,直到PPO损失函数值收敛或满足其他预定的停止条件;所述神经网络模型中的参数/>包括:全连接层、卷积层、循环层中的权重以及每个神经元或卷积核对应的偏置参数。
本发明提供了一种芯粒间通信动态带宽调整方法及系统,所能实现的有益技术效果如下:
1、本申请将强化学习PPO算法模型与卷积神经网络结合应用在芯粒通信的带宽自动调节上,通过实时采集N个芯粒的数据传输量、通信模式、延迟、工作负载、通信协议,形成矩阵向量;采用改进的强化学习PPO算法模型进行芯粒间带宽、通信协议的动态调整;将矩阵向量输入至卷积神经网络模型,卷积神经网络模型根据当前的参数/>输出芯粒分配带宽、通信协议选择的概率分布;选择概率最大的配置策略为每个芯粒分配带宽、选择通信协议,实现了带宽、网络协议的自动选择动态调整,大大提升了自动化程度,且通过强化学习通过奖励值的计算大大提高了带宽调节的准确度提升了通信效率降低了能耗。
2、本发明强化学习PPO算法中,是时间步t时的优势函数,通过选择一个芯粒与所有芯粒的奖励值的平均进行比较,优势函数计算过程中,结合芯粒特性,将芯粒的奖励值加入到优势函数的计算,实现了优势函数的高效计算,大大提供了学习效率。;
3、本发明根据为每个芯粒分配的带宽和预期芯粒带宽计算奖励值,将芯粒矩阵向量和对应的奖励值存储到经验回放缓冲区;在经验回放缓冲区中随机抽取经验样本计算PPO算法损失函数/>,通过存储芯粒的数据和奖励值到经验回放缓冲区,并从中随机抽取样本来更新PPO损失函数,使得模型能够更好地从历史经验中学习。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1是本发明的一种芯粒间通信动态带宽调整方法步骤示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
实施例1:
针对现有技术中提到的上述问题,为解决上述技术问题,如附图1所示:一种芯粒间通信动态带宽调整方法,包括步骤:
S1:系统启动初始化通信模块,并设置芯粒默认带宽、通信协议;通信模块的初始化:每当系统启动或重启时,通信模块需要进行初始化。初始化过程包括激活模块、测试连接的完整性、校准以及配置初始参数。设置芯粒默认带宽:芯粒,也可被称为通信的通道或路径,是数据中心或交换网络中的数据通信单元。在初始化过程中,每个芯粒都会被分配一个默认的带宽。例如,如果一个系统的总带宽是100Gbps,并且有10个芯粒,那么每个芯粒可能会被分配10Gbps的默认带宽。设置通信协议:通信协议是数据交换的规则和格式。在初始化过程中,通信模块需要配置一个默认的通信协议。例如,系统可能会选择使用一种标准的通信协议,如OTN (Optical Transport Network) 或 DWDM (DenseWavelength DivisionMultiplexing)。在一个拥有10个芯粒的数据中心中,系统启动时首先对通信模块进行初始化,包括激活模块、测试和校准电路。然后,为每个芯粒分配10Gbps的默认带宽。接着,选择OTN作为默认的通信协议。S2:实时采集N个芯粒的数据传输量、通信模式、延迟、工作负载、通信协议,形成矩阵向量;在一个实施例中:一个通信系统,其中包含三个芯粒(N=3)。每个芯粒都有其特定的数据传输量、通信模式、延迟、工作负载、通信协议。
芯粒1:数据传输量: 10Gbps、通信模式: 单播、延迟: 5ms、工作负载: 60%、通信协议: OTN;
芯粒2:数据传输量: 8Gbps、通信模式: 广播、延迟: 7ms、工作负载: 75%、通信协议: DWDM;
芯粒3:数据传输量: 12Gbps、通信模式: 多播、延迟: 4ms、工作负载: 55%、通信协议: OTN。:
在一些实施例中,通信模式、通信协议可能会被转换为数字编码或独热编码,以便于神经网络处理。例如,单播、广播、多播可能被编码为[1,0,0]、[0,1,0]。
S3:采用改进的强化学习PPO算法模型进行芯粒间带宽、通信协议的动态调整;具体包括:
S31:将矩阵向量输入至卷积神经网络模型,卷积神经网络模型根据当前的参数/>输出芯粒分配带宽、通信协议选择的概率分布;/>为神经网络可训练参数组成的向量,N 代表芯粒的数量,D 代表每个芯粒的特征数量;
在一些实施例中,一个简化的通信系统,其中包含两个芯粒(N=2)。每个芯粒都有两个特性(D=2):数据传输量和延迟。使用卷积神经网络来确定每个芯粒的带宽分配、通信协议。输入数据:
矩阵向量:数据传输量 10 8
延迟 5 7
卷积神经网络模型:输入层:接收一个2x2的矩阵作为输入。卷积层:使用一个1x2的滤波器,然后应用ReLU激活函数。全连接层:将卷积层的输出扁平化,并连接到一个有6个神经元的全连接层。这6个神经元分别代表两个芯粒的带宽分配、通信协议选择的概率。输出层:使用softmax函数,确保输出代表有效的概率分布。
网络参数:卷积滤波器的权重和偏差。全连接层的权重和偏差。这些参数在训练过程中被调整,以最小化预测的概率分布和实际结果之间的差异。
输出:
经过训练,当我们为网络提供上述2x2的矩阵时,网络输出以下概率分布:
芯粒1的带宽分配:0.6
芯粒1的通信协议:0.2
芯粒2的带宽分配:0.4
芯粒2的通信协议:0.5
这意味着,基于当前的网络参数和输入数据,模型建议为芯粒1分配更高的带宽,并为芯粒2选择不同的通信协议。通过这种方式,我们可以使用卷积神经网络为每个芯粒动态地分配带宽、选择通信协议,以最大化整个系统的效率和性能。
S32:根据输出的概率分布,选择概率最大的配置策略为每个芯粒分配带宽、选择通信协议:
在一些实施例中,有一个简化的通信系统,其中包含两个芯粒。每个芯粒都有两种配置策略选项:带宽分配、通信协议选择。基于之前的卷积神经网络输出,得到以下概率分布:
芯粒1的带宽分配:[0.3,0.6,0.1](分别对应10Mbps, 20Mbps, 30Mbps)
芯粒1的通信协议:[0.2,0.5,0.3](分别对应协议A, 协议B, 协议C)
芯粒2的带宽分配:[0.4,0.4,0.2](分别对应10Mbps, 20Mbps, 30Mbps)
芯粒2的通信协议:[0.5,0.4,0.1](分别对应协议A, 协议B, 协议C)
根据上述概率分布,我们选择概率最大的配置策略为每个芯粒分配带宽、选择通信协议。选择结果:
芯粒1:
带宽:20Mbps (因为0.6是这三个概率值中的最大值)
通信协议:协议B (因为0.5是最大值)
芯粒2:
带宽:10Mbps或20Mbps (因为它们都是0.4,所以可以根据其他优化标准或随机选择)
通信协议:协议A (因为0.5是最大值)
通过根据卷积神经网络输出的概率分布选择最大概率的配置策略,为每个芯粒动态地分配带宽、选择通信协议,以期最大化整个系统的效率和性能。
S33:根据为每个芯粒分配的带宽和预期芯粒带宽计算奖励值,差异越小则奖励值/>越高; />
其中,表示实际的传输速率对应第i个芯粒的带宽,/>表示第i个芯粒的预期带宽;将芯粒/>矩阵向量和对应的奖励值存储到经验回放缓冲区;
1. 预期带宽:
芯粒1的预期带宽为:25Mbps
芯粒2的预期带宽为:15Mbps
2. 实际分配的带宽(基于神经网络的决策):
芯粒1的实际带宽为:20Mbps
芯粒2的实际带宽为:10Mbps
3. 计算奖励值:
在一些实施例中,奖励值可以用预期带宽和实际带宽之间的差异的倒数来表示。差异越小,奖励值越高。
S34:在经验回放缓冲区中随机抽取经验样本计算PPO算法损失函数:
是将芯粒/>矩阵向量输入至更新前的神经网络与输入至当前神经网络后输出的最大概率之比,/>是优势函数,/>是设定的超参数在0.1到0.3之间,/>为求解期望值,/>为裁剪函数,确保/>在/>,/>区间内;t表示时间步;
S35:使用梯度下降算法对神经网络模型中的参数进行更新,以最小化PPO损失函数;
S4:重复S2-S35步骤,不断扩大经验回放缓冲区数据量并更新神经网络直到满足停止条件或达到指定迭代次数。
优选地,所述芯粒支持通信协议包括InfiniBand、Ethernet、Fibre Channel、OTN 。
优选地,所述为裁剪函数,/>为:当/>的值大于时,则将取值区间的边界值/>;当/>的值小于/>时,则将取值区间的边界值/>。
优选地,所述是优势函数,
。
优选地,所述S35:使用梯度下降算法对神经网络模型中的参数进行更新,以最小化PPO损失函数包括:步骤S351:使用反向传播计算PPO损失函数关于每个网络参数的梯度;步骤S352:根据所计算的梯度和预设的学习率,对每个网络参数进行更新;步骤S353:重复上述步骤,直到PPO损失函数值收敛或满足其他预定的停止条件;所述神经网络模型中的参数/>包括:全连接层、卷积层、循环层中的权重以及每个神经元或卷积核对应的偏置参数。
本申请还提供一种芯粒间通信动态带宽调整系统,包括:
初始化通信模块,系统启动并设置芯粒默认带宽、通信协议;
信息采集模块,实时采集N个芯粒的数据传输量、通信模式、延迟、工作负载、通信协议,形成矩阵向量;
动态调制模块,采用改进的强化学习PPO算法模型进行芯粒间带宽、通信协议的动态调整;
卷积神经网络预测模块,将矩阵向量输入至卷积神经网络模型,卷积神经网络模型根据当前的参数/>输出芯粒分配带宽、通信协议选择的概率分布;/>为卷积神经网络可训练参数组成的向量;
调节选择模块,根据输出的概率分布,选择概率最大的配置策略为每个芯粒分配带宽、选择通信协议:
奖励值计算模块,根据为每个芯粒分配的带宽和预期芯粒带宽计算奖励值,差异越小则奖励值/>越高; />;
预期带宽是每个芯粒达到的目标带宽,而实际分配的带宽是通过神经网络模型和其他决策过程得到的。奖励值的计算旨在奖励那些实际带宽接近预期带宽的情况,并惩罚那些偏离预期带宽较大的情况。
首先,计算每个芯粒的实际带宽与预期带宽之间的差异。
差异=实际带宽−预期带宽
奖励值确定:
如果差异为零或非常小(即实际带宽非常接近预期带宽),则给予正的奖励值,例如 +1。
如果差异较大(即实际带宽远离预期带宽),则给予负的奖励值,例如 -1。
在一个实施例中,有三个芯粒A、B和C,它们的预期带宽分别是100Mbps、200Mbps和300Mbps。
在某次决策后,它们的实际带宽分别是:
芯粒A: 105Mbps
芯粒B: 190Mbps
芯粒C: 290Mbps
对于芯粒A,差异是5Mbps,这是一个很小的差异,所以它可能获得接近+1的奖励值。
对于芯粒B和C,它们的差异分别是10Mbps和10Mbps,这也是相对较小的差异,所以它们也可能获得接近+1的奖励值。
然而,如果某个芯粒的实际带宽是50Mbps,而其预期带宽是300Mbps,那么这个差异是250Mbps,这是一个非常大的差异。因此,这个芯粒可能会获得接近-1的奖励值。
预期芯粒带宽的确定可以基于多种考虑和方法,以下是一些常见的方法和策略:基于历史数据:如果系统已经运行了一段时间,您可以使用过去的数据来估计每个芯粒的预期带宽。这可以通过对过去的实际带宽使用进行统计分析来实现。
静态配置:在某些场景中,系统管理员或网络工程师可能会基于对系统工作负载和需求的了解,为每个芯粒手动设置预期带宽。
基于负载均衡:如果所有芯粒的处理能力和需求大致相同,预期带宽可以平均分配给所有芯粒。
动态调整:一种更先进的方法是,系统可以根据实时工作负载和其他环境因素动态地调整每个芯粒的预期带宽。例如,如果某个芯粒的工作负载突然增加,系统可以临时提高其预期带宽。
基于应用和服务需求:如果系统上运行的不同应用和服务的带宽需求是已知的,这些需求可以用作设置每个芯粒的预期带宽的依据。
反馈机制:在更先进的设置中,芯粒之间或与中央控制器之间可以有反馈机制,使得当某些芯粒面临带宽不足时,可以请求更多的带宽资源。
优化和迭代:在系统运行过程中,预期带宽可以根据实际效果进行优化和迭代。例如,如果发现某个芯粒的实际带宽经常超出或低于预期带宽,可以调整其预期带宽。
其中,表示实际的传输速率对应第i个芯粒的带宽,/>表示第i个芯粒的预期带宽;将芯粒/>矩阵向量和对应的奖励值存储到经验回放缓冲区;
损失函数计算模块,在经验回放缓冲区中随机抽取经验样本计算PPO算法损失函数:
是将芯粒/>矩阵向量输入至更新前的神经网络与输入至当前神经网络后输出的最大概率之比,/>是优势函数,/>是设定的超参数在0.1到0.3之间,/>为求解期望值,/>为裁剪函数,确保/>在/>,/>区间内;t表示时间步;
参数更新模块,使用梯度下降算法对神经网络模型中的参数进行更新,以最小化PPO损失函数;
判断模块,重复信息采集模块-参数更新模块,不断扩大经验回放缓冲区数据量并更新神经网络直到满足停止条件或达到指定迭代次数。
优选地,所述芯粒支持通信协议包括InfiniBand、Ethernet、Fibre Channel、OTN 。
芯粒支持的通信协议:
InfiniBand:是一个非常高速的通信协议,常用于高性能计算和数据中心。
Ethernet是最常用的局域网技术,适用于各种应用,从家庭网络到大型数据中心。
Fibre Channel:主要用于存储区域网络(SAN),提供高速、可靠的数据存储和访问。
优选地,所述为裁剪函数,/>为:当/>的值大于/>时,则将取值区间的边界值/>;当/>的值小于/>时,则将取值区间的边界值/>。
优选地,所述是优势函数,
。
优选地,所述S35:使用梯度下降算法对神经网络模型中的参数进行更新,以最小化PPO损失函数包括:步骤S351:使用反向传播计算PPO损失函数关于每个网络参数的梯度;步骤S352:根据所计算的梯度和预设的学习率,对每个网络参数进行更新;步骤S353:重复上述步骤,直到PPO损失函数值收敛或满足其他预定的停止条件;所述神经网络模型中的参数/>包括:全连接层、卷积层、循环层中的权重以及每个神经元或卷积核对应的偏置参数。
本发明提供了一种芯粒间通信动态带宽调整方法及系统,所能实现的有益技术效果如下:
1、本申请将强化学习PPO算法模型与卷积神经网络结合应用在芯粒间通信的带宽自动调节上,通过实时采集N个芯粒的数据传输量、通信模式、延迟、工作负载、通信协议,形成矩阵向量;采用改进的强化学习PPO算法模型进行芯粒间带宽、通信协议的动态调整;将矩阵向量输入至卷积神经网络模型,卷积神经网络模型根据当前的参数/>输出芯粒分配带宽、通信协议的概率分布;选择概率最大的配置策略为每个芯粒分配带宽、选择通信协议,实现了带宽、网络协议的自动选择动态调整,大大提升了自动化程度,且通过强化学习通过奖励值的计算大大提高了带宽调节的准确度提升了通信效率降低了能耗。
2、本发明强化学习PPO算法中,是时间步t时的优势函数,通过选择一个芯粒与所有芯粒的奖励值的平均进行比较,优势函数计算过程中,结合芯粒特性,将芯粒的奖励值加入到优势函数的计算,实现了优势函数的高效计算,大大提供了学习效率。;
3、本发明根据为每个芯粒分配的带宽和预期芯粒带宽计算奖励值,将芯粒矩阵向量和对应的奖励值存储到经验回放缓冲区;在经验回放缓冲区中随机抽取经验样本计算PPO算法损失函数/>,通过存储芯粒的数据和奖励值到经验回放缓冲区,并从中随机抽取样本来更新PPO损失函数,使得模型能够更好地从历史经验中学习。
以上对一种芯粒间通信动态带宽调整方法及系统进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的核心思想;同时,对于本领域的一般技术人员,依据本发明的思想和方法,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种芯粒间通信动态带宽调整方法,其特征在于,包括步骤:
S1:系统启动初始化通信模块,并设置芯粒默认带宽、通信协议;
S2:实时采集N个芯粒的数据传输量、通信模式、延迟、工作负载、通信协议,形成矩阵向量;
S3:采用改进的强化学习PPO算法模型进行芯粒间带宽、通信协议的动态调整;具体包括:
S31:将矩阵向量输入至卷积神经网络模型,卷积神经网络模型根据当前的参数输出芯粒分配带宽、通信协议选择的概率分布;/>为神经网络可训练参数组成的向量;
S32:根据输出的概率分布,选择概率最大的配置策略为每个芯粒分配带宽、选择通信协议:
S33:根据为每个芯粒分配的带宽和预期芯粒带宽计算奖励值,差异越小则奖励值/>越高;/>;
其中,表示实际的传输速率对应第i个芯粒的带宽,/>表示第i个芯粒的预期带宽;将芯粒/>矩阵向量和对应的奖励值存储到经验回放缓冲区,N 代表芯粒的数量,D 代表每个芯粒的特征数量;
S34:在经验回放缓冲区中随机抽取经验样本计算PPO算法损失函数:
;
是将芯粒/>矩阵向量输入至更新前的神经网络与输入至当前神经网络后输出的最大概率之比,/>是优势函数,/>是设定的超参数在0.1到0.3之间,/>为求解期望值,为裁剪函数,确保/>在/>区间内;t表示时间步;
S35:使用梯度下降算法对神经网络模型中的参数进行更新,以最小化PPO损失函数;
S4:重复所述S2-S35,不断扩大经验回放缓冲区数据量并更新神经网络直到满足停止条件或达到指定迭代次数。
2.如权利要求1所述的一种芯粒间通信动态带宽调整方法,其特征在于,所述芯粒支持通信协议包括InfiniBand、Ethernet、Fibre Channel、OTN 。
3.如权利要求1所述的一种芯粒间通信动态带宽调整方法,其特征在于,所述为裁剪函数,/>为:当/>的值大于/>时,则/>的值为取值区间的边界值/>;当/>的值小于/>时,则/>的值为取值区间的边界值/>。
4.如权利要求1所述的一种芯粒间通信动态带宽调整方法,其特征在于,所述是优势函数,公式如下:
。
5.如权利要求1所述的一种芯粒间通信动态带宽调整方法,其特征在于,所述S35中:使用梯度下降算法对神经网络模型中的参数进行更新,以最小化PPO损失函数,还包括:
步骤S351:使用反向传播计算PPO损失函数关于每个网络参数的梯度;
步骤S352:根据所计算的梯度和预设的学习率,对每个网络参数进行更新;
步骤S353:重复上述步骤,直到PPO损失函数值收敛或满足其他预定的停止条件;
所述神经网络模型中的参数包括:全连接层、卷积层、循环层中的权重以及每个神经元或卷积核对应的偏置参数。
6.一种芯粒间通信动态带宽调整系统,其特征在于,包括:
初始化通信模块,系统启动并设置芯粒默认带宽、通信协议;
信息采集模块,实时采集N个芯粒的数据传输量、通信模式、延迟、工作负载、通信协议,形成矩阵向量;
动态调制模块,采用改进的强化学习PPO算法模型进行芯粒间带宽、通信协议的动态调整;具体包括:
卷积神经网络预测模块,将矩阵向量输入至卷积神经网络模型,卷积神经网络模型根据当前的参数输出芯粒分配带宽、通信协议选择的概率分布;/>为卷积神经网络可训练参数组成的向量;
调节选择模块,根据输出的概率分布,选择概率最大的配置策略为每个芯粒分配带宽、选择通信协议:
奖励值计算模块,根据为每个芯粒分配的带宽和预期芯粒带宽计算奖励值,差异越小则奖励值/>越高;/>;
其中,表示实际的传输速率对应第i个芯粒的带宽,/>表示第i个芯粒的预期带宽;将芯粒/>矩阵向量和对应的奖励值存储到经验回放缓冲区;
损失函数计算模块,在经验回放缓冲区中随机抽取经验样本计算PPO算法损失函数:
;
是将芯粒/>矩阵向量输入至更新前的神经网络与输入至当前神经网络后输出的最大概率之比,/>是优势函数,/>是设定的超参数在0.1到0.3之间,/>为求解期望值,为裁剪函数,确保/>在/>区间内;t表示时间步;
参数更新模块,使用梯度下降算法对神经网络模型中的参数进行更新,以最小化PPO损失函数;
判断模块,重复信息采集模块-参数更新模块,不断扩大经验回放缓冲区数据量并更新神经网络直到满足停止条件或达到指定迭代次数。
7.如权利要求6所述的一种芯粒间通信动态带宽调整系统,其特征在于,所述芯粒支持通信协议包括InfiniBand、Ethernet、Fibre Channel、OTN。
8.如权利要求6所述的一种芯粒间通信动态带宽调整系统,其特征在于,所述为裁剪函数,/>为:当/>的值大于/>时,则/>的值为取值区间的边界值/>;当/>的值小于/>时,则/>的值为取值区间的边界值/>。
9.如权利要求6所述的一种芯粒间通信动态带宽调整系统,其特征在于,所述是优势函数,
。
10.如权利要求6所述的一种芯粒间通信动态带宽调整系统,其特征在于,所述使用梯度下降算法对神经网络模型中的参数进行更新,以最小化PPO损失函数包括:梯度计算模块:使用反向传播计算PPO损失函数关于每个网络参数的梯度;参数调整模块:根据所计算的梯度和预设的学习率,对每个网络参数进行更新;迭代模块:重复上述步骤,直到PPO损失函数值收敛或满足其他预定的停止条件;所述神经网络模型中的参数/>包括:全连接层、卷积层、循环层中的权重以及每个神经元或卷积核对应的偏置参数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311414226.1A CN117155792B (zh) | 2023-10-30 | 2023-10-30 | 一种芯粒间通信动态带宽调整方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311414226.1A CN117155792B (zh) | 2023-10-30 | 2023-10-30 | 一种芯粒间通信动态带宽调整方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117155792A CN117155792A (zh) | 2023-12-01 |
CN117155792B true CN117155792B (zh) | 2024-01-12 |
Family
ID=88901095
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311414226.1A Active CN117155792B (zh) | 2023-10-30 | 2023-10-30 | 一种芯粒间通信动态带宽调整方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117155792B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115248796A (zh) * | 2022-07-28 | 2022-10-28 | 芯砺智能科技(上海)有限公司 | 用于芯粒到芯粒互连的总线流水线结构和芯片 |
CN115658274A (zh) * | 2022-11-14 | 2023-01-31 | 之江实验室 | 芯粒中神经网络推理的模块化调度方法、装置和计算设备 |
WO2023019601A1 (zh) * | 2021-08-16 | 2023-02-23 | 苏州大学 | 基于结构优化算法的复值神经网络的信号调制识别方法 |
WO2023023975A1 (zh) * | 2021-08-25 | 2023-03-02 | 华为技术有限公司 | 一种芯片、芯片制造方法、以及相关装置 |
CN115829017A (zh) * | 2023-02-20 | 2023-03-21 | 之江实验室 | 一种基于芯粒的数据处理的方法、装置、介质及设备 |
CN115860081A (zh) * | 2023-03-01 | 2023-03-28 | 之江实验室 | 一种芯粒算法调度方法、系统、电子设备及存储介质 |
CN116225200A (zh) * | 2023-02-02 | 2023-06-06 | 海光信息技术股份有限公司 | 芯片及其功耗管理方法、电子装置 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11461527B2 (en) * | 2018-02-02 | 2022-10-04 | Micron Technology, Inc. | Interface for data communication between chiplets or other integrated circuits on an interposer |
US10817441B2 (en) * | 2019-03-29 | 2020-10-27 | Intel Corporation | Shared accelerator memory systems and methods |
-
2023
- 2023-10-30 CN CN202311414226.1A patent/CN117155792B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023019601A1 (zh) * | 2021-08-16 | 2023-02-23 | 苏州大学 | 基于结构优化算法的复值神经网络的信号调制识别方法 |
WO2023023975A1 (zh) * | 2021-08-25 | 2023-03-02 | 华为技术有限公司 | 一种芯片、芯片制造方法、以及相关装置 |
CN115248796A (zh) * | 2022-07-28 | 2022-10-28 | 芯砺智能科技(上海)有限公司 | 用于芯粒到芯粒互连的总线流水线结构和芯片 |
CN115658274A (zh) * | 2022-11-14 | 2023-01-31 | 之江实验室 | 芯粒中神经网络推理的模块化调度方法、装置和计算设备 |
CN116225200A (zh) * | 2023-02-02 | 2023-06-06 | 海光信息技术股份有限公司 | 芯片及其功耗管理方法、电子装置 |
CN115829017A (zh) * | 2023-02-20 | 2023-03-21 | 之江实验室 | 一种基于芯粒的数据处理的方法、装置、介质及设备 |
CN115860081A (zh) * | 2023-03-01 | 2023-03-28 | 之江实验室 | 一种芯粒算法调度方法、系统、电子设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Joint Power and Bandwidth Allocation for Internet of Vehicles Based on Proximal Policy Optimization Algorithm;XU, Sujie等;2021 IEEE 20th International Conference on Trust, Security and Privacy in Computing and Communications (TrustCom);全文 * |
基于深度强化学习的高效资源调度研究;徐景景;硕士学位论文;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN117155792A (zh) | 2023-12-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113950103B (zh) | 一种移动边缘环境下多服务器完全计算卸载方法及系统 | |
CN109684075B (zh) | 一种基于边缘计算和云计算协同进行计算任务卸载的方法 | |
CN112860350B (zh) | 一种边缘计算中基于任务缓存的计算卸载方法 | |
CN111262619B (zh) | 一种多波束卫星资源分配方法及系统 | |
CN111953758B (zh) | 一种边缘网络计算卸载和任务迁移方法及装置 | |
CN111538587B (zh) | 一种基于负载均衡的服务功能链重配置方法 | |
CN113612843A (zh) | 一种基于深度强化学习的mec任务卸载和资源分配方法 | |
CN112118312B (zh) | 一种面向边缘服务器的网络突发负载疏散方法 | |
CN110351754B (zh) | 基于Q-learning的工业互联网机器设备用户数据计算卸载决策方法 | |
CN113810233B (zh) | 一种在随机网络中基于算网协同的分布式计算卸载方法 | |
CN111930436A (zh) | 一种基于边缘计算的随机型任务排队卸载优化方法 | |
CN110233755B (zh) | 一种物联网中雾计算的计算资源和频谱资源分配方法 | |
CN114189892A (zh) | 一种基于区块链和集体强化学习的云边协同物联网系统资源分配方法 | |
CN109982434B (zh) | 无线资源调度一体智能化控制系统及方法、无线通信系统 | |
CN115665258B (zh) | 一种基于深度强化学习的多目标服务功能链的优先级感知部署方法 | |
CN114866494B (zh) | 强化学习智能体训练方法、模态带宽资源调度方法及装置 | |
CN112788605A (zh) | 基于双延迟深度确定性策略边缘计算资源调度方法和系统 | |
CN113573363B (zh) | 基于深度强化学习的mec计算卸载与资源分配方法 | |
CN116260871A (zh) | 一种基于本地和边缘协同缓存的独立任务卸载方法 | |
CN113747450B (zh) | 一种移动网络中业务部署方法、装置及电子设备 | |
Xu et al. | ReCARL: resource allocation in cloud RANs with deep reinforcement learning | |
Moon et al. | Ensemble learning method-based slice admission control for adaptive RAN | |
CN117155792B (zh) | 一种芯粒间通信动态带宽调整方法及系统 | |
CN112584527B (zh) | 多节点视频传输的带宽分配方法、装置及电子设备 | |
CN112243254A (zh) | 一种星地一体化通信的自适应接入控制方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |