CN108683614A - 基于门限残差网络的虚拟现实设备集群带宽分配装置 - Google Patents

基于门限残差网络的虚拟现实设备集群带宽分配装置 Download PDF

Info

Publication number
CN108683614A
CN108683614A CN201810463315.8A CN201810463315A CN108683614A CN 108683614 A CN108683614 A CN 108683614A CN 201810463315 A CN201810463315 A CN 201810463315A CN 108683614 A CN108683614 A CN 108683614A
Authority
CN
China
Prior art keywords
network
bandwidth
virtual reality
bandwidth allocation
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810463315.8A
Other languages
English (en)
Other versions
CN108683614B (zh
Inventor
景栋盛
杨钰
薛劲松
朱斐
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nari Information and Communication Technology Co
Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Original Assignee
Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd filed Critical Suzhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority to CN201810463315.8A priority Critical patent/CN108683614B/zh
Publication of CN108683614A publication Critical patent/CN108683614A/zh
Application granted granted Critical
Publication of CN108683614B publication Critical patent/CN108683614B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L47/00Traffic control in data switching networks
    • H04L47/70Admission control; Resource allocation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/60Scheduling or organising the servicing of application requests, e.g. requests for application data transmissions using the analysis and optimisation of the required network resources

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于门限残差网络的虚拟现实设备集群带宽分配装置,包括用于输出带宽分配决策的控制系统和用于分配虚拟现实设备集群各节点带宽的执行系统,分配装置还包括用于获取并输出虚拟现实设备集群的带宽信息的检测系统,控制系统以检测系统检测的带宽信息作为输入和反馈,以执行系统执行的行动作为输出,通过门限残差网络对获得的带宽信息进行高低维度转换,通过策略网络作出决策,通过评价网络评价决策,计算网络的损失后更新网络的参数。本发明能够有效地控制具有连续动作空间的面向具有多个虚拟现实设备的带宽分配技术,能够在无监督信号的情况下,自主学习更新神经网络的参数,以使有限的带宽达到最优分配。

Description

基于门限残差网络的虚拟现实设备集群带宽分配装置
技术领域
本发明涉及人工智能及控制技术领域,具体涉及一种基于门限残差网络的虚拟现实设备集群带宽分配。
背景技术
虚拟现实技术是一种可以创建和体验虚拟世界的计算机仿真系统,它利用计算机生成一种模拟环境,是一种多源信息融合的、交互式的三维动态视景和实体行为的仿真系统,使用户沉浸到该环境中。目前,基于虚拟现实的体验式交互模式开始得到大量的推广,越来越多的基于虚拟现实的设备进入到各类公司、单位和教学机构中。随着一个虚拟现实环境中连入的设备越来越多,需要分配的带宽也不断增加。
在很多虚拟现实的应用中,连入到虚拟现实系统的设备具有不确定性和动态性,系统很难预测设备何时连入,在连入期间所需带宽的情况,设备何时退出;但是,目前多数虚拟现实系统中的带宽分配装置采用固定的分配方案,无法进行自主学习,不能根据实时情况实时调整带宽分配方案,也无法根据连入设备对带宽的实际要求情况做出合理的分配,因此,很难适应有大量虚拟现实连入设备系统中带有不确定性和动态性带宽使用特点的要求。如何对具有大量虚拟现实设备连入的系统进行有效的带宽管理已成为迫切需要解决的问题。
发明内容
本发明的发明目的是提供一种基于门限残差网络的虚拟现实设备集群带宽分配装置,可以随着用户使用情况的不同,实时调整带宽的分配,能够通过自我学习适应不同的带宽使用环境和随着时间而改变的带宽使用环境。
为实现上述发明目的,本发明提供以下的技术方案:一种基于门限残差网络的虚拟现实设备集群带宽分配装置,包括用于输出带宽分配决策的控制系统和用于分配虚拟现实设备集群各节点带宽的执行系统,
其中,所述分配装置还包括用于获取并输出虚拟现实设备集群的带宽信息的检测系统,所述控制系统以所述检测系统检测的带宽信息作为输入和反馈,以所述执行系统执行的行动作为输出,通过门限残差网络对获得的带宽信息进行高低维度转换,通过策略网络作出决策,通过评价网络评价决策,计算网络的损失后更新网络的参数;
所述控制系统通过如下方法作出决策:
步骤1、初始化各网络的参数和强化学习算法的参数;
步骤2、获取虚拟现实设备集群的当前带宽信息并通过所述门限残差网络将所获取的高维度带宽信息转换为低维度特征信息,所述带宽信息包括带宽上限信息、带宽传输速率信息以及带宽产生速率信息;
步骤3、以当前状态st作为输入,通过所述策略网络计算采取并输出当前行动at,获得下一状态st+1和立即奖赏rt
其中,当前状态st为带宽分配前虚拟现实设备集群的特征信息;
当前行动at为带宽分配时虚拟现实设备集群各节点增加或减少带宽分配;
下一状态st+1为带宽分配后虚拟现实设备集群的特征信息;
立即奖赏rt为带宽分配后虚拟现实设备集群带宽信息的传输速度tv1与产生速度tv2的差值的绝对值的负值,即rt=-|tv1-tv2|;
步骤4、以当前状态st作为输入,通过所述评价网络计算计算强化学习算法评价函数V(st)的值;
步骤5、计算控制系统整个网络模型的总损失,判断当前行动at所属步数是否超过设定步数,如是,则更新所述门限残差网络、所述策略网络以及所述评价网络的参数,如否,则更新所述策略网络以及所述评价网络的参数;
步骤6、判断当前带宽利用率和带宽传输效率是否超过预设值,如是,则停止训练,如否,则返回步骤3继续循环训练。
上述技术方案中,所述控制系统为本地控制系统,在本地完成控制操作。
上述技术方案中,所述控制系统通过所述检测系统向所述执行系统传递分配指令。
上述技术方案中,步骤1中,所述门限残差网络的参数的初始化值为通过监督学习方法提前训练的一个可用参数。
上述技术方案中,步骤2中,采用153层门限残差网络进行带宽信息的高低维度转换,门限残差网络由4类共50个门限残差块组成,每个门限残差块由三层卷积层、一个门限机制以及一次跳跃连接组成,其中三层卷积层的卷积核大小分别为1×1、3×3及1×1,在第一层和最后一层卷积层之后分别进行最大池化和平均池化。
上述技术方案中,步骤3中,所述策略网络由两层隐藏层和一层输出层组成,所述隐藏层包含两层长短期记忆网络层,两层所述长短期记忆网络层的神经元个数分别是256和256,所述输出层的神经元个数为行动空间的维度。
上述技术方案中,步骤4中,所述评价网络由两层隐藏层和一层输出层组成,所述隐藏层包含两层长短期记忆网络层,两层所述长短期记忆网络层的神经元个数分别为256和256,所述输出层包含一个神经元。
上述技术方案中,步骤5中,总损失包括策略网络损失、评价网络损失以及策略的熵损失,采用时间差分误差和策略梯度的方法计算所述策略网络的损失,采用时间差分误差的方法计算所述评价网络的损失,通过如下公式计算总损失:
δt=rt+γV(st+1)-V(st)
其中,t表示第t时间步;
表示期望值,c1和c2是常数,C1取1,对于离散动作空间,c2的取值为0.01。对于连续动作空间,c2的取值为0;
θ表示新策略的策略网络参数,θold表示旧策略网络参数;
πθ(at|st)表示新策略在状态st、选择行动at的概率;
πθold(at|st)表示旧策略在状态st、选择行动at的概率;
是优势值;
γ为奖赏的折扣因子
λ∈[0,1]用来平衡估计器的偏差和方差
T为有限的时间步;
S[πθ](st)表示的是策略πθ在状态st处的熵;
对于离散动作空间,n表示当前状态可采取的行动个数,对于连续动作空间,不计算该项值表示当前状态可采取的行动个数。
上述技术方案中,步骤5中,通过随机梯度下降的方法更新网络的参数,根据如下公式计算需更新的网络的参数:
mt=β1mt-1+(1-β1)gt
其中,表示需更新的网络的参数;
ε表示一个小的正常数;
η表示学习率;
mt表示关于梯度的一次矩估计,vt表示关于梯度的二次矩估计,初始值都为0;
分别表示mt和vt的偏差校正计算值;
β12∈[0,1),其值初始化为一个接近于1的值;
gt表示损失函数关于网络参数的梯度,利用链式求导规则计算出损失函数关于网络模型参数的梯度值,即
上述技术方案中,步骤5中,所述预设步数为900万步。
由于上述技术方案运用,本发明与现有技术相比具有以下优点:本发明公开的基于门限残差网络的虚拟现实设备集群带宽分配装置,基于“行动者-评论家”框架,以检测系统检测的带宽信息作为输入和反馈,以执行系统执行的行动作为输出,通过门限残差网络对检测到的带宽信息进行高低维度转换,通过策略网络作出决策,通过评价网络评价决策,计算网络的损失后更新网络的参数,能够有效地控制具有连续动作空间的面向具有多个虚拟现实设备的带宽分配技术,能够在无监督信号的情况下,自主学习更新神经网络的参数,以使有限的带宽达到最优分配,带宽分配装置能够自主适应具有位于不同区域的较多设备以及同一个区域不同时段的环境,适用于具有多个虚拟现实设备并具有不确定性和动态性的集群的有效带宽分配。
附图说明
图1为本发明公开的虚拟现实设备集群带宽分配装置的组成框图;
图2为本发明公开的虚拟现实设备集群带宽分配装置的数据传递原理框图;
图3为本发明公开的虚拟现实设备集群带宽分配装置的门限残差网络的示意图;
图4为本发明公开的虚拟现实设备集群带宽分配装置的门限残差块的示意图;
图5为本发明公开的虚拟现实设备集群带宽分配装置的策略网络的数据传递原理框图;
图6为本发明公开的虚拟现实设备集群带宽分配装置的评价网络的数据传递原理框图。
具体实施方式
下面结合本发明的原理、附图以及实施例对本发明进一步描述
参见图1至图6,如其中的图例所示,一种基于门限残差网络的虚拟现实设备集群带宽分配装置,包括用于输出带宽分配决策的控制系统10和用于分配虚拟现实设备集群各节点带宽的执行系统20,
其中,上述分配装置还包括用于获取并输出虚拟现实设备集群的带宽信息的检测系统30,控制系统10以检测系统30检测的带宽信息作为输入和反馈,以执行系统20执行的行动作为输出,通过门限残差网络对上述带宽信息进行高低维度转换,通过策略网络作出决策,通过评价网络评价决策,计算网络的损失后更新网络的参数;
控制系统10通过如下方法作出决策:
步骤1、初始化各网络的参数和强化学习算法的参数;
步骤2、获取虚拟现实设备集群的当前带宽信息并通过上述门限残差网络将所获取的高维度带宽信息转换为低维度特征信息,上述带宽信息包括带宽上限信息、带宽传输速率信息以及带宽产生速率信息;
步骤3、以当前状态st作为输入,通过上述策略网络计算采取并输出当前行动at,获得下一状态st+1和立即奖赏rt
其中,当前状态st为带宽分配前虚拟现实设备集群的特征信息;
当前行动at为带宽分配时虚拟现实设备集群各节点增加或减少带宽分配;
下一状态st+1为带宽分配后虚拟现实设备集群的特征信息;
立即奖赏rt为带宽分配后虚拟现实设备集群带宽信息的传输速度tv1与产生速度tv2的差值的绝对值的负值,即rt=-|tv1-tv2|;
步骤4、以当前状态st作为输入,通过上述评价网络计算计算强化学习算法评价函数V(st)的值;
步骤5、计算控制系统整个网络模型的总损失,判断当前行动at所属步数是否超过900万步,如是,则更新上述门限残差网络、上述策略网络以及上述评价网络的参数,如否,则更新上述策略网络以及上述评价网络的参数;
步骤6、判断当前带带宽利用率和带宽传输效率是否超过预设值,如是,则停止训练,如否,则返回步骤3继续循环训练。
上文中,预设步数假设为900万步。
上文中,由于虚拟现实设备的接入节点数量十分较多,带宽信息比较庞大,采用普通的卷积网络堆叠,会随着网络层数的增加出现严重的梯度消失问题,所以使用残差网络来缓解梯度消失问题,采用深层神经网络来提取数据特征,残差网络中每一层的卷积核大小、通道数和输出大小如图3中所示,有些信息重要,有些信息不重要,通过门限残差网络让重要的信息继续保留,让不重要的信息消失。
上文中,控制系统10的整体框架为强化学习中的行动者-评论家框架,假设在每个时间步t=1,2,L,马尔科夫决策过程的状态为st,控制系统10选择行动at,获取环境反馈的立即奖赏,并使环境迁移到下一个状态st+1,转移概率为p(st,at,st+1)。强化学习系统中智能体的目标是学习到一个策略π,使得智能体获取的累积折扣奖赏最大(0≤γ≤1为折扣因子),该策略即为最优策略。但是在真实环境中,环境的状态转移概率函数p和回报函数R未知。智能体要学习到最优策略,只有立即奖赏rt可用,可以直接采用策略梯度方法优化策略函数和值函数,仿真过程中,在不同的环境下,控制系统10的网络结构相同,算法参数也采用同一套参数。回报函数的折扣因子γ=0.99。在每次实验中,环境的初始状态是一个随机状态,带宽控制系统从随机的初始状态开始学习,若控制系统能够在多轮控制中使得带宽利用率以及带宽信息传输效率超过一定的阈值,则停止学习,否则继续学习,在真实环境中,带宽控制系统的初始状态初始化为当前时刻的带宽使用情况。
一种实施方式中,上述控制系统为本地控制系统,在本地完成控制操作。
一种实施方式中,上述控制系统通过上述检测系统向上述执行系统传递分配指令。
一种实施方式中,步骤1中,上述门限残差网络的参数的初始化值为通过监督学习方法提前训练的一个可用参数。
上文中,由于门限残差网络参数量比较巨大往往通过监督学习方式预先训练好。
一种实施方式中,步骤2中,采用153层门限残差网络进行带宽信息的高低维度转换,门限残差网络由4类共50个门限残差块组成,每个门限残差块由三层卷积层、一个门限机制以及一次跳跃连接组成,其中三层卷积层的卷积核大小分别为1×1、3×3及1×1,在第一层和最后一层卷积层之后分别进行最大池化和平均池化。
上文中,门限残差网络的作用是处理数量众多的节点带宽信息,在3×3卷积核前后接1×1卷积核的目的是减少网络参数数量。在第一层和最后一层卷积层之后分别使用最大池化和平均池化的作用是使抽取到的特征具有平移旋转不变性等泛化能力和降低特征图的大小但不改变特征图的数量,减少数据的维度,进一步减少计算量,门限残差块如图4所示。
一种实施方式中,步骤3中,上述策略网络由两层隐藏层和一层输出层组成,上述隐藏层包含两层长短期记忆网络层,两层上述长短期记忆网络层的神经元个数分别是256和256,上述输出层的神经元个数为行动空间的维度。
一种实施方式中,步骤4中,上述评价网络由两层隐藏层和一层输出层组成,上述隐藏层包含两层长短期记忆网络层,两层上述长短期记忆网络层的神经元个数分别为256和256,上述输出层包含一个神经元。
上述策略网络和评价网络均包含两长短期记忆网络层且均有256和256个长短期记忆单元。长短期记忆网络相比于普通的全连接网络,能够处理序列状态之间在不同时间尺度存在依赖关系的任务,是由于长短期记忆网络中的循环链接允许网络每一层访问先前的状态信息。长短期记忆网络通过输入门、输出门、遗忘门以及记忆单元来控制信息在网络中的流通以达到记忆以前环境信息的目的。长短期记忆网络单元的遗忘门的计算方式为:ft j=σ(Wfxt+Ufht-1+Vfct-1)j,其中j表示第j个LSTM单元,σ表示sigmoid非线性函数,ft j表示t时间步第j个LSTM单元的遗忘门的输出,Wf、Uf、Vf表示的是LSTM单元遗忘门的参数,xt表示t时间步的输入数据,ht-1表示t-1时间步LSTM单元的输出值,ct-1表示在t-1时间步LSTM单元的记忆单元的输出值。输入门的计算方式为:其中表示t时间步第j个LSTM单元的输入门的输出,Wi、Ui、Vi表示LSTM单元输入门的参数。新的记忆上下文计算方式为:其中表示新的记忆上下文,Wc、Uc表示记忆上下文的参数,tanh表示tanh非线性函数。根据输入门的输出遗忘门的输出ft j、记忆上下文以及上一个时间步的记忆单元的内容可以计算更新记忆单元的内容计算公式为:可以得到LSTM单元的输出门的计算公式为:LSTM单元最终的输出为计算公式为:策略网络和评价网络如图5和图6所示。
一种实施方式中,步骤5中,总损失包括策略网络损失、评价网络损失以及策略的熵损失,采用时间差分误差和策略梯度的方法计算上述策略网络的损失,采用时间差分误差的方法计算上述评价网络的损失,通过如下公式计算总损失:
δt=rt+γV(st+1)-V(st)
其中,t表示第t时间步;
表示期望值,c1和c2是常数,C1取1,对于离散动作空间,c2的取值为0.01。对于连续动作空间,c2的取值为0;
θ表示新策略的策略网络参数,θold表示旧策略网络参数;
πθ(at|st)表示新策略在状态st、选择行动at的概率;
πθold(at|st)表示旧策略在状态st、选择行动at的概率;
是优势值;
γ为奖赏的折扣因子
λ∈[0,1]用来平衡估计器的偏差和方差
T为有限的时间步;
S[πθ](st)表示的是策略πθ在状态st处的熵;
对于离散动作空间,n表示当前状态可采取的行动个数,对于连续动作空间,不计算该项值表示当前状态可采取的行动个数。
上文中,策略网络损失函数Lπ(θ)的计算方式为:
其中,表示优势值,采用GAE(Generalized Advantage Estimation)方法计算;πθ(at|st)/πθold(at|st)用来衡量新旧策略之间的差异,采用一种自适应区间裁剪方法来计算。该裁剪目的是为了约束新旧策略之间的差异。
自适应区间裁剪计算过程为:首先计算一个裁剪边界[1-ε,1+ε],其中其中|·|表示绝对值,表示优势值,Vtarg(st)表示目标值,α表示小的正常数,用来防止分母为0。裁剪边界ε的值会随着的值和V(st)的值的改变而自动变化。令n=πθ(at|st)/πθold(at|st),自适应裁剪过程如图6所示。n的值最终被裁剪到[1-ε,1+ε]区间范围内。
评价网络的损失函数Lv(θ)的计算方式为:
策略的熵损失计算方式为:计算策略熵损失的目的是增加策略对环境的探索,其中S[πθ](st)表示策略πθ在状态st的熵。
总损失计算方式如下:Loss=-Lπ(θ)+c1Lv(θ)+c2Lentropy(θ)。
一种实施方式中,步骤5中,通过随机梯度下降的方法更新网络的参数,根据如下公式计算需更新的网络的参数:
mt=β1mt-1+(1-β1)gt
其中,表示需更新的网络的参数;
ε表示一个小的正常数;
η表示学习率;
mt表示关于梯度的一次矩估计,vt表示关于梯度的二次矩估计,初始值都为0;
分别表示mt和vt的偏差校正计算值;
β12∈[0,1),其值初始化为一个接近于1的值;
gt表示损失函数关于网络参数的梯度,利用链式求导规则计算出损失函数关于网络模型参数的梯度值,即
上文中,采用Adam(Adaptive Moment Estimation)梯度下降方法来更新神经网络的参数,ε表示一个小的正常数,用来防止分母为0情况出现。
采用所述更新方式更新策略网络和评价网络的参数后,策略网络利用更新后的策略在给定环境状态下,选择更加正确的行动,用来产生更高的回报值。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种基于门限残差网络的虚拟现实设备集群带宽分配装置,包括用于输出带宽分配决策的控制系统和用于分配虚拟现实设备集群各节点带宽的执行系统,
其特征在于,所述分配装置还包括用于获取并输出虚拟现实设备集群的带宽信息的检测系统,所述控制系统以所述检测系统检测的带宽信息作为输入和反馈,以所述执行系统执行的行动作为输出,通过门限残差网络对获得的带宽信息进行高低维度转换,通过策略网络作出决策,通过评价网络评价决策,计算网络的损失后更新网络的参数;
所述控制系统通过如下方法作出决策:
步骤1、初始化各网络的参数和强化学习算法的参数;
步骤2、获取虚拟现实设备集群的当前带宽信息并通过所述门限残差网络将所获取的高维度带宽信息转换为低维度特征信息,所述带宽信息包括带宽上限信息、带宽传输速率信息以及带宽产生速率信息;
步骤3、以当前状态st作为输入,通过所述策略网络计算采取并输出当前行动at,获得下一状态st+1和立即奖赏rt
其中,当前状态st为带宽分配前虚拟现实设备集群的特征信息;
当前行动at为带宽分配时虚拟现实设备集群各节点增加或减少带宽分配;
下一状态st+1为带宽分配后虚拟现实设备集群的特征信息;
立即奖赏rt为带宽分配后虚拟现实设备集群带宽信息的传输速度tv1与产生速度tv2的差值的绝对值的负值,即rt=-|tv1-tv2|;
步骤4、以当前状态st作为输入,通过所述评价网络计算计算强化学习算法评价函数V(st)的值;
步骤5、计算控制系统整个网络模型的总损失,判断当前行动at所属步数是否超过设定步数,如是,则更新所述门限残差网络、所述策略网络以及所述评价网络的参数,如否,则更新所述策略网络以及所述评价网络的参数;
步骤6、判断当前带宽利用率和带宽传输效率是否超过预设值,如是,则停止训练,如否,则返回步骤3继续循环训练。
2.根据权利要求1所述的虚拟现实设备集群带宽分配装置,其特征在于,所述控制系统为本地控制系统,在本地完成控制操作。
3.根据权利要求1所述的虚拟现实设备集群带宽分配装置,其特征在于,所述控制系统通过所述检测系统向所述执行系统传递分配指令。
4.根据权利要求1所述的虚拟现实设备集群带宽分配装置,其特征在于,步骤1中,所述门限残差网络的参数的初始化值为通过监督学习方法提前训练的一个可用参数。
5.根据权利要求1所述的虚拟现实设备集群带宽分配装置,其特征在于,步骤2中,采用153层门限残差网络进行带宽信息的高低维度转换,门限残差网络由4类共50个门限残差块组成,每个门限残差块由三层卷积层、一个门限机制以及一次跳跃连接组成,其中三层卷积层的卷积核大小分别为1×1、3×3及1×1,在第一层和最后一层卷积层之后分别进行最大池化和平均池化。
6.根据权利要求1所述的虚拟现实设备集群带宽分配装置,其特征在于,步骤3中,所述策略网络由两层隐藏层和一层输出层组成,所述隐藏层包含两层长短期记忆网络层,两层所述长短期记忆网络层的神经元个数分别是256和256,所述输出层的神经元个数为行动空间的维度。
7.根据权利要求1所述的虚拟现实设备集群带宽分配装置,其特征在于,步骤4中,所述评价网络由两层隐藏层和一层输出层组成,所述隐藏层包含两层长短期记忆网络层,两层所述长短期记忆网络层的神经元个数分别为256和256,所述输出层包含一个神经元。
8.根据权利要求1所述的虚拟现实设备集群带宽分配装置,其特征在于,步骤5中,总损失包括策略网络损失、评价网络损失以及策略的熵损失,采用时间差分误差和策略梯度的方法计算所述策略网络的损失,采用时间差分误差的方法计算所述评价网络的损失,通过如下公式计算总损失:
δt=rt+γV(st+1)-V(st)
其中,t表示第t时间步;
表示期望值,c1和c2是常数,C1取1,对于离散动作空间,c2的取值为0.01。对于连续动作空间,c2的取值为0;
θ表示新策略的策略网络参数,θold表示旧策略网络参数;
πθ(at|st)表示新策略在状态st、选择行动at的概率;
πθold(at|st)表示旧策略在状态st、选择行动at的概率;
是优势值;
γ为奖赏的折扣因子
λ∈[0,1]用来平衡估计器的偏差和方差
T为有限的时间步;
S[πθ](st)表示的是策略πθ在状态st处的熵;
对于离散动作空间,n表示当前状态可采取的行动个数,对于连续动作空间,不计算该项值表示当前状态可采取的行动个数。
9.根据权利要求1所述的虚拟现实设备集群带宽分配装置,其特征在于,步骤5中,通过随机梯度下降的方法更新网络的参数,根据如下公式计算需更新的网络的参数:
mt=β1mt-1+(1-β1)gt
其中,表示需更新的网络的参数;
ε表示一个小的正常数;
η表示学习率;
mt表示关于梯度的一次矩估计,vt表示关于梯度的二次矩估计,初始值都为0;
分别表示mt和vt的偏差校正计算值;
β12∈[0,1),其值初始化为一个接近于1的值;
gt表示损失函数关于网络参数的梯度,利用链式求导规则计算出损失函数关于网络模型参数的梯度值,即
10.根据权利要求1所述的虚拟现实设备集群带宽分配装置,其特征在于,步骤5中,所述预设步数为900万步。
CN201810463315.8A 2018-05-15 2018-05-15 基于门限残差网络的虚拟现实设备集群带宽分配装置 Active CN108683614B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810463315.8A CN108683614B (zh) 2018-05-15 2018-05-15 基于门限残差网络的虚拟现实设备集群带宽分配装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810463315.8A CN108683614B (zh) 2018-05-15 2018-05-15 基于门限残差网络的虚拟现实设备集群带宽分配装置

Publications (2)

Publication Number Publication Date
CN108683614A true CN108683614A (zh) 2018-10-19
CN108683614B CN108683614B (zh) 2021-11-09

Family

ID=63806269

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810463315.8A Active CN108683614B (zh) 2018-05-15 2018-05-15 基于门限残差网络的虚拟现实设备集群带宽分配装置

Country Status (1)

Country Link
CN (1) CN108683614B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109474639A (zh) * 2018-12-29 2019-03-15 北京诺亦腾科技有限公司 一种数据分发方法、系统及计算机可读存储介质
CN110706200A (zh) * 2019-09-02 2020-01-17 杭州深睿博联科技有限公司 数据预测的方法及装置
CN111292001A (zh) * 2020-02-24 2020-06-16 清华大学深圳国际研究生院 基于强化学习的联合决策方法及装置
CN111416771A (zh) * 2020-03-20 2020-07-14 深圳市大数据研究院 基于多智能体强化学习路由策略控制路由动作的方法
CN114866494A (zh) * 2022-07-05 2022-08-05 之江实验室 强化学习智能体训练方法、模态带宽资源调度方法及装置
CN116996919A (zh) * 2023-09-26 2023-11-03 中南大学 一种基于强化学习的单节点多域抗干扰方法
US11979295B2 (en) 2022-07-05 2024-05-07 Zhejiang Lab Reinforcement learning agent training method, modal bandwidth resource scheduling method and apparatus

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102377675A (zh) * 2011-11-17 2012-03-14 海能达通信股份有限公司 一种带宽动态分配方法、装置和系统
CN103731373A (zh) * 2012-10-15 2014-04-16 中兴通讯股份有限公司 带宽资源的调整方法、装置及系统
CN105103506A (zh) * 2013-03-27 2015-11-25 爱立信股份有限公司 用于为云计算网络中的非均匀带宽请求分配带宽的方法和系统
CN105376176A (zh) * 2014-08-21 2016-03-02 中国电信股份有限公司 保障移动互联网视频业务服务质量的方法、装置和系统
CN106034153A (zh) * 2015-03-16 2016-10-19 阿里巴巴集团控股有限公司 带宽资源分配方法、数据传输方法、装置及系统
US20160373575A1 (en) * 2015-06-19 2016-12-22 SipNav, LLC Telecommunications and Network Traffic Control System
CN107070817A (zh) * 2017-05-18 2017-08-18 中山大学 一种应用于云直播平台的上传带宽优化方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102377675A (zh) * 2011-11-17 2012-03-14 海能达通信股份有限公司 一种带宽动态分配方法、装置和系统
CN103731373A (zh) * 2012-10-15 2014-04-16 中兴通讯股份有限公司 带宽资源的调整方法、装置及系统
CN105103506A (zh) * 2013-03-27 2015-11-25 爱立信股份有限公司 用于为云计算网络中的非均匀带宽请求分配带宽的方法和系统
CN105376176A (zh) * 2014-08-21 2016-03-02 中国电信股份有限公司 保障移动互联网视频业务服务质量的方法、装置和系统
CN106034153A (zh) * 2015-03-16 2016-10-19 阿里巴巴集团控股有限公司 带宽资源分配方法、数据传输方法、装置及系统
US20160373575A1 (en) * 2015-06-19 2016-12-22 SipNav, LLC Telecommunications and Network Traffic Control System
CN107070817A (zh) * 2017-05-18 2017-08-18 中山大学 一种应用于云直播平台的上传带宽优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
邹裕,覃中平: "混合网络的资源分配与虚拟机部署优化算法", 《控制工程》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109474639A (zh) * 2018-12-29 2019-03-15 北京诺亦腾科技有限公司 一种数据分发方法、系统及计算机可读存储介质
CN109474639B (zh) * 2018-12-29 2020-09-15 北京诺亦腾科技有限公司 一种数据分发方法、系统及计算机可读存储介质
CN110706200A (zh) * 2019-09-02 2020-01-17 杭州深睿博联科技有限公司 数据预测的方法及装置
CN111292001A (zh) * 2020-02-24 2020-06-16 清华大学深圳国际研究生院 基于强化学习的联合决策方法及装置
CN111416771A (zh) * 2020-03-20 2020-07-14 深圳市大数据研究院 基于多智能体强化学习路由策略控制路由动作的方法
CN114866494A (zh) * 2022-07-05 2022-08-05 之江实验室 强化学习智能体训练方法、模态带宽资源调度方法及装置
CN114866494B (zh) * 2022-07-05 2022-09-20 之江实验室 强化学习智能体训练方法、模态带宽资源调度方法及装置
US11979295B2 (en) 2022-07-05 2024-05-07 Zhejiang Lab Reinforcement learning agent training method, modal bandwidth resource scheduling method and apparatus
CN116996919A (zh) * 2023-09-26 2023-11-03 中南大学 一种基于强化学习的单节点多域抗干扰方法
CN116996919B (zh) * 2023-09-26 2023-12-05 中南大学 一种基于强化学习的单节点多域抗干扰方法

Also Published As

Publication number Publication date
CN108683614B (zh) 2021-11-09

Similar Documents

Publication Publication Date Title
CN108683614B (zh) 基于门限残差网络的虚拟现实设备集群带宽分配装置
CN109635917B (zh) 一种多智能体合作决策及训练方法
CN113449864B (zh) 用于图像数据分类的反馈型脉冲神经网络模型训练方法
Wulfmeier et al. Maximum entropy deep inverse reinforcement learning
Heess et al. Actor-critic reinforcement learning with energy-based policies
Papageorgiou et al. Fuzzy cognitive map learning based on nonlinear Hebbian rule
Song et al. New chaotic PSO-based neural network predictive control for nonlinear process
CN108921298B (zh) 强化学习多智能体沟通与决策方法
CN110942142B (zh) 神经网络的训练及人脸检测方法、装置、设备和存储介质
CN111144580A (zh) 一种基于模仿学习的层级强化学习训练方法和装置
CN115686846B (zh) 边缘计算中融合图神经网络和强化学习的容器集群在线部署方法
CN114755926A (zh) 一种基于强化学习的多智能体系统最优一致性的控制方法
CN108523768B (zh) 基于自适应策略优化的家庭清洁机器人控制系统
CN114529010A (zh) 一种机器人自主学习方法、装置、设备及存储介质
Seow et al. Recurrent neural network as a linear attractor for pattern association
CN116080688B (zh) 一种类脑启发的智能驾驶视觉辅助方法、装置及存储介质
Kobayashi et al. Latent representation in human–robot interaction with explicit consideration of periodic dynamics
CN110450164A (zh) 机器人控制方法、装置、机器人及存储介质
CN117009042A (zh) 物联网模式下的信息计算负载调度方法、装置、设备及介质
CN115907000A (zh) 一种用于电力系统最优潮流预测的小样本学习方法
Jitviriya et al. Design of emotion generation model and action selection for robots using a self organizing map
CN114911157A (zh) 基于部分可观测强化学习的机器人导航控制方法及系统
Hwang et al. Induced states in a decision tree constructed by Q-learning
CN112884129A (zh) 一种基于示教数据的多步规则提取方法、设备及存储介质
CN111695677A (zh) 一种基于神经元复苏的神经网络训练加速方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240412

Address after: No. 555, labor Road, Suzhou, Jiangsu Province

Patentee after: STATE GRID JIANGSU ELECTRIC POWER Co.,Ltd. SUZHOU BRANCH

Country or region after: China

Patentee after: NARI INFORMATION & COMMUNICATION TECHNOLOGY Co.

Address before: No. 555, labor Road, Suzhou, Jiangsu Province

Patentee before: STATE GRID JIANGSU ELECTRIC POWER Co.,Ltd. SUZHOU BRANCH

Country or region before: China

TR01 Transfer of patent right