CN114845359A - 一种基于Nash Q-Learning的多智能异构网络选择方法 - Google Patents
一种基于Nash Q-Learning的多智能异构网络选择方法 Download PDFInfo
- Publication number
- CN114845359A CN114845359A CN202210246165.1A CN202210246165A CN114845359A CN 114845359 A CN114845359 A CN 114845359A CN 202210246165 A CN202210246165 A CN 202210246165A CN 114845359 A CN114845359 A CN 114845359A
- Authority
- CN
- China
- Prior art keywords
- network
- action
- agent
- nash
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000010187 selection method Methods 0.000 title claims abstract description 12
- 238000000034 method Methods 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 6
- 230000009916 joint effect Effects 0.000 claims description 6
- 238000013139 quantization Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 239000000126 substance Substances 0.000 claims description 3
- 230000033001 locomotion Effects 0.000 description 5
- 238000013461 design Methods 0.000 description 3
- 230000002787 reinforcement Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W48/00—Access restriction; Network selection; Access point selection
- H04W48/16—Discovering, processing access restriction or access information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/14—Network analysis or design
- H04L41/142—Network analysis or design using statistical or mathematical methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W48/00—Access restriction; Network selection; Access point selection
- H04W48/08—Access restriction or access information delivery, e.g. discovery data delivery
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/70—Reducing energy consumption in communication networks in wireless communication networks
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer Security & Cryptography (AREA)
- General Physics & Mathematics (AREA)
- Algebra (AREA)
- Physics & Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Pure & Applied Mathematics (AREA)
- Mobile Radio Communication Systems (AREA)
Abstract
一种基于Nash Q‑Learning的多智能异构网络选择方法,在该方法中,用户和网络均处于移动的状态,且朝着目标区域移动,基于Nash Q‑Learning的网络选择方法根据网络的覆盖情况并结合用户的业务类型和偏好为用户选择出合适的网络。本发明中的NashQ‑Learning算法在比较网络优劣的同时还能对网络的可用容量进行控制,将网络的吞吐量和可用容量比例作为环境反馈的回报的参数,此异构网络选择算法可以为不同业务类型的用户根据需求和偏好选择出合适的网络,同时还可以对网络的可用性进行整体控制。
Description
技术领域
本发明属于无线通信领域中的异构网络选择技术领域,尤其是一种基于强化学习的网络选择方法。
背景技术
下一代无线网络的主要特征之一就是网络成分的异构性。多种不同类型的网络相互融合,相互补充以求给用户带来更佳的体验。其中,如何在不同类型、不同特征的异构网络当中选择出适合用户的最佳网络,即异构网络选择算法,是异构网络融合的关键之一。在异构网络的选择中,要考虑不同网络之间各种属性的优劣,如接收信号强度、吞吐量、覆盖范围和传输速率等,也要考虑保证网络的可用性,对网络的阻塞率,容量进行控制。另外,在异构网络的选择当中,要从用户的需求和偏好出发,选出最适合用户的网络。
现有的异构网络选择算法,从不同的角度对网络选择算法进行优化,主要有基于单属性决策的网络选择算法、基于多属性的网络选择算法以及基于强化学习的网路选择算法等。这些方法大多只从比较网络优劣和控制网络可用性其中一个角度切入来设计网络选择算法,没有兼顾两个角度来优化算法。同时当用户和网络处于运动状态的情况也没有被考虑。
发明内容
针对现有的方法只考虑了用户和网络静止的情况,且只从比较网络优劣和控制网络可用性其中一个角度切入设计算法,本发明提供了一种基于Nash Q-Learning的多智能异构网络选择方法,该方法可以根据用户业务需求和偏好的不同为用户选择合适的网络,同时对网络的可用容量进行控制,保证各个网络的可用性。该算法将网络的吞吐量和可用容量比例作为环境反馈的回报的参数,根据业务类型将用户划分为多个智能体,利用基于Nash Q-Learning的网络选择算法进行学习和决策。
为了解决上述技术问题,本发明提供如下的技术方案:
一种基于Nash Q-Learning的多智能异构网络选择方法,网络包含Wi-Fi网络、5G车载网络和5G客户终端设备网络,5G客户终端设备网络由一名用户携带,而Wi-Fi网络和5G车载网络则搭载在同一辆车辆上,另外,有K个用户有在异构网络中进行网络连接的需求,他们的业务分属于M中业务类型;
异构网络中的各个网络覆盖范围不同,且其随着网络的移动而发生变化,各用户从当前时刻其所处的位置能被覆盖的网络中选择一个网络接入,若用户某一时刻不处于任何网络的覆盖范围内时,则不进行网络选择,每个网络有其能接入设备的容量,分别表示为C1,C2,C3,当网络的可用容量变为0时,新的用户将无法接入该网络,所述基于Nash Q-Learning的多智能异构网络选择方法包括以下步骤:
1)根据用户的业务类型将所有用户分为M个智能体,其中每个智能体中的用户的业务类型一致,初始化参数贪婪算法探索概率ε,折扣因子γ和学习率λ,同时为每个智能体创建出M个Q值表,初始值均为0;
2)各智能体中的用户将以队列的形式依次进行网络选择,智能体会感知环境所处的状态s并根据此状态从动作空间选择动作a执行,动作执行完成后环境会给予回报r,智能体在得到汇报之后将其积累到学习经验中,更新Q值表,帮助将来做出更准确、有效的判断;
3)各个智能体中队列中的首个用户根据网络覆盖情况和当前时刻环境所处状态s,按照基于Nash Q-Learning的网络选择算法选择动作,其中,用户将以ε的概率随机地选择动作,以探索更多的可能性,以1-ε的概率选择满足Nash均衡的动作,以获得更高的收益,执行完动作之后,各智能体根据得到的回报r更新所有的Q值表,并让队列中的下一个用户开始进行网络选择;
4)循环至步骤3),直到各个智能体队列中的用户都完成了异构网络选择。
进一步,所述步骤2)中,环境的状态s={c1,c2,c3},分别表示了三个网络的可用容量比例离散量化之后的值,其离散量化规则是可用容量比例处于[0,0.25],(0.25,0.5],(0.5,0.75]和(0.75,1]四个区间的值分别1,2,3和4;
动作ai∈{1,2,3},i∈{1,2,...,N},其中,i表示第i个智能体,ai=1,2,3分别表示智能体i选择了Wi-Fi网络、5G车载网络和5G客户终端设备网络;
智能体i的回报函数定义为
ri=ωip+θv,i∈{1,2,...,N} (1)
其中,ωi代表了智能体i也就是业务i对于吞吐量的偏好,θ则代表了系统对于网络可用性的控制程度,p为吞吐量经过规范化处理之后的值,v则是网络可用性指标,这里使用可用容量比例的方差经过规范化处理之后的值;
因为吞吐量和网络可用性指标的量级不同,需要对它们进行规范化处理,它们的规范化公式分别为:
其中,tpi为吞吐量的值,pi为吞吐量经过规范化之后的值,tvi为可用性指标的值,vi为可用性指标经过规范化之后的值,x=min(tp),y=max(tp),f=min(tv),g=max(tv)。
再进一步,所述步骤3)中,在基于Nash Q-Learning的网络选择算法中,各个智能体同时执行网络选择动作,且每个智能体中有且只有一个用户执行网络选择动作,也就是说,如果有M个智能体,则共有M个用户在同一时刻一起进行异构网络选择,它们的动作组成一个联合动作(a1,a2,...,aM),为取得尽可能高的收益,多智能体的联合动作要满足Nash均衡,用Y来表示状态-动作对的价值函数,多智能体的联合动作为符合的动作表明在Nash均衡点处,各个智能体的动作是其它智能体动作确定时的最优动作;
各个智能体处均具备M个Q值表,分别对应着M个智能体,当各个智能体接收到回报之后,将按照下面的公式更新Q值:
其中,
(a1,a2,...,aN)是多智能体的联合动作,s是环境当前时刻的状态,s′则是环境在多智能体执行完联合动作之后的下一时刻状态,πi(s′),i=1,2,..,N是智能体i在状态s′下满足Nash均衡的动作,则是智能体i在状态s′下执行满足Nash均衡的联合动作后的收益。
本发明的技术构思为:现有的方法只考虑了用户和网络静止的情况,且只从比较网络优劣和控制网络可用性其中一个角度切入设计算法,缺少对网络运动情况对网络选择影响的研究以及对比较网络优劣和控制网络可用性的兼顾。
本发明提供了一种基于Nash Q-Learning的多智能异构网络选择方法,该算法可以根据用户业务需求和偏好的不同为用户选择合适的网络,同时对网络的可用容量进行控制,保证各个网络的可用性。该算法将网络的吞吐量和可用容量比例作为环境反馈的回报的参数,根据业务类型将用户划分为多个智能体,利用基于Nash Q-Learning的网络选择算法进行学习和决策。
本发明的有益效果主要表现在:对于网络和用户均处于运动状态的情况,此异构网络选择算法可以为不同业务类型的用户根据需求和偏好选择出合适的网络,同时还可以对网络的可用性进行整体控制。
附图说明
图1是本发明方法的异构网络选择的系统模型示意图,其中,1为5G车载网络。2为5G客户终端设备网络;
图2是本发明学习过程中的已用容量比例变化图;
图3是本发明在不同网络可用性控制程度下的可用容量比例仿真图;
具体实施方式
下面结合附图对本发明作进一步描述。
参照图1~图3,一种基于Nash Q-Learning的多智能异构网络选择方法,是基于网络和用户处于移动状态下的异构网络选择模型实现的,网络包含Wi-Fi网络、5G车载网络和5G客户终端设备网络,5G客户终端设备网络由一名用户携带,而Wi-Fi网络和5G车载网络则搭载在同一辆车辆上,另外,有K个用户有在异构网络中进行网络连接的需求,他们的业务分属于M中业务类型;
本实施方式的方法中,异构网络选择过程建模为基于Nash Q-Learning的多智能体,根据用户的业务类型将所有用户分为M个智能体,其中每个智能体中的用户的业务类型一致,初始化参数贪婪算法探索概率ε,折扣因子γ和学习率λ,同时为每个智能体创建出M个Q值表,初始值均为0;
初始时刻,K个用户随机分布在给定区域,朝着此区域外的目标区域移动,K个用户随机朝着目标区域移动,另外,携带有5G客户终端设备的成员以及搭载有Wi-Fi网络、5G车载网络的车辆也在往目标区域移动。
各智能体中的用户将以队列的形式依次进行网络选择,智能体会感知环境所处的状态s并根据此状态从动作空间选择动作a执行,动作执行完成后环境会给予回报r,智能体在得到汇报之后将其积累到学习经验中,更新Q值表,帮助将来做出更准确、有效的判断;
对三个网络的可用容量比例进行量化,[0,0.25],(0.25,0.5],(0.5,0.75]和(0.75,1]四个区间的值分别对应着量化后的值1,2,3和4,环境的状态s={c1,c2,c3},表示了三个网络的可用容量比例离散量化之后的值。
各个智能体中队列中的首个用户根据网络覆盖情况和当前时刻环境所处状态s,按照基于Nash Q-Learning的网络选择算法选择动作,其中,用户将以ε的概率随机地选择动作,以探索更多的可能性,以1-ε的概率选择满足Nash均衡的动作,以获得更高的收益。
动作ai∈{1,2,3},i∈{1,2,...,N},其中,i表示第i个智能体,ai=1,2,3分别表示智能体i选择了Wi-Fi网络、5G车载网络和5G客户终端设备网络。
智能体在执行联合动作后,会得到环境给出的回报,智能体i的回报函数定义为
ri=ωip+θv,i∈{1,2,...,N} (1)
其中,ωi代表了智能体i也就是业务i对于吞吐量的偏好,θ则代表了系统对于网络可用性的控制程度,p为吞吐量经过规范化处理之后的值,v则是网络可用性指标,这里使用可用容量比例的方差经过规范化处理之后的值。
吞吐量和网络可用性指标的规范化公式不同,分别为:
其中,tpi为吞吐量的值,pi为吞吐量经过规范化之后的值,tvi为可用性指标的值,vi为可用性指标经过规范化之后的值,x=min(tp),y=max(tp),f=min(tv),g=max(tv)。
各个智能体处均具备M个Q值表,分别对应着M个智能体,当各个智能体接收到回报之后,将按照下面的公式更新Q值:
其中,
(a1,a2,...,aN)是多智能体的联合动作,s是环境当前时刻的状态,s′则是环境在多智能体执行完联合动作之后的下一时刻状态,πi(s′),i=1,2,..,N是智能体i在状态s′下满足Nash均衡的动作,则是智能体i在状态s′下执行满足Nash均衡的联合动作后的收益。
Q值更新完之后,各智能体队列中的下一个用户将开始新一轮的网络选择。
本实施方法中,引入了用户和网络均处于移动状态的情况,以及由此带来的对覆盖情况的影响,使用基于Nash Q-Learning的多智能异构选择算法,将网络的吞吐量和可用容量比例作为环境反馈的回报的参数,根据业务类型将用户划分为多个智能体,在不断的探索和学习过程中积累历史经验,对于网络和用户均处于运动状态的情况,此异构网络选择算法可以为不同业务类型的用户根据需求和偏好选择出合适的网络,同时还可以对网络的可用性进行整体控制。
在本实施方式中,初始时刻,用户随机分布在一个大小为400m×400m的区域内,并朝着一个大小为100m×100m的目标区域移动,K个用户移动的速度范围为3~6m/s,Wi-Fi网络、5G车载网络和5G客户终端设备网络的覆盖范围半径分别为100m、300m和150m,它们移动的速度范围也为3~6m/s,假设共有M=3种业务类型,且每种业务类型下的用户数相等,这三种业务类型分别为会话类、流类和交互类业务,各个网络的网络容量C1,C2,C3设为{25,25,25},贪婪算法探索概率ε=0.4,折扣因子γ=0.8,学习率λ=0.1,另外,Wi-Fi网络、5G车载网络和5G客户终端设备网络的吞吐量范围分别设为1.7~1.9Gbps、1.4~1.6Gbps和1.2~1.4Gbps。图2显示了学习过程中的已用容量比例变化图,图3显示了网络可用性控制程度对可用容量比例的影响,控制程度越高,可用容量比例较低的网络将会减少用户的接入来保证一定的可用性。
本说明书的实施例所述的内容仅仅是对发明构思的实现形式的列举,仅作说明用途。本发明的保护范围不应当被视为仅限于本实施例所陈述的具体形式,本发明的保护范围也及于本领域的普通技术人员根据本发明构思所能想到的等同技术手段。
Claims (3)
1.一种基于Nash Q-Learning的多智能异构网络选择方法,网络包含Wi-Fi网络、5G车载网络和5G客户终端设备网络,5G客户终端设备网络由一名用户携带,而Wi-Fi网络和5G车载网络则搭载在同一辆车辆上,另外,有K个用户有在异构网络中进行网络连接的需求,他们的业务分属于M中业务类型;
各用户从当前时刻其所处的位置能被覆盖的网络中选择一个网络接入,若用户某一时刻不处于任何网络的覆盖范围内时,则不进行网络选择,每个网络有其能接入设备的容量,分别表示为C1,C2,C3,当网络的可用容量变为0时,新的用户将无法接入该网络;
其特征在于,所述基于Nash Q-Learning的多智能异构网络选择方法包括以下步骤:
1)根据用户的业务类型将所有用户分为M个智能体,其中每个智能体中的用户的业务类型一致,初始化参数贪婪算法探索概率ε,折扣因子γ和学习率λ,同时为每个智能体创建出M个Q值表,初始值均为0;
2)各智能体中的用户将以队列的形式依次进行网络选择,智能体会感知环境所处的状态s并根据此状态从动作空间选择动作a执行,动作执行完成后环境会给予回报r,智能体在得到汇报之后将其积累到学习经验中,更新Q值表,帮助将来做出更准确、有效的判断;
3)各个智能体中队列中的首个用户根据网络覆盖情况和当前时刻环境所处状态s,按照基于Nash Q-Learning的网络选择算法选择动作,其中,用户将以ε的概率随机地选择动作,以探索更多的可能性,以1-ε的概率选择满足Nash均衡的动作,以获得更高的收益,执行完动作之后,各智能体根据得到的回报更新所有的Q值表,并让队列中的下一个用户开始进行网络选择;
4)循环至步骤3),直到各个智能体队列中的用户都完成了异构网络选择。
2.如权利要求1所述的基于Nash Q-Learning的多智能异构网络选择方法,其特征在于:所述步骤2)中,环境的状态s={c1,c2,c3},分别表示了三个网络的可用容量比例离散量化之后的值,其离散量化规则是可用容量比例处于[0,0.25],(0.25,0.5],(0.5,0.75]和(0.75,1]四个区间的值分别1,2,3和4;
智能体的动作ai∈{1,2,3},i∈{1,2,...,N},其中,i表示第i个智能体,ai=1,2,3分别表示智能体i选择了Wi-Fi网络、5G车载网络和5G客户终端设备网络;
智能体i的回报函数定义为
ri=ωip+θv,i∈{1,2,...,N} (1)
其中,ωi代表了智能体i也就是业务i对于吞吐量的偏好,θ则代表了系统对于网络可用性的控制程度,p为吞吐量经过规范化处理之后的值,v则是网络可用性指标,这里使用可用容量比例的方差经过规范化处理之后的值;
因为吞吐量和网络可用性指标的量级不同,需要对它们进行规范化处理,它们的规范化公式分别为:
其中,tpi为吞吐量的值,pi为吞吐量经过规范化之后的值,tvi为可用性指标的值,vi为可用性指标经过规范化之后的值,x=min(tp),y=max(tp),f=min(tv),g=max(tv)。
3.如权利要求1或2所述的基于Nash Q-Learning的多智能异构网络选择方法,其特征在于:所述步骤3)中,在基于Nash Q-Learning的网络选择算法中,各个智能体同时执行网络选择动作,且每个智能体中有且只有一个用户执行网络选择动作,也就是说,如果有M个智能体,则共有M个用户在同一时刻一起进行异构网络选择,它们的动作组成一个联合动作(a1,a2,...,aM),为取得尽可能高的收益,多智能体的联合动作要满足Nash均衡,用Y来表示状态-动作对的价值函数,多智能体的联合动作为符合的动作表明在Nash均衡点处,各个智能体的动作是其它智能体动作确定时的最优动作;
各个智能体处均具备M个Q值表,分别对应着M个智能体,当各个智能体接收到回报之后,将按照下面的公式更新Q值:
其中,
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210246165.1A CN114845359A (zh) | 2022-03-14 | 2022-03-14 | 一种基于Nash Q-Learning的多智能异构网络选择方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210246165.1A CN114845359A (zh) | 2022-03-14 | 2022-03-14 | 一种基于Nash Q-Learning的多智能异构网络选择方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114845359A true CN114845359A (zh) | 2022-08-02 |
Family
ID=82562037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210246165.1A Pending CN114845359A (zh) | 2022-03-14 | 2022-03-14 | 一种基于Nash Q-Learning的多智能异构网络选择方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114845359A (zh) |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102647773A (zh) * | 2012-05-02 | 2012-08-22 | 哈尔滨工业大学 | 基于q学习的异构网络接入控制优化选择方法 |
CN103220751A (zh) * | 2013-05-08 | 2013-07-24 | 哈尔滨工业大学 | 基于q学习资源分配策略的异构网络准入控制方法 |
CN103327556A (zh) * | 2013-07-04 | 2013-09-25 | 中国人民解放军理工大学通信工程学院 | 异构无线网络中优化用户QoE的动态网络选择方法 |
CN107690176A (zh) * | 2017-09-30 | 2018-02-13 | 南京南瑞集团公司 | 一种基于q学习算法的网络选择方法 |
WO2020024172A1 (zh) * | 2018-08-01 | 2020-02-06 | 东莞理工学院 | 多状态连续动作空间的合作式方法及系统 |
WO2020024170A1 (zh) * | 2018-08-01 | 2020-02-06 | 东莞理工学院 | 连续动作空间上的纳什均衡策略及社交网络舆论演变模型 |
CN110986979A (zh) * | 2019-11-27 | 2020-04-10 | 浙江工商大学 | 一种基于强化学习的sdn多路径路由规划方法 |
CN111083767A (zh) * | 2019-12-23 | 2020-04-28 | 哈尔滨工业大学 | 一种基于深度强化学习的异构网络选择方法 |
CN113242589A (zh) * | 2021-03-02 | 2021-08-10 | 浙江工业大学 | 一种基于Nash Q-Learning的多智能异构网络选择方法 |
CN113301032A (zh) * | 2021-05-17 | 2021-08-24 | 西北工业大学 | 一种基于Q-Learning的水声网络MAC协议切换方法 |
-
2022
- 2022-03-14 CN CN202210246165.1A patent/CN114845359A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102647773A (zh) * | 2012-05-02 | 2012-08-22 | 哈尔滨工业大学 | 基于q学习的异构网络接入控制优化选择方法 |
CN103220751A (zh) * | 2013-05-08 | 2013-07-24 | 哈尔滨工业大学 | 基于q学习资源分配策略的异构网络准入控制方法 |
CN103327556A (zh) * | 2013-07-04 | 2013-09-25 | 中国人民解放军理工大学通信工程学院 | 异构无线网络中优化用户QoE的动态网络选择方法 |
CN107690176A (zh) * | 2017-09-30 | 2018-02-13 | 南京南瑞集团公司 | 一种基于q学习算法的网络选择方法 |
WO2020024172A1 (zh) * | 2018-08-01 | 2020-02-06 | 东莞理工学院 | 多状态连续动作空间的合作式方法及系统 |
WO2020024170A1 (zh) * | 2018-08-01 | 2020-02-06 | 东莞理工学院 | 连续动作空间上的纳什均衡策略及社交网络舆论演变模型 |
CN110986979A (zh) * | 2019-11-27 | 2020-04-10 | 浙江工商大学 | 一种基于强化学习的sdn多路径路由规划方法 |
CN111083767A (zh) * | 2019-12-23 | 2020-04-28 | 哈尔滨工业大学 | 一种基于深度强化学习的异构网络选择方法 |
CN113242589A (zh) * | 2021-03-02 | 2021-08-10 | 浙江工业大学 | 一种基于Nash Q-Learning的多智能异构网络选择方法 |
CN113301032A (zh) * | 2021-05-17 | 2021-08-24 | 西北工业大学 | 一种基于Q-Learning的水声网络MAC协议切换方法 |
Non-Patent Citations (3)
Title |
---|
Z GAO,Y GAO,Y HU,Z JIANG,J SU: "Application of Deep Q-Network in Portfolio Management", 《2020 5TH IEEE INTERNATIONAL CONFERENCE ON BIG DATA ANALYTICS (ICBDA)》, 17 December 2020 (2020-12-17) * |
吴利平,王双双,马彬: "改善用户体验的垂直切换算法", 《电子与信息学报》, vol. 44, no. 8, 22 November 2021 (2021-11-22) * |
聂雷,刘博,李鹏,何亨: "基于多智能体Q学习的异构车载网络选择方法", 《计算机工程与科学》, vol. 43, no. 5, 15 May 2021 (2021-05-15) * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110809306B (zh) | 一种基于深度强化学习的终端接入选择方法 | |
CN108874525B (zh) | 一种面向边缘计算环境的服务请求分配方法 | |
CN112422644B (zh) | 计算任务卸载方法及系统、电子设备和存储介质 | |
CN110531617A (zh) | 多无人机3d悬停位置联合优化方法、装置和无人机基站 | |
CN108737569B (zh) | 一种面向移动边缘计算环境的服务选择方法 | |
CN111083767B (zh) | 一种基于深度强化学习的异构网络选择方法 | |
CN103209419B (zh) | 一种面向用户需求和提升网络性能的动态频谱接入的方法 | |
CN114650227B (zh) | 一种分层联邦学习场景下的网络拓扑构建方法及系统 | |
CN108024307B (zh) | 一种基于物联网的异构网络接入选择方法及系统 | |
CN102917441B (zh) | 基于粒子群算法的多模终端选择目标网络的方法 | |
CN114650567B (zh) | 一种无人机辅助v2i网络任务卸载方法 | |
CN104684095A (zh) | 一种异构网络融合场景中基于遗传运算的资源分配方法 | |
CN105530707A (zh) | 一种异构融合场景中基于混合优化的资源分配方法 | |
CN110113803B (zh) | 一种异构网络中基于用户体验的网络接入选择方法 | |
CN115065678A (zh) | 一种基于深度强化学习的多智能设备任务卸载决策方法 | |
CN109618285B (zh) | 一种基于覆盖树的基站控制方法、装置及设备 | |
CN114845359A (zh) | 一种基于Nash Q-Learning的多智能异构网络选择方法 | |
CN112492656B (zh) | 一种基于强化学习的无线网络接入点切换方法 | |
Wang et al. | Multi-objective joint optimization of communication-computation-caching resources in mobile edge computing | |
CN113242589A (zh) | 一种基于Nash Q-Learning的多智能异构网络选择方法 | |
CN114401192B (zh) | 一种多sdn控制器协同训练方法 | |
CN116704823A (zh) | 基于强化学习的无人机智能轨迹规划和通感资源分配方法 | |
CN114513471B (zh) | 基于动态复合优先级的海上节点网络选择方法和系统 | |
CN114879726A (zh) | 一种基于多无人机辅助数据收集的路径规划方法 | |
CN114630299A (zh) | 一种基于深度强化学习的信息年龄可感知资源分配方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |