CN118044261A - 小区选择的方法和设备 - Google Patents

小区选择的方法和设备 Download PDF

Info

Publication number
CN118044261A
CN118044261A CN202180100906.9A CN202180100906A CN118044261A CN 118044261 A CN118044261 A CN 118044261A CN 202180100906 A CN202180100906 A CN 202180100906A CN 118044261 A CN118044261 A CN 118044261A
Authority
CN
China
Prior art keywords
cell
condition
terminal device
target
signal quality
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180100906.9A
Other languages
English (en)
Inventor
尤心
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Publication of CN118044261A publication Critical patent/CN118044261A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W36/00Hand-off or reselection arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W36/00Hand-off or reselection arrangements
    • H04W36/16Performing reselection for specific purposes
    • H04W36/22Performing reselection for specific purposes for handling the traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W36/00Hand-off or reselection arrangements
    • H04W36/24Reselection being triggered by specific parameters
    • H04W36/30Reselection being triggered by specific parameters by measured or perceived connection quality data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W36/00Hand-off or reselection arrangements
    • H04W36/24Reselection being triggered by specific parameters
    • H04W36/32Reselection being triggered by specific parameters by location or mobility data, e.g. speed data

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

一种小区选择的方法和设备,该方法包括:确定用于小区选择的至少一个奖励条件以及至少一个奖励条件对应的奖励值;根据至少一个奖励条件对应的奖励值对用于小区选择的强化学习模型进行训练。

Description

小区选择的方法和设备
本申请要求于2021年11月02日提交中国专利局、申请号为PCT/CN2021/128217、发明名称为“小区选择的方法和设备”的PCT专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请实施例涉及通信领域,具体涉及一种小区选择的方法和设备。
背景技术
在新无线(New Radio,NR)系统中,当正在使用网络服务的终端设备从一个小区移动到另一个小区,或者,由于无线传输业务负荷量调整、激活操作维护、设备故障等原因,为了保证通信的连续性和服务的质量,系统要将该终端设备与源小区的通信链路转移到新的小区上,即执行切换过程。
传统的切换依赖于终端设备的测量上报选择目标小区,可能会触发不必要的切换流程,比如乒乓切换。由测量配置以及测量上报带来的信令交互可能会导致较大的传输时延,这样,切换命令下达时测量结果的时效性无法保证,进而导致切换失败。因此如何进行小区选择以提升切换成功率是一项亟需解决的问题。
发明内容
本申请提供了一种小区选择的方法和设备,利用强化学习模型进行小区选择,有利于终端设备选择到合适的小区。
第一方面,提供了一种小区选择的方法,包括:确定用于小区选择的至少一个奖励条件以及所述至少一个奖励条件对应的奖励值;根据所述至少一个奖励条件以及所述至少一个奖励条件对应的奖励值对用于小区选择的强化学习模型进行训练。
第二方面,提供了一种小区选择的方法,包括:利用强化学习模型根据终端设备在多个小区的状态信息确定选择的目标小区。
第三方面,提供了一种小区选择的设备,用于执行上述第一方面或其各实现方式中的方法。
具体地,该终端设备包括用于执行上述第一方面或其各实现方式中的方法的功能模块。
第四方面,提供了一种小区选择的设备,用于执行上述第二方面或其各实现方式中的方法。
具体地,该网络设备包括用于执行上述第二方面或其各实现方式中的方法的功能模块。
第五方面,提供了一种通信设备,包括处理器和存储器。该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,执行上述第一方面或其各实现方式中的方法。
第六方面,提供了一种通信设备,包括处理器和存储器。该存储器用于存储计算机程序,该处理器用于调用并运行该存储器中存储的计算机程序,执行上述第二方面或其各实现方式中的方法。
第七方面,提供了一种芯片,用于实现上述第一方面至第二方面中的任一方面或其各实现方式中的方法。
具体地,该芯片包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有该装置的设备执行如上述第一方面至第二方面中的任一方面或其各实现方式中的方法。
第八方面,提供了一种计算机可读存储介质,用于存储计算机程序,该计算机程序使得计算机执行上述第一方面至第二方面中的任一方面或其各实现方式中的方法。
第九方面,提供了一种计算机程序产品,包括计算机程序指令,所述计算机程序指令使得计算机执行上述第一方面至第二方面中的任一方面或其各实现方式中的方法。
第十方面,提供了一种计算机程序,当其在计算机上运行时,使得计算机执行上述第一方面至第二方面中的任一方面或其各实现方式中的方法。
通过上述技术方案,通过设置用于小区选择的至少一个奖励条件以及对应的奖励值,进一步基于该至少一个奖励条件及其对应的奖励值进行用于小区选择的强化学习模型进行训练,有利于选择到合适的小区,避免传统切换中的问题。
附图说明
图1是本申请实施例提供的一种通信系统架构的示意性图。
图2是相关技术中小区切换的决策流程示意图。
图3是强化学习的示意性流程图。
图4是根据本申请实施例提供的一种小区选择的方法的示意性流程图。
图5是根据本申请一个实施例的小区部署示意图。
图6是根据本申请一个实施例的最大可选位置撒点示意图。
图7是根据本申请另一实施例的小区部署示意图。
图8是根据本申请一个实施例的重叠扇区示意图。
图9是根据本申请实施例提供的另一种小区选择的方法的示意性流程图。
图10是根据本申请实施例提供的一种小区选择的设备的示意性框图。
图11是根据本申请实施例提供的另一种小区选择的设备的示意性框图。
图12是根据本申请实施例提供的一种通信设备的示意性框图。
图13是根据本申请实施例提供的一种芯片的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。针对本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例的技术方案可以应用于各种通信系统,例如:全球移动通讯(Global System of Mobile communication,GSM)系统、码分多址(Code Division Multiple Access,CDMA)系统、宽带码分多址(Wideband Code Division Multiple Access,WCDMA)系统、通用分组无线业务(General Packet Radio Service,GPRS)、长期演进(Long Term Evolution,LTE)系统、先进的长期演进(Advanced long term evolution,LTE-A)系统、新无线(New Radio,NR)系统、NR系统的演进系统、非授权频谱上的LTE(LTE-based access to unlicensed spectrum,LTE-U)系统、非授权频谱上的NR(NR-based access to unlicensed spectrum,NR-U)系统、非地面通信网络(Non-Terrestrial Networks,NTN)系统、通用移动通信系统(Universal Mobile Telecommunication System,UMTS)、无线局域网(Wireless Local Area Networks,WLAN)、无线保真(Wireless Fidelity,WiFi)、第五代通信(5th-Generation,5G)系统或其他通信系统等。
通常来说,传统的通信系统支持的连接数有限,也易于实现,然而,随着通信技术的发展,移动通信系统将不仅支持传统的通信,还将支持例如,设备到设备(Device to Device,D2D)通信,机器到机器(Machine to Machine,M2M)通信,机器类型通信(Machine Type Communication,MTC),车辆间(Vehicle to Vehicle,V2V)通信,或车联网(Vehicle to everything,V2X)通信等,本申请实施例也可以应用于这些通信系统。
可选地,本申请实施例中的通信系统可以应用于载波聚合(Carrier Aggregation,CA)场景,也可以应用于双连接(Dual Connectivity,DC)场景,还可以应用于独立(Standalone,SA)布网场景。
可选地,本申请实施例中的通信系统可以应用于非授权频谱,其中,非授权频谱也可以认为是共享频谱;或者,本申请实施例中的通信系统也可以应用于授权频谱,其中,授权频谱也可以认为是非共享频谱。
本申请实施例结合网络设备和终端设备描述了各个实施例,其中,终端设备也可以称为用户设备(User Equipment,UE)、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置等。
终端设备可以是WLAN中的站点(STATION,ST),可以是蜂窝电话、无绳电话、会话启动协议(Session Initiation Protocol,SIP)电话、无线本地环路(Wireless Local Loop,WLL)站、个人数字助理(Personal Digital Assistant,PDA)设备、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、可穿戴设备、下一代通信系统例如NR网络中的终端设备,或者未来演进的公共陆地移动网络(Public Land Mobile Network,PLMN)网络中的终端设备等。
在本申请实施例中,终端设备可以部署在陆地上,包括室内或室外、手持、穿戴或车载;也可以部署在水面上(如轮船等);还可以部署在空中(例如飞机、气球和卫星上等)。
在本申请实施例中,终端设备可以是手机(Mobile Phone)、平板电脑(Pad)、带无线收发功能的电脑、虚拟现实(Virtual Reality,VR)终端设备、增强现实(Augmented Reality,AR)终端设备、工业控制(industrial control)中的无线终端设备、无人驾驶(self driving)中的无线终端设备、远程医疗(remote medical)中的无线终端设备、智能电网(smart grid)中的无线终端设备、运输安全(transportation safety)中的无线终端设备、智慧城市(smart city)中的无线终端设备或智慧家庭(smart home)中的无线终端设备等。
作为示例而非限定,在本申请实施例中,该终端设备还可以是可穿戴设备。可穿戴设备也可以称为穿戴式智能设备,是应用穿戴式技术对日常穿戴进行智能化设计、开发出可以穿戴的设备的总称,如眼镜、手套、手表、服饰及鞋等。可穿戴设备即直接穿在身上,或是整合到用户的衣服或配件的一 种便携式设备。可穿戴设备不仅仅是一种硬件设备,更是通过软件支持以及数据交互、云端交互来实现强大的功能。广义穿戴式智能设备包括功能全、尺寸大、可不依赖智能手机实现完整或者部分的功能,例如:智能手表或智能眼镜等,以及只专注于某一类应用功能,需要和其它设备如智能手机配合使用,如各类进行体征监测的智能手环、智能首饰等。
在本申请实施例中,网络设备可以是用于与移动设备通信的设备,网络设备可以是WLAN中的接入点(Access Point,AP),GSM或CDMA中的基站(Base Transceiver Station,BTS),也可以是WCDMA中的基站(NodeB,NB),还可以是LTE中的演进型基站(Evolutional Node B,eNB或eNodeB),或者中继站或接入点,或者车载设备、可穿戴设备以及NR网络中的网络设备(gNB)或者未来演进的PLMN网络中的网络设备或者NTN网络中的网络设备等。
作为示例而非限定,在本申请实施例中,网络设备可以具有移动特性,例如网络设备可以为移动的设备。可选地,网络设备可以为卫星、气球站。例如,卫星可以为低地球轨道(low earth orbit,LEO)卫星、中地球轨道(medium earth orbit,MEO)卫星、地球同步轨道(geostationary earth orbit,GEO)卫星、高椭圆轨道(High Elliptical Orbit,HEO)卫星等。可选地,网络设备还可以为设置在陆地、水域等位置的基站。
在本申请实施例中,网络设备可以为小区提供服务,终端设备通过该小区使用的传输资源(例如,频域资源,或者说,频谱资源)与网络设备进行通信,该小区可以是网络设备(例如基站)对应的小区,小区可以属于宏基站,也可以属于小小区(Small cell)对应的基站,这里的小小区可以包括:城市小区(Metro cell)、微小区(Micro cell)、微微小区(Pico cell)、毫微微小区(Femto cell)等,这些小小区具有覆盖范围小、发射功率低的特点,适用于提供高速率的数据传输服务。
示例性的,本申请实施例应用的通信系统100如图1所示。该通信系统100可以包括网络设备110,网络设备110可以是与终端设备120(或称为通信终端、终端)通信的设备。网络设备110可以为特定的地理区域提供通信覆盖,并且可以与位于该覆盖区域内的终端设备进行通信。
图1示例性地示出了一个网络设备和两个终端设备,可选地,该通信系统100可以包括多个网络设备并且每个网络设备的覆盖范围内可以包括其它数量的终端设备,本申请实施例对此不做限定。
可选地,该通信系统100还可以包括网络控制器、移动管理实体等其他网络实体,本申请实施例对此不作限定。
应理解,本申请实施例中网络/系统中具有通信功能的设备可称为通信设备。以图1示出的通信系统100为例,通信设备可包括具有通信功能的网络设备110和终端设备120,网络设备110和终端设备120可以为上文所述的具体设备,此处不再赘述;通信设备还可包括通信系统100中的其他设备,例如网络控制器、移动管理实体等其他网络实体,本申请实施例中对此不做限定。
应理解,本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
应理解,在本申请的实施例中提到的“指示”可以是直接指示,也可以是间接指示,还可以是表示具有关联关系。举例说明,A指示B,可以表示A直接指示B,例如B可以通过A获取;也可以表示A间接指示B,例如A指示C,B可以通过C获取;还可以表示A和B之间具有关联关系。
在本申请实施例的描述中,术语“对应”可表示两者之间具有直接对应或间接对应的关系,也可以表示两者之间具有关联关系,也可以是指示与被指示、配置与被配置等关系。
本申请实施例中,"预定义"可以通过在设备(例如,包括终端设备和网络设备)中预先保存相应的代码、表格或其他可用于指示相关信息的方式来实现,本申请对于其具体的实现方式不做限定。比如预定义可以是指协议中定义的。
本申请实施例中,所述"协议"可以指通信领域的标准协议,例如可以包括LTE协议、NR协议以及应用于未来的通信系统中的相关协议,本申请对此不做限定。
为便于理解本申请实施例的技术方案,以下通过具体实施例详述本申请的技术方案。以下相关技术作为可选方案与本申请实施例的技术方案可以进行任意结合,其均属于本申请实施例的保护范围。本申请实施例包括以下内容中的至少部分内容。
为便于更好的理解本申请实施例,对本申请相关的切换进行说明。
与LTE系统相似,NR系统支持连接态UE的切换过程。当正在使用网络服务的用户从一个小区移动到另一个小区,或者,由于无线传输业务负荷量调整、激活操作维护、设备故障等原因,为了保证通信的连续性和服务的质量,系统要将该用户与源小区的通信链路转移到新的小区上,即执行切换过程。
以Xn接口切换过程为例,整个切换过程分为以下三个阶段:
(1)切换准备:包括测量控制和汇报,切换请求以及确认。在切换确认消息中包含目标小区生成的切换命令,源小区不允许对目标小区生成的切换命令进行任何修改,直接将切换命令转发给UE。
(2)切换执行:UE在收到切换命令后立即执行切换过程,即UE断开源小区并与目标小区连接(如执行随机接入,发送无线资源控制(Radio Resource Control,RRC)切换完成消息给目标基站等);序列号(sequence number,SN)状态转移,数据转发。
(3)切换完成:目标小区与接入与移动性管理功能(Access and Mobility Management Function,AMF)实体和用户面功能(User Plane Function,UPF)实体执行路径切换(Path Switch),释放源基站的UE上下文。
如图2所示是切换决策过程的示意性交互图。
S1.AMF实体提供移动控制信息;
S2.测量和上报;
S3.源gNB决定切换;
S4.源gNB向目标gNB发送切换请求;
S5.目标gNB进行准入控制;
S6.目标gNB向源gNB发送切换请求确认(Acknowledgement,ACK);
S7.UE和源gNB执行无线接入网(Radio Access Network,RAN)切换开始。
即UE接收源基站的测量配置,根据该测量配置进行测量和上报。源基站基于UE的测量上报决定是否进行切换。
为便于理解本申请实施例的技术方案,对本申请相关的强化学习进行说明。
强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖励指导行为,目标是使智能体获得最大的奖励,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价(通常为标量信号),而不是告诉强化学习系统(reinforcement learning system,RLS)如何去产生正确的动作。由于外部环境提供的信息很少,RLS必须靠自身的经历进行学习。通过这种方式,RLS在行动-评价的环境中获得知识,改进行动方案以适应环境。
强化学习多用在需要与环境交互的场景下,给定一个环境的状态(State),智能体根据某种策略(Policy)选出一个对应的行为(Action),而执行这个Action后环境又会发生改变,即状态会转换为新的状态S',且每执行完一个Action后程序会得到一个奖励值(Reward),而智能体依据得到的奖励值的大小调整其策略,使得在所有步骤执行完后,即状态到达终止状态(Terminal)时,所获得的Reward之和最大。
图3是强化学习执行流程的示意图。其中,智能体可以理解为程序,该智能体可以观察Environment并获得state,依据Policy对state做出action,得到一个reward,且Environment改变了,因此Agent会得到一个新的state,并继续执行下去。
深度强化学习模型(DQN)相对于强化学习(Q学习)的改进在于:一是使用神经网络逼近值函数,二是使用目标Q网络来更新目标,三是使用了经验回放。在深度强化学习模型中,主要包括三部分:状态,行为和奖励。目的是最大化智能体和环境交互过程内观察到的奖励。具体地,在迭代过程中,智能体从状态空间中观察一组状态,并且从动作空间基于学习策略选择一个动作执行,决策策略由DQN决定,策略原则是使模型获得最大的回报。
传统的切换依赖于UE的测量上报选择目标小区,可能会触发不必要的切换流程,比如乒乓切换。
由测量配置以及测量上报带来的信令交互可能会导致较大的传输时延,切换命令下达时测量结果的时效性无法保证,进而导致切换失败。因此如何进行小区切换以提升切换成功率是一项亟需解决的问题。
图4是根据本申请实施例的小区选择的方法200的示意性流程图,如图4所示,该方法200包括如下至少部分内容:
S210,确定用于小区选择的至少一个奖励条件以及至少一个奖励条件对应的奖励值;
S220,根据至少一个奖励条件对应的奖励值对用于小区选择的强化学习模型进行训练。
在本申请一些实施例中,该方法200可以由智能体(agent)执行,该智能体可以设置在终端设备,或者网络设备上。即,终端设备或网络设备可以利用强化学习模型进行小区选择,有利于选择到合适的小区,提升用户体验。以下,以终端设备利用强化学习模型进行小区选择为例进行说明,网络设备侧的实现方式类似,这里不再赘述。
应理解,本申请并不限定具体的强化学习模型,例如可以包括但不限于深度Q网络(DQN)模 型。
本申请一些实施例中,强化学习模型对应的奖励条件与第一信息相关,其中,该第一信息包括但不限于以下中的至少一项:
小区的信号质量信息,小区的覆盖范围,小区的负载信息,终端设备在小区的驻留时长。
通过设计与第一信息相关的奖励条件,进一步设计与该奖励条件对应的奖励值,有利于辅助终端设备选择到合适的小区,降低小区选择中常见的问题,例如乒乓切换,切换过早,切换至错误小区等问题。
在本申请一些实施例中,小区的信号质量信息可以通过以下指标中的至少一种表征:
参考信号接收功率(Reference Signal Receiving Power,RSRP)、参考信号接收质量(Reference Signal Receiving Quality,RSRQ)、信号干扰噪声比(Signal to Interference plus Noise Ratio,SINR)。
以下,以采用RSRP表征小区的信号质量信息为例进行说明,但本申请并不限于此。
在本申请一些实施例中,所述至少一个奖励条件包括目标小区需要满足的目标奖励条件。
即,满足目标奖励条件的小区可以认为是目标小区,不满足目标奖励条件的小区认为不是目标小区。或者,当终端设备选择的小区满足目标奖励条件时,认为切换成功,当终端设备选择的小区不满足目标奖励条件时,认为切换失败。
进一步地,对于所述至少一个奖励条件分配配置对应的奖励值。
例如,在终端设备选择的小区满足目标奖励条件时,配置较大的奖励值,例如,正的奖励值,在终端设备选择的小区不满足目标奖励条件时,配置较小的奖励值,例如负的奖励值。
在本申请一些实施例中,所述目标奖励条件包括以下中至少一个:
小区的信号质量信息大于或等于信号质量阈值;
小区在多个候选小区中的信号质量信息最大;
所述终端设备位于小区的覆盖范围内;
小区的负载满足负载阈值;
所述终端设备在小区的驻留时长大于时长阈值。
在一些实施例中,小区的信道质量信息大于或等于信号质量阈值可以认为该小区的信号质量良好,能够满足终端设备的传输需求。
在一些实施例中,小区的负载满足负载阈值可以认为小区的负载能力良好,能够满足终端设备的接入。
在一些实施例中,终端设备在小区的驻留时长大于时长阈值,可以认为终端设备的此次切换是一次成功切换。
在一些实施例中,所述小区的负载满足负载阈值,包括:
小区的可用负载大于或等于第一负载阈值,即,小区还有足够的可用负载;和/或
小区的已用负载小于或等于第二负载阈值,即,小区的已有负载较少,换言之,小区尚有足够的可用负载。
在一些实施例中,所述信号质量阈值可以是预配置的。例如,所述信号质量阈值可以作为环境数据预配置给终端设备(具体为终端设备中的强化学习模型)。
在一些实施例中,所述负载阈值,例如第一负载阈值或第二负载阈值可以是预配置的。例如,第一负载阈值或第二负载阈值可以作为环境数据预配置给终端设备(具体为终端设备中的强化学习模型)。
在一些实施例中,时长阈值可以是预配置的。例如,时长阈值可以作为环境数据预配置给终端设备(具体为终端设备中的强化学习模型)。
在本申请一些实施例中,可以根据不同的优化目标设置对应的目标奖励条件。
在一些实施例中,目标奖励条件包括第一奖励条件,其中,该第一奖励条件包括:
小区的信号质量信息大于或等于信号质量阈值,并且,小区在多个候选小区中的信号质量信息最大。
例如,在信号质量满足信号质量阈值的候选小区中,选择信号质量最优的小区。
因此,基于第一奖励条件进行模型训练有利于选择到信号质量最优的小区。
在另一些实施例中,目标奖励条件包括第二奖励条件,其中,该第二奖励条件包括:
小区的信号质量信息大于或等于信号质量阈值,所述终端设备位于小区的覆盖范围内,并且小区在多个候选小区中的信号质量信息最大。
例如,在信号质量满足信号质量阈值并且终端设备的位置位于小区覆盖范围内的候选小区中,选择信号质量最优的小区。
因此,基于第二奖励条件进行模型训练有利于选择到信号质量最优并且终端位置满足小区覆盖的小区。
在又一些实施例中,所述目标奖励条件包括第三奖励条件,其中,该第三奖励条件包括:
小区的信号质量信息大于或等于信号质量阈值,小区的负载满足负载阈值,并且小区在多个候选小区中的信号质量信息最大。
例如,在信号质量满足信号质量阈值并且小区的负载满足负载阈值的候选小区中,选择信号质量最优的小区。
因此,基于第三奖励条件进行模型训练有利于选择信号质量最优并且小区负载满足负载阈值的小区。
在又一些实施例中,所述目标奖励条件包括第四奖励条件,其中,所述第四奖励条件包括:
小区的信号质量信息大于或等于信号质量阈值,小区的负载满足负载阈值,所述终端设备位于小区的覆盖范围内,并且小区在多个候选小区中的信号质量信息最大。
例如,在信号质量满足信号质量阈值,终端位置位于小区覆盖范围内并且小区的负载满足负载阈值的候选小区中,选择信号质量最优的小区。
因此,基于第四奖励条件进行模型训练有利于选择信号质量最优,终端位置满足小区覆盖并且小区负载满足负载阈值的小区。
在一些实施例中,所述目标奖励条件包括所述第一奖励条件,所述第二奖励条件,所述第三奖励条件和第四奖励条件中的至少一个。
在一些实施例中,所述多个候选小区可以包括所述终端设备当前位置周围的所有邻区。
在本申请一些实施例中,终端设备可以基于不同的目标奖励条件依次对强化学习模型进行训练。
例如,按照奖励条件对应的约束条件由少到多的顺序依次基于每个目标奖励条件进行训练。
作为示例,首先基于第一奖励条件对强化学习模型进行训练,在强化学习模型收敛的情况下,再基于第二奖励条件对强化学习模型进行训练,在强化学习模型收敛的情况下,再基于第三奖励条件对强化学习模型进行训练,在强化学习模型收敛的情况下,再基于第四奖励条件对强化学习模型进行训练。
在本申请一些实施例中,可以定义选择的小区满足不同的奖励条件时的奖励值。
例如,在选择的小区满足所述目标奖励条件时,给予第一奖励值。
又例如,在选择的小区不满足所述目标奖励条件时,给予第二奖励值。
其中,第一奖励值大于第二奖励值。
在一些实施例中,可以设置终端设备选择满足前述第一奖励条件,第二奖励条件,第三奖励条件和第四奖励条件的小区时,对应相同的奖励值,或者,也可以对应不同的奖励值。
例如,终端设备选择满足第一奖励条件,第二奖励条件,第三奖励条件和第四奖励条件的小区时,均给予第一奖励值。
又例如,终端设备选择满足第一奖励条件的小区时,给予奖励值X,终端设备选择满足第二奖励条件的小区时,给予奖励值Y,终端设备选择满足第三奖励条件的小区时,给予奖励值Z,终端设备选择满足第四奖励条件的小区时,给予奖励值P,其中,X<Y<Z<P。
在本申请一些实施例中,用于小区选择的强化学习模型可以是根据终端设备的状态空间和前述至少一个奖励条件以及对应的奖励值训练得到的。或者,该强化学习模型可以是根据终端设备的状态空间、终端设备的行为空间和前述至少一个奖励条件以及对应的奖励值训练得到的。
可选地,该终端设备的状态空间可以用于描述终端设备在多个小区的状态信息。
在一些实施例中,终端设备的状态空间包括所述终端设备在多个时刻的状态信息,例如包括终端设备在第一时刻的状态信息。可选地,终端设备在第一时刻的状态信息包括但不限于以下中的至少一项:
所述终端设备在所述第一时刻所属的小区信息,例如小区标识信息(Cell ID);
所述终端设备在所述第一时刻所属小区的信号质量信息,例如RSRP大小;
所述终端设备在所述第一时刻的切换状态信息,用于指示所述终端设备在所述第一时刻是否发生切换;
所述终端设备在所述第一时刻的位置信息,例如三维坐标。
例如,以信号质量信息通过RSRP表征为例,终端设备n在时刻t的状态信息可以表示为
其中, 表示时刻t终端设备n所属(或者,所选择的,所驻留的)的小区(或者说,扇区)。
RSRP t n表示时刻t终端设备n所属小区的RSRP大小。
表示切换的状态,例如,取值为0表示没有切换,取值为1表示切换。是否切换的判断依据为:终端设备在时刻t选择的小区和上一时刻选择的小区是否发生了变化。
P t n表示终端设备n的位置信息。
应理解,以上终端设备的状态信息仅为示例,在其他实施例中,该终端设备的状态信息也可以包括其他信息,例如小区的负载信息,或者其他用于辅助作小区选择的信息,本申请对此不作限定。
在一些实施例中,终端设备的行为空间可以包括终端设备在多个时刻的行为信息,例如,包括终端设备在第一时刻的行为信息,该终端设备在第一时刻的行为信息用于指示终端设备在第一时刻选择了某个小区。
例如,终端设备n在时刻t的行为信息可以表述为 表示终端设备n在时刻t选择的小区。
其中,若 表示发生了小区切换,否则,表示未发生切换。
在本申请一些实施例中,终端设备可以根据多个时刻中的每个时刻的状态信息结合前述至少一个奖励条件,确定对应的奖励值。
例如,根据第一时刻的状态信息,确定终端设备在第一时刻所属的小区是否为目标小区,进一步确定对应的奖励值。
作为示例,若在第一时刻,终端设备所属小区的RSRP满足RSRP阈值,并且该小区的RSRP在候选小区中是最大的,则确定该小区为目标小区,给予第一奖励值。
作为示例,若在第一时刻,终端设备所属小区的RSRP满足RSRP阈值,终端设备的位置位于该小区的覆盖范围内,并且该小区的RSRP在候选小区中是最大的,则确定该小区为目标小区,给予第一奖励值。
作为示例,若第一时刻,终端设备所属小区的RSRP不满足RSRP阈值,确定该小区不是目标小区,给予第二奖励值。
作为示例,前述的第一奖励条件以及对应的奖励值可以定义为:
其中, 表示终端设备n在时刻t执行动作 得到的奖励值。
作为示例,前述的第二奖励条件以及对应的奖励值可以定义为:
其中, 表示终端设备n在时刻t执行动作 得到的奖励值。
作为示例,前述的第三奖励条件以及对应的奖励值可以定义为:
其中, 表示终端设备n在时刻t执行动作 得到的奖励值。
作为示例,前述的第四奖励条件以及对应的奖励值可以定义为:
其中, 表示终端设备n在时刻t执行动作 得到的奖励值。
在本申请一些实施例中,所述终端设备的状态空间和行为空间可以是根据终端设备的模拟行动轨迹获取的。
例如,首先,终端设备在可选小区范围内随机选择一个小区作为轨迹起始点,确定当前时刻,当前坐标下,该终端设备所属的小区,该小区的信号质量信息,切换状态信息等,即当前时刻的状态信息。进一步基于前述的目标奖励条件确定该小区是否为目标小区,进而得到对应的奖励值。
进一步地,终端设备开始移动,例如,终端设备利用概率超参数和Q策略选择切换的小区,切换到该小区后,可以得到下一时刻移动后的坐标下的状态信息,即切换后的小区信息,切换后的小区的信号质量信息,切换状态信息等。基于前述的目标奖励条件确定该小区是否为目标小区,进而可以得 到对应的奖励值。基于时间上相邻的两个状态信息,可以建立状态切换,得到状态切换样本,包括当前时刻的状态信息,动作(即切换到哪个小区),奖励值,下一时刻的状态信息。然后将状态切换样本存储在经验池中,用于强化学习模型的训练。
在本申请一些实施例中,终端设备选择一个小区可以认为对应一次切换,即,终端设备选择一个小区可以等价于终端设备切换至该小区。
在本申请一些实施例中,终端设备可以根据该终端设备的状态空间确定小区选择(或者,小区切换)对应的即时奖励值,在另一些实施例中,终端设备也可以考虑终端设备切换至某个小区一段时间后的状态,确定小区选择(或者,小区切换)对应的延时奖励值。
例如,终端设备可以根据在小区的驻留时长,切换对应的事件类型,例如,是否为乒乓切换,是否为切换过早事件,是否为切换至错误小区事件等,给予对应的延时奖励值。有利于避免乒乓切换,切换过早,切换至错误小区等切换事件的发生。
例如,在所述终端设备选择的小区满足前述目标奖励条件,并且选择的小区与上一个时刻选择的小区不同时,此情况下,可以认为是一次成功的切换,给予第三奖励值。
又例如,在所述终端设备选择的小区满足所述目标奖励条件,但是选择的小区与上一个时刻选择的小区相同时,此情况下,可以认为是乒乓切换,给予第四奖励值,其中,该第四奖励值小于第三奖励值。
再例如,在所述终端设备选择的小区不满足所述目标奖励条件时,但是一定时长内再次切换至该小区成功,或者说,在一定时长后,该小区满足目标奖励条件,此情况可以认为是发生切换过早事件,给予第五奖励值。其中,该第五奖励值小于第三奖励值。
再例如,在所述终端设备选择的小区不满足所述目标奖励条件时,并且切换事件为切换至错误小区时,给予第六奖励值。其中,第六奖励值小于第三奖励中。
再例如,,在所述终端设备选择的小区满足所述目标奖励条件的情况下,根据终端设备在小区的驻留时长确定此次切换的累计奖励值。比如若上一时刻终端设备所选小区和当前时刻所选小区相同,则奖励值累计,驻留时长越长,累计奖励值越高。
在本申请一些实施例中,终端设备还需要获取用于模型训练的环境数据,例如,终端设备的位置坐标,基站的位置坐标,小区的信号质量信息等。
应理解,该环境数据可以是在任意网络环境下采集的,本申请对此不作限定。以下,对两种典型网络场景下的环境数据采集进行说明。
场景一:小区不重叠
步骤1:设置网络环境。
例如,网络环境可以为城市微小区(UMI)场景,且基站低于周围建筑物高度。
作为示例,场景布局为六边形网络,考虑19个微基站,每个微基站3个扇区,则共存在57个小区。图5是一种小区部署示意图。
步骤2:确定终端设备的轨迹。
首先,确定终端设备移动的起点位置。例如,采用撒点定位方式。例如,可以在撒点范围内随机选择终端设备的起点位置。
例如,在[-200,200]中,以横竖十米间隔撒点,撒点区间覆盖基站1-7,小区1-21。图6是终端设备可选位置的撒点示意图。
然后,当终端设备开始移动时,每一步都可以选择上下左右四个方向,选择方向随机。
步骤3:确定环境数据,例如终端设备移动轨迹中的基站位置,终端设备位置,小区的信号质量等信息。
a、基站位置坐标:数据维度为3x19,包含19个基站的三维坐标点。
B、终端设备的位置坐标:数据维度为3x1681,包含1681个终端可选的轨迹撒点的三维坐标点
C、RSRP:数据维度为1681x57,包含1681个终端点下对应的57个小区的所有RSRP值。
步骤4:阈值设置
例如,设置RSRP阈值:考虑所选小区必须满足RSRP阈值范围,例如,设定值为-114dB。
又例如,设置小区负载阈值:针对所有小区随机分配负载,例如,在0-20之间随机分布,考虑所选小区必须满足小区负载阈值范围,设定值为15。
场景二:小区不重叠
步骤1:设置网络环境。
例如,网络环境可以为城市微小区(UMI)场景,且基站低于周围建筑物高度。
作为示例,场景布局为六边形网络,考虑38个微基站,每个微基站3个扇区,则共存在114个 小区。图7是一种小区部署示意图,图8是一种重叠扇区示意图。
步骤2:确定终端设备的轨迹。
首先,确定终端设备移动的起点位置。例如,采用撒点定位方式。例如,可以在撒点范围内随机选择终端设备的起点位置,
例如,在[-200,200]中,以横竖十米间隔撒点,撒点区间覆盖基站1-7,小区1-21。图5是终端设备可选位置的撒点示意图。
然后,当终端设备开始移动时,每一步都可以选择上下左右四个方向,选择方向随机。
步骤3:确定环境数据,例如终端设备移动轨迹中的基站位置,终端设备位置,小区的信号质量等信息。
a、基站位置坐标:数据维度为3x38,包含38个基站的三维坐标点。
B、终端设备的位置坐标:数据维度为3x1681,包含1681个终端可选的轨迹撒点的三维坐标点
C、RSRP:数据维度为1681x114,包含1681个终端点下对应的114个小区的所有RSRP值。
步骤4:阈值设置
例如,设置RSRP阈值:考虑所选小区必须满足RSRP阈值范围,例如,设定值为-114dB。
又例如,设置小区负载阈值:针对所有小区随机分配负载,例如,在0-20之间随机分布,考虑所选小区必须满足小区负载阈值范围,设定值为15。
应理解,以上所示例的场景布局以及环境数据仅为示例,其可以根据具体的优化目标进行调整,本申请对此不作限定。
以下,以强化学习模型为DQN模型为例,说明模型的训练过程。
步骤一、初始化DQN模型,例如,设置DQN模型的训练回合数,以1000轮为例,以及batch大小,例如设置为64,或128等。
步骤二、重置终端设备的状态空间。
进一步地,随机选择一个位置作为终端设备的轨迹起始点,以图6所示场景为例,选择小区1的某个位置(记为位置1)作为起始点,当前时刻记为第一时刻。
确定终端设备在第一时刻的状态信息,即在当前位置(即位置1)坐标下,终端设备所属的小区例如小区1,对应小区的RSRP大小(例如,小区1的RSRP大小),以及相应的切换状态(对于初始时刻切换状态为0,表示未切换)。
然后根据该第一时刻的状态信息,确定该终端设备所属小区是否为目标小区,具体的判断条件跟优化目标有关,例如可以根据前述的第一奖励条件,第二奖励条件,第三奖励条件或第四奖励条件确定终端设备所属小区是否为目标小区。进一步,确定终端设备的当前状态对应的奖励值,或者,也可以认为是终端设备选择小区1对应的奖励值,或者,终端设备切换到小区1对应的奖励值。
步骤三、终端设备开始移动,例如,终端设备利用概率超参数和Q策略选择切换的小区,切换到该小区后,可以得到下一时刻(记为第二时刻)移动后的坐标(记为位置2)下的状态信息。即,切换后的小区信息,切换后的小区的信号质量信息,切换状态信息等。
以图6所示场景为例,假设终端设备在第二时刻切换至小区6,则第二时刻的状态信息可以包括小区6的标识信息,小区6的信号质量信息,终端设备的位置信息,对应的切换状态,例如取值为1表示发生了切换。
然后根据该第二时刻的状态信息确定该终端设备所属小区(例如小区6)是否为目标小区,具体的判断条件跟优化目标有关,例如可以根据前述的第一奖励条件,第二奖励条件,第三奖励条件或第四奖励条件确定。进一步,确定终端设备的当前状态对应的奖励值,或者,也可以认为是终端设备选择小区6对应的奖励值,或者,终端设备切换到小区6对应的奖励值。
进一步地,基于时间上相邻的两个状态信息,可以建立状态切换,得到状态切换样本,包括当前时刻的状态信息,动作(即切换到哪个小区),奖励值,下一时刻的状态信息。然后将状态切换样本存储在经验池中,用于强化学习模型的训练。
例如,对于前述示例,状态切换样本中的当前时刻的状态信息可以为第一时刻的状态信息,动作可以为切换至小区6,下一时刻的状态信息可以为第二时刻的状态信息,奖励值为切换至小区6的奖励值。
步骤四、当经验池中的样本数量大于batch大小时,从资源池中选择(例如随机选择)batch大小的样本,利用该样本对DQN模型进行训练。
例如,在步骤四中,可以利用公式Q(s,a)=E[R s+γmaxQ(s',a)|s,a],计算DQN模型的Q值,其中,R s为在状态S下采取动作A得到的奖励值,γ为折扣因子,γ∈(0,1],例如,设置为0.9,折扣系数反映了旧动作对Q值影响的大小。
步骤五:返回执行步骤三,直到完成1000步的轨迹探索。
当完成1000步轨迹探索时,返回执行步骤二,进入下一轮训练,直至训练完成,输出DQN训练模型。
步骤六:输出奖励训练图。
在本申请一些实施例中,可以依次根据前述的第一奖励条件,第二奖励条件,第三奖励条件和第四奖励条件对DQN模型进行训练。
综上,在本申请实施例中,通过设置用于小区选择的至少一个奖励条件以及对应的奖励值,该奖励条件考虑了用于小区选择的多种因素(例如,小区的信号质量,小区的负载,小区的覆盖范围等),进一步地,根据该至少一个奖励条件以及对应的奖励值,利用终端设备进行小区选择的历史轨迹作为经验对强化学习模型进行训练,有利于选择到合适的小区,避免传统小区选择中的乒乓切换,切换过早等问题。
上文结合图4至图8,从模型训练的角度描述了根据本申请实施例的小区选择的方法,下文结合图9,从模型测量或模型使用的角度详细描述根据本申请另一实施例的小区选择的方法。
图9是根据本申请另一实施例的小区选择的方法300的示意性流程图,如图9所示,该方法300包括如下至少部分内容:
S310,利用强化学习模型根据终端设备在多个小区的状态信息确定选择的目标小区(或者说,切换的目标小区)。
应理解,在申请实施例中,该方法300可以由终端设备执行,或者,也可以由网络设备执行。
在本申请一些实施例中,该强化学习模型可以是采用方法200中所述的方法训练得到的。
应理解,本申请并不限定具体的强化学习模型,例如可以包括但不限于深度Q网络(DQN)模型。
在该方法300中,该终端设备在多个小区的状态信息可以对应于方法200中的终端设备的状态空间。
在本申请一些实施例中,该方法300可以为强化学习模型训练后的测试方法。
此情况下,该方法300还可以包括:
根据所述目标小区是否满足预设条件,确定切换是否成功。即确定基于该强化学习模型进行小区切换的切换成功率。
在本申请一些实施例中,所述预设条件与以下中的至少一项相关:
小区的信号质量信息,小区的覆盖范围,小区的负载信息,终端设备在小区的驻留时长。
作为示例而非限定,所述预设条件包括以下中至少一个:
目标小区的信号质量信息大于或等于信号质量阈值;
目标小区在多个候选小区中的信号质量信息最大;
终端设备位于目标小区的覆盖范围内;
目标小区的负载满足负载阈值;
终端设备在目标小区的驻留时长大于时长阈值。
在一些实施例中,所述目标小区的负载满足负载阈值,包括:
目标小区的可用负载大于或等于第一负载阈值;和/或
目标小区的已用负载小于或等于第二负载阈值。
在一些实施例中,所述预设条件可以与前述方法200中的目标奖励条件对应。
在一些实施例中,例如,若强化学习模型是基于前述方法200中的第一奖励条件训练得到的,则该预设条件可以为第一奖励条件。
例如,预设条件为目标小区的信号质量信息大于或等于信号质量阈值,并且,目标小区在多个候选小区中的信号质量信息最大,记为第一预设条件。
在一些实施例中,例如,若强化学习模型是基于前述方法200中的第二奖励条件训练得到的,则该预设条件可以为第二奖励条件。
例如,预设条件为目标小区的信号质量信息大于或等于信号质量阈值,所述终端设备位于目标小区的覆盖范围内,并且目标小区在多个候选小区中的信号质量信息最大,记为第二预设条件。
在一些实施例中,例如,若强化学习模型是基于前述方法200中的第三奖励条件训练得到的,则该预设条件可以为第三奖励条件。
例如,预设条件为目标小区的信号质量信息大于或等于信号质量阈值,目标小区的负载满足负载阈值,并且目标小区在多个候选小区中的信号质量信息最大,记为第三预设条件。
在一些实施例中,例如,若强化学习模型是基于前述方法200中的第四奖励条件训练得到的,则 该预设条件可以为第四奖励条件。
例如,预设条件为目标小区的信号质量信息大于或等于信号质量阈值,目标小区的负载满足负载阈值,所述终端设备位于目标小区的覆盖范围内,并且目标小区在多个候选小区中的信号质量信息最大,记为第四预设条件。
在本申请一些实施例中,所述终端设备在多个小区的状态信息包括所述终端设备在第一小区的状态信息,作为示例而非限定,所述终端设备在所述第一小区的状态信息包括以下中的至少一项:
第一小区的信号质量信息,第一小区的负载信息,终端设备是否在第一小区的覆盖范围,终端设备的位置信息,小区的位置信息(或者,小区的覆盖范围信息),切换状态。
其中,该切换状态用于指示第一小区与上一时刻所选择的小区是否相同,例如,若相同,则表示未发生切换,否则,表示发生切换。
在本申请一些实施例中,所述S310包括:
利用强化学习模型根据至少一个奖励条件及其对应的奖励值,以及终端设备在多个小区的状态信息确定切换的目标小区。
例如,根据所述终端设备在所述多个小区中的每个小区的状态信息以及所述至少一个奖励条件,确定所述终端设备切换至所述每个小区的奖励值;
根据所述终端设备切换至所述每个小区的奖励值,确定所述多个小区中的目标小区。
作为示例,选择奖励值最大的小区为目标小区。
以下结合具体实施例,对强化学习模型的测试方式进行说明。
步骤一、重置终端设备的状态空间。
随机选择终端设备的轨迹起始点,确定终端设备在当前位置坐标下,所属的小区,该小区的RSRP大小,以及对应的切换状态。
步骤二、终端设备开始移动,终端设备利用训练完的强化学习模型判断切换至哪个小区,假设强化学习模型判断切换至小区X。
步骤三、根据小区X是否满足预设条件,确定切换是否成功。
步骤四、输出切换成功率的结果仿真图。
在一些实施例中,可以根据不同的预设条件,分别对该强化学习模型进行测试。
例如,首先根据第一预设条件对强化学习模型进行测试,在切换成功率满足要求的情况下,再根据第二预设条件对强化学习模型进行测试,在切换成功率满足要求的情况下,再根据第三预设条件对强化学习模型进行测试,在切换成功率满足要求的情况下,再根据第四预设条件对强化学习模型进行测试。
在本申请另一些实施例中,该方法300可以为强化学习模型的使用方法。
例如,终端设备可以向网络设备上报其在多个小区的状态信息,网络设备可以利用强化学习模型根据终端设备在多个小区的状态信息确定终端设备切换的目标小区。进一步指示该终端设备切换至该目标小区。
又例如,终端设备可以利用强化学习模型根据该终端设备在多个小区的状态信息确定终端设备切换的目标小区。进一步地,终端设备发起向目标小区的切换。
综上,在本申请实施例中,通过利用根据至少一个奖励条件以及对应的奖励值训练得到的强化学习模型进行小区选择,有利于选择到合适的小区,避免传统小区选择中的乒乓切换,切换过早等问题。
上文结合图4至图9,详细描述了本申请的方法实施例,下文结合图10至图13,详细描述本申请的装置实施例,应理解,装置实施例与方法实施例相互对应,类似的描述可以参照方法实施例。
图10示出了根据本申请实施例的小区选择的设备400的示意性框图。如图10所示,该设备400包括:
处理单元410,用于确定用于小区选择的至少一个奖励条件以及所述至少一个奖励条件对应的奖励值;以及根据所述至少一个奖励条件以及所述至少一个奖励条件对应的奖励值对用于小区选择的强化学习模型进行训练。
在本申请一些实施例中,所述至少一个奖励条件包括目标小区需要满足的目标奖励条件,所述目标奖励条件包括以下中至少一个:
小区的信号质量信息大于或等于信号质量阈值;
小区在多个候选小区中的信号质量信息最大;
所述终端设备位于小区的覆盖范围内;
小区的负载满足负载阈值;
终端设备在小区的驻留时长大于时长阈值。
在本申请一些实施例中,所述小区的负载满足负载阈值,包括:
小区的可用负载大于或等于第一负载阈值;和/或
小区的已用负载小于或等于第二负载阈值。
在本申请一些实施例中,所述目标奖励条件包括第一奖励条件,其中,所述第一奖励条件包括:
小区的信号质量信息大于或等于信号质量阈值,并且,小区在多个候选小区中的信号质量信息最大。
在本申请一些实施例中,所述目标奖励条件包括第二奖励条件,其中,所述第二奖励条件包括:
小区的信号质量信息大于或等于信号质量阈值,所述终端设备位于小区的覆盖范围内,并且小区在多个候选小区中的信号质量信息最大。
在本申请一些实施例中,所述目标奖励条件包括第三奖励条件,其中,所述第三奖励条件包括:
小区的信号质量信息大于或等于信号质量阈值,小区的负载满足负载阈值,并且小区在多个候选小区中的信号质量信息最大。
在本申请一些实施例中,所述目标奖励条件包括第四奖励条件,其中,所述第四奖励条件包括:
小区的信号质量信息大于或等于信号质量阈值,小区的负载满足负载阈值,所述终端设备位于小区的覆盖范围内,并且小区在多个候选小区中的信号质量信息最大。
在本申请一些实施例中,所述确定所述至少一个奖励条件对应的奖励值,包括:
在选择的小区满足所述目标奖励条件时,给予第一奖励值;或者
在选择的小区不满足所述目标奖励条件时,给予第二奖励值;
其中,所述第一奖励值大于所述第二奖励值。
在本申请一些实施例中,所述处理单元410还用于:
在选择的小区满足所述目标奖励条件,并且选择的小区与上一个时刻选择的小区不同的情况下,给予第三奖励值;或者
在选择的小区满足所述目标奖励条件,但是选择的小区与上一个时刻选择的小区相同的情况下,给予第四奖励值;或者
在选择的小区不满足所述目标奖励条件,并且切换事件为切换过早的情况下,给予第五奖励值;或者
在选择的小区不满足所述目标奖励条件,并且切换事件为切换至错误小区的情况下,给予第六奖励值;或者
在选择的小区满足所述目标奖励条件的情况下,根据终端设备在所述小区的驻留时长,给予奖励值;
其中,所述第三奖励值大于所述第四奖励值,所述第三奖励值大于所述第五奖励值,所述第三奖励值大于所述第六奖励值。
在本申请一些实施例中,所述处理单元410还用于:
获取终端设备的状态空间和行为空间,其中,所述终端设备的状态空间包括所述终端设备在多个时刻的状态信息,所述终端设备的行为空间包括所述终端设备在多个时刻的行为信息;
根据所述终端设备的状态空间和行为空间,以及所述至少一个奖励条件和所述至少一个奖励条件对应的奖励值,对所述强化学习模型进行训练。
在本申请一些实施例中,所述终端设备在多个时刻的状态信息包括第一时刻的状态信息,所述第一时刻的状态信息包括以下中的至少一项:
所述终端设备在所述第一时刻所属的小区信息;
所述终端设备在所述第一时刻所属小区的信号质量信息;
所述终端设备在所述第一时刻的切换状态信息,用于指示所述终端设备在所述第一时刻是否发生切换;
所述终端设备在所述第一时刻的位置信息。
在本申请一些实施例中,所述终端设备在所述第一时刻的切换状态信息根据所述终端设备在所述第一时刻所属的小区信息和所述终端设备在第二时刻所属的小区是否相同确定,其中,所述第二时刻为所述第一时刻的上一时刻。
在本申请一些实施例中,所述终端设备在多个时刻的行为信息包括所述终端设备在第一时刻的行为信息,所述终端设备在所述第一时刻的行为信息用于指示所述终端设备在所述第一时刻选择了第一小区。
在本申请一些实施例中,所述处理单元410还用于:
根据第一时刻的状态信息和所述至少一个奖励条件,确定第一时刻的行为信息对应的奖励值;
将第二时刻的状态信息,所述第一时刻的行为信息,所述第一时刻的行为对应的奖励值和所述第一时刻的状态信息存入经验池,其中,所述第二时刻为所述第一时刻的上一时刻;
利用所述经验池对所述强化学习模型进行训练。
在本申请一些实施例中,所述强化学习模型包括深度Q网络模型。
可选地,在一些实施例中,上述通信单元可以是通信接口或收发器,或者是通信芯片或者片上系统的输入输出接口。上述处理单元可以是一个或多个处理器。
应理解,根据本申请实施例的设备400可对应于本申请方法实施例中的终端设备或网络设备,并且设备400中的各个单元的上述和其它操作和/或功能分别为了实现图4至图8所示方法200中终端设备或网络设备的相应流程,为了简洁,在此不再赘述。
图11示出了根据本申请实施例的小区选择的设备500的示意性框图。如图11所示,该设备500包括:
处理单元510,用于利用强化学习模型根据终端设备在多个小区的状态信息确定选择的目标小区。
在本申请一些实施例中,所述处理单元510还用于:
根据所述目标小区是否满足预设条件,确定切换是否成功。
在本申请一些实施例中,所述预设条件包括以下中至少一个:
所述目标小区的信号质量信息大于或等于信号质量阈值;
所述目标小区在多个候选小区中的信号质量信息最大;
终端设备位于所述目标小区的覆盖范围内;
所述目标小区的负载满足负载阈值;
所述终端设备在所述目标小区的驻留时长大于时长阈值。
在本申请一些实施例中,所述终端设备在多个小区的状态信息包括所述终端设备在第一小区的状态信息,其中,所述终端设备在所述第一小区的状态信息包括以下中的至少一项:
所述第一小区的信号质量信息,所述第一小区的负载信息,所述终端设备是否在第一小区的覆盖范围。
在本申请一些实施例中,所述处理单元510还用于:
根据所述终端设备在所述多个小区中的每个小区的状态信息以及至少一个奖励条件,确定所述终端设备切换至所述每个小区的奖励值;
根据所述终端设备切换至所述每个小区的奖励值,确定所述多个小区中的目标小区。
可选地,在一些实施例中,上述通信单元可以是通信接口或收发器,或者是通信芯片或者片上系统的输入输出接口。上述处理单元可以是一个或多个处理器。
应理解,根据本申请实施例的设备500可对应于本申请方法实施例中的终端设备或网络设备,并且设备500中的各个单元的上述和其它操作和/或功能分别为了实现图9所示方法300中终端设备或网络设备的相应流程,为了简洁,在此不再赘述。
图12是本申请实施例提供的一种通信设备600示意性结构图。图12所示的通信设备600包括处理器610,处理器610可以从存储器中调用并运行计算机程序,以实现本申请实施例中的方法。
可选地,如图12所示,通信设备600还可以包括存储器620。其中,处理器610可以从存储器620中调用并运行计算机程序,以实现本申请实施例中的方法。
其中,存储器620可以是独立于处理器610的一个单独的器件,也可以集成在处理器610中。
可选地,如图12所示,通信设备600还可以包括收发器630,处理器610可以控制该收发器630与其他设备进行通信,具体地,可以向其他设备发送信息或数据,或接收其他设备发送的信息或数据。
其中,收发器630可以包括发射机和接收机。收发器630还可以进一步包括天线,天线的数量可以为一个或多个。
可选地,该通信设备600具体可为本申请实施例的网络设备,并且该通信设备600可以实现本申请实施例的各个方法中由网络设备实现的相应流程,为了简洁,在此不再赘述。
可选地,该通信设备600具体可为本申请实施例的移动终端/终端设备,并且该通信设备600可以实现本申请实施例的各个方法中由移动终端/终端设备实现的相应流程,为了简洁,在此不再赘述。
图13是本申请实施例的芯片的示意性结构图。图13所示的芯片700包括处理器710,处理器710可以从存储器中调用并运行计算机程序,以实现本申请实施例中的方法。
可选地,如图13所示,芯片700还可以包括存储器720。其中,处理器710可以从存储器720中调用并运行计算机程序,以实现本申请实施例中的方法。
其中,存储器720可以是独立于处理器710的一个单独的器件,也可以集成在处理器710中。
可选地,该芯片700还可以包括输入接口730。其中,处理器710可以控制该输入接口730与其 他设备或芯片进行通信,具体地,可以获取其他设备或芯片发送的信息或数据。
可选地,该芯片700还可以包括输出接口740。其中,处理器710可以控制该输出接口740与其他设备或芯片进行通信,具体地,可以向其他设备或芯片输出信息或数据。
可选地,该芯片可应用于本申请实施例中的网络设备,并且该芯片可以实现本申请实施例的各个方法中由网络设备实现的相应流程,为了简洁,在此不再赘述。
可选地,该芯片可应用于本申请实施例中的移动终端/终端设备,并且该芯片可以实现本申请实施例的各个方法中由移动终端/终端设备实现的相应流程,为了简洁,在此不再赘述。
应理解,本申请实施例提到的芯片还可以称为系统级芯片,系统芯片,芯片系统或片上系统芯片等。
应理解,本申请实施例的处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
可以理解,本申请实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。应注意,本文描述的系统和方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
应理解,上述存储器为示例性但不是限制性说明,例如,本申请实施例中的存储器还可以是静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamic RAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synch link DRAM,SLDRAM)以及直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)等等。也就是说,本申请实施例中的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
本申请实施例还提供了一种计算机可读存储介质,用于存储计算机程序。
可选的,该计算机可读存储介质可应用于本申请实施例中的网络设备,并且该计算机程序使得计算机执行本申请实施例的各个方法中由网络设备实现的相应流程,为了简洁,在此不再赘述。
可选地,该计算机可读存储介质可应用于本申请实施例中的移动终端/终端设备,并且该计算机程序使得计算机执行本申请实施例的各个方法中由移动终端/终端设备实现的相应流程,为了简洁,在此不再赘述。
本申请实施例还提供了一种计算机程序产品,包括计算机程序指令。
可选的,该计算机程序产品可应用于本申请实施例中的网络设备,并且该计算机程序指令使得计算机执行本申请实施例的各个方法中由网络设备实现的相应流程,为了简洁,在此不再赘述。
可选地,该计算机程序产品可应用于本申请实施例中的移动终端/终端设备,并且该计算机程序指令使得计算机执行本申请实施例的各个方法中由移动终端/终端设备实现的相应流程,为了简洁,在此不再赘述。
本申请实施例还提供了一种计算机程序。
可选的,该计算机程序可应用于本申请实施例中的网络设备,当该计算机程序在计算机上运行时,使得计算机执行本申请实施例的各个方法中由网络设备实现的相应流程,为了简洁,在此不再赘述。
可选地,该计算机程序可应用于本申请实施例中的移动终端/终端设备,当该计算机程序在计算机上运行时,使得计算机执行本申请实施例的各个方法中由移动终端/终端设备实现的相应流程,为了简洁,在此不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (50)

  1. 一种小区选择的方法,其特征在于,包括:
    确定用于小区选择的至少一个奖励条件以及所述至少一个奖励条件对应的奖励值;
    根据所述至少一个奖励条件以及所述至少一个奖励条件对应的奖励值对用于小区选择的强化学习模型进行训练。
  2. 根据权利要求1所述的方法,其特征在于,所述至少一个奖励条件包括目标小区需要满足的目标奖励条件,所述目标奖励条件包括以下中至少一个:
    小区的信号质量信息大于或等于信号质量阈值;
    小区在多个候选小区中的信号质量信息最大;
    终端设备位于小区的覆盖范围内;
    小区的负载满足负载阈值;
    所述终端设备在小区的驻留时长大于时长阈值。
  3. 根据权利要求2所述的方法,其特征在于,所述小区的负载满足负载阈值,包括:
    小区的可用负载大于或等于第一负载阈值;和/或
    小区的已用负载小于或等于第二负载阈值。
  4. 根据权利要求2或3所述的方法,其特征在于,所述目标奖励条件包括第一奖励条件,其中,所述第一奖励条件包括:
    小区的信号质量信息大于或等于信号质量阈值,并且,小区在多个候选小区中的信号质量信息最大。
  5. 根据权利要求2-4中任一项所述的方法,其特征在于,所述目标奖励条件包括第二奖励条件,其中,所述第二奖励条件包括:
    小区的信号质量信息大于或等于信号质量阈值,所述终端设备位于小区的覆盖范围内,并且小区在多个候选小区中的信号质量信息最大。
  6. 根据权利要求2-5中任一项所述的方法,其特征在于,所述目标奖励条件包括第三奖励条件,其中,所述第三奖励条件包括:
    小区的信号质量信息大于或等于信号质量阈值,小区的负载满足负载阈值,并且小区在多个候选小区中的信号质量信息最大。
  7. 根据权利要求2-6中任一项所述的方法,其特征在于,所述目标奖励条件包括第四奖励条件,其中,所述第四奖励条件包括:
    小区的信号质量信息大于或等于信号质量阈值,小区的负载满足负载阈值,所述终端设备位于小区的覆盖范围内,并且小区在多个候选小区中的信号质量信息最大。
  8. 根据权利要求2-7中任一项所述的方法,其特征在于,所述确定所述至少一个奖励条件对应的奖励值,包括:
    在选择的小区满足所述目标奖励条件时,给予第一奖励值;或者
    在选择的小区不满足所述目标奖励条件时,给予第二奖励值;
    其中,所述第一奖励值大于所述第二奖励值。
  9. 根据权利要求2-8中任一项所述的方法,其特征在于,所述确定所述至少一个奖励条件对应的奖励值,包括:
    在选择的小区满足所述目标奖励条件,并且选择的小区与上一个时刻选择的小区不同的情况下,给予第三奖励值;或者
    在选择的小区满足所述目标奖励条件,但是选择的小区与上一个时刻选择的小区相同的情况下,给予第四奖励值;或者
    在选择的小区不满足所述目标奖励条件,并且切换事件为切换过早的情况下,给予第五奖励值;或者
    在选择的小区不满足所述目标奖励条件,并且切换事件为切换至错误小区的情况下,给予第六奖励值;或者
    在选择的小区满足所述目标奖励条件的情况下,根据终端设备在所述小区的驻留时长,给予奖励值;
    其中,所述第三奖励值大于所述第四奖励值,所述第三奖励值大于所述第五奖励值,所述第三奖励值大于所述第六奖励值。
  10. 根据权利要求1-9中任一项所述的方法,其特征在于,所述根据所述至少一个奖励条件以及所述至少一个奖励条件对应的奖励值对用于小区选择的强化学习模型进行训练,包括:
    获取终端设备的状态空间和行为空间,其中,所述终端设备的状态空间包括所述终端设备在多个时刻的状态信息,所述终端设备的行为空间包括所述终端设备在多个时刻的行为信息;
    根据所述终端设备的状态空间和行为空间,以及所述至少一个奖励条件和所述至少一个奖励条件对应的奖励值,对所述强化学习模型进行训练。
  11. 根据权利要求10所述的方法,其特征在于,所述终端设备在多个时刻的状态信息包括第一时刻的状态信息,所述第一时刻的状态信息包括以下中的至少一项:
    所述终端设备在所述第一时刻所属的小区信息;
    所述终端设备在所述第一时刻所属小区的信号质量信息;
    所述终端设备在所述第一时刻的切换状态信息,用于指示所述终端设备在所述第一时刻是否发生切换;
    所述终端设备在所述第一时刻的位置信息。
  12. 根据权利要求11所述的方法,其特征在于,所述终端设备在所述第一时刻的切换状态信息根据所述终端设备在所述第一时刻所属的小区信息和所述终端设备在第二时刻所属的小区是否相同确定,其中,所述第二时刻为所述第一时刻的上一时刻。
  13. 根据权利要求10-12中任一项所述的方法,其特征在于,所述终端设备在多个时刻的行为信息包括所述终端设备在第一时刻的行为信息,所述终端设备在所述第一时刻的行为信息用于指示所述终端设备在所述第一时刻选择了第一小区。
  14. 根据权利要求10-13中任一项所述的方法,其特征在于,所述根据所述终端设备的状态空间和行为空间,以及所述至少一个奖励条件和所述至少一个奖励条件对应的奖励值,对所述强化学习模型进行训练,包括:
    根据第一时刻的状态信息和所述至少一个奖励条件,确定第一时刻的行为信息对应的奖励值;
    将第二时刻的状态信息,所述第一时刻的行为信息,所述第一时刻的行为对应的奖励值和所述第一时刻的状态信息存入经验池,其中,所述第二时刻为所述第一时刻的上一时刻;
    利用所述经验池对所述强化学习模型进行训练。
  15. 根据权利要求1-14中任一项所述的方法,其特征在于,所述强化学习模型包括深度Q网络模型。
  16. 一种小区选择的方法,其特征在于,包括:
    利用强化学习模型根据终端设备在多个小区的状态信息确定选择的目标小区。
  17. 根据权利要求16所述的方法,其特征在于,所述方法还包括:
    根据所述目标小区是否满足预设条件,确定切换是否成功。
  18. 根据权利要求17所述的方法,其特征在于,所述预设条件包括以下中至少一个:
    所述目标小区的信号质量信息大于或等于信号质量阈值;
    所述目标小区在多个候选小区中的信号质量信息最大;
    所述终端设备位于所述目标小区的覆盖范围内;
    所述目标小区的负载满足负载阈值;
    所述终端设备在所述目标小区的驻留时长大于时长阈值。
  19. 根据权利要求16-18中任一项所述的方法,其特征在于,所述终端设备在多个小区的状态信息包括所述终端设备在第一小区的状态信息,其中,所述终端设备在所述第一小区的状态信息包括以下中的至少一项:
    所述第一小区的信号质量信息,所述第一小区的负载信息,所述终端设备是否在第一小区的覆盖范围。
  20. 根据权利要求16-19中任一项所述的方法,其特征在于,所述利用强化学习模型根据终端设备在多个小区的状态信息确定选择的目标小区,包括:
    根据所述终端设备在所述多个小区中的每个小区的状态信息以及至少一个奖励条件,确定所述终端设备切换至所述每个小区的奖励值;
    根据所述终端设备切换至所述每个小区的奖励值,确定所述多个小区中的目标小区。
  21. 一种小区选择的设备,其特征在于,包括:
    处理单元,用于确定用于小区选择的至少一个奖励条件以及所述至少一个奖励条件对应的奖励值;以及
    根据所述至少一个奖励条件以及所述至少一个奖励条件对应的奖励值对用于小区选择的强化学习模型进行训练。
  22. 根据权利要求21所述的设备,其特征在于,所述至少一个奖励条件包括目标小区需要满足 的目标奖励条件,所述目标奖励条件包括以下中至少一个:
    小区的信号质量信息大于或等于信号质量阈值;
    小区在多个候选小区中的信号质量信息最大;
    终端设备位于小区的覆盖范围内;
    小区的负载满足负载阈值;
    所述终端设备在小区的驻留时长大于时长阈值。
  23. 根据权利要求22所述的设备,其特征在于,所述小区的负载满足负载阈值,包括:
    小区的可用负载大于或等于第一负载阈值;和/或
    小区的已用负载小于或等于第二负载阈值。
  24. 根据权利要求22或23所述的设备,其特征在于,所述目标奖励条件包括第一奖励条件,其中,所述第一奖励条件包括:
    小区的信号质量信息大于或等于信号质量阈值,并且,小区在多个候选小区中的信号质量信息最大。
  25. 根据权利要求22-24中任一项所述的设备,其特征在于,所述目标奖励条件包括第二奖励条件,其中,所述第二奖励条件包括:
    小区的信号质量信息大于或等于信号质量阈值,所述终端设备位于小区的覆盖范围内,并且小区在多个候选小区中的信号质量信息最大。
  26. 根据权利要求22-25中任一项所述的设备,其特征在于,所述目标奖励条件包括第三奖励条件,其中,所述第三奖励条件包括:
    小区的信号质量信息大于或等于信号质量阈值,小区的负载满足负载阈值,并且小区在多个候选小区中的信号质量信息最大。
  27. 根据权利要求22-26中任一项所述的设备,其特征在于,所述目标奖励条件包括第四奖励条件,其中,所述第四奖励条件包括:
    小区的信号质量信息大于或等于信号质量阈值,小区的负载满足负载阈值,所述终端设备位于小区的覆盖范围内,并且小区在多个候选小区中的信号质量信息最大。
  28. 根据权利要求22-27中任一项所述的设备,其特征在于,所述确定所述至少一个奖励条件对应的奖励值,包括:
    在选择的小区满足所述目标奖励条件时,给予第一奖励值;或者
    在选择的小区不满足所述目标奖励条件时,给予第二奖励值;
    其中,所述第一奖励值大于所述第二奖励值。
  29. 根据权利要求22-28中任一项所述的设备,其特征在于,所述处理单元还用于:
    在选择的小区满足所述目标奖励条件,并且选择的小区与上一个时刻选择的小区不同的情况下,给予第三奖励值;或者
    在选择的小区满足所述目标奖励条件,但是选择的小区与上一个时刻选择的小区相同的情况下,给予第四奖励值;或者
    在选择的小区不满足所述目标奖励条件,并且切换事件为切换过早的情况下,给予第五奖励值;或者
    在选择的小区不满足所述目标奖励条件,并且切换事件为切换至错误小区的情况下,给予第六奖励值;或者
    在选择的小区满足所述目标奖励条件的情况下,根据终端设备在所述小区的驻留时长,给予奖励值;
    其中,所述第三奖励值大于所述第四奖励值,所述第三奖励值大于所述第五奖励值,所述第三奖励值大于所述第六奖励值。
  30. 根据权利要求21-29中任一项所述的设备,其特征在于,所述处理单元还用于:
    获取终端设备的状态空间和行为空间,其中,所述终端设备的状态空间包括所述终端设备在多个时刻的状态信息,所述终端设备的行为空间包括所述终端设备在多个时刻的行为信息;
    根据所述终端设备的状态空间和行为空间,以及所述至少一个奖励条件和所述至少一个奖励条件对应的奖励值,对所述强化学习模型进行训练。
  31. 根据权利要求30所述的设备,其特征在于,所述终端设备在多个时刻的状态信息包括第一时刻的状态信息,所述第一时刻的状态信息包括以下中的至少一项:
    所述终端设备在所述第一时刻所属的小区信息;
    所述终端设备在所述第一时刻所属小区的信号质量信息;
    所述终端设备在所述第一时刻的切换状态信息,用于指示所述终端设备在所述第一时刻是否发生切换;
    所述终端设备在所述第一时刻的位置信息。
  32. 根据权利要求31所述的设备,其特征在于,所述终端设备在所述第一时刻的切换状态信息根据所述终端设备在所述第一时刻所属的小区信息和所述终端设备在第二时刻所属的小区是否相同确定,其中,所述第二时刻为所述第一时刻的上一时刻。
  33. 根据权利要求30-32中任一项所述的设备,其特征在于,所述终端设备在多个时刻的行为信息包括所述终端设备在第一时刻的行为信息,所述终端设备在所述第一时刻的行为信息用于指示所述终端设备在所述第一时刻选择了第一小区。
  34. 根据权利要求30-33中任一项所述的设备,其特征在于,所述处理单元还用于:
    根据第一时刻的状态信息和所述至少一个奖励条件,确定第一时刻的行为信息对应的奖励值;
    将第二时刻的状态信息,所述第一时刻的行为信息,所述第一时刻的行为对应的奖励值和所述第一时刻的状态信息存入经验池,其中,所述第二时刻为所述第一时刻的上一时刻;
    利用所述经验池对所述强化学习模型进行训练。
  35. 根据权利要求21-34中任一项所述的设备,其特征在于,所述强化学习模型包括深度Q网络模型。
  36. 一种小区选择的设备,其特征在于,包括:
    处理单元,用于利用强化学习模型根据终端设备在多个小区的状态信息确定选择的目标小区。
  37. 根据权利要求36所述的设备,其特征在于,所述处理单元还用于:
    根据所述目标小区是否满足预设条件,确定切换是否成功。
  38. 根据权利要求37所述的设备,其特征在于,所述预设条件包括以下中至少一个:
    所述目标小区的信号质量信息大于或等于信号质量阈值;
    所述目标小区在多个候选小区中的信号质量信息最大;
    所述终端设备位于所述目标小区的覆盖范围内;
    所述目标小区的负载满足负载阈值;
    所述终端设备在所述目标小区的驻留时长大于时长阈值。
  39. 根据权利要求36-38中任一项所述的设备,其特征在于,所述终端设备在多个小区的状态信息包括所述终端设备在第一小区的状态信息,其中,所述终端设备在所述第一小区的状态信息包括以下中的至少一项:
    所述第一小区的信号质量信息,所述第一小区的负载信息,所述终端设备是否在第一小区的覆盖范围。
  40. 根据权利要求36-39中任一项所述的设备,其特征在于,所述处理单元还用于:
    根据所述终端设备在所述多个小区中的每个小区的状态信息以及至少一个奖励条件,确定所述终端设备切换至所述每个小区的奖励值;
    根据所述终端设备切换至所述每个小区的奖励值,确定所述多个小区中的目标小区。
  41. 一种通信设备,其特征在于,包括:处理器和存储器,该存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,执行如权利要求1至15中任一项所述的方法。
  42. 一种芯片,其特征在于,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如权利要求1至15中任一项所述的方法。
  43. 一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序使得计算机执行如权利要求1至15中任一项所述的方法。
  44. 一种计算机程序产品,其特征在于,包括计算机程序指令,该计算机程序指令使得计算机执行如权利要求1至15中任一项所述的方法。
  45. 一种计算机程序,其特征在于,所述计算机程序使得计算机执行如权利要求1至15中任一项所述的方法。
  46. 一种通信设备,其特征在于,包括:处理器和存储器,该存储器用于存储计算机程序,所述处理器用于调用并运行所述存储器中存储的计算机程序,执行如权利要求16至20中任一项所述的方法。
  47. 一种芯片,其特征在于,包括:处理器,用于从存储器中调用并运行计算机程序,使得安装有所述芯片的设备执行如权利要求16至20中任一项所述的方法。
  48. 一种计算机可读存储介质,其特征在于,用于存储计算机程序,所述计算机程序使得计算机 执行如权利要求16至20中任一项所述的方法。
  49. 一种计算机程序产品,其特征在于,包括计算机程序指令,该计算机程序指令使得计算机执行如权利要求16至20中任一项所述的方法。
  50. 一种计算机程序,其特征在于,所述计算机程序使得计算机执行如权利要求16至20中任一项所述的方法。
CN202180100906.9A 2021-11-02 2021-12-03 小区选择的方法和设备 Pending CN118044261A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CNPCT/CN2021/128217 2021-11-02
CN2021128217 2021-11-02
PCT/CN2021/135532 WO2023077597A1 (zh) 2021-11-02 2021-12-03 小区选择的方法和设备

Publications (1)

Publication Number Publication Date
CN118044261A true CN118044261A (zh) 2024-05-14

Family

ID=86240600

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180100906.9A Pending CN118044261A (zh) 2021-11-02 2021-12-03 小区选择的方法和设备

Country Status (2)

Country Link
CN (1) CN118044261A (zh)
WO (1) WO2023077597A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102905307B (zh) * 2012-09-12 2014-12-31 北京邮电大学 实现邻区列表和负载均衡联合优化的系统
EP3635505B1 (en) * 2017-07-06 2023-09-06 Huawei Technologies Co., Ltd. System and method for deep learning and wireless network optimization using deep learning
CN109451523B (zh) * 2018-11-23 2021-09-17 南京邮电大学 基于流量识别技术和q学习的快速切换方法
US11494649B2 (en) * 2020-01-31 2022-11-08 At&T Intellectual Property I, L.P. Radio access network control with deep reinforcement learning

Also Published As

Publication number Publication date
WO2023077597A1 (zh) 2023-05-11

Similar Documents

Publication Publication Date Title
CN111565428B (zh) 小区重选方法以及装置
WO2020125069A1 (zh) 一种切换控制方法及设备
JP6187480B2 (ja) 通信制御装置、通信制御方法、プログラム及び端末装置
US11838815B2 (en) Cell handover method, terminal device, and network device
US20220394570A1 (en) Message sending method and apparatus, message receiving method and apparatus, and device and storage medium
CN113519183B (zh) 无线通信方法和终端设备
CN117641268A (zh) 基于异网漫游的接入方法和装置
US20240114408A1 (en) Cell handover method and apparatus, device, and storage medium
CN112399494B (zh) 一种无线通信的方法和通信装置
CN116210326A (zh) 选择初始带宽部分bwp的方法、终端设备和网络设备
CN115516914A (zh) 切换的方法和设备
CN115699868A (zh) 重选初始带宽部分bwp的方法、终端设备和网络设备
CN113748710A (zh) 无线通信方法、终端设备和网络设备
CN118044261A (zh) 小区选择的方法和设备
CN114916026A (zh) 小区切换方法与装置、终端设备
JP2019161529A (ja) 第1の基地局、第2の基地局、及び方法
EP4156759A1 (en) Wireless communication method and terminal device
CN116097719A (zh) 上报已记录测量报告的方法、终端设备和网络设备
CN106470388A (zh) 设备到设备d2d授权信息的获取方法及装置
US12028771B2 (en) Wireless communication method, terminal device and network device
WO2020164430A1 (zh) 小区重选方法以及装置
CN114340009B (zh) 无线通信方法、装置、设备及存储介质
WO2024125510A1 (zh) 模型优化方法、装置、设备及存储介质
WO2024055197A1 (zh) 模型监测的方法及设备
CN117480798A (zh) 无线通信方法、终端设备及网络设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination