CN114785731A

CN114785731A - 模型确定系统及方法、计算机可存储介质

Info

Publication number: CN114785731A
Application number: CN202210439454.3A
Authority: CN
Inventors: 于梦晗; 李鹏宇; 贾靖
Original assignee: China Telecom Corp Ltd
Current assignee: China Telecom Corp Ltd
Priority date: 2022-04-25
Filing date: 2022-04-25
Publication date: 2022-07-22

Abstract

本公开涉及模型确定系统及方法、计算机可存储介质，涉及网络技术领域。模型确定系统包括：至少一个目标终端，每个目标终端被配置为：获取用于选择终端在近域网络中的接入路径的初始强化学习模型；获取所述每个目标终端所处的接入环境中的多条候选接入路径的当前状态信息；根据所述多条候选接入路径的当前状态信息，训练所述初始强化学习模型，得到与所述每个目标终端对应的本地强化学习模型；根据所述本地强化学习模型，确定目标强化学习模型。根据本公开，可以提高终端隐私安全性。

Description

模型确定系统及方法、计算机可存储介质

技术领域

本公开涉及网络技术领域，特别涉及模型确定系统及方法、计算机可存储介质。

背景技术

诸如P-RAN(Proximity Radio Access Network，近域无线接入网络)、ProSe(Proximity Services，近域通信)等近域网络架构通过D2D(Device—to—Device，设备到设备)技术将智能终端作为传输的中继节点，将基站蜂窝结构从基站进一步扩展到智能终端，为室内外高频段部署提供了高性价比的解决方案。随着多智能体强化学习(Multi-Agent Reinforcement Learning，MARL)在移动通信网络中的最佳路径选择方面得到了广泛的应用，如何获取强化学习模型，以在近域网络中为终端选择最佳接入路径成为关键。

相关技术中，聚合器从各个终端获取其所在近域网络的接入环境的本地环境信息，并利用获取到的各个终端的本地环境信息训练初始强化学习模型，从而得到目标强化学习模型，用于在金鱼网络中为终端选择最佳接入路径。

发明内容

相关技术中，聚合器为训练初始强化学习模型，需要采集各个终端的本地环境信息，而各个终端的本地环境信息中通常会包括终端的隐私信息，从而无法保证终端的隐私。

针对上述技术问题，本公开提出了一种解决方案，可以提高终端隐私安全性。

根据本公开的第一方面，提供了一种模型确定系统，包括：至少一个目标终端，每个目标终端被配置为：获取用于选择终端在近域网络中的接入路径的初始强化学习模型；获取所述每个目标终端所处的接入环境中的多条候选接入路径的当前状态信息；根据所述多条候选接入路径的当前状态信息，训练所述初始强化学习模型，得到与所述每个目标终端对应的本地强化学习模型；根据所述本地强化学习模型，确定目标强化学习模型。

在一些实施例中，模型确定系统，还包括：聚合装置，被配置为：在所述目标终端存在多个的情况下，发送所述初始强化学习模型到多个目标终端；对来自所述多个目标终端的本地强化学习模型进行聚合处理，得到所述目标强化学习模型；分别发送所述目标强化学习模型到所述多个目标终端。

在一些实施例中，所述聚合装置包括中心聚合器和多个目标边缘聚合器，其中，所述目标终端存在多个的情况下，每个目标边缘聚合器的连接区域内包括至少一个目标终端，每个目标边缘聚合器被配置为：发送来自所述中心聚合器的初始强化学习模型到位于所述每个目标边缘聚合器的连接区域内的目标终端；对来自位于所述每个目标边缘聚合器的连接区域内的目标终端的本地强化学习模型进行聚合处理，得到中间强化学习模型；发送所述中间目标强化学习模型到所述中心聚合器；所述中心聚合器被配置为对来自所述多个目标边缘聚合器的中间目标强化学习模型进行模型聚合，得到所述目标强化学习模型。

在一些实施例中，所述中心聚合器还被配置为：根据多个候选边缘聚合器的相关信息，从所述多个候选边缘聚合器中，选择所述多个目标边缘聚合器。

在一些实施例中，所述多个候选边缘聚合器的相关信息包括每个候选边缘聚合器的空闲时间、算力情况、连接区域、连接区域内的区域环境情况、连接区域内的候选终端的数量中的至少一种。

在一些实施例中，所述中心聚合器还被配置为发送所述初始强化学习模型的模型信息和模型训练需求信息到所述多个目标边缘聚合器。

在一些实施例中，所述每个目标边缘聚合器还被配置为：发送所述初始强化学习模型的模型信息和模型训练需求信息。在一些实施例中，所述初始强化学习模型的模型信息包括模型版本信息和模型参数信息；和/或所述初始强化学习模型的模型训练需求信息包括预计训练时间、模型准确度需求、学习率和传输加密需求信息。

在一些实施例中，所述每个目标边缘聚合器还被配置为：根据位于所述每个目标边缘聚合器的连接区域内的候选终端的本地信息，从位于所述每个目标边缘聚合器的连接区域内的候选终端中，选择与所述每个目标边缘聚合器对应的目标终端。

在一些实施例中，所述候选终端的本地信息包括加入模型训练的意愿信息、本地空闲时间和算力情况信息。

在一些实施例中，所述中心聚合器为云聚合器。

在一些实施例中，所述每个目标终端还被配置为对其对应的本地强化学习模型进行模型评估，得到本地模型评估信息；发送其对应的本地模型评估信息到与所述每个目标终端对应的目标边缘聚合器；

所述每个目标边缘聚合器还被配置为对其对应的中间强化学习模型进行模型评估，得到区域模型评估信息；发送其对应的区域模型评估信息到所述中心聚合器；所述中心聚合器还被配置为对其对应的目标强化学习模型进行模型评估，得到全局模型评估信息；根据所述全局模型评估信息和所述多个目标边缘聚合器的区域模型评估信息，确定并发送每个目标边缘聚合器的激励值；所述每个目标边缘聚合器还被配置为根据来自所述中心聚合器的所述每个目标边缘聚合器的激励值、所述每个目标边缘聚合器的区域模型评估信息、和所述每个目标边缘聚合器的连接区域内的目标终端的本地模型评估结果，确定并发送每个目标终端的激励值到所述每个目标终端。

在一些实施例中，所述每个目标终端还被配置为：根据所述多条候选接入路径的当前状态信息，利用所述初始强化学习模型，从所述多条候选接入路径中，选择目标接入路径；获取所述多条候选接入路径的下一状态信息；根据所述多条候选接入路径的当前状态信息和下一状态信息，确定选择目标接入路径的奖励值；根据所述当前状态信息、所述目标接入路径、所述下一状态信息和所述奖励值，训练所述初始强化学习模型，得到本地强化学习模型。

在一些实施例中，每个目标终端的目标强化学习模型用于根据所述每个目标终端所处的接入环境中的多条候选接入路径的当前状态信息，从所述多个候选接入路径中，选择所述每个目标终端在下一状态接入的目标接入路径。

根据本公开第二方面，提供了一种用于至少一个目标终端的模型确定方法，包括：每个目标终端获取用于选择终端接入路径的初始强化学习模型；每个目标终端获取所述每个目标终端所处的接入环境中的多条候选接入路径的当前状态信息；每个目标终端根据所述多条候选接入路径的当前状态信息，训练所述初始强化学习模型，得到与所述每个目标终端对应的本地强化学习模型；每个目标终端根据所述本地强化学习模型，确定目标强化学习模型。

根据本公开第三方面，提供了一种模型确定系统，包括：存储器；以及耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行上述任一实施例所述的模型确定方法。

根据本公开的第四方面，提供了一种计算机可存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现上述任一实施例所述的模型确定方法。

在上述实施例中，可以提高终端隐私安全性。

附图说明

构成说明书的一部分的附图描述了本公开的实施例，并且连同说明书一起用于解释本公开的原理。

参照附图，根据下面的详细描述，可以更加清楚地理解本公开，其中：

图1是示出根据本公开一些实施例的模型确定系统的框图；

图2是示出根据本公开一些实施例的模型确定方法的信令图；

图3是示出根据本公开一些实施例的模型确定系统的示意图；

图4是示出根据本公开一些实施例的模型确定方法的流程图

图5是示出根据本公开另一些实施例的模型确定系统的框图；

图6是示出用于实现本公开一些实施例的计算机系统的框图。

具体实施方式

现在将参照附图来详细描述本公开的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本公开及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有示例中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它示例可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

图1是示出根据本公开一些实施例的模型确定系统的框图。

如图1所示，模型确定系统10包括至少一个目标终端11。

每个目标终端11被配置为执行如下步骤。本公开的终端例如为智能体终端。

首先，获取用于选择终端在近域网络中的接入路径的初始强化学习模型。

其次，获取每个目标终端所处的接入环境中的多条候选接入路径的当前状态信息。在一些实施例中，候选接入路径在任意时刻的状态信息包括候选接入路径对应的目标终端的本地信号强度、该路径上的信号强度、该路径已连接的终端的数量、该路径最多可连接的终端的数量、该路径预计可持续连接的时间、该路径的路径资源配置等。

然后，根据多条候选接入路径的当前状态信息，训练初始强化学习模型，得到与每个目标终端对应的本地强化学习模型。

最后，根据本地强化学习模型，确定目标强化学习模型。

在上述实施例中，通过在终端本地根据其所处近域网络接入环境中的多条候选接入路径的当前状态信息来训练初始强化学习模型，得到本地强化学习模型，进而根据本地强化学习模型确定目标强化学习模型。通过这种方式，使得各个终端的本地信息不会被其他设备获取，从而提高了终端隐私安全性。

在一些实施例中，模型确定系统10还包括聚合装置12。

聚合装置12被配置为执行如下步骤。

首先，在目标终端存在多个的情况下，发送初始强化学习模型到多个目标终端。

然后，对来自多个目标终端的本地强化学习模型进行聚合处理，得到目标强化学习模型。

最后，分别发送目标强化学习模型到多个目标终端。

在上述实施例中，通过聚合装置12对多个目标终端的本地强化学习模型进行聚合，得到目标强化学习模型，可以提高目标强化学习模型为终端选择近域网络内的接入路径的准确性。

在一些实施例中，聚合装置12包括中心聚合器121和多个目标边缘聚合器122。例如，中心聚合器为云聚合器。

在目标终端11存在多个的情况下，每个目标边缘聚合器122的连接区域内包括至少一个目标终端11。如图1所示，不同目标边缘聚合器的连接区域用虚线框表示。

每个目标边缘聚合器122被配置为执行如下步骤。

首先，发送来自中心聚合器121的初始强化学习模型到位于每个目标边缘聚合器122的连接区域内的目标终端11。

然后，对来自位于每个目标边缘聚合器122的连接区域内的目标终端11的本地强化学习模型进行聚合处理，得到中间强化学习模型。

最后，发送中间目标强化学习模型到中心聚合器121。

在上述实施例中，采用目标边缘聚合器与中心聚合器对本地强化学习模型进行分层聚合的方式，可以提高确定目标强化学习模型的效率，降低中心聚合器的负载压力。

在一些实施例中，中心聚合器121还被配置为根据多个候选边缘聚合器的相关信息，从多个候选边缘聚合器中，选择多个目标边缘聚合器。例如，模型确定系统可以包括多个候选边缘聚合器。

在一些实施例中，多个候选边缘聚合器的相关信息包括每个候选边缘聚合器的空闲时间、算力情况、连接区域、连接区域内的区域环境情况、连接区域内的候选终端的数量中的至少一种等。例如，一个候选边缘聚合器可以对应一个连接区域，也可以对应多个连接区域。连接区域可以用连接区域ID进行标识。

在一些实施例中，连接区域的环境情况信息包括但不限于网络性能信息、地域特征信息(例如包括大城市、乡村、高楼较多或平方较多等特征信息)、终端密度信息等。

在一些实施例中，中心聚合器121还被配置为发送初始强化学习模型的模型信息和模型训练需求信息到多个目标边缘聚合器122。

在一些实施例中，初始强化学习模型的模型信息包括模型版本信息和模型参数信息；和/或初始强化学习模型的模型训练需求信息包括预计训练时间、模型准确度需求、学习率和传输加密需求信息。模型准确度需求例如包括模型准确度等级要求等。传输加密需求信息例如包括传输加密方式等。模型版本信息例如包括模型版本号等。在一些实施例中，在目标边缘聚合器发送初始强化学习模型的模型信息和模型训练需求信息到目标终端的情况下，模型训练需求信息还包括训练时间需求和状态转移次数等。

在一些实施例中，每个目标边缘聚合器122还被配置为根据位于每个目标边缘聚合器122的连接区域内的候选终端的本地信息，从位于每个目标边缘聚合器122的连接区域内的候选终端中，选择与每个目标边缘聚合器122对应的目标终端。

在一些实施例中，候选终端的本地信息包括加入模型训练的意愿信息、本地空闲时间和算力情况信息。例如，加入模型训练的意愿信息包括是否同意加入模型训练。

在一些实施例中，每个目标边缘聚合器122向其连接区域内具有参与模型训练的候选终端发送模型训练通知。模型训练通知例如可以包括分析ID、预计发放的激励等信息。接收到模型训练通知的候选终端被配置为上报其对应的本地信息到对应的目标边缘聚合器。

在一些实施例中，每个目标终端11还被配置为对其对应的本地强化学习模型进行模型评估，得到本地模型评估信息；并发送其对应的本地模型评估信息到与每个目标终端11对应的目标边缘聚合器122。

每个目标边缘聚合器122还被配置为对其对应的中间强化学习模型进行模型评估，得到区域模型评估信息；并发送其对应的区域模型评估信息到中心聚合器121。

中心聚合器121还被配置为对其对应的目标强化学习模型进行模型评估，得到全局模型评估信息；并根据全局模型评估信息和多个目标边缘聚合器122的区域模型评估信息，确定并发送每个目标边缘聚合器122的激励值到每个目标终端11。

在一些实施例中，每个目标终端11还被配置为执行如下操作。

首先，根据多条候选接入路径的当前状态信息，利用初始强化学习模型，从多条候选接入路径中，选择目标接入路径。当前状态信息在强化学习训练中表示为S_t。选择的目标接入路径在强化学习训练中作为私有策略A_t。

其次，获取多条候选接入路径的下一状态信息。多条候选接入路径的当前状态信息和下一状态信息例如可以是从网络侧得知，也可以是与可连接的各个中继节点直接交互信息。下一状态信息在强化学习训练中表示为S_t+1。

然后，根据多条候选接入路径的当前状态信息和下一状态信息，确定选择目标接入路径的奖励值。奖励值参考强化学习模型的定义R_t。

最后，根据当前状态信息、目标接入路径、下一状态信息和奖励值，训练初始强化学习模型，得到本地强化学习模型。例如，利用(S_t,A_t,R_t,S_t+1)更新初始强化学习模型，得到本地强化学习模型。

上述更新或训练初始强化学习模型的过程可以重复执行多次，直到满足预设需求。

这种情况下，每个目标边缘聚合器122还被配置为根据来自中心聚合器121的每个目标边缘聚合器122的激励值、每个目标边缘聚合器122的区域模型评估信息、和每个目标边缘聚合器122的连接区域内的目标终端11的本地模型评估结果，确定并发送每个目标终端11的激励值到每个目标终端11。

在一些实施例中，每个目标终端11的目标强化学习模型用于根据每个目标终端11所处的接入环境中的多条候选接入路径的当前状态信息，从多个候选接入路径中，选择每个目标终端11在下一状态接入的目标接入路径。

利用强化学习方法选择近域无线接入网络接入路径，可解决例如终端选择当前信号强度最大的路径接入等传统路径选择方法中，各终端可能会抢夺资源，导致数据拥塞、资源浪费等问题。

目前大部分移动通信网络中的MARL，智能体需将本地状态等信息上传至中心。另一方面某些边缘聚合器可能负责一些特定区域，如负责安全级别较高园区的边缘NWDAF(Network Data Analytics Function，网络数据分析功能)网元或特定基站。本公开的模型确定系统或方法可有效保证智能体终端和边缘聚合器的隐私性。

以云为中心的FRL(Federated Reinforcement Learning，联邦强化学习)存在终端时延较高的问题。本公开的模型确定系统或方法通过将部分模型聚合任务卸载至距离智能体终端更近的边缘侧降低了时延，同时减轻了云端的计算压力。

图2是示出根据本公开一些实施例的模型确定方法的信令图。

如图2所示，模型确定方法包括步骤S1～S16。

在步骤S1中，云聚合器根据所有候选边缘聚合器的信息选择参与联邦多智能体强化学习(Federated Multi-Agent Reinforcement Learning，FMARL)的目标边缘聚合器。选择目标边缘聚合器需要考虑的因素包括候选边缘聚合器的空闲时间、算力情况、连接区域的环境情况、连接区域的终端数量、连接区域的区域ID(s)等。

在步骤S2中，云聚合器向目标边缘聚合器发送FMARL初始模型(即初始强化学习模型)。例如，发送内容可以包括但不限于当前模型版本号、模型参数、规定训练时间、模型准确度等级要求、学习率、传输加密方式等信息。

在步骤S3中，目标边缘聚合器向其连接区域内可参与FMARL的候选终端发送FMARL通知。FMARL通知可以包含分析ID、预计发放的激励等信息。

在步骤S4中，候选终端向目标边缘聚合器上报其本地信息。候选终端上报的本地信息可以包含是否同意加入FMARL、本地空闲时间、算力情况等信息。

在步骤S5中，目标边缘聚合器根据候选终端上传的本地信息选择参与FMARL的目标终端。

在步骤S6中，目标边缘聚合器向选中目标终端发送FMARL初始模型(即初始强化学习模型)。发送内容可以包括但不限于当前模型版本号、模型参数、规定时间、学习率、传输加密方式、规定状态转移次数等。

在步骤S7中，目标终端与接入环境交互得到当前时刻每条接入路径(或连接路径)的相关信息，作为当前状态信息S_t。当前状态信息可以包括本地信号强度、每条路径信号强度、已连接终端数量、最多可连接终端数量、预计可持续连接时间、路径资源配置等信息。

在步骤S8中，目标终端根据初始模型和当前状态信息S_t制定私有策略A_t，即选择目标接入路径。

在步骤S9中，目标终端根据私有策略A_t与接入环境交互，得到下一时刻每条接入路径的相关信息，作为下一状态信息S_t+1。

在步骤S10中，目标终端根据当前状态信息S_t和下一状态信息S_t+1计算奖励R_t，并根据(S_t,A_t,R_t,S_t+1)更新初始强化学习模型，得到本地强化学习模型。目标终端根据规定训练时间、规定状态转移次数等信息重复步骤S7-S10直至达到相关要求。

在步骤S11中，目标终端向目标边缘聚合器上传本地更新后的本地强化学习模型。上传信息可以包含更新模型的版本号、模型参数、本地模型评估结果等信息。

在步骤S12中，目标边缘聚合器聚合所有目标终端上传的本地强化学习模型，得到中间强化学习模型，并对中间强化学习模型进行模型评估。目标边缘聚合器根据云聚合器发送的规定训练时间、模型准确度等级要求等信息重复步骤S3-S12直至达到相关要求。

在步骤S13中，目标边缘聚合器将聚合后的中间强化学习模型上传至云聚合器。目标边缘聚合器上传的内容可以包含聚合模型的版本号、模型参数、区域模型评估结果等信息。

在步骤S14中，云聚合器聚合所有目标边缘服务器上传的中间强化学习模型，得到目标强化学习模型，并对目标强化学习模型进行评估，并根据评估结果计算各目标边缘聚合器的贡献以及激励。

在步骤S15中，云聚合器将聚合后的目标强化学习模型以及激励发送至目标边缘聚合器。发送内容可以包含聚合模型版本号、模型参数、对该目标边缘聚合器的激励等。

在步骤S16中，目标边缘聚合器根据模型评估结果以及云聚合器发送的激励等信息计算参与的目标终端的激励值，并将聚合模型(目标强化学习模型)以及激励发送至各目标终端。发送内容可以包含聚合模型的版本号、模型参数、对该目标终端的激励等。例如，可以根据最终模型的准确度等级要求等信息重复步骤S1-S16直至达到相关要求。

图3是示出根据本公开一些实施例的模型确定系统的示意图。

如图3所示，模型确定系统包括云聚合器、边缘聚合器、终端和接入环境。不同边缘聚合器对应不同的连接区域，例如区域1和区域2。图3中还示出了区域1和区域2中的多条接入路径。图3还示出了不同类型的边缘聚合器、终端。

图4是示出根据本公开一些实施例的模型确定方法的流程图。

如图4所示，用于至少一个目标终端的模型确定方法包括步骤S410-步骤S440。步骤S410-步骤S440由每个目标终端执行。

在步骤S410中，每个目标终端获取用于选择终端接入路径的初始强化学习模型。

在步骤S420中，每个目标终端获取每个目标终端所处的接入环境中的多条候选接入路径的当前状态信息。

在步骤S430中，每个目标终端根据多条候选接入路径的当前状态信息，训练初始强化学习模型，得到与每个目标终端对应的本地强化学习模型。

在步骤S440中，每个目标终端根据本地强化学习模型，确定目标强化学习模型。在一些实施例中，模型确定方法还可以包括如图2所示的其他步骤，此处不再赘述。

图5是示出根据本公开另一些实施例的模型确定系统的框图。

如图5所示，模型确定系统5包括存储器51；以及耦接至该存储器51的处理器52。存储器51用于存储执行模型确定方法对应实施例的指令。处理器52被配置为基于存储在存储器51中的指令，执行本公开中任意一些实施例中的模型确定方法。

本公开的模型确定系统和模型确定方法可以用于如下几种场景。

例如，如P-RAN、ProSe等近域网络通信中，终端在选择其他终端作为中继时可能存在多条接入路径，传统的选择当前信号强度最高路径的方法存在很多问题。本公开的模型确定系统或方法可作为近域网络通信中最佳接入路径选择的解决方案之一。

又例如，在TS 23.288中提到，某些NWDAF网元可能负责一些安全级别较高的特定区域，这些特定区域可能需要参与模型训练，但其本地环境信息、UE个人信息等隐私性较高。可通过本公开提出的架构，负责特定区域的NWDAF网元作为边缘聚合器，市级、省级或全国级NWDAF作为云聚合器，实现多NWDAF协同完成联邦强化学习。

再例如，本公开的模型确定系统或方法还可应用于未来6G网络中多域协同的场景。例如核心网域中的AI网元作为云聚合器，无线域中的AI节点作为边缘聚合器，终端域中的智能终端作为智能体。

图6是示出用于实现本公开一些实施例的计算机系统的框图。

如图6所示，计算机系统60可以通用计算设备的形式表现。计算机系统60包括存储器610、处理器620和连接不同系统组件的总线600。

存储器610例如可以包括系统存储器、非易失性存储介质等。系统存储器例如存储有操作系统、应用程序、引导装载程序(Boot Loader)以及其他程序等。系统存储器可以包括易失性存储介质，例如随机存取存储器(RAM)和/或高速缓存存储器。非易失性存储介质例如存储有执行模型确定方法中的至少一种的对应实施例的指令。非易失性存储介质包括但不限于磁盘存储器、光学存储器、闪存等。

处理器620可以用通用处理器、数字信号处理器(DSP)、应用专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑设备、分立门或晶体管等分立硬件组件方式来实现。相应地，诸如判断模块和确定模块的每个模块，可以通过中央处理器(CPU)运行存储器中执行相应步骤的指令来实现，也可以通过执行相应步骤的专用电路来实现。

总线600可以使用多种总线结构中的任意总线结构。例如，总线结构包括但不限于工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、外围组件互连(PCI)总线。

计算机系统60还可以包括输入输出接口630、网络接口640、存储接口650等。这些接口630、640、650以及存储器610和处理器620之间可以通过总线600连接。输入输出接口630可以为显示器、鼠标、键盘等输入输出设备提供连接接口。网络接口640为各种联网设备提供连接接口。存储接口650为软盘、U盘、SD卡等外部存储设备提供连接接口。

这里，参照根据本公开实施例的方法、装置和计算机程序产品的流程图和/或框图描述了本公开的各个方面。应当理解，流程图和/或框图的每个框以及各框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可提供到通用计算机、专用计算机或其他可编程装置的处理器，以产生一个机器，使得通过处理器执行指令产生实现在流程图和/或框图中一个或多个框中指定的功能的装置。

这些计算机可读程序指令也可存储在计算机可读存储器中，这些指令使得计算机以特定方式工作，从而产生一个制造品，包括实现在流程图和/或框图中一个或多个框中指定的功能的指令。

本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。

通过上述实施例中的模型确定系统及方法、计算机可存储介质，可以提高终端隐私安全性。

至此，已经详细描述了根据本公开的模型确定系统及方法、计算机可存储介质。为了避免遮蔽本公开的构思，没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述，完全可以明白如何实施这里公开的技术方案。

Claims

1.一种模型确定系统，包括：

至少一个目标终端，每个目标终端被配置为：

获取用于选择终端在近域网络中的接入路径的初始强化学习模型；

获取所述每个目标终端所处的接入环境中的多条候选接入路径的当前状态信息；

根据所述多条候选接入路径的当前状态信息，训练所述初始强化学习模型，得到与所述每个目标终端对应的本地强化学习模型；

根据所述本地强化学习模型，确定目标强化学习模型。

2.根据权利要求1所述的模型确定系统，还包括：

聚合装置，被配置为：

在所述目标终端存在多个的情况下，发送所述初始强化学习模型到多个目标终端；

对来自所述多个目标终端的本地强化学习模型进行聚合处理，得到所述目标强化学习模型；

分别发送所述目标强化学习模型到所述多个目标终端。

3.根据权利要求2所述的模型确定系统，其中，所述聚合装置包括中心聚合器和多个目标边缘聚合器，其中，所述目标终端存在多个的情况下，每个目标边缘聚合器的连接区域内包括至少一个目标终端，每个目标边缘聚合器被配置为：

发送来自所述中心聚合器的初始强化学习模型到位于所述每个目标边缘聚合器的连接区域内的目标终端；

对来自位于所述每个目标边缘聚合器的连接区域内的目标终端的本地强化学习模型进行聚合处理，得到中间强化学习模型；

发送所述中间目标强化学习模型到所述中心聚合器；

所述中心聚合器被配置为对来自所述多个目标边缘聚合器的中间目标强化学习模型进行模型聚合，得到所述目标强化学习模型。

4.根据权利要求3所述的模型确定系统，其中，所述中心聚合器还被配置为：

根据多个候选边缘聚合器的相关信息，从所述多个候选边缘聚合器中，选择所述多个目标边缘聚合器。

5.根据权利要求4所述的模型确定系统，其中，所述多个候选边缘聚合器的相关信息包括每个候选边缘聚合器的空闲时间、算力情况、连接区域、连接区域内的区域环境情况、连接区域内的候选终端的数量中的至少一种。

6.根据权利要求3所述的模型确定系统，其中，所述中心聚合器还被配置为发送所述初始强化学习模型的模型信息和模型训练需求信息到所述多个目标边缘聚合器。

7.根据权利要求3所述的模型确定系统，其中，所述每个目标边缘聚合器还被配置为：

发送所述初始强化学习模型的模型信息和模型训练需求信息。

8.根据权利要求6或7所述的模型确定系统，其中，

所述初始强化学习模型的模型信息包括模型版本信息和模型参数信息；和/或

所述初始强化学习模型的模型训练需求信息包括预计训练时间、模型准确度需求、学习率和传输加密需求信息。

9.根据权利要求3所述的模型确定系统，其中，所述每个目标边缘聚合器还被配置为：

根据位于所述每个目标边缘聚合器的连接区域内的候选终端的本地信息，从位于所述每个目标边缘聚合器的连接区域内的候选终端中，选择与所述每个目标边缘聚合器对应的目标终端。

10.根据权利要求9所述的模型确定系统，其中，所述候选终端的本地信息包括加入模型训练的意愿信息、本地空闲时间和算力情况信息。

11.根据权利要求3所述的模型确定系统，其中，所述中心聚合器为云聚合器。

12.根据权利要求3所述的模型确定系统，其中，

所述每个目标终端还被配置为对其对应的本地强化学习模型进行模型评估，得到本地模型评估信息；发送其对应的本地模型评估信息到与所述每个目标终端对应的目标边缘聚合器；

所述每个目标边缘聚合器还被配置为对其对应的中间强化学习模型进行模型评估，得到区域模型评估信息；发送其对应的区域模型评估信息到所述中心聚合器；

所述中心聚合器还被配置为对其对应的目标强化学习模型进行模型评估，得到全局模型评估信息；根据所述全局模型评估信息和所述多个目标边缘聚合器的区域模型评估信息，确定并发送每个目标边缘聚合器的激励值；

所述每个目标边缘聚合器还被配置为根据来自所述中心聚合器的所述每个目标边缘聚合器的激励值、所述每个目标边缘聚合器的区域模型评估信息、和所述每个目标边缘聚合器的连接区域内的目标终端的本地模型评估结果，确定并发送每个目标终端的激励值到所述每个目标终端。

13.根据权利要求1所述的模型确定系统，其中，所述每个目标终端还被配置为：

根据所述多条候选接入路径的当前状态信息，利用所述初始强化学习模型，从所述多条候选接入路径中，选择目标接入路径；

获取所述多条候选接入路径的下一状态信息；

根据所述多条候选接入路径的当前状态信息和下一状态信息，确定选择目标接入路径的奖励值；

根据所述当前状态信息、所述目标接入路径、所述下一状态信息和所述奖励值，训练所述初始强化学习模型，得到本地强化学习模型。

14.根据权利要求1所述的模型确定系统，其中，每个目标终端的目标强化学习模型用于根据所述每个目标终端所处的接入环境中的多条候选接入路径的当前状态信息，从所述多个候选接入路径中，选择所述每个目标终端在下一状态接入的目标接入路径。

15.一种用于至少一个目标终端的模型确定方法，包括：

每个目标终端获取用于选择终端接入路径的初始强化学习模型；

每个目标终端获取所述每个目标终端所处的接入环境中的多条候选接入路径的当前状态信息；

每个目标终端根据所述多条候选接入路径的当前状态信息，训练所述初始强化学习模型，得到与所述每个目标终端对应的本地强化学习模型；

每个目标终端根据所述本地强化学习模型，确定目标强化学习模型。

16.一种模型确定系统，包括：

存储器；以及

耦接至所述存储器的处理器，所述处理器被配置为基于存储在所述存储器的指令，执行如权利要求15所述的模型确定方法。

17.一种计算机可存储介质，其上存储有计算机程序指令，该指令被处理器执行时实现如权利要求15所述的模型确定方法。