CN113298247A

CN113298247A - 智能体决策的方法和装置

Info

Publication number: CN113298247A
Application number: CN202010107928.5A
Authority: CN
Inventors: 王坚; 徐晨; 皇甫幼睿; 李榕; 王俊
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2020-02-21
Filing date: 2020-02-21
Publication date: 2021-08-24
Also published as: WO2021164547A1; US20220391731A1

Abstract

本申请提供一种智能体决策的方法和装置，能够提高智能体决策的性能。所述方法应用于通信系统中，通信系统中包括至少两个功能模块，至少两个功能模块包括第一功能模块和第二功能模块，第一功能模块配置有第一智能体，第二功能模块配置有第二智能体，该方法包括：第一智能体获取第二智能体的相关信息，并根据该第二智能体的相关信息进行第一功能模块的决策。

Description

智能体决策的方法和装置

技术领域

本申请涉及通信领域，并且更具体地，涉及一种智能体决策的方法和装置。

背景技术

现有的通信系统往往被分割成多个功能模块，例如，在传输音视频等多媒体业务的多媒体通信系统中，服务音视频编解码功能的模块和负责通信的模块是相对独立的两个模块。系统设计人员只需要针对各模块的功能，对各模块进行逐一设计和优化即可。

同理，通信协议也往往被分成多层，每层各司其职，完成相应任务。例如，经典的传输控制协议/互联网协议(Transmission Control Protocol/Internet Protocol，TCP/IP)模型，应用层负责程序间的数据沟通，提供文件传输、邮件、远程登录等业务协议；传输层负责提供端到端的可靠或非可靠的通信；网络层负责地址管理和路由选择；数据链路层负责处理数据在物理媒介上的传输。

分模块或分层的系统设计或协议设计的优化方法割裂了模块之间或层之间的相互作用关系，往往只能得到局部最优的解决方案。

目前，提出的跨模块/跨层的优化方法是将多个相互关联的模块或层联合在一起做考虑，建立统一的考虑多模块/多层参数的优化问题，通过设定一个优化目标，用数学公式或数学模型的方式表达出来，并求解该优化问题，得到在考虑了各模块/各层相互制约关系前提下的解决方案。此方法的建模过程往往比较复杂，很多时候是需要简化，导致整个问题和实际问题不是完全一致，只能提供启发式的解法，而启发式的算法往往无法达到最优性能。除此之外，此方法是针对某一场景的优化问题进行建模，当系统发生变化时，该模型将不再适用，需要重新求解优化问题，此方法使得跨模块/跨层的优化方法的复杂度很高。

发明内容

本申请提供一种智能体决策的方法和装置，能够提高智能体决策的性能。

第一方面，提供一种智能体决策的方法，所述方法应用于通信系统中，所述通信系统包括至少两个功能模块，所述至少两个功能模块包括第一功能模块和第二功能模块，所述第一功能模块配置有第一智能体，所述第二功能模块配置有第二智能体，该方法包括：所述第一智能体获取所述第二智能体的相关信息；所述第一智能体根据所述第二智能体的相关信息进行所述第一功能模块的决策。

基于上述技术方案，在通信系统的不同模块可以按需部署不同的智能体，所述智能体可以通过获取除本功能模块之外的其他功能模块中配置的智能体的相关信息，在做决策时考虑本模块与其他模块之间协调性，从而做出最优的决策；除此之外，所述智能体通过与环境进行交互，可以自适应于环境的变化，则当环境状态发生变化时，无需重新建立优化求解的模型。因此，本申请实施例提供的技术方案，能够提高智能体决策的性能。

在一种可能的实现方式中，所述第二智能体的相关信息包括以下至少一种信息：所述第二智能体对所述第一智能体的历史决策做出的第一评价参数、所述第二智能体的历史决策、所述第二智能体的神经网络参数、所述第二智能体的神经网络参数的更新梯度。

在一种可能的实现方式中，所述第一智能体根据所述第二智能体的相关信息进行所述第一功能模块的决策，包括：所述第一智能体根据所述第一功能模块的相关信息和/或所述第二功能模块的相关信息，以及所述第二智能体的相关信息进行所述第一功能模块的决策。

在一种可能的实现方式中，所述第一功能模块的相关信息包括所述第一功能模块的当前环境状态信息、所述第一功能模块的预测环境状态信息、所述第一功能模块对所述第一智能体的历史决策做出的第二评价参数中的至少一种信息；所述第二功能模块的相关信息包括所述第二功能模块的当前环境状态信息和/或所述第二功能模块的预测环境状态信息。

在一种可能的实现方式中，所述第一功能模块包括无线链路控制RLC层功能模块、媒体访问控制MAC层功能模块和物理PHY层功能模块中的一个功能模块；所述第二功能模块包括所述RLC层功能模块、所述MAC层功能模块和所述PHY层功能模块中除所述第一功能模块以外的至少一个功能模块。

在一种可能的实现方式中，所述第一功能模块包括通信功能模块和信源编码功能模块中的一个功能模块；所述第二功能模块包括通信功能模块和信源编码功能模块中除所述第一功能模块以外的功能模块。

第二方面，提供了一种通信装置，包括：第一功能模块；第二功能模块；配置在所述第一功能模块中的第一智能体；配置在所述第二功能模块中的第二智能体；所述第一智能体包括：通信接口，用于获取所述第二智能体的相关信息，处理单元，用于根据所述第二智能体的相关信息进行所述第一功能模块的决策。

在一种可能的实现方式中，所述处理单元具体用于：根据所述第一功能模块的相关信息和/或所述第二功能模块的相关信息，以及所述第二智能体的相关信息进行所述第一功能模块的决策。

第三方面，提供了一种网络设备，包括：存储器，用于存储可执行指令；处理器，用于调用并运行所述存储器中的所述可执行指令，以执行第一方面或第一方面任意可能的实现方式中的方法。

第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有程序指令，当所述程序指令由处理器运行时，实现第一方面或第一方面任意可能的实现方式中的方法。

第五方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在计算机上运行时，实现第一方面或第一方面任意可能的实现方式中的方法。

附图说明

图1为强化学习训练方法的示意图；

图2为多层感知机的示意图；

图3为损失函数优化示意图；

图4为梯度反向传播示意图；

图5为本申请实施例的智能体决策的方法的示意性流程图；

图6为本申请实施例的智能体决策的方法的一种实施方式的示意性框图；

图7为本申请实施例的智能体决策的方法的另一种实施方式的示意性框图；

图8为本申请实施例的智能体决策的方法的另一种实施方式的示意性框图；

图9为本申请实施例的智能体决策的方法的另一种实施方式的示意性框图；

图10为本申请实施例的一种通信装置的示意性框图；

图11为本申请实施例的一种网络设备的示意性框图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

本申请实施例可以应用于各种通信系统，例如窄带物联网系统(Narrow Band-Internet of Things，NB-IoT)、全球移动通信系统(Global System for MobileCommunications，GSM)、增强型数据速率GSM演进系统(Enhanced Data rate for GSMEvolution，EDGE)、宽带码分多址系统(Wideband Code Division Multiple Access，WCDMA)、码分多址2000系统(Code Division Multiple Access，CDMA2000)、时分同步码分多址系统(Time Division-Synchronization Code Division Multiple Access，TD-SCDMA)，长期演进系统(Long Term Evolution，LTE)、卫星通信、第五代(5th generation，5G)系统或者将来出现的新的通信系统等。

本申请实施例中所涉及到的终端设备可以包括各种具有无线通信功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备。终端可以是移动台(Mobile Station，MS)、用户单元(subscriber unit)、用户设备(userequipment,UE)、蜂窝电话(cellular phone)、智能电话(smart phone)、无线数据卡、个人数字助理(Personal Digital Assistant，PDA)电脑、平板型电脑、无线调制解调器(modem)、手持设备(handset)、膝上型电脑(laptop computer)、机器类型通信(MachineType Communication，MTC)终端等。

现有的通信系统往往被分割成多个功能模块，例如，在传输音视频等多媒体业务的多媒体通信系统中，服务音视频编解码功能的模块和负责通信的模块是相对独立的两个模块。系统设计人员只需要针对各模块的功能，对各模块进行逐一设计和优化即可。例如针对音视频编解码模块，只需设计如何编解码音视频流，即使用何种标准、帧率、码率、分辨率等；而针对通信模块，只需设计通信方式，即使用何种标准、通信资源分配、信道编码和调制方式等。

同理，通信协议也往往被分成多层，每层各司其职，完成相应任务。例如经典的TCP/IP四层模型：应用层负责程序间的数据沟通，提供文件传输、邮件、远程登录等业务协议；传输层负责提供端到端的可靠或非可靠的通信；网络层负责地址管理和路由选择；数据链路层负责处理数据在物理媒介上的传输。

分模块或分层的系统设计或协议设计，虽然简化了实现复杂度，让各模块/各层可以聚焦在特定的任务上，便于人们对其进行优化，但是，割裂了模块之间或层之间的相互作用关系，因此往往只能得到局部的最优解决方案。

目前，提出了一种跨模块/跨层的优化方法，将多个相互关联的模块或层联合在一起做考虑，建立统一的考虑多模块/多层参数的优化问题，通过设定一个优化目标，用数学公式或数学模型的方式表达出来，并求解该优化问题，得到在考虑了各模块/各层相互制约关系前提下的解决方案。此方法的建模过程往往比较复杂，很多时候是需要简化的，导致整个问题和实际问题不是完全一致，只能提供启发式的解法，而启发式的算法往往无法达到最优性能。除此之外，此方法是针对某一场景的优化问题进行建模，当系统发生变化时，该模型将不再适用，需要重新求解优化问题，此方法使得跨模块/跨层的优化方法的复杂度很高。

为此，本申请实施例提出了一种智能体决策的方法，可以提高智能体决策的性能。

一般地，在人工智能领域中，智能体(agent)指能自主活动和自主决策的软件或者硬件实体，而环境是指智能体以外的外部条件。对于通信系统而言，智能体就是制定决策的软件或硬件实体，而环境就是除了该软件或硬件实体外其他外部条件的总称。

为方便理解本申请提出的该方法，首先对决策模型、强化学习和神经网络进行介绍。

所述决策模型可以理解为分析决策问题的模型，对无线资源的调度就是属于一种决策问题，可以构建其决策模型。

马尔可夫决策过程(Markov decision processes,MDP)是一种分析决策问题的数学模型，其假设环境具有马尔可夫性质，即环境的未来状态的条件概率分布仅依赖于当前状态，决策者通过周期性地观察环境的状态，根据当前环境的状态做出决策，与环境交互后得到新的状态及奖励。

无线资源调度在蜂窝网中起着至关重要的作用，其本质就是根据当前各个用户的信道质量、服务的质量(quality of service,QoS)要求等对可用的无线频谱等资源进行分配。本申请可以将无线资源调度的过程建立成一个MDP过程，采用人工智能(artificialintelligence，AI)技术中的强化学习解决，并提出一种智能体决策的方法。

强化学习是机器学习中的一个领域，可以用于求解马尔科夫决策过程。强化学习强调智能体(Agent)通过和环境的交互过程，获得最大化的预期利益，学习得到最优的行为方式。智能体通过对环境的观察，得到当前状态，并按照一定的规则(policy)决策一个动作(action)反馈给环境，环境会将该动作实行后得到的奖励或惩罚反馈给智能体。通过多次的迭代，使智能体学会根据环境状态作出最优决策。

图1是一种强化学习训练方法的示意图。智能体110包括决策策略，所述决策策略可以是由公式表征的算法，也可以是神经网络，如图1所示。强化学习中智能体的训练步骤如下：

首先，初始化智能体110的决策策略，该初始化是指对神经网络中参数的初始化；

步骤二，智能体110获取环境状态130；

步骤三，智能体110根据输入的环境状态130，使用决策策略π，获得决策动作140，并将该决策动作140告知环境120；

步骤四，环境120执行该决策动作140，所述环境状态130转移到下一环境状态150，同时得到决策策略π对应的奖励160；

步骤五，智能体110获取决策策略π对应的奖励160和下一环境状态150，并根据输入的环境状态130、决策动作140、决策策略π对应的奖励160以及下一环境状态150，对决策策略进行更新，更新的目标是奖励最大化或惩罚最小化；

步骤六，如未满足训练终止条件，则返回步骤三，如满足训练终止条件，则终止训练。

应理解，上述训练步骤，可以在线进行(online)，也可以离线进行(offline)。如果离线进行，则将每轮迭代中的数据(例如，输入的环境状态130、决策动作140、决策策略对应的奖励160以及下一环境状态150)放入经验缓存，用于训练。

所述训练终止条件一般是指智能体训练时第五步骤中的奖励大于某一预设阈值，或惩罚小于某一预设阈值。也可以预先指定训练的迭代次数，即到达预设迭代次数后，终止训练。还可以根据系统的性能来控制是否终止训练，如系统的性能指标(例如通信系统中的吞吐量、丢包率、时延、公平性等)达到预设阈值。

完成训练的智能体，进入推理阶段执行如下步骤：

步骤一，智能体获取环境状态；

步骤二，智能体根据输入的环境状态，使用决策策略，获得决策动作，并将该决策动作告知环境；

步骤三，环境执行该决策动作，环境状态转移到下一环境状态；

步骤四，返回步骤一。

由上述可知，训练好的智能体不再关心决策对应的奖励，只需针对环境状态，按自身的策略做出决策即可。

实际使用时，上述智能体的训练步骤和推理步骤交替进行，即训练一段时间，到达训练终止条件后开始推理，当推理一段时间后，系统环境发生变化，使得原有训练好的策略可能不再适用，则需要重新开始训练过程。

将强化学习和深度学习相结合，就得到了深度强化学习。深度强化学习仍然符合强化学习中智能体和环境交互的框架。不同的是，智能体中，使用深度神经网络进行决策。通过深度强化学习进行智能体的训练方法也适用于本申请实施例所保护的技术方案。

全连接神经网络又称为多层感知机(Multilayer Perceptron，MLP)，一个MLP包含一个输入层(左侧)，一个输出层(右侧)，及多个隐藏层(中间)，每层包含数个节点，称为神经元。其中相邻两层的神经元间两两相连，如图2所示。

考虑相邻两层的神经元，下一层的神经元的输出h为所有与之相连的上一层神经元x的加权和并经过激活函数。用矩阵可以表示为

h＝f(wx+b)

其中w为权重矩阵，b为偏置向量，f为激活函数。则神经网络的输出可以递归表达为

y＝f_n(w_nf_n-1(…)+b_n)

简单的说，可以将神经网络理解为一个从输入数据集合到输出数据集合的映射关系。而通常神经网络都是随机初始化的，用已有数据得到这个映射关系的过程被称为神经网络的训练。

训练的具体方式为采用损失函数(loss function)对神经网络的输出结果进行评价，并将误差反向传播，通过梯度下降的方法即能迭代优化w和b，直到损失函数达到最小值，如图3所示。

梯度下降的过程可以表示为

其中，θ为待优化参数(如w和b)，L为损失函数，η为学习率，控制梯度下降的步长。

反向传播的过程利用到求偏导的链式法则，即前一层参数的梯度可以由后一层参数的梯度递推计算得到，如图4所示，公式可以表达为

其中，w_ij为节点j连接节点i的权重，s_i为节点i上的输入加权和。

通过强化学习训练的方法，智能体可以通过和环境的交互(即获取环境状态，做出决策，获取决策奖励和下一次环境状态)，不断完善自身的参数配置，使得其所做出的决策越来越好。同时，由于这种环境交互以及迭代式的自我完善机制，智能体可以跟踪环境的变化。而传统的决策算法中，给出一个决策后，不能获得环境给出的决策奖励，因此，不能通过与环境的交互自我完善；除此之外，当环境状态发生变化时，当前的决策算法将不再适用，需要重新建立数学模型。

本申请实施例提出的智能体决策的方法，是通过强化学习对智能体进行训练，再利用训练好的智能体进行决策。

图5示出了本申请实施例的智能体决策的方法的示意图。该智能体决策的方法500，应用于通信系统中，所述通信系统包括至少两个功能模块，所述至少两个功能模块包括第一功能模块和第二功能模块，所述第一功能模块配置有第一智能体，所述第二功能模块配置有第二智能体，所述方法500包括：

501，所述第一智能体获取所述第二智能体的相关信息。

具体而言，所述第二智能体的相关信息包括以下至少一种信息：所述第二智能体对所述第一智能体的历史决策做出的第一评价参数、所述第二智能体的历史决策、所述第二智能体的神经网络参数、所述第二智能体的神经网络参数的更新梯度。

其中，所述第二智能体对所述第一智能体的历史决策做出的第一评价参数可以依据所述第二智能体所在功能模块的需求和所述第一智能体所在功能模块的能力供给之间的匹配程度来确定。

所述第二智能体的历史决策可以是所述第二智能体的上一决策，也可以是所有的所述第二智能体已做出的决策，本申请实施例对此不做任何限定。

通过所述第二智能体的神经网络参数或所述第二智能体的神经网络参数的更新梯度，可以推算出所述第二智能体的历史决策信息。

502，所述第一智能体根据所述第二智能体的相关信息进行所述第一功能模块的决策。

可选的，在一种实现方式中，所述第一智能体根据所述第一功能模块的相关信息和/或所述第二功能模块的相关信息，以及所述第二智能体的相关信息进行所述第一功能模块的决策。

具体而言，所述第一功能模块的相关信息包括所述第一功能模块的当前环境状态信息、所述第一功能模块的预测环境状态信息、所述第一功能模块对所述第一智能体的历史决策做出的第二评价参数中的至少一种信息；所述第二功能模块的相关信息包括所述第二功能模块的当前环境状态信息和/或所述第二功能模块的预测环境状态信息。其中，所述第二评价参数可以为奖励，也可以为惩罚。

其中，所述第一功能模块的预测环境状态信息可以是所述第一智能体根据所述第一功能模块中的当前环境状态信息或历史环境状态信息确定的；所述第二功能模块的预测环境状态信息可以是所述第一智能体根据所述第二功能模块中的当前环境状态信息或历史环境状态信息确定的，也可以是所述第二智能体根据所述第二功能模块中的当前环境状态信息或历史环境状态信息确定的，若所述第二功能模块的预测环境状态信息是所述第二智能体确定的，则在所述第一智能体与所述第二智能体进行交互时，将所述第二功能模块的预测环境状态信息传送至所述第一智能体。

换言之，所述第一智能体进行所述第一功能模块的决策时，所述第一智能体中神经网络除了输入所述第二智能体的相关信息外，不仅可以输入所述第一功能模块的当前环境状态信息和/或所述第一功能模块的预测环境状态信息，还可以输入所述第二功能模块的当前环境状态信息和/或所述第二功能模块的预测环境状态信息。本申请实施例提出的智能体决策的方法中，智能体的训练过程和推理过程交替进行，在强化学习的训练过程中，决策动作执行后可以得到相应的奖励信息或惩罚信息。因此，所述第一智能体还可以输入所述第一功能模块对所述第一智能体的历史决策做出第二评价参数信息。

所述第一功能模块和所述第二功能模块为相互关联的功能模块。所述第一功能模块和所述第二功能模块可以为该通信系统中同一通信设备的不同功能模块，也可以为该通信系统中不同通信设备的不同功能模块。例如，所述第一功能模块和所述第二功能模块都位于第一设备中；或者，所述第一功能模块位于第一设备中，所述第二功能模块位于第二设备中。应理解，所述第一设备和所述第二设备可以为功能相同的设备，也可以为功能不同的设备。

所述第二功能模块的数量可以为一个或两个，甚至多个。若所述第二功能模块的数量为两个，所述第一智能体在决策过程中可以获取所述两个第二功能模块的相关信息。

本申请实施例提供的技术方案中，在通信系统的不同模块可以按需部署不同的智能体，所述智能体可以通过获取除本功能模块之外的其他功能模块中配置的智能体的相关信息，在做决策时考虑本模块与其他模块之间协调性，从而做出最优的决策；除此之外，所述智能体通过与环境进行交互，可以自适应于环境的变化，则当环境状态发生变化时，无需重新建立优化求解的模型。因此，本申请实施例提供的技术方案，可以提高智能体决策的性能。

可选的，在某一实施例中，所述第一功能模块可以是无线链路控制(Radio LinkControl，RLC)层功能模块、媒体访问控制(Media Access Control，MAC)层功能模块和物理(Physical，PHY)层功能模块中的一个功能模块；所述第二功能模块可以是所述RLC层功能模块、所述MAC层功能模块和所述PHY层功能模块中除所述第一功能模块以外的至少一个功能模块。例如，若所述第一功能模块为媒体访问控制MAC层功能模块，所述第二功能模块可以为无线链路控制RLC层功能模块，所述第二功能模块也可以为物理PHY层功能模块。

可选的，在另一实施例中，所述第一功能模块可以是通信功能模块和信源编码功能模块中的一个功能模块；所述第二功能模块可以是通信功能模块和信源编码功能模块中除所述第一功能模块以外的功能模块。

为了更具体地对本申请实施例提出的智能体决策的方法进行说明，通过具体的实施方式进行详细的说明。

实施方式一：

如图6所示，在蜂窝网络中，MAC层根据从RLC层获得的数据包队列中的缓存信息(待发送数据包大小，等待时间等)，以及信道条件，历史调度情况等，决定无线传输资源的调度方案；RLC层根据业务的QoS需求和下层传输情况对数据包队列进行维护(丢包，复制重传等)。

可以在RLC层和MAC层各部署一个智能体，其中RLC层的智能体1输入的环境状态1包括：业务的QoS需求，数据包队列状态(队列长度，等待时间，到达率等)；MAC层的智能体2输入的环境状态2包括：MAC层历史调度情况统计(历史平均吞吐、被调度次数等)，以及PHY层输入的环境状态3：无线信道质量(一般以估计吞吐的形式进行输入)。

此外，两层部署的两个智能体之间还会有信息交互，交互的信息可以是神经网络的输出(智能体的历史决策)、神经网络的参数，和/或神经网络训练过程中神经网络参数的更新梯度，交互的信息还可以是对其他智能体决策好坏的评价参数。其中，所述神经网络的输出、神经网络的参数、神经网络训练过程中神经网络参数的更新梯度都是神经网络的相关参数，获取比较方便；本层智能体对其他层智能体决策好坏的评价参数可以依据本层的需求和其他层的能力供给之间的匹配程度来确定，例如，RLC层根据本层的环境状态1和系统时延、丢包率等性能指标要求，估算数据传输速率需求，而实际的数据传输速率由MAC层的决策确定，当MAC层提供数据传输速率与RLC层需求的速率相差较小时，则RLC层智能体对MAC层智能体的评价较高，反之则较低。同理，MAC层可以根据本层的环境状态2和PHY层的环境状态3估算出满足系统性能指标要求的数据包流量需求，实际的数据包流量取决于RLC层数据包缓存的维护情况，当实际的数据包流量和系统性能指标要求的数据包流量相差较大时，MAC层智能体对RLC层智能体的评价较低，反之较高。

在智能体的训练和推理过程中，需要明确环境状态、决策动作、奖励等三组参数。其中，奖励一般使用系统整体的性能指标，例如通信系统中，奖励可以是吞吐、公平性、丢包率、时延等系统性能指标的函数(例如加权和)。而环境状态和决策动作对于不同智能体而言则不同，具体而言：

RLC层的智能体1，其神经网络输入的环境状态包括：环境状态1，环境状态2，智能体2发来的交互信息；神经网络输出的决策1包括：数据包丢弃决策、数据包复制重传决策数据包队列相关决策等。

MAC层的智能体2，其神经网络输入的环境状态包括：环境状态1，环境状态2，环境状态3，智能体1发来的交互信息；输出的决策2包括：无线传输资源的调度方案、调制编码方案等。

需要注意的是，环境状态2输入智能体1和环境状态1输入智能体2可能只是部分状态的输入。例如，环境状态1中的业务QoS需求不被输入到智能体2中。

实施方式二：

如图7所示，在多媒体通信系统中，例如传输音视频流业务的蜂窝网络中，音视频编码器模块需要根据接收端需求、自身软硬件能力以及通信链路质量的因素确定音视频编码时采用的码率、帧率、分辨率等参数；通信模块则需要根据待传数据情况(大小，QoS需求等)、无线信道质量等因素确定无线资源的使用、信道编码和调制方式等方案。音视频编码模块的决策影响通信模块收到的待传数据情况，反之，通信模块的决策也影响音视频编码模块所能得到的通信链路质量信息。可以在两个模块中各部署一个智能体，通过多智能体强化学习框架，进行模块间交互和协调，并自适应环境变化。

可以在音视频编码模块和通信模块中分别部署一个智能体，其中：音视频编码模块中的智能体1的输入环境状态1包括：接收端请求、自身软硬件能力、数据包缓存情况等；通信模块中的智能体2的输入环境状态2包括：无线信道质量等。

此外，两层部署的两个智能体之间还会有信息交互，交互的信息可以包括神经网络的输出、神经网络的参数，和/或神经网络训练中神经网络参数的更新梯度，交互的信息还可以是对其他智能体决策好坏的评价参数。其中，所述神经网络的输出、神经网络的参数，和/或神经网络训练中神经网络参数的更新梯度都是神经网络的相关参数，可以方便的获取；本层智能体对其他层智能体决策好坏的评价参数可以依据本层的需求和其他层的能力供给之间的匹配程度来确定，例如智能体1根据本模块环境状态1和系统性能指标要求，估算通信能力(数据传输速率，时延，丢包率等)需求，当通信模块提供的能力与该估算需求差距较大时，智能体1对智能体2的评价较低，反之较高。同理，智能体2根据本模块环境状态2和系统性能指标要求，估算数据流量需求，当音视频编码模块提供的数据流量与该估算差距较大时，智能体2对智能体1的评价较低，反之较高。

和实施方式一类似，在智能体的训练和推理过程中，需要明确环境状态、决策动作、奖励等三组参数。其中，奖励一般使用系统整体的性能指标，例如多媒体通信系统中，奖励可以是用户(Quality of Experience,QoE)参数相关的函数。而环境状态和决策动作对于不同智能体而言则不同，具体而言：

音视频编码模块的智能体1，其神经网络输入的环境状态包括：环境状态1，环境状态2，智能体2发来的交互信息；神经网络输出的决策1包括：音视频编码采用的编码策略、码率、帧率、分辨率等。

通信模块的智能体2，其神经网络输入的环境状态包括：环境状态1，环境状态2，智能体1发来的交互信息；输出的决策2包括：无线传输资源的调度策略、调制编码方案等。

同样，各模块中的环境状态可以部分或全部的输入给另外模块中的智能体。

实施方式三：

如图8所示，实施方式一中的基于多智能体强化学习(multi-agentreinforcement learning，MARL)的决策方法，还可以在RLC层和MAC层各增加一个预测模块，用于基于环境状态进行预测。其中：RLC层的预测模块1可以基于环境状态1中的数据包队列状态预测未来的数据包队列状态，可以基于环境状态2中的MAC层历史调度情况统计，预测未来的MAC层调度方案。同样，MAC层的预测模块2也可以做类似预测，同时，预测模块2还可以根据PHY层的无线信道质量信息预测未来的无线信道质量信息。各预测模块将预测结果输入到各层的智能体中，帮助其做出决策。

上述预测模块1和预测模块2，利用流量数据和无线信道在时间上的相关性，利用历史的状态数据对未来状态进行预测。其中如图8所示，预测模块1根据历史系统状态1和历史系统状态2预测未来的数据包队列状态和调度方案；预测模块2根据历史系统状态1，历史系统状态2，历史系统状态3预测未来的数据包队列状态、调度决策和无线信道状态。由于智能体的收益包括长期的性能统计参数(如通信系统中的公平性、丢包率等)，因此对未来系统状态的预测可以有助于智能体决策时加入对未来的考虑，获得长期性能上提升。

应理解，所述预测模块的预测功能可以是通过智能体中的神经网络实现的，即所述预测模块可以是智能体包括的神经网络的一部分，换言之，所述预测模块可以属于智能体的一部分。所述预测模块也可以是独立于智能体的模块。

采用预测模块时，智能体中神经网络的输入参数中将增加预测数据。因此，输入维度相较相同场景无预测模块的情况将增大。

实施方式四：

如图9所示，实施方式二中的跨模块联合决策方案中，还可以给各模块增加一个预测模块。其中：音视频编码模块中的预测模块1可以根据环境状态1中的数据包缓存情况，预测数据包队列的未来的状态；可以根据环境状态2中历史无线信道质量预测未来的无线信道质量。同理，通信模块中的预测模块2也可以做相同的预测。各预测模块将预测结果输入到各自模块中的智能体中，帮助智能体做出更好的决策。

上述预测模块1和预测模块2，利用流量数据和无线信道在时间上的相关性，利用历史的状态数据对未来状态进行预测。其中如图9所示，预测模块1根据历史系统状态1和历史系统状态2预测未来的数据包队列状态和无线信道状态；预测模块1根据历史系统状态1，历史系统状态2预测未来的数据包队列状态和无线信道状态。由于智能体的收益包括长期的性能统计参数(如多媒体通信系统中的长期QoE评价)，因此对未来系统状态的预测可以有助于智能体决策时加入对未来的考虑。

本申请实施例提供了一种通信装置1000，图10示出了本申请实施例的一种通信装置1000的示意性框图。该通信装置1000包括：

第一功能模块1010；

第二功能模块1020；

配置在所述第一功能模块中的第一智能体1030；

配置在所述第二功能模块中的第二智能体1040；

所述第一智能体1030包括：

通信接口1031，用于获取所述第二智能体1040的相关信息，

处理单元1032，用于根据所述第二智能体1040的相关信息进行所述第一功能模块1010的决策。

可选的，所述第二智能体的相关信息包括以下至少一种信息：所述第二智能体对所述第一智能体的历史决策做出的第一评价参数、所述第二智能体的历史决策、所述第二智能体的神经网络参数、所述第二智能体的神经网络参数的更新梯度。

可选的，所述处理单元1032具体用于：根据所述第一功能模块的相关信息和/或所述第二功能模块的相关信息，以及所述第二智能体的相关信息进行所述第一功能模块的决策。

可选的，所述第一功能模块的相关信息包括所述第一功能模块的当前环境状态信息、所述第一功能模块的预测环境状态信息、所述第一功能模块对所述第一智能体的历史决策做出的第二评价参数中的至少一种信息；所述第二功能模块的相关信息包括所述第二功能模块的当前环境状态信息和/或所述第二功能模块的预测环境状态信息。

可选的，某一实施例中，所述第一功能模块包括无线链路控制RLC层功能模块、媒体访问控制MAC层功能模块和物理PHY层功能模块中的一个功能模块；所述第二功能模块包括所述RLC层功能模块、所述MAC层功能模块和所述PHY层功能模块中除所述第一功能模块以外的至少一个功能模块。

可选的，另一实施例中，所述第一功能模块包括通信功能模块和信源编码功能模块中的一个功能模块；所述第二功能模块包括通信功能模块和信源编码功能模块中除所述第一功能模块以外的功能模块。

本申请实施例提供了一种网络设备1100，图11示出了本申请实施例的一种网络设备的示意性框图。该网络设备1100包括：

存储器1110，用于存储可执行指令；

处理器1120，用于调用并运行所述存储器1110中的所述可执行指令，以实现本申请实施例中的方法。

上述的处理器可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法实施例的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。

上述的存储器可以是易失性存储器或非易失性存储器，或可包括易失性和非易失性存储器两者。其中，非易失性存储器可以是只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable ROM，PROM)、可擦除可编程只读存储器(Erasable PROM，EPROM)、电可擦除可编程只读存储器(Electrically EPROM，EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory，RAM)，其用作外部高速缓存。通过示例性但不是限制性说明，许多形式的RAM可用，例如静态随机存取存储器(Static RAM，SRAM)、动态随机存取存储器(Dynamic RAM，DRAM)、同步动态随机存取存储器(Synchronous DRAM，SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM，DDR SDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM，ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM，SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM，DRRAM)。

应理解，上述存储器可以集成于处理器中，或者，上述处理器和存储器也可以集成在同一芯片上，也可以分别处于不同的芯片上并通过接口耦合的方式连接。本申请实施例对此不做限定。

本申请实施例还提供一种计算机可读存储介质，其上存储有用于实现上述方法实施例中的方法的计算机指令。当该计算机程序被计算机执行时，使得该计算机可以实现上述方法实施例中的方法。

本申请实施例还提供一种包含指令的计算机程序产品，该指令被计算机执行时使得该计算机实现上述方法实施例中的方法。

另外，本申请中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系；本申请中术语“至少一个”，可以表示“一个”和“两个或两个以上”，例如，A、B和C中至少一个，可以表示：单独存在A，单独存在B，单独存在C、同时存在A和B，同时存在A和C，同时存在C和B，同时存在A和B和C，这七种情况。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

本领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种智能体决策的方法，其特征在于，应用于通信系统中，所述通信系统包括至少两个功能模块，所述至少两个功能模块包括第一功能模块和第二功能模块，所述第一功能模块配置有第一智能体，所述第二功能模块配置有第二智能体，所述方法包括：

所述第一智能体获取所述第二智能体的相关信息；

所述第一智能体根据所述第二智能体的相关信息进行所述第一功能模块的决策。

2.根据权利要求1所述的方法，其特征在于，所述第二智能体的相关信息包括以下至少一种信息：

所述第二智能体对所述第一智能体的历史决策做出的第一评价参数、所述第二智能体的历史决策、所述第二智能体的神经网络参数、所述第二智能体的神经网络参数的更新梯度。

3.根据权利要求1或2所述的方法，其特征在于，所述第一智能体根据所述第二智能体的相关信息进行所述第一功能模块的决策，包括：

所述第一智能体根据所述第一功能模块的相关信息和/或所述第二功能模块的相关信息，以及所述第二智能体的相关信息进行所述第一功能模块的决策。

4.根据权利要求3所述的方法，其特征在于，

所述第一功能模块的相关信息包括所述第一功能模块的当前环境状态信息、所述第一功能模块的预测环境状态信息、所述第一功能模块对所述第一智能体的历史决策做出的第二评价参数中的至少一种信息；

所述第二功能模块的相关信息包括所述第二功能模块的当前环境状态信息和/或所述第二功能模块的预测环境状态信息。

5.根据权利1-4中任一项所述的方法，其特征在于，

所述第一功能模块包括无线链路控制RLC层功能模块、媒体访问控制MAC层功能模块和物理PHY层功能模块中的一个功能模块；

所述第二功能模块包括所述RLC层功能模块、所述MAC层功能模块和所述PHY层功能模块中除所述第一功能模块以外的至少一个功能模块。

6.根据权利1-4中任一项所述的方法，其特征在于，所述第一功能模块包括通信功能模块和信源编码功能模块中的一个功能模块；

所述第二功能模块包括通信功能模块和信源编码功能模块中除所述第一功能模块以外的功能模块。

7.一种通信装置，其特征在于，包括：

第一功能模块；

第二功能模块；

配置在所述第一功能模块中的第一智能体；

配置在所述第二功能模块中的第二智能体；

所述第一智能体包括：

通信接口，用于获取所述第二智能体的相关信息，

处理单元，用于根据所述第二智能体的相关信息进行所述第一功能模块的决策。

8.根据权利要求7所述的装置，其特征在于，所述第二智能体的相关信息包括以下至少一种信息：

9.根据权利要求7或8所述的装置，其特征在于，所述处理单元具体用于：根据所述第一功能模块的相关信息和/或所述第二功能模块的相关信息，以及所述第二智能体的相关信息进行所述第一功能模块的决策。

10.根据权利要求9所述的装置，其特征在于，

11.根据权利要求7-10中任一项所述的装置，其特征在于，所述第一功能模块包括无线链路控制RLC层功能模块、媒体访问控制MAC层功能模块和物理PHY层功能模块中的一个功能模块；

12.根据权利要求7-10中任一项所述的装置，其特征在于，

所述第一功能模块包括通信功能模块和信源编码功能模块中的一个功能模块；

13.一种网络设备，其特征在于，包括：

存储器，用于存储可执行指令；

处理器，用于调用并运行所述存储器中的所述可执行指令，以执行权利要求1至7中任一项所述的方法。

14.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有程序指令，当所述程序指令由处理器运行时，实现权利要求1至7中任一项所述方法。

15.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机程序代码，当所述计算机程序代码在计算机上运行时，实现权利要求1至7中任一项所述方法。