CN113206786B - 训练智能体的方法和装置 - Google Patents

训练智能体的方法和装置 Download PDF

Info

Publication number
CN113206786B
CN113206786B CN202010077714.8A CN202010077714A CN113206786B CN 113206786 B CN113206786 B CN 113206786B CN 202010077714 A CN202010077714 A CN 202010077714A CN 113206786 B CN113206786 B CN 113206786B
Authority
CN
China
Prior art keywords
agent
information
neighborhood
target
generating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010077714.8A
Other languages
English (en)
Other versions
CN113206786A (zh
Inventor
毛航宇
刘武龙
郝建业
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202010077714.8A priority Critical patent/CN113206786B/zh
Priority to PCT/CN2020/119396 priority patent/WO2021151309A1/zh
Publication of CN113206786A publication Critical patent/CN113206786A/zh
Priority to US17/877,063 priority patent/US20220366266A1/en
Application granted granted Critical
Publication of CN113206786B publication Critical patent/CN113206786B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/14Routing performance; Theoretical aspects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/092Reinforcement learning
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • H04L45/06Deflection routing, e.g. hot-potato routing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • H04L45/08Learning-based routing, e.g. using neural networks or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/24Multipath
    • H04L45/245Link aggregation, e.g. trunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Pure & Applied Mathematics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Medical Informatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Robotics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Cosmetics (AREA)
  • Computer And Data Communications (AREA)

Abstract

本申请提供了一种训练智能体的方法,包括:获取第一智能体的环境信息和第二智能体的环境信息;根据所述第一智能体的环境信息和所述第二智能体的环境信息生成第一信息;利用所述第一信息训练所述第一智能体,使得所述第一智能体输出个体认知信息和邻域认知信息,其中,所述第一智能体的邻域认知信息与所述第二智能体的邻域认知信息具有一致性。由于目标智能体的邻域认知信息与邻域智能体的邻域认知信息相同或相近,因此,基于目标智能体的邻域认知信息训练得到的目标智能体提高了目标智能体对邻域环境的正确认知程度,最终得到的目标智能体生成的动作能够提高多个智能体之间的协作效果。

Description

训练智能体的方法和装置
技术领域
本申请涉及人工智能领域,具体涉及一种训练智能体的方法和装置。
背景技术
多智能体(agent)协作是人工智能领域的一个应用场景。例如,在包含多个路由器的通信网络中,每个路由器都可以看作一个智能体,每个路由器有自己的流量调度策略,多个路由器的流量调度策略需要彼此协调,以便于用较少的资源完成流量调度任务。
一种解决上述问题的方法是多智能体强化学习,该方法将特定任务的目标描述成奖励函数,通过智能体直接与环境和其它智能体进行交互,自动学习能够获得最大长期累积奖励的策略,进而协调多个智能体解决特定任务。
当前,多智能体强化学习方法通常采用全局协调机制。当智能体的数量较少时,全局协调机制的效果尚可接受;当智能体的数量较多时,智能体之间的交互关系极其复杂,全局协调机制的效果难以满足需求。如何协调多智能体的策略是当前需要解决的问题。
发明内容
本申请提供了一种训练智能体的方法和装置,能够取得较好的多智能体协作效果。
第一方面,提供了一种训练智能体的方法,包括:获取第一智能体的环境信息和第二智能体的环境信息;根据所述第一智能体的环境信息和所述第二智能体的环境信息生成第一信息;利用所述第一信息训练所述第一智能体,使得所述第一智能体输出个体认知信息和邻域认知信息,其中,所述第一智能体的邻域认知信息与所述第二智能体的邻域认知信息具有一致性。
由于第一智能体的邻域认知信息与第二智能体的邻域认知信息相同或相近,因此,基于第一智能体的邻域认知信息训练得到的第一智能体提高了第一智能体对邻域环境的正确认知程度,最终得到的第一智能体生成的动作能够提高多个智能体之间的协作效果。此外,个体认知信息反映了第一智能体的特定环境,基于个体认知信息和邻域认知信息训练第一智能体,能够使得第一智能体生成的动作能够满足第一智能体的个体需求以及邻域智能体的需求。
可选地,所述根据所述第一智能体的环境信息和所述第二智能体的环境信息生成第一信息,包括:
根据所述第一智能体的环境信息生成所述第一智能体的第二信息hi
根据所述第二智能体的环境信息生成所述第二智能体的第二信息hj
根据hi和hj生成所述第一信息。
可以通过深度神经网络将第一智能体的环境信息oi和第二智能体的环境信息oj转变为第二信息,第二信息包括oi和oj抽象化后的内容,比原始环境信息(oi和oj)包含更丰富的内容,有利于做决策的神经网络做出更加准确的决策。
可选地,所述根据hi和hj生成所述第一信息,包括:根据hi和第一矩阵的乘积确定第一结果;根据hj和第二矩阵的乘积确定第二结果;根据所述第一结果和所述第二结果生成所述第一信息。
可以对hi和第一矩阵做乘法运算,得到第一结果;对hj和第二矩阵做乘法运算,得到第二结果;然后根据第一结果和第二结果生成Hi,例如,对第一结果和第二结果做加权和运算或者拼接处理,得到Hi。由于hi和hj是两个规模较小的矩阵,该方法能够减小生成Hi所需的计算量。此外,第一矩阵和第二矩阵可以是相同的矩阵,也可以是不同的矩阵。当第一矩阵和第二矩阵相同时,hi和hj共享了同一套参数,有利于GCN学习到更多的内容。
可选地,所述方法还包括:获取所述第二智能体的邻域认知信息
Figure BDA0002379017330000021
根据所述第二智能体的邻域认知信息
Figure BDA0002379017330000022
训练生成所述第一智能体的邻域认知信息
Figure BDA0002379017330000023
的神经网络,以使
Figure BDA0002379017330000024
Figure BDA0002379017330000025
具有一致性。
Figure BDA0002379017330000026
Figure BDA0002379017330000027
具有一致性指的是
Figure BDA0002379017330000028
Figure BDA0002379017330000029
相同或相近。根据包含
Figure BDA00023790173300000210
Figure BDA00023790173300000211
的损失函数训练生成
Figure BDA00023790173300000212
的神经网络的目的在于:使得位于一个邻域内的多个智能体对于邻域环境的认知是相同或近似相同的。若各个智能体的邻域认知信息的预测值均与真实值相同或近似相同,则位于一个邻域内的多个智能体对于邻域环境的认知必然是相同或近似相同的。该方案能够提高第一智能体对邻域环境的正确认知程度。
可选地,所述根据所述第二智能体的邻域认知信息
Figure BDA00023790173300000213
训练生成所述第一智能体的邻域认知信息
Figure BDA00023790173300000214
的神经网络,包括:根据包含
Figure BDA00023790173300000215
Figure BDA00023790173300000216
的损失函数训练生成
Figure BDA00023790173300000217
的神经网络。
可选地,所述包含
Figure BDA00023790173300000218
Figure BDA00023790173300000219
的损失函数为
Figure BDA00023790173300000220
其中,KL表示KL散度,q表示概率分布,oi表示所述第一智能体的环境信息,wi表示基于oi生成
Figure BDA00023790173300000221
的神经网络的权重,oj表示所述第二智能体的环境信息,wj表示基于oj生成
Figure BDA00023790173300000222
的神经网络的权重。
可选地,所述利用所述第一信息训练所述第一智能体,使得所述第一智能体输出个体认知信息和邻域认知信息,包括:根据所述第一信息和变分自编码器确定所述第一智能体的邻域认知信息
Figure BDA00023790173300000223
可选地,所述根据所述第一信息和变分自编码器确定所述第一智能体的邻域认知信息
Figure BDA00023790173300000224
包括:根据所述第一信息确定所述第一智能体的邻域认知信息的分布均值
Figure BDA00023790173300000225
和分布方差
Figure BDA00023790173300000226
从一个单位高斯分布中采样得到一个随机值ε;根据
Figure BDA00023790173300000227
和ε确定
Figure BDA00023790173300000228
其中,
Figure BDA00023790173300000229
由于
Figure BDA00023790173300000230
是基于随机值ε生成的,因此,这种生成
Figure BDA00023790173300000231
的方法能够使得
Figure BDA00023790173300000232
的取值多样化,基于该
Figure BDA00023790173300000233
训练得到的神经网络具有更好的鲁棒性。
可选地,所述方法还包括:根据所述第一智能体的邻域认知信息
Figure BDA00023790173300000234
确定所述第一智能体的环境信息的估计值
Figure BDA00023790173300000235
根据包含oi
Figure BDA00023790173300000236
的损失函数训练生成
Figure BDA00023790173300000237
的神经网络。
基于包含oi
Figure BDA00023790173300000238
的损失函数训练生成
Figure BDA00023790173300000239
的神经网络,能够使得oi
Figure BDA00023790173300000240
相同或近似相同。当oi
Figure BDA00023790173300000241
相同或近似相同时,说明环境信息oi可以从邻域认知信息的预测值
Figure BDA00023790173300000242
中恢复,即,
Figure BDA00023790173300000243
是对邻域环境的正确认知。
可选地,所述包含oi
Figure BDA0002379017330000031
的损失函数为
Figure BDA0002379017330000032
其中,L2表示L2正则化,wi表示基于oi生成
Figure BDA0002379017330000033
的神经网络的权重。
可选地,所述方法还包括:根据所述第一智能体的个体认知信息和邻域认知信息确定所述第一智能体的Q值;根据所述第一智能体的Q值训练所述第一智能体。
Q值反映了第一智能体生成的动作的质量,基于Q值训练第一智能体能够提高第一智能体生成的动作的质量。
可选地,所述根据所述第一智能体的Q值训练所述第一智能体,包括:根据所述第一智能体的Q值和所述第二智能体的Q值确定多个智能体的Q值Qtotal;根据Qtotal训练所述第一智能体。
Qtotal能够更好的反映单个智能体承担的任务在多个智能体承担的任务中的比例,基于Qtotal产生的动作能够增强全局协调性。
第二方面,提供了一种基于智能体生成指令的方法,包括:获取第一智能体的目标环境信息和第二智能体的目标环境信息;根据所述第一智能体的目标环境信息和所述第二智能体的目标环境信息生成目标第一信息;根据所述目标第一信息输出所述第一智能体的目标个体认知信息和目标邻域认知信息,其中,所述第一智能体的目标邻域认知信息与所述第二智能体的目标邻域认知信息具有一致性;根据所述第一智能体的目标个体认知信息和目标邻域认知信息生成指令。
由于第一智能体的目标邻域认知信息与第二智能体的目标邻域认知信息相同或相近,因此,基于第一智能体的目标邻域认知信息生成的动作能够提高多个智能体之间的协作效果。此外,目标个体认知信息反映了第一智能体的特定环境,基于目标个体认知信息和目标邻域认知信息生成的动作能够满足第一智能体的个体需求以及邻域智能体的需求。
可选地,所述根据所述第一智能体的目标环境信息和所述第二智能体的目标环境信息生成目标第一信息,包括:根据所述第一智能体的目标环境信息生成所述第一智能体的目标第二信息;根据所述第二智能体的目标环境信息生成所述第二智能体的目标第二信息;根据所述第一智能体的目标第二信息和所述第二智能体的目标第二信息生成所述目标第一信息。
可以通过深度神经网络将第一智能体的目标环境信息和第二智能体的目标环境信息转变为目标第二信息,目标第二信息包括目标环境信息抽象化后的内容,比原始环境信息(目标环境信息)包含更丰富的内容,有利于做决策的神经网络做出更加准确的决策。
可选地,所述根据所述第一智能体的目标个体认知信息和目标邻域认知信息生成指令,包括:根据所述第一智能体的目标个体认知信息和所述目标智能体的目标邻域信息生成目标Q值;根据所述目标Q值生成所述指令。
Q值反映了第一智能体生成的动作的质量,基于Q值生成指令可以生成质量较高的指令。
可选地,所述第一智能体是通过以下方法训练得到的:获取第一智能体的训练环境信息和第二智能体的训练环境信息;根据所述第一智能体的训练环境信息和所述第二智能体的训练环境信息生成训练第一信息;利用所述训练第一信息训练所述第一智能体,使得所述第一智能体输出训练个体认知信息和训练邻域认知信息,其中,所述第一智能体的训练邻域认知信息与所述第二智能体的训练邻域认知信息具有一致性。
由于第一智能体的训练邻域认知信息与第二智能体的训练邻域认知信息相同或相近,因此,基于第一智能体的训练邻域认知信息训练得到的第一智能体提高了第一智能体对邻域环境的正确认知程度,最终得到的第一智能体生成的动作能够提高多个智能体之间的协作效果。此外,训练个体认知信息反映了第一智能体的特定环境,基于训练个体认知信息和训练邻域认知信息训练第一智能体,能够使得第一智能体生成的动作能够满足第一智能体的个体需求以及邻域智能体的需求。
可选地,所述根据所述第一智能体的训练环境信息和所述第二智能体的训练环境信息生成训练第一信息,包括:根据所述第一智能体的训练环境信息生成所述第一智能体的训练第二信息hi;根据所述第二智能体的训练环境信息生成所述第二智能体的训练第二信息hj;根据hi和hj生成所述训练第一信息。
可以通过深度神经网络将第一智能体的训练环境信息oi和第二智能体的训练环境信息oj转变为训练第二信息,训练第二信息包括oi和oj抽象化后的内容,比训练环境信息(oi和oj)包含更丰富的内容,有利于做决策的神经网络做出更加准确的决策。
可选地,所述根据hi和hj生成所述训练第一信息,包括:根据hi和第一矩阵的乘积确定第一结果;根据hj和第二矩阵的乘积确定第二结果;根据所述第一结果和所述第二结果生成所述训练第一信息。
可以对hi和第一矩阵做乘法运算,得到第一结果;对hj和第二矩阵做乘法运算,得到第二结果;然后根据第一结果和第二结果生成Hi,例如,对第一结果和第二结果做加权和运算或者拼接处理,得到Hi。由于hi和hj是两个规模较小的矩阵,该方法能够减小生成Hi所需的计算量。此外,第一矩阵和第二矩阵可以是相同的矩阵,也可以是不同的矩阵。当第一矩阵和第二矩阵相同时,hi和hj共享了同一套参数,有利于GCN学习到更多的内容。
可选地,所述方法还包括:获取所述第二智能体的训练邻域认知信息
Figure BDA0002379017330000041
根据所述第二智能体的训练邻域认知信息
Figure BDA0002379017330000042
训练生成所述第一智能体的训练邻域认知信息
Figure BDA0002379017330000043
的神经网络,以使
Figure BDA0002379017330000044
Figure BDA0002379017330000045
具有一致性。
Figure BDA0002379017330000046
Figure BDA0002379017330000047
具有一致性指的是
Figure BDA0002379017330000048
Figure BDA0002379017330000049
相同或相近。根据包含
Figure BDA00023790173300000410
Figure BDA00023790173300000411
的损失函数训练生成
Figure BDA00023790173300000412
的神经网络的目的在于:使得位于一个邻域内的多个智能体对于邻域环境的认知是相同或近似相同的。若各个智能体的邻域认知信息的预测值均与真实值相同或近似相同,则位于一个邻域内的多个智能体对于邻域环境的认知必然是相同或近似相同的。该方案能够提高第一智能体对邻域环境的正确认知程度。
可选地,所述根据所述第二智能体的训练邻域认知信息
Figure BDA00023790173300000413
训练生成所述第一智能体的训练邻域认知信息
Figure BDA00023790173300000414
的神经网络,包括:根据包含
Figure BDA00023790173300000415
Figure BDA00023790173300000416
的损失函数训练生成
Figure BDA00023790173300000417
的神经网络。
可选地,所述包含
Figure BDA00023790173300000418
Figure BDA00023790173300000419
的损失函数为
Figure BDA00023790173300000420
其中,KL表示KL散度,q表示概率分布,oi表示所述第一智能体的训练环境信息,wi表示基于oi生成
Figure BDA00023790173300000421
的神经网络的权重,oj表示所述第二智能体的训练环境信息,wj表示基于oj生成
Figure BDA00023790173300000422
的神经网络的权重。
可选地,所述利用所述训练第一信息训练所述第一智能体,使得所述第一智能体输出训练个体认知信息和训练邻域认知信息,包括:根据所述训练第一信息和变分自编码器确定所述第一智能体的训练邻域认知信息
Figure BDA00023790173300000423
可选地,所述根据所述训练第一信息和变分自编码器确定所述第一智能体的训练邻域认知信息
Figure BDA0002379017330000051
包括:根据所述训练第一信息确定所述第一智能体的训练邻域认知信息的分布均值
Figure BDA0002379017330000052
和分布方差
Figure BDA0002379017330000053
从一个单位高斯分布中采样得到一个随机值ε;根据
Figure BDA0002379017330000054
和ε确定
Figure BDA0002379017330000055
其中,
Figure BDA0002379017330000056
由于
Figure BDA0002379017330000057
是基于随机值ε生成的,因此,这种生成
Figure BDA0002379017330000058
的方法能够使得
Figure BDA0002379017330000059
的取值多样化,基于该
Figure BDA00023790173300000510
训练得到的神经网络具有更好的鲁棒性。
可选地,所述方法还包括:根据所述第一智能体的训练邻域认知信息
Figure BDA00023790173300000511
确定所述第一智能体的训练环境信息的估计值
Figure BDA00023790173300000512
根据包含oi
Figure BDA00023790173300000513
的损失函数训练生成
Figure BDA00023790173300000514
的神经网络。
基于包含oi
Figure BDA00023790173300000515
的损失函数训练生成
Figure BDA00023790173300000516
的神经网络,能够使得oi
Figure BDA00023790173300000517
相同或近似相同。当oi
Figure BDA00023790173300000518
相同或近似相同时,说明oi可以从
Figure BDA00023790173300000519
中恢复,即,
Figure BDA00023790173300000520
是对邻域环境的正确认知。
可选地,所述包含oi
Figure BDA00023790173300000521
的损失函数为
Figure BDA00023790173300000522
其中,L2表示L2正则化,wi表示基于oi生成
Figure BDA00023790173300000523
的神经网络的权重。
可选地,所述方法还包括:根据所述第一智能体的训练个体认知信息和训练邻域认知信息确定所述第一智能体的训练Q值;根据所述第一智能体的训练Q值训练所述第一智能体。
Q值反映了第一智能体生成的动作的质量,基于Q值训练第一智能体能够提高第一智能体生成的动作的质量。
可选地,所述根据所述第一智能体的训练Q值训练所述第一智能体,包括:根据所述第一智能体的训练Q值和所述第二智能体的训练Q值确定多个智能体的Q值Qtotal;根据Qtotal训练所述第一智能体。
Qtotal能够更好的反映单个智能体承担的任务在多个智能体承担的任务中的比例,基于Qtotal产生的动作能够增强全局协调性。
可选地,第一智能体的目标环境信息为通信设备的环境信息或者机械设备的环境信息。
基于第一方面中的方法训练得到的智能体对邻域环境的正确认知程度较高,并且,该智能体对邻域环境的认知与邻域内其它智能体对邻域环境的认知保持一致,因此,基于第一方面中的方法训练得到的智能体生成的流量调度指令能够提高多个通信设备之间的协作效果。基于第一方面中的方法训练得到的智能体生成的机械设备调度指令能够提高多个机械设备之间的协作效果。
第三方面,提供了一种训练智能体的装置,包括用于执行第一方面中任一种方法的单元。
第四方面,提供了一种基于智能体生成指令的装置,包括用于执行第二方面中任一种方法的单元。
第五方面,提供了一种训练智能体的设备,包括处理器和存储器,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得该设备执行第一方面中任一种方法。
第六方面,提供了一种基于智能体生成指令的设备,包括处理器和存储器,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得该设备执行第二方面中任一种方法。
第七方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码被训练智能体的装置运行时,使得该装置执行第一方面中任一种方法。
第八方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序代码,当所述计算机程序代码被基于智能体生成指令的装置运行时,使得该装置执行第二方面中任一种方法。
第九方面,提供了一种计算机可读介质,所述计算机可读介质存储有程序代码,所述程序代码包括用于执行第一方面中任一种方法的指令。
第十方面,提供了一种计算机可读介质,所述计算机可读介质存储有程序代码,所述程序代码包括用于执行第二方面中任一种方法的指令。
附图说明
图1是一种适用于本申请的多智能体系统的示意图;
图2是本申请提供的一种训练智能体的方法的示意图;
图3是本申请提供的一种通过变分自编码器生成邻域认知信息的方法的示意图;
图4是本申请提供的另一种训练智能体的方法的示意图;
图5是本申请提供的一种使用多个Q值训练智能体的方法的示意图;
图6是本申请提供的一种基于智能体生成动作的方法的示意图;
图7是本申请提供的一种训练智能体的装置的示意图;
图8是本申请提供的一种基于智能体生成动作的装置的示意图;
图9是本申请提供的一种电子设备的示意图。
具体实施方式
下面将结合附图,对本申请中的技术方案进行描述。
图1是适用于本申请的一种多智能体系统。
图1中,A~F表示6个路由器,每个路由器上部署有神经网络,因此,一个路由器等价于一个智能体,训练智能体即训练智能体上部署的神经网络。路由器之间的连线表示通信线路。A~D为4个边缘路由器,边缘路由器之间的流量称为聚合流,例如,从A到C的流量为一个聚合流,从C到A流量为另一个聚合流。
多个路由器之间的聚合流可以由NB(NB-1)确定,NB为该多个路由器中边缘路由器的数量。在图1所示的系统中,存在4个边缘路由器,因此,该系统共存在12个聚合流。
对于每个聚合流,多路径路由算法已经给出了可用的路径。路由器可以基于路由表项(S,D,Nexthop1,rate1%,Nexthop2,rate2%,Nexthop3,rate3%,…)确定可用的路径,其中,S表示起点路由器,D表示目标路由器,Nexthop1、Nexthop2和Nexthop3表示不同的下一跳,rate1%、rate2%和rate3%表示不同的下一跳对应的转发的流量占总转发流量的比例,各个rate的总和等于100%。
上述系统的一个特定任务为:确定A~F中任意一个路由器的流量转发策略。
一种完成上述特定任务的方法是将A~F中任意一个路由器看作一个智能体,通过训练该智能体,使得该智能体能够做出合适的流量转发策略。
下面,将详细描述本申请提供的训练智能体的方法。
图2示出了本申请提供的一种训练智能体的方法。方法200可以由智能体执行,也可以由专用的神经网络加速器、通用的处理器或其它装置执行,下文以智能体为执行主体对方法200进行描述是示例性的描述,不应被理解为对方法200的执行主体的限定。方法200包括:
S210,获取第一智能体的环境信息和第二智能体的环境信息。
第一智能体可以是A~F中的任意一个路由器,第二智能体可以是A~F中除第一智能体之外的任意一个智能体。以下,将第一智能体称为目标智能体,将第二智能体称为邻域智能体。目标智能体的邻域智能体可以是与目标智能体之间存在直接的通信连接的路由器。
例如,目标智能体为路由器E,与路由器E之间存在直接的通信连接的路由器为路由器A、路由器B和路由器F,因此,该3个路由器可以作为目标智能体的邻域智能体。
可选地,还可以根据智能体之间的距离远近确定目标智能体的邻域智能体。本申请对确定目标智能体的邻域智能体的方法不做限定。
为了便于描述,以智能体i表示目标智能体,以oi表示目标智能体的环境信息,以智能体j表示目标智能体的邻域智能体,以oj表示目标智能体的邻域智能体的环境信息。
oi或oj例如是路由器的缓存大小、缓存中的流量多少、不同统计周期内直连链路的负载、上个决策周期内直连链路的平均负载、路由器历史决策等信息。本申请对环境信息的具体内容不作限定。
获取oi和oj后,智能体i可以执行下列步骤。
S220,根据所述第一智能体的环境信息和所述第二智能体的环境信息生成第一信息。
智能体i可以通过深度神经网络将oi转变为第一信息,第一信息包括oi和oj抽象化后的内容,比原始环境信息(oi和oj)包含更丰富的内容,有利于做决策的神经网络做出更加准确的决策。
在本申请中,“第一”、“第二”等词语用于描述同一类对象中的不同个体,例如,“第一信息”和下文所述的“第二信息”表示两个不同的信息,除此之外不存在其它限定。
第一信息可以是智能体i生成的,也可以是智能体i从其它设备接收的。例如,智能体i感知到oi后,可以基于oi自己生成第一信息,也可以将oi发送给其它设备,待其它设备基于oi生成第一信息后,从其它设备接收第一信息。
智能体i获取第一信息后,可以执行下列步骤。
S230,利用所述第一信息训练所述第一智能体,使得所述第一智能体输出个体认知信息和邻域认知信息,其中,所述第一智能体的邻域认知信息与所述第二智能体的邻域认知信息具有一致性。
目标智能体的个体认知信息可以用Ai表示,目标智能体的邻域认知信息可以用
Figure BDA0002379017330000071
表示。Ai反映了智能体i对自身情况的认知,
Figure BDA0002379017330000072
反映了智能体i对周围的环境的认知。假设智能体i收集到的环境信息oi是完整的,则oi中与邻域智能体的环境信息相同或相近的信息为邻域认知信息(因为),oi中与邻域智能体的环境信息不同的信息则为个体认知信息;原因是:通常情况下,处于一个邻域内的智能体的环境相同或相近,而不同的智能体的个体自身情况不同。
智能体i可以将第一信息输入认知(cognition)神经网络得到Ai
Figure BDA0002379017330000073
下文会详细描述如何得到与
Figure BDA0002379017330000081
(邻域智能体的邻域认知信息)相同或相近的
Figure BDA0002379017330000082
可选地,还可以采用其它方法生成
Figure BDA0002379017330000083
图3示出了一种通过变分自编码器(variational autoencoder)生成
Figure BDA0002379017330000084
的方法。
首先,将oi输入变分自编码器的全连接网络,通过全连接网络将oi转变为hi,并进一步将hi和hj转变为第一信息Hi,其中,hj为邻域智能体的环境信息oj经过抽象化后的结果。
随后,根据第一信息确定智能体i的邻域认知信息的分布均值
Figure BDA0002379017330000085
和分布方差
Figure BDA0002379017330000086
接下来从一个单位高斯分布中采样得到一个随机值ε;然后根据
Figure BDA0002379017330000087
和ε确定
Figure BDA0002379017330000088
其中,
Figure BDA0002379017330000089
由于
Figure BDA00023790173300000810
是基于随机值ε生成的,因此,这种生成
Figure BDA00023790173300000811
的方法能够使得
Figure BDA00023790173300000812
的取值多样化,基于该
Figure BDA00023790173300000813
训练得到的神经网络具有更好的鲁棒性。
图3中的
Figure BDA00023790173300000814
表示根据
Figure BDA00023790173300000815
确定的Hi的预测值,
Figure BDA00023790173300000816
表示根据
Figure BDA00023790173300000817
确定的hi的预测值,
Figure BDA00023790173300000818
表示根据
Figure BDA00023790173300000819
确定的oi的预测值。通过最小化oi
Figure BDA00023790173300000820
的损失函数(如L2)可以训练基于oi生成
Figure BDA00023790173300000821
的神经网络,以期望
Figure BDA00023790173300000822
是对邻域环境的正确认知。下文会详细描述产生该有益效果的原因。
此外,图3中的C表示智能体i的邻域认知信息的真实值,通过最小化C和
Figure BDA00023790173300000823
的损失函数(如KL)可以训练基于oi生成
Figure BDA00023790173300000824
的神经网络,以使得
Figure BDA00023790173300000825
与邻域智能体的邻域认知信息(如
Figure BDA00023790173300000826
)保持一致,该过程如C与oi之间的虚线箭头所示。下文会详细描述产生该有益效果的原因。
上文详细介绍了根据第一信息Hi确定目标智能体的个体认知信息Ai和邻域认知信息
Figure BDA00023790173300000827
的方法。通常情况下,位于一个邻域内的多个智能体具有相同或近似相同的环境,因此,位于一个邻域内的多个智能体对于邻域环境的认知应该是相同或近似相同的。基于该原理,可以利用邻域智能体的邻域认知信息
Figure BDA00023790173300000828
训练生成目标智能体的邻域认知信息
Figure BDA00023790173300000829
的神经网络,以使
Figure BDA00023790173300000830
Figure BDA00023790173300000831
相同或近似相同。
可选地,可以根据包含
Figure BDA00023790173300000832
Figure BDA00023790173300000833
的损失函数训练生成
Figure BDA00023790173300000834
的神经网络。该损失函数例如是
Figure BDA00023790173300000835
其中,KL表示KL散度(Kullback-Leiblerdivergence),q表示概率分布,wi表示基于oi生成
Figure BDA00023790173300000836
的神经网络的权重,wj表示基于oj生成
Figure BDA00023790173300000837
的神经网络的权重。KL散度也称为相对熵(relative entropy),用于描述两个概率分布之间的差异,因此,可以作为
Figure BDA00023790173300000838
Figure BDA00023790173300000839
的损失函数。
除了通过KL散度衡量
Figure BDA00023790173300000840
Figure BDA00023790173300000841
之间的差异之外,还可以通过其它方法衡量
Figure BDA00023790173300000842
Figure BDA00023790173300000843
之间的差异。例如,
Figure BDA00023790173300000844
Figure BDA00023790173300000845
本质上是两个向量,可以通过L1-distance、L2-distance等数学上表示距离的方法来衡量
Figure BDA00023790173300000846
Figure BDA00023790173300000847
之间的差异,并通过更新生成
Figure BDA00023790173300000848
Figure BDA00023790173300000849
的神经网络来缩小
Figure BDA00023790173300000850
Figure BDA00023790173300000851
之间的差异。上述L1-distance可以称为曼哈顿距离或L1范数(L1-Norm),上述L2-distance可以称为欧几里得距离或L2范数(L2-Norm)。在机器学习领域,L1-distance又可以称为L1正则化,L2-distance又可以称为L2正则化。
如上所述,根据包含
Figure BDA00023790173300000852
Figure BDA00023790173300000853
的损失函数训练生成
Figure BDA00023790173300000854
的神经网络的目的在于:使得位于一个邻域内的多个智能体对于邻域环境的认知是相同或近似相同的。若各个智能体的邻域认知信息的预测值均与真实值相同或近似相同,则位于一个邻域内的多个智能体对于邻域环境的认知必然是相同或近似相同的。
因此,还可以根据智能体i的邻域认知信息的真实值C训练生成预测值
Figure BDA0002379017330000091
的神经网络,以使
Figure BDA0002379017330000092
与C相同或近似相同。
例如,可以假设C是一个标准正态分布,其均值是μ=0,方差为σ=1,通过最小化
Figure BDA0002379017330000093
训练生成
Figure BDA0002379017330000094
的神经网络,以使
Figure BDA0002379017330000095
与C相同或近似相同,其中,p表示先验概率,q表示后验概率。
当邻域智能体(如智能体j)也基于上述例子所示的方法训练生成
Figure BDA0002379017330000096
的神经网络后,得到的神经网络所生成的
Figure BDA0002379017330000097
与C相同或近似相同,从而使得
Figure BDA0002379017330000098
Figure BDA0002379017330000099
相同或近似相同,即,增强了
Figure BDA00023790173300000910
与邻域智能体的邻域认知信息(如
Figure BDA00023790173300000911
)的一致性。这也是图3所示的通过最小化C和
Figure BDA00023790173300000912
的损失函数训练神经网络的有益效果的原理。
图3还提到了通过最小化oi
Figure BDA00023790173300000913
的损失函数(如L2)训练基于oi生成
Figure BDA00023790173300000914
的神经网络。包含oi
Figure BDA00023790173300000915
的损失函数例如是
Figure BDA00023790173300000916
其中,oi是环境信息的真实值,
Figure BDA00023790173300000917
是环境信息的预测值,本申请对包含oi
Figure BDA00023790173300000918
的损失函数的具体形式不做限定。基于包含oi
Figure BDA00023790173300000919
的损失函数训练生成
Figure BDA00023790173300000920
的神经网络,能够使得oi
Figure BDA00023790173300000921
相同或近似相同。当oi
Figure BDA00023790173300000922
相同或近似相同时,说明环境信息oi可以从邻域认知信息的预测值
Figure BDA00023790173300000923
中恢复,即,
Figure BDA00023790173300000924
是对邻域环境的正确认知。
目标智能体生成个体认知信息Ai和邻域认知信息
Figure BDA00023790173300000925
后,可以根据所述目标智能体的邻域认知信息训练所述目标智能体。
可选地,目标智能体可以通过Q值训练方法训练目标智能体。本领域技术人员能够认识到,随着技术的发展,其它能够利用邻域认知信息训练目标智能体的方法均适用于本申请。
目标智能体可以首先对Ai
Figure BDA00023790173300000926
执行按位加法操作。按位加法操作指的是对不同向量的对应位置的元素执行加法操作,例如,Ai是3维向量[0.25,0.1,0.3],
Figure BDA00023790173300000927
是3维向量[0.1,0.2,0.15],对Ai
Figure BDA00023790173300000928
执行按位加法操作的结果是[0.35,0.3,0.45]。
对Ai
Figure BDA00023790173300000929
执行按位加法操作后得到的结果可以通过Q值神经网络生成目标智能体的Q值Qi。例如,Qi=f(X*W),其中,X为对Ai
Figure BDA00023790173300000930
执行按位加法操作后得到的结果,如三维向量[0.35,0.3,0.45],W是Q值神经网络的权重矩阵,如3*K维的权重矩阵,K是Qi的维度(即,智能体i的动作集合中元素个数),f(*)是对*做非线性操作的函数,相比于线性操作函数,非线性操作函数能够增强神经网络的表达能力。常见的f有sigmoid函数、relu函数等。
可选地,也可以直接拼接Ai
Figure BDA00023790173300000931
生成Qi,本申请对生成Qi的具体方式不做限定。
随后,目标智能体可以根据Q值训练目标智能体。
Q值用于评价动作的质量,目标智能体可以根据不同的动作对应的Q值确定最终输出的动作。在目标智能体实施最终输出的动作之后,从环境中获取该动作的反馈,根据该反馈训练生成动作的神经网络,即目标智能体。
例如,智能体i的Q值为Qi,智能体i可以基于Qi生成动作,该动作例如是流量调度指令
Figure BDA0002379017330000101
Figure BDA0002379017330000102
Figure BDA0002379017330000103
例如是经过路由器i的一条聚合流在出端口集合上的流量比例(rate1%,rate2%,rate3%,…),表示向(Nexthop1,Nexthop2,Nexthop3,…)中的各个节点发送的流量的多少;ai表示一个特定动作,例如,当前存在上下左右四个动作(即,存在四个ai),每个动作对应一个Q值,分别为Q(o,↑)、Q(o,↓)、Q(o,←)、Q(o,→),智能体i可以从中选择Q值最大的动作(即,
Figure BDA0002379017330000104
)执行。随后,智能体i可以根据
Figure BDA0002379017330000105
的反馈最小化时间差分(temporal difference,TD)损失函数以训练生成动作的神经网络。
由于目标智能体的Q值是基于Ai
Figure BDA0002379017330000106
生成的,目标智能体能够通过训练生成
Figure BDA0002379017330000107
的神经网络来增强
Figure BDA0002379017330000108
与邻域智能体的邻域认知信息(如
Figure BDA0002379017330000109
)的一致性,并且,目标智能体能够通过训练生成
Figure BDA00023790173300001010
的神经网络来提高目标智能体对邻域环境的正确认知程度,从而提高了Q值的准确度。相比于直接根据第一信息生成Q的神经网络训练方法,基于方法200训练得到的神经网络生成的动作能够提高多个智能体之间的协作效果。
下面,结合图4进一步介绍本申请提供的训练智能体的方法。图4所示的方法可以由路由器i执行,路由器i即上文所述的智能体i的一个示例,可以是图1所示的6个路由器中的任意一个。路由器j是路由器i的一个邻域路由器。路由器i可以执行以下步骤。
步骤1:路由器i感知环境信息oi
步骤2:路由器i通过全连接(fully connected,FC)网络将oi加工为hi。hi可以称为路由器i的第二信息,表示基于oi抽象得到的信息。
步骤3:路由器i获取所有邻域路由器的第二信息。路由器i的邻域路由器可以表示为j∈N(i),其中,N(i)为路由器i的所有邻域路由器的集合,j为该集合中的一个,即,路由器j。路由器j的环境信息为oj,路由器j可以通过自己的FC网络将oj加工为hj,hj即路由器j的第二信息。
路由器i可以通过图卷积网络(graph convolutional network,GCN)将hi和邻域路由器的第二信息加工为自己的第一信息Hi,可以对hi和路由器i的所有邻域路由器的第二信息做加权和运算,得到Hi。例如,路由器i的所有邻域路由器可以表示为N(i),则路由器i的第一信息可以由下列公式确定,
Figure BDA00023790173300001011
其中,σ表示非线性函数,用于提高神经网络的表达能力,w表示GCN的权重,∪为并集符号,{i}表示路由器i,|N(j)|表示路由器j的所有邻域路由器的数量,|N(i)|表示路由器i的所有邻域路由器的数量。
在基于hi和hj生成Hi的过程中有两种可选的方法。
第一种方法是:首先对hi和hj进行处理(如拼接或加权和)得到一个规模较大的矩阵,然后对该矩阵执行矩阵乘法运算得到Hi
第二种方法是:对hi和第一矩阵做乘法运算,得到第一结果;对hj和第二矩阵做乘法运算,得到第二结果;然后根据第一结果和第二结果生成Hi,例如,对第一结果和第二结果做加权和运算或者拼接处理,得到Hi
由于hi和hj是两个规模较小的矩阵,第二种方法相比于第一种方法能够减小生成Hi所需的计算量。此外,第一矩阵和第二矩阵可以是相同的矩阵,也可以是不同的矩阵。当第一矩阵和第二矩阵相同时,hi和hj共享了同一套参数,有利于GCN学习到更多的内容。
步骤4:路由器i通过认知(cognition)网络将Hi加工为Ai
Figure BDA0002379017330000111
步骤5:路由器i基于
Figure BDA0002379017330000112
生成
Figure BDA0002379017330000113
其中,
Figure BDA0002379017330000114
表示根据
Figure BDA0002379017330000115
确定的Hi的预测值,
Figure BDA0002379017330000116
表示根据
Figure BDA0002379017330000117
确定的hi的预测值,
Figure BDA0002379017330000118
表示根据
Figure BDA0002379017330000119
确定的oi的预测值。通过最小化oi
Figure BDA00023790173300001110
的损失函数(如L2)可以训练基于oi生成
Figure BDA00023790173300001111
的神经网络,以期望
Figure BDA00023790173300001112
是对邻域环境的正确认知。基于oi生成
Figure BDA00023790173300001113
的神经网络例如是图4所示的FC网络、GCN和认知网络中的一个或多个。
步骤6:路由器i获取所有邻域路由器的邻域认知信息,并最小化包含
Figure BDA00023790173300001114
和所有邻域路由器的邻域认知信息的损失函数,以使得
Figure BDA00023790173300001115
和所有邻域路由器的邻域认知信息是一致的。
例如,路由器i获取路由器j的邻域认知信息
Figure BDA00023790173300001116
后,可以通过最小化
Figure BDA00023790173300001117
使得
Figure BDA00023790173300001118
Figure BDA00023790173300001119
一致(相同或近似相同),其中,wi表示基于oi生成
Figure BDA00023790173300001120
的神经网络的权重,wj表示基于oj生成
Figure BDA00023790173300001121
的神经网络的权重。基于oi生成
Figure BDA00023790173300001122
的神经网络例如是图4所示的FC网络、GCN和认知网络中的一个或多个。
需要说明的是,图4为了简洁,未区分路由器i的神经网络和路由器j的神经网络,实际上,路由器i和路由器j各自部署有FC网络、GCN、认识网络和Q值网络,并且,由于路由器i和路由器j的环境信息通常不会完全相同,因此,路由器i和路由器j各自部署的神经网络经过训练后的结果通常也不相同。
步骤7:路由器i通过Q值网络对Ai
Figure BDA00023790173300001123
执行按位加法操作,得到Q值Qi
步骤8:路由器i根据Qi生成动作,该动作例如是流量调度指令
Figure BDA00023790173300001124
Figure BDA00023790173300001125
Figure BDA00023790173300001126
例如是经过路由器i的一条聚合流在出端口集合上的流量比例(rate1%,rate2%,rate3%,…),表示向(Nexthop1,Nexthop2,Nexthop3,…)中的各个节点发送的流量的多少。
步骤9:路由器i可以从环境中获取
Figure BDA00023790173300001127
的反馈ri,并根据ri最小化TD损失函数,将最小化TD损失函数产生的梯度回传训练智能体i,以期望得到准确的Qi
Figure BDA00023790173300001128
生成动作的神经网络例如是图4所示的FC网络、GCN、认知网络和Q值网络中的一个或多个。
可以基于公式(2)训练每个智能体i。
Figure BDA00023790173300001129
其中,Ltotal(w)为TD损失函数Ltd(w)和认知失调(cognitive-dissonance,CD)损失函数
Figure BDA00023790173300001130
的加权和,其中,
Figure BDA00023790173300001131
用于使认识失调损失变小,即,使多个智能体的认知变得一致;α是一个实数,表示
Figure BDA00023790173300001132
的权重系数;w表示所有智能体的参数的集合(智能体i的参数wi是该集合中的一部分);N表示多智能体系统中总共有N个智能体,其中,该N个智能体共享一个TD损失函数,并且,该N个智能体中每个智能体拥有自己的CD损失函数。
Ltd(w)可以通过公式(3)确定。
Figure BDA00023790173300001133
其中,
Figure BDA00023790173300001134
表示对
Figure BDA00023790173300001135
做采样操作,然后基于所有的样本
Figure BDA00023790173300001136
求expression的期望;
Figure BDA00023790173300001137
表示所有智能体的联合观测,即
Figure BDA00023790173300001138
Figure BDA00023790173300001139
表示所有智能体的联合动作,即
Figure BDA00023790173300001140
r表示所有智能体在联合观测
Figure BDA00023790173300001141
执行联合动作
Figure BDA0002379017330000121
后,环境反馈给所有智能体的奖励值;
Figure BDA0002379017330000122
表示所有智能体在联合观测
Figure BDA0002379017330000123
执行联合动作
Figure BDA0002379017330000124
后,环境反馈给所有智能体的新的联合观测;Qtotal表示多个智能体的Q值;ytotal可以由公式(4)确定。
Figure BDA0002379017330000125
其中,γ表示一个实数;
Figure BDA0002379017330000126
表示在新的联合观测
Figure BDA0002379017330000127
下,所有智能体执行的联合动作;w-表示目标神经网络的参数,开始训练前和w完全一样,训练过程中有两种更新方式:(1)在S个训练步骤中不做更新,S个训练步骤结束后,将w的值赋给w-;(2)每个训练步骤中做更新,更新方式为w-=βw-+(1-β)w,其中β是一个实数,用来控制w-的更新速率(注意,不管w-的哪种更新方式,w会在每个训练步骤中做更新,更新方法就是基于公式(2)定义的总的损失函数L-total)。
公式(2)中的
Figure BDA0002379017330000128
可以由公式(5)确定。
Figure BDA0002379017330000129
需要说明的是,公式(5)中的w表示所有智能体的参数的集合,因此,未进一步区分智能体i的参数wi是该集合中的一部分)
公式(2)至公式(5)为同步训练生成
Figure BDA00023790173300001210
的神经网络和智能体i时所使用的公式的示例。可选地,路由器i也可以先将生成
Figure BDA00023790173300001211
的神经网络训练完成后,再基于该神经网络生成的
Figure BDA00023790173300001212
生成Qi,并基于Qi训练智能体i。
路由器i除了可以使用Qi训练智能体之外,也可以使用Qi和其它Q值共同训练智能体。
图5示出了一种使用多个Q值训练智能体的方法。
相比于图4,图5中的路由器i多部署了一个Q值混合网络,该网络用于将多个路由器的Q值加工为Qtotal,该多个路由器可以是属于一个邻域的路由器,也可以是属于多个邻域的路由器。例如,Q值混合网络可以将Qi和Qj(路由器j的Q值)做加权和运算,这样,Qtotal能够更好的反映单个路由器承担的任务在多个路由器承担的任务中的比例,基于Qtotal产生的动作能够增强全局协调性。
上文详细描述了本申请提供的训练智能体的方法,待智能体训练收敛后,智能体可以按照图6所示的方法生成动作。方法600包括:
S610,智能体i感知环境信息。
S620,智能体i通过FC网络将环境信息加工为第二信息。
S630,智能体i获取所有邻域智能体的第二信息,并通过GCN将所有的第二信息加工为第一信息。
S640,智能体i通过认知网络处理第一信息,生成个体认知信息和邻域认知信息。
S650,智能体i通过Q值网络对个体认知信息和邻域认知信息做按位加法操作,并基于该操作的结果生成Q值。
S660,智能体i根据Q值生成动作(例如,流程调度指令),并将该动作施加到环境中。
与方法200相比,方法600无需再更新智能体的参数。此外,由于方法600中智能体i所处的环境与方法200中智能体i所处的环境相比可能发生了变换,因此,方法600中的所有信息与方法200中的所有信息可能不同,可以将方法600中的信息称为目标信息,可以将方法200中的信息成为训练信息。例如,方法600中的环境信息、第一信息、第二信息、个体认知信息和邻域认知信息可以分别称为:目标环境信息、目标第一信息、目标第二信息、目标个体认知信息和目标邻域认知信息;方法200中的环境信息、第一信息、第二信息、个体认知信息和邻域认知信息可以分别称为:训练环境信息、训练第一信息、训练第二信息、训练个体认知信息和训练邻域认知信息。
基于方法200训练得到的智能体对邻域环境的正确认知程度较高,并且,基于方法200训练得到的智能体对邻域环境的认知与邻域内其它智能体对邻域环境的认知保持一致,因此,方法600中智能体生成的动作能够提高多个智能体之间的协作效果。
上文详细介绍了本申请提供的训练智能体的方法以及基于智能体生成动作的方法的示例。可以理解的是,相应的装置为了实现上述功能,其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,本申请能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
本申请可以根据上述方法示例对训练智能体的装置以及基于智能体生成动作的装置进行功能单元的划分,例如,可以将各个功能划分为各个功能单元,也可以将两个或两个以上的功能集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。需要说明的是,本申请中对单元的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
图7是本申请提供的一种训练智能体的装置的结构示意图。该装置700包括处理单元710和通信单元720,通信单元720能够在处理单元710的控制下执行发送步骤和/或接收步骤。
通信单元720用于:获取第一智能体的环境信息和第二智能体的环境信息;
处理单元710用于:根据所述第一智能体的环境信息和所述第二智能体的环境信息生成第一信息;利用所述第一信息训练所述第一智能体,使得所述第一智能体输出个体认知信息和邻域认知信息,其中,所述第一智能体的邻域认知信息与所述第二智能体的邻域认知信息具有一致性。
可选地,所述处理单元710具体用于:根据所述第一智能体的环境信息生成所述第一智能体的第二信息hi;根据所述第二智能体的环境信息生成所述第二智能体的第二信息hj;根据hi和hj生成所述第一信息。
可选地,所述处理单元710具体用于:根据hi和第一矩阵的乘积确定第一结果;根据hj和第二矩阵的乘积确定第二结果;根据所述第一结果和所述第二结果生成所述第一信息。
可选地,所述通信单元720还用于:获取所述第二智能体的邻域认知信息
Figure BDA0002379017330000131
所述处理单元710还用于:根据所述第二智能体的邻域认知信息
Figure BDA0002379017330000132
训练生成所述第一智能体的邻域认知信息
Figure BDA0002379017330000133
的神经网络,以使
Figure BDA0002379017330000134
Figure BDA0002379017330000135
具有一致性。
可选地,所述处理单元710具体用于:根据包含
Figure BDA0002379017330000141
Figure BDA0002379017330000142
的损失函数训练生成
Figure BDA0002379017330000143
的神经网络。
可选地,所述包含
Figure BDA0002379017330000144
Figure BDA0002379017330000145
的损失函数为
Figure BDA0002379017330000146
其中,KL表示KL散度,q表示概率分布,oi表示所述第一智能体的环境信息,wi表示基于oi生成
Figure BDA0002379017330000147
的神经网络的权重,oj表示所述第二智能体的环境信息,wj表示基于oj生成
Figure BDA0002379017330000148
的神经网络的权重。
可选地,所述处理单元710具体用于:根据所述第一信息和变分自编码器确定所述第一智能体的邻域认知信息
Figure BDA0002379017330000149
可选地,所述处理单元710具体用于:根据所述第一信息确定所述第一智能体的邻域认知信息的分布均值
Figure BDA00023790173300001410
和分布方差
Figure BDA00023790173300001411
从一个单位高斯分布中采样得到一个随机值ε;根据
Figure BDA00023790173300001412
和ε确定
Figure BDA00023790173300001413
其中,
Figure BDA00023790173300001414
可选地,所述通信单元720还用于:根据所述第一智能体的邻域认知信息
Figure BDA00023790173300001415
确定所述第一智能体的环境信息的估计值
Figure BDA00023790173300001416
所述处理单元710还用于:根据包含oi
Figure BDA00023790173300001417
的损失函数训练生成
Figure BDA00023790173300001418
的神经网络。
可选地,所述包含oi
Figure BDA00023790173300001419
的损失函数为
Figure BDA00023790173300001420
其中,L2表示L2正则化,wi表示基于oi生成
Figure BDA00023790173300001421
的神经网络的权重。
可选地,所述处理单元710还用于:根据所述第一智能体的个体认知信息和邻域认知信息确定所述第一智能体的Q值;根据所述第一智能体的Q值训练所述第一智能体。
可选地,所述处理单元710具体用于:根据所述第一智能体的Q值和所述第二智能体的Q值确定多个智能体的Q值Qtotal;根据Qtotal训练所述第一智能体。
装置700执行训练智能体的方法的具体方式以及产生的有益效果可以参见方法实施例中的相关描述。
图8是本申请提供的一种基于智能体生成指令的装置的结构示意图。该装置800包括处理单元810和通信单元820,通信单元820能够在处理单元810的控制下执行发送步骤和/或接收步骤。
所述通信单元820用于:获取第一智能体的目标环境信息和第二智能体的目标环境信息;
所述处理单元810用于:根据所述第一智能体的目标环境信息和所述第二智能体的目标环境信息生成目标第一信息;根据所述目标第一信息输出所述第一智能体的目标个体认知信息和目标邻域认知信息,其中,所述第一智能体的目标邻域认知信息与所述第二智能体的目标邻域认知信息具有一致性;根据所述第一智能体的目标个体认知信息和目标邻域认知信息生成指令。
可选地,所述处理单元810具体用于:根据所述第一智能体的目标环境信息生成所述第一智能体的目标第二信息;根据所述第二智能体的目标环境信息生成所述第二智能体的目标第二信息;根据所述第一智能体的目标第二信息和所述第二智能体的目标第二信息生成所述目标第一信息。
可选地,所述处理单元810具体用于:根据所述第一智能体的目标个体认知信息和所述目标智能体的目标邻域信息生成目标Q值;根据所述目标Q值生成所述指令。
可选地,所述通信单元820还用于:获取第一智能体的训练环境信息和第二智能体的训练环境信息;所述处理单元810还用于:根据所述第一智能体的训练环境信息和所述第二智能体的训练环境信息生成训练第一信息;利用所述训练第一信息训练所述第一智能体,使得所述第一智能体输出训练个体认知信息和训练邻域认知信息,其中,所述第一智能体的训练邻域认知信息与所述第二智能体的训练邻域认知信息具有一致性。
可选地,所述处理单元810具体用于:根据所述第一智能体的训练环境信息生成所述第一智能体的训练第二信息hi;根据所述第二智能体的训练环境信息生成所述第二智能体的训练第二信息hj;根据hi和hj生成所述训练第一信息。
可选地,所述处理单元810具体用于:根据hi和第一矩阵的乘积确定第一结果;根据hj和第二矩阵的乘积确定第二结果;根据所述第一结果和所述第二结果生成所述训练第一信息。
可选地,所述通信单元820还用于:获取所述第二智能体的训练邻域认知信息
Figure BDA0002379017330000151
所述处理单元810还用于:根据所述第二智能体的训练邻域认知信息
Figure BDA0002379017330000152
训练生成所述第一智能体的训练邻域认知信息
Figure BDA0002379017330000153
的神经网络,以使
Figure BDA0002379017330000154
Figure BDA0002379017330000155
具有一致性。
可选地,所述处理单元810具体用于:根据包含
Figure BDA0002379017330000156
Figure BDA0002379017330000157
的损失函数训练生成
Figure BDA0002379017330000158
的神经网络。
可选地,所述包含
Figure BDA0002379017330000159
Figure BDA00023790173300001510
的损失函数为
Figure BDA00023790173300001511
其中,KL表示KL散度,q表示概率分布,oi表示所述第一智能体的训练环境信息,wi表示基于oi生成
Figure BDA00023790173300001512
的神经网络的权重,oj表示所述第二智能体的训练环境信息,wj表示基于oj生成
Figure BDA00023790173300001513
的神经网络的权重。
可选地,所述处理单元810具体用于:根据所述训练第一信息和变分自编码器确定所述第一智能体的训练邻域认知信息
Figure BDA00023790173300001514
可选地,所述处理单元810具体用于:根据所述训练第一信息确定所述第一智能体的训练邻域认知信息的分布均值
Figure BDA00023790173300001515
和分布方差
Figure BDA00023790173300001516
从一个单位高斯分布中采样得到一个随机值ε;根据
Figure BDA00023790173300001517
和ε确定
Figure BDA00023790173300001518
其中,
Figure BDA00023790173300001519
可选地,所述处理单元810还用于:根据所述第一智能体的训练邻域认知信息
Figure BDA00023790173300001520
确定所述第一智能体的训练环境信息的估计值
Figure BDA00023790173300001521
根据包含oi
Figure BDA00023790173300001522
的损失函数训练生成
Figure BDA00023790173300001523
的神经网络。
可选地,所述包含oi
Figure BDA00023790173300001524
的损失函数为
Figure BDA00023790173300001525
其中,L2表示L2正则化,wi表示基于oi生成
Figure BDA00023790173300001526
的神经网络的权重。
可选地,所述处理单元810还用于:根据所述第一智能体的训练个体认知信息和训练邻域认知信息确定所述第一智能体的训练Q值;根据所述第一智能体的训练Q值训练所述第一智能体。
可选地,所述处理单元810具体用于:根据所述第一智能体的训练Q值和所述第二智能体的训练Q值确定多个智能体的Q值Qtotal;根据Qtotal训练所述第一智能体。
装置800执行训练智能体的方法的具体方式以及产生的有益效果可以参见方法实施例中的相关描述。
可选地,装置800和装置700为相同的装置。
图9示出了本申请提供的一种电子设备的结构示意图。图9中的虚线表示该单元或该模块为可选的。设备900可用于实现上述方法实施例中描述的方法。设备900可以是终端设备或服务器或芯片。
设备900包括一个或多个处理器901,该一个或多个处理器901可支持设备900实现图2至图6所对应方法实施例中的方法。处理器901可以是通用处理器或者专用处理器。例如,处理器901可以是中央处理器(central processing unit,CPU)。CPU可以用于对设备900进行控制,执行软件程序,处理软件程序的数据。设备900还可以包括通信单元905,用以实现信号的输入(接收)和输出(发送)。
例如,设备900可以是芯片,通信单元905可以是该芯片的输入和/或输出电路,或者,通信单元905可以是该芯片的通信接口,该芯片可以作为终端设备或网络设备或其它电子设备的组成部分。
又例如,设备900可以是终端设备或服务器,通信单元905可以是该终端设备或该服务器的收发器,或者,通信单元905可以是该终端设备或该服务器的收发电路。
设备900中可以包括一个或多个存储器902,其上存有程序904,程序904可被处理器901运行,生成指令903,使得处理器901根据指令903执行上述方法实施例中描述的方法。可选地,存储器902中还可以存储有数据。可选地,处理器901还可以读取存储器902中存储的数据,该数据可以与程序904存储在相同的存储地址,该数据也可以与程序904存储在不同的存储地址。
处理器901和存储器902可以单独设置,也可以集成在一起,例如,集成在终端设备的系统级芯片(system on chip,SOC)上。
设备900还可以包括天线906。通信单元905用于通过天线906实现设备900的收发功能。
处理器901执行与用户进行信息交互的方法的具体方式可以参见方法实施例中的相关描述。
应理解,上述方法实施例的各步骤可以通过处理器901中的硬件形式的逻辑电路或者软件形式的指令完成。处理器901可以是CPU、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)或者其它可编程逻辑器件,例如,分立门、晶体管逻辑器件或分立硬件组件。
本申请还提供了一种计算机程序产品,该计算机程序产品被处理器901执行时实现本申请中任一方法实施例所述的方法。
该计算机程序产品可以存储在存储器902中,例如是程序904,程序904经过预处理、编译、汇编和链接等处理过程最终被转换为能够被处理器901执行的可执行目标文件。
本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机执行时实现本申请中任一方法实施例所述的方法。该计算机程序可以是高级语言程序,也可以是可执行目标程序。
该计算机可读存储介质例如是存储器902。存储器902可以是易失性存储器或非易失性存储器,或者,存储器902可以同时包括易失性存储器和非易失性存储器。其中,非易失性存储器可以是只读存储器(read-only memory,ROM)、可编程只读存储器(programmableROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(randomaccess memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(dynamicRAM,DRAM)、同步动态随机存取存储器(synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(double data rate SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(direct rambus RAM,DR RAM)。
本领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和设备的具体工作过程以及产生的技术效果,可以参考前述方法实施例中对应的过程和技术效果,在此不再赘述。
在本申请所提供的几个实施例中,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的方法实施例的一些特征可以忽略,或不执行。以上所描述的装置实施例仅仅是示意性的,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统。另外,各单元之间的耦合或各个组件之间的耦合可以是直接耦合,也可以是间接耦合,上述耦合包括电的、机械的或其它形式的连接。
应理解,在本申请的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请的实施例的实施过程构成任何限定。
另外,本文中术语“系统”和“网络”在本文中常被可互换使用。本文中的术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
总之,以上所述仅为本申请技术方案的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (30)

1.一种训练智能体的方法,其特征在于,包括:
获取第一智能体的环境信息和第二智能体的环境信息;
根据所述第一智能体的环境信息和所述第二智能体的环境信息生成第一信息;
利用所述第一信息训练所述第一智能体,使得所述第一智能体输出个体认知信息和邻域认知信息,其中,所述第一智能体的邻域认知信息与所述第二智能体的邻域认知信息具有一致性;
获取所述第二智能体的邻域认知信息
Figure FDA0003856229430000011
根据所述第二智能体的邻域认知信息
Figure FDA0003856229430000012
训练生成所述第一智能体的邻域认知信息
Figure FDA0003856229430000013
的神经网络,以使
Figure FDA0003856229430000014
Figure FDA0003856229430000015
具有一致性。
2.根据权利要求1所述的方法,其特征在于,所述根据所述第一智能体的环境信息和所述第二智能体的环境信息生成第一信息,包括:
根据所述第一智能体的环境信息生成所述第一智能体的第二信息hi
根据所述第二智能体的环境信息生成所述第二智能体的第二信息hj
根据hi和hj生成所述第一信息。
3.根据权利要求2所述的方法,其特征在于,所述根据hi和hj生成所述第一信息,包括:
根据hi和第一矩阵的乘积确定第一结果;
根据hj和第二矩阵的乘积确定第二结果;
根据所述第一结果和所述第二结果生成所述第一信息。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述根据所述第二智能体的邻域认知信息
Figure FDA0003856229430000016
训练生成所述第一智能体的邻域认知信息
Figure FDA0003856229430000017
的神经网络,包括:
根据包含
Figure FDA0003856229430000018
Figure FDA0003856229430000019
的损失函数训练生成
Figure FDA00038562294300000110
的神经网络。
5.根据权利要求4所述的方法,其特征在于,所述包含
Figure FDA00038562294300000111
Figure FDA00038562294300000112
的损失函数为
Figure FDA00038562294300000113
其中,KL表示KL散度,q表示概率分布,oi表示所述第一智能体的环境信息,wi表示基于oi生成
Figure FDA00038562294300000114
的神经网络的权重,oj表示所述第二智能体的环境信息,wj表示基于oj生成
Figure FDA00038562294300000115
的神经网络的权重。
6.根据权利要求1至3中任一项所述的方法,其特征在于,所述利用所述第一信息训练所述第一智能体,使得所述第一智能体输出个体认知信息和邻域认知信息,包括:
根据所述第一信息和变分自编码器确定所述第一智能体的邻域认知信息
Figure FDA00038562294300000116
7.根据权利要求6所述的方法,其特征在于,所述根据所述第一信息和变分自编码器确定所述第一智能体的邻域认知信息
Figure FDA00038562294300000117
包括:
根据所述第一信息确定所述第一智能体的邻域认知信息的分布均值
Figure FDA00038562294300000118
和分布方差
Figure FDA00038562294300000119
从一个单位高斯分布中采样得到一个随机值ε;
根据
Figure FDA00038562294300000120
和ε确定
Figure FDA00038562294300000121
其中,
Figure FDA00038562294300000122
8.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
根据所述第一智能体的邻域认知信息
Figure FDA0003856229430000021
确定所述第一智能体的环境信息的估计值
Figure FDA0003856229430000022
根据包含oi
Figure FDA0003856229430000023
的损失函数训练生成
Figure FDA0003856229430000024
的神经网络。
9.根据权利要求8所述的方法,其特征在于,所述包含oi
Figure FDA0003856229430000025
的损失函数为
Figure FDA0003856229430000026
其中,L2表示L2正则化,wi表示基于oi生成
Figure FDA0003856229430000027
的神经网络的权重。
10.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
根据所述第一智能体的个体认知信息和邻域认知信息确定所述第一智能体的Q值;
根据所述第一智能体的Q值训练所述第一智能体。
11.根据权利要求10所述的方法,其特征在于,所述根据所述第一智能体的Q值训练所述第一智能体,包括:
根据所述第一智能体的Q值和所述第二智能体的Q值确定多个智能体的Q值Qtotal
根据Qtotal训练所述第一智能体。
12.一种基于智能体生成指令的方法,其特征在于,包括:
获取第一智能体的目标环境信息和第二智能体的目标环境信息,所述第一智能体为使用如权利要求1至11任一项所述的方法训练得到的所述第一智能体;
根据所述第一智能体的目标环境信息和所述第二智能体的目标环境信息生成目标第一信息;
根据所述目标第一信息输出所述第一智能体的目标个体认知信息和目标邻域认知信息,其中,所述第一智能体的目标邻域认知信息与所述第二智能体的目标邻域认知信息具有一致性;
根据所述第一智能体的目标个体认知信息和目标邻域认知信息生成指令。
13.根据权利要求12所述的方法,其特征在于,所述根据所述第一智能体的目标环境信息和所述第二智能体的目标环境信息生成目标第一信息,包括:
根据所述第一智能体的目标环境信息生成所述第一智能体的目标第二信息;
根据所述第二智能体的目标环境信息生成所述第二智能体的目标第二信息;
根据所述第一智能体的目标第二信息和所述第二智能体的目标第二信息生成所述目标第一信息。
14.根据权利要求12或13所述的方法,其特征在于,所述根据所述第一智能体的目标个体认知信息和目标邻域认知信息生成指令,包括:
根据所述第一智能体的目标个体认知信息和所述第一智能体的目标邻域信息生成目标Q值;
根据所述目标Q值生成所述指令。
15.一种训练智能体的装置,其特征在于,包括通信单元和处理单元,
所述通信单元用于:获取第一智能体的环境信息和第二智能体的环境信息;
所述处理单元用于:根据所述第一智能体的环境信息和所述第二智能体的环境信息生成第一信息;利用所述第一信息训练所述第一智能体,使得所述第一智能体输出个体认知信息和邻域认知信息,其中,所述第一智能体的邻域认知信息与所述第二智能体的邻域认知信息具有一致性;
所述通信单元还用于:获取所述第二智能体的邻域认知信息
Figure FDA0003856229430000028
所述处理单元还用于:根据所述第二智能体的邻域认知信息
Figure FDA0003856229430000029
训练生成所述第一智能体的邻域认知信息
Figure FDA0003856229430000031
的神经网络,以使
Figure FDA0003856229430000032
Figure FDA0003856229430000033
具有一致性。
16.根据权利要求15所述的装置,其特征在于,所述处理单元具体用于:
根据所述第一智能体的环境信息生成所述第一智能体的第二信息hi
根据所述第二智能体的环境信息生成所述第二智能体的第二信息hj
根据hi和hj生成所述第一信息。
17.根据权利要求16所述的装置,其特征在于,所述处理单元具体用于:
根据hi和第一矩阵的乘积确定第一结果;
根据hj和第二矩阵的乘积确定第二结果;
根据所述第一结果和所述第二结果生成所述第一信息。
18.根据权利要求15至17任一项所述的装置,其特征在于,所述处理单元具体用于:
根据包含
Figure FDA0003856229430000034
Figure FDA0003856229430000035
的损失函数训练生成
Figure FDA0003856229430000036
的神经网络。
19.根据权利要求18所述的装置,其特征在于,所述包含
Figure FDA0003856229430000037
Figure FDA0003856229430000038
的损失函数为
Figure FDA0003856229430000039
其中,KL表示KL散度,q表示概率分布,oi表示所述第一智能体的环境信息,wi表示基于oi生成
Figure FDA00038562294300000310
的神经网络的权重,oj表示所述第二智能体的环境信息,wj表示基于oj生成
Figure FDA00038562294300000311
的神经网络的权重。
20.根据权利要求15至17中任一项所述的装置,其特征在于,所述处理单元具体用于:
根据所述第一信息和变分自编码器确定所述第一智能体的邻域认知信息
Figure FDA00038562294300000312
21.根据权利要求20所述的装置,其特征在于,所述处理单元具体用于:
根据所述第一信息确定所述第一智能体的邻域认知信息的分布均值
Figure FDA00038562294300000313
和分布方差
Figure FDA00038562294300000314
从一个单位高斯分布中采样得到一个随机值ε;
根据
Figure FDA00038562294300000315
和ε确定
Figure FDA00038562294300000316
其中,
Figure FDA00038562294300000317
22.根据权利要求15至17中任一项所述的装置,其特征在于,
所述通信单元还用于:根据所述第一智能体的邻域认知信息
Figure FDA00038562294300000318
确定所述第一智能体的环境信息的估计值
Figure FDA00038562294300000319
所述处理单元还用于:根据包含oi
Figure FDA00038562294300000320
的损失函数训练生成
Figure FDA00038562294300000321
的神经网络。
23.根据权利要求22所述的装置,其特征在于,所述包含oi
Figure FDA00038562294300000322
的损失函数为
Figure FDA00038562294300000323
其中,L2表示L2正则化,wi表示基于oi生成
Figure FDA00038562294300000324
的神经网络的权重。
24.根据权利要求15至17中任一项所述的装置,其特征在于,所述处理单元还用于:
根据所述第一智能体的个体认知信息和邻域认知信息确定所述第一智能体的Q值;
根据所述第一智能体的Q值训练所述第一智能体。
25.根据权利要求24所述的装置,其特征在于,所述处理单元具体用于:
根据所述第一智能体的Q值和所述第二智能体的Q值确定多个智能体的Q值Qtotal
根据Qtotal训练所述第一智能体。
26.一种基于智能体生成指令的装置,其特征在于,包括通信单元和处理单元,
所述通信单元用于:获取第一智能体的目标环境信息和第二智能体的目标环境信息,所述第一智能体为使用如权利要求1至11任一项所述的方法训练得到的所述第一智能体;
所述处理单元用于:根据所述第一智能体的目标环境信息和所述第二智能体的目标环境信息生成目标第一信息;根据所述目标第一信息输出所述第一智能体的目标个体认知信息和目标邻域认知信息,其中,所述第一智能体的目标邻域认知信息与所述第二智能体的目标邻域认知信息具有一致性;根据所述第一智能体的目标个体认知信息和目标邻域认知信息生成指令。
27.根据权利要求26所述的装置,其特征在于,所述处理单元具体用于:
根据所述第一智能体的目标环境信息生成所述第一智能体的目标第二信息;
根据所述第二智能体的目标环境信息生成所述第二智能体的目标第二信息;
根据所述第一智能体的目标第二信息和所述第二智能体的目标第二信息生成所述目标第一信息。
28.根据权利要求26或27所述的装置,其特征在于,所述处理单元具体用于:
根据所述第一智能体的目标个体认知信息和所述第一智能体的目标邻域信息生成目标Q值;
根据所述目标Q值生成所述指令。
29.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储了计算机程序,当所述计算机程序被处理器执行时,使得处理器执行权利要求1至11中任一项所述的方法。
30.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储了计算机程序,当所述计算机程序被处理器执行时,使得处理器执行权利要求12至14中任一项所述的方法。
CN202010077714.8A 2020-01-31 2020-01-31 训练智能体的方法和装置 Active CN113206786B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010077714.8A CN113206786B (zh) 2020-01-31 2020-01-31 训练智能体的方法和装置
PCT/CN2020/119396 WO2021151309A1 (zh) 2020-01-31 2020-09-30 训练智能体的方法和装置
US17/877,063 US20220366266A1 (en) 2020-01-31 2022-07-29 Agent training method, apparatus, and computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010077714.8A CN113206786B (zh) 2020-01-31 2020-01-31 训练智能体的方法和装置

Publications (2)

Publication Number Publication Date
CN113206786A CN113206786A (zh) 2021-08-03
CN113206786B true CN113206786B (zh) 2022-12-27

Family

ID=77024899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010077714.8A Active CN113206786B (zh) 2020-01-31 2020-01-31 训练智能体的方法和装置

Country Status (3)

Country Link
US (1) US20220366266A1 (zh)
CN (1) CN113206786B (zh)
WO (1) WO2021151309A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113792844B (zh) * 2021-08-19 2023-07-25 中国人民解放军军事科学院国防科技创新研究院 基于深度自动编码和特征融合的智能体蜂拥行为控制方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10922566B2 (en) * 2017-05-09 2021-02-16 Affectiva, Inc. Cognitive state evaluation for vehicle navigation
US10782693B2 (en) * 2017-09-07 2020-09-22 Tusimple, Inc. Prediction-based system and method for trajectory planning of autonomous vehicles
US20190354100A1 (en) * 2018-05-21 2019-11-21 Board Of Regents, The University Of Texas System Bayesian control methodology for the solution of graphical games with incomplete information
AU2019278974A1 (en) * 2018-05-31 2021-01-07 Tusimple, Inc. System and method for proximate vehicle intention prediction for autonomous vehicles
US10678830B2 (en) * 2018-05-31 2020-06-09 Fmr Llc Automated computer text classification and routing using artificial intelligence transfer learning
CN108881048B (zh) * 2018-08-23 2019-06-14 北京理工大学 一种基于强化学习的命名数据网络拥塞控制方法
WO2020062165A1 (zh) * 2018-09-29 2020-04-02 区链通网络有限公司 一种强化学习模型的训练方法、节点、系统及存储介质
CN109682392B (zh) * 2018-12-28 2020-09-01 山东大学 基于深度强化学习的视觉导航方法及系统
CN109978176B (zh) * 2019-03-05 2021-01-19 华南理工大学 一种基于状态动态感知的多智能体合作学习方法
CN110311863B (zh) * 2019-05-09 2020-08-21 北京邮电大学 一种路由路径确定方法及装置

Also Published As

Publication number Publication date
CN113206786A (zh) 2021-08-03
US20220366266A1 (en) 2022-11-17
WO2021151309A1 (zh) 2021-08-05

Similar Documents

Publication Publication Date Title
CN109376867B (zh) 两量子比特逻辑门的处理方法及装置
Nikou et al. Cooperative planning for coupled multi-agent systems under timed temporal specifications
US11630987B2 (en) Neural belief reasoner
CN113206786B (zh) 训练智能体的方法和装置
Seo et al. Toward semantic communication protocols: A probabilistic logic perspective
Belgacem et al. MUSCLE-HPC: a new high performance API to couple multiscale parallel applications
Rouff et al. Properties of a formal method for prediction of emergent behaviors in swarm-based systems
Varshosaz et al. Modeling and verification of probabilistic actor systems using pRebeca
Slamnik-Kriještorac et al. Network applications (netapps) as a 5g booster for transport & logistics (t&l) services: The vital-5g approach
Tang et al. Distributed multi-robot coalitions through ASyMTRe-D
Happ et al. Graph-neural-network-based delay estimation for communication networks with heterogeneous scheduling policies
CN113364690B (zh) 接收卡网络传输路径确定方法、装置、终端及存储介质
Choudhary et al. A performance-centric ML-based multi-application mapping technique for regular network-on-chip
Dawis et al. Architecture of computer-based systems using dualistic petri nets
de Barros et al. Application of an adaptive genetic algorithm for task mapping optimisation on a wormhole-based real-time network-on-chip
US20200302270A1 (en) Budgeted neural network architecture search system and method
CN110380930A (zh) 一种测试方法、装置及服务器、计算机存储介质
Bal et al. Extreme Learning Machine based Linear Homogeneous Ensemble for Software Fault Prediction.
CN113900933A (zh) 一种测试方法和相关装置
Kathiravelu Software-defined networking-based enhancements to data quality and QoS in multi-tenanted data center clouds
Chen et al. Decentralized Learning Strategies for Estimation Error Minimization with Graph Neural Networks
Liao et al. Efficient Search for Efficient Architecture
Bujarbaruah Robust Model Predictive Control with Data-Driven Learning
Xu et al. Generative AI-enabled Quantum Computing Networks and Intelligent Resource Allocation
Unniyankal et al. RMLGym: a Formal Reward Machine Framework for Reinforcement Learning.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant