CN117076993A - 基于云原生的多智能体博弈决策系统及方法 - Google Patents
基于云原生的多智能体博弈决策系统及方法 Download PDFInfo
- Publication number
- CN117076993A CN117076993A CN202311335079.9A CN202311335079A CN117076993A CN 117076993 A CN117076993 A CN 117076993A CN 202311335079 A CN202311335079 A CN 202311335079A CN 117076993 A CN117076993 A CN 117076993A
- Authority
- CN
- China
- Prior art keywords
- agent
- game
- data
- information
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 152
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 109
- 230000008569 process Effects 0.000 claims abstract description 43
- 238000011156 evaluation Methods 0.000 claims abstract description 41
- 239000003795 chemical substances by application Substances 0.000 claims description 291
- 230000006870 function Effects 0.000 claims description 49
- 238000004458 analytical method Methods 0.000 claims description 44
- 239000013598 vector Substances 0.000 claims description 40
- 230000009471 action Effects 0.000 claims description 33
- 238000007781 pre-processing Methods 0.000 claims description 32
- 238000013528 artificial neural network Methods 0.000 claims description 24
- 239000011159 matrix material Substances 0.000 claims description 24
- 230000008901 benefit Effects 0.000 claims description 22
- 238000005516 engineering process Methods 0.000 claims description 20
- 230000000694 effects Effects 0.000 claims description 18
- 230000007246 mechanism Effects 0.000 claims description 18
- 230000011218 segmentation Effects 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000035945 sensitivity Effects 0.000 claims description 13
- 238000012546 transfer Methods 0.000 claims description 13
- 238000012549 training Methods 0.000 claims description 12
- 238000011160 research Methods 0.000 claims description 11
- 238000007621 cluster analysis Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 8
- 230000009466 transformation Effects 0.000 claims description 8
- 238000000844 transformation Methods 0.000 claims description 8
- 238000004140 cleaning Methods 0.000 claims description 7
- 230000003993 interaction Effects 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 6
- 230000002159 abnormal effect Effects 0.000 claims description 5
- 238000010586 diagram Methods 0.000 claims description 5
- 230000009977 dual effect Effects 0.000 claims description 5
- 230000009467 reduction Effects 0.000 claims description 5
- 230000004913 activation Effects 0.000 claims description 4
- 238000001514 detection method Methods 0.000 claims description 4
- 238000010606 normalization Methods 0.000 claims description 4
- 230000000007 visual effect Effects 0.000 claims description 4
- 239000003550 marker Substances 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 238000000638 solvent extraction Methods 0.000 claims 1
- 238000013459 approach Methods 0.000 description 25
- 238000005457 optimization Methods 0.000 description 11
- 230000008859 change Effects 0.000 description 7
- 238000007418 data mining Methods 0.000 description 7
- 238000002790 cross-validation Methods 0.000 description 5
- 238000013144 data compression Methods 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 238000010206 sensitivity analysis Methods 0.000 description 5
- 238000013079 data visualisation Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 4
- 238000004088 simulation Methods 0.000 description 4
- 230000005283 ground state Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 230000003044 adaptive effect Effects 0.000 description 2
- 238000012098 association analyses Methods 0.000 description 2
- 238000010224 classification analysis Methods 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000010355 oscillation Effects 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 230000003595 spectral effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 241000189662 Calla Species 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001364 causal effect Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000000354 decomposition reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 238000013450 outlier detection Methods 0.000 description 1
- 238000005295 random walk Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 239000004576 sand Substances 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000003860 storage Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本发明公开了一种基于云原生的多智能体博弈决策系统及方法,所述方法具体包括:基于已采集的用户需求构建问题场景,构建并形成多智能体博弈模型集合;并基于博弈类型和信息结构,构建多智能体博弈算法,形成多智能体博弈算法集合;逐一采用多智能体博弈算法求解多智能体博弈模型,获得求解结果,形成包括策略方案在内的解集;构建评估算法集合,基于预配置的指标对多智能体模型进行评估,形成多智能体博弈模型优选集合;获取多智能体博弈模型优选集合中的过程数据,调用预存储的解释模块评估策略方案的可解释性参数。本申请实现了高效、灵活、可扩展的博弈决策,适应复杂的问题场景和用户需求。
Description
技术领域
本发明涉及博弈决策系统,尤其是一种基于云原生的多智能体博弈决策系统及方法。
背景技术
云原生的多智能体博弈决策系统是一种利用云计算技术和博弈论理论来实现多个智能体在复杂环境中进行协作或竞争的智能系统。云原生技术可以提供高效、可扩展、可靠和安全的计算资源,支持多智能体系统的快速部署和动态调整。博弈论理论可以为多智能体系统提供均衡、合作和学习等目标和方法,帮助智能体在不确定性和冲突性的情况下做出最优或次优的决策。
云原生的多智能体博弈决策系统有着广泛的应用场景,例如智慧城市、智能交通、智能电网、智能制造、游戏模拟、沙盘推演、智能安防等。这些场景中,多个智能体(如无人车、无人机、机器人、传感器等)需要在网络化、分布式和动态变化的环境中实现有效的信息交换、任务分配、资源优化和风险控制。云原生的多智能体博弈决策系统可以为这些应用场景提供灵活、高效和可信的解决方案。
然而,云原生的多智能体博弈决策系统也面临着一些技术挑战,主要包括以下几个方面:如何根据不同的应用场景和需求,设计合适的多智能体系统模型,包括状态空间、动作空间、观测空间、奖励函数等,并对多智能体系统的性质和性能进行理论分析和评估,如收敛性、稳定性、鲁棒性等。如何根据不同的博弈类型(如合作博弈、非合作博弈、零和博弈等)和信息结构(如完全信息、不完全信息等),设计有效的多智能体博弈算法,包括均衡求解算法、合作机制设计算法、学习与适应算法等,并考虑云计算平台的特点,实现高效、可扩展和可移植的算法。如何利用云计算平台提供的服务和资源,实现多智能体系统的快速部署和动态调整,并解决云计算平台带来的一些问题,如通信延迟、数据安全、成本控制等。总之,智能体数量大、关系复杂时变、决策空间连续等因素都会给多智能体决策智能的求解带来巨大挑战。
故需要进行研究创新,以解决相关问题。
发明内容
发明目的,提供一种基于云原生的多智能体博弈决策方法,以解决现有技术存在的上述问题。并进一步提供一种基于云原生的多智能体博弈决策系统,以实体化上述方法。
技术方案,根据本申请的一个方面,提供一种基于云原生的多智能体博弈决策方法,包括如下步骤:
步骤S1、基于已采集的用户需求构建问题场景,并构建至少一个多智能体博弈模型,形成多智能体博弈模型集合;
步骤S2、获取多智能体博弈模型的博弈类型,并基于博弈类型和信息结构,构建多智能体博弈算法,形成多智能体博弈算法集合;
步骤S3、逐一采用多智能体博弈算法求解多智能体博弈模型,获得求解结果,形成包括策略方案在内的解集;构建评估算法集合,基于预配置的指标对多智能体模型进行评估,形成多智能体博弈模型优选集合;
步骤S4、获取多智能体博弈模型优选集合中的过程数据,调用预存储的解释模块评估策略方案的可解释性参数,获得策略方案的敏感度数据、特征重要性数据和对抗样本分析数据。
根据本申请的一个方面,所述步骤S1进一步为:
步骤S11、对具体的问题场景进行分析,确定问题的背景、目标和约束条件,并根据问题场景选择合适的多智能体博弈模型类型;取用户需求数据,确定的决策问题场景,并采集研究数据,所述研究数据包括智能体特征、环境特征和博弈特征;分析归纳研究数据中的关键信息,提炼问题场景的背景、目标和约束条件;基于关键信息和预配置的映射关系,选择多智能体博弈模型并获取对应的博弈信息,博弈信息包括博弈类型、信息结构和时间顺序;
步骤S12、基于已选择的多智能体博弈模型,对每个智能体进行建模,确定智能体的类型、数量、目标、行动空间、信息结构和奖励函数,并根据智能体之间的关系定义相应的效用函数或博弈矩阵;
步骤S13、对博弈的环境进行建模,确定环境的状态空间、转移函数和观测函数,并根据博弈的时间顺序定义相应的博弈树或博弈图;形成多智能体博弈模型集合。
根据本申请的一个方面,所述步骤S13中还包括对状态空间进行分割:
步骤S131、读取原始的状态空间数据,对原始的状态空间数据进行预处理,包括数据清洗、数据标准化和数据降维,以去除数据中的噪声、异常值和冗余特征,使数据符合一定的格式和范围。
步骤S132、选择合适的聚类分析或图神经网络方法来对预处理后的状态空间数据进行分割,以将数据划分为若干个相似的子集或簇;
步骤S133、评估数据分割的效果和质量,以确定分割是否合理和有效。
根据本申请的一个方面,所述步骤S2进一步为:
步骤S21、读取已选择的多智能体博弈模型,并获取博弈类型和信息结构;
步骤S22、选择对应的多智能体博弈算法对每个智能体进行建模,获得多智能体博弈模型;首先判断博弈类型为非合作博弈还是混合式博弈,然后判断信息是否完全;
若为非合作式博弈且信息完全,选择反事实后悔最小化算法;若为非合作式博弈且信息不完全,选择虚拟自博弈算法;若为混合式博弈且信息不完全,选择深度Q网络算法;若为混合式博弈且信息完全,则从线性规划算法、支配策略小区算法或最优反应算法中选择一种算法;
步骤S23、构建多智能体博弈模型集合。
根据本申请的一个方面,所述步骤S3进一步为:
步骤S31、基于对应的多智能体博弈算法,对模型进行计算求解,当使用反事实后悔最小算法时,过程包括:初始化每个智能体的策略和回报;对每个智能体进行迭代更新,计算其反事实后悔值,并根据其梯度方向调整其策略;重复上一步骤,直到达到收敛条件或预设的迭代次数;
步骤S32、对多智能体博弈算法进行优化,当选择深度Q网络算法时,使用双重Q学习机制,分别使用两个Q网络来估计动作值和选择动作,降低过度估计的偏差;
步骤S33、对计算结果进行可视化分析和处理。
根据本申请的一个方面,步骤S4进一步为:
步骤S41、从多智能体博弈得到的策略中提取关键信息,包括策略的类型、形式和参数;
步骤S42、对多智能体博弈得到的策略进行评价,包括策略的意义、优势和局限性,得到解释性参数,构建策略的解释性参数集合;
步骤S43、对多智能体博弈得到的策略进行比较,并根据不同的评价指标给出策略之间的优劣和差异;所述评价指标包括收益、效率和稳定性;
步骤S44、利用可解释性技术,对多智能体博弈得到的策略进行解释和理解,包括策略的原理、过程和结果,得到策略方案的敏感度数据、特征重要性数据和对抗样本分析数据并输出。
根据本申请的一个方面,步骤S13a中,对状态空间数据进行预处理的过程包括:
步骤S131a、将获取到的状态空间数据转化为Transformer模型可以接受的输入格式:即逐一将每个智能体在每个状态下的观测信息和行动信息拼接成一个序列,并在序列的开头和结尾分别添加特殊的标记符号,以表示序列的开始和结束,同时为每个序列生成相应的位置编码和智能体编码,以表示序列中不同元素的位置和所属的智能体;
步骤S131b、将转化后的状态空间数据输入到Transformer模型中,进行自注意力计算:所述Transformer模型由多层自注意力层和前馈神经网络层组成,每一层都包含一个多头自注意力子层和一个前馈神经网络子层,并且在两个子层之间都有一个残差连接和一个层归一化操作;在自注意力子层中,将输入序列分别经过三个线性变换得到查询向量、键向量和值向量,然后将查询向量和键向量进行点积运算得到注意力得分矩阵,并对其进行缩放和softmax操作,得到注意力权重矩阵,将注意力权重矩阵和值向量进行点积运算得到输出序列;在前馈神经网络子层中,将自注意力子层的输出序列经过两个线性变换和一个激活函数得到最终的输出序列;
步骤S131c、从Transformer模型中提取出预定的信息作为数据预处理的结果;根据不同的目标和需求,选择对应的提取方式;当需要获取整个序列的信息时,选择标记符号对应的输出向量作为序列表示;当需要获取某个智能体或某个状态下的信息,选择相应位置或智能体编码对应的输出向量作为局部表示;当需要获取整个数据集的信息时,选择所有输出向量的平均值或最大值作为全局表示。
根据本申请的一个方面,还包括:
步骤S131d、将预处理后的状态空间数据转化为量子计算可以接受的输入格式,即将每个智能体在每个状态下的观测信息和行动信息编码成一组量子比特,并用量子门来表示智能体之间的相互作用;
步骤S131e、将转化后的状态空间数据输入到量子计算模块中,进行量子计算;
步骤S131f、从量子计算模块中提取出有用的信息,作为数据表示和编码的结果。
根据本申请的一个方面,还包括:使用Transformer模型来生成不同形式和语言的策略解释,并用量子计算来评估策略解释的正确性和合理性;
使用数据预处理对照模块检验数据质量,包括如下流程:
利用BERT语言模型提取意图特征,通过有标签已知意图分类任务对模型进行预训练;
假设每类已知意图样本位于球状区域内,对于每类已知意图簇,定义簇中心和半径用于确定决策边界;
构造损失函数,在每类已知意图特征欧式空间内,同时平衡经验风险和开放空间风险,学习合适的决策边界兼顾已知意图分类和开放域意图检测性能;
利用训练阶段学习到的簇中心和决策边界识别已知意图和开放意图。
根据本申请的另一个方面,一种基于云原生的多智能体博弈决策系统,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述任一项技术方案所述的基于云原生的多智能体博弈决策方法。
有益效果,在本申请中,实现了高效、灵活、可扩展的博弈决策,适应复杂的问题场景和用户需求。提高了博弈决策的准确性和鲁棒性,避免局部最优解和不稳定解。提高了博弈决策的可信度和可解释性,帮助用户理解和评估策略方案的优劣。
附图说明
图1是本发明的流程图。
图2是本发明步骤S1的流程图。
图3是本发明步骤S2的流程图。
图4是本发明步骤S3的流程图。
图5是本发明步骤S4的流程图。
具体实施方式
如图1所示,提供一种基于云原生的多智能体博弈决策方法,包括如下步骤:
步骤S1、基于已采集的用户需求构建问题场景,并构建至少一个多智能体博弈模型,形成多智能体博弈模型集合;
在本步骤中,根据具体的问题场景,设计合适的多智能体博弈模型,包括智能体的类型、数量、目标、行动空间、信息结构、奖励函数等,并考虑博弈的时间顺序、信息不对称、信息不完备等因素。常用的多智能体博弈模型有扩展式博弈模型、观察信息可分解的随机博弈模型等。
步骤S2、获取多智能体博弈模型的博弈类型,并基于博弈类型和信息结构,构建多智能体博弈算法,形成多智能体博弈算法集合;
在本步骤中,根据不同的博弈类型(如合作博弈、非合作博弈、零和博弈等)和信息结构(如完全信息、不完全信息等),设计有效的多智能体博弈算法,包括均衡求解算法、合作机制设计算法、学习与适应算法等,并考虑算法的收敛性、稳定性、可扩展性等性能指标。常用的多智能体博弈算法有反事实后悔最小化算法、虚拟自博弈算法、深度Q网络算法等。
步骤S3、逐一采用多智能体博弈算法求解多智能体博弈模型,获得求解结果,形成包括策略方案在内的解集;构建评估算法集合,基于预配置的指标对多智能体模型进行评估,形成多智能体博弈模型优选集合;
在本步骤中,利用数据挖掘、机器学习、深度学习等技术,对多智能体博弈过程中产生的数据进行处理和分析,包括数据预处理、数据清洗、数据压缩、数据可视化、数据挖掘等,并从数据中提取有用的知识和规律,为决策提供支持和指导。常用的数据处理和分析技术有聚类分析、分类分析、关联分析、回归分析等。
步骤S4、获取多智能体博弈模型优选集合中的过程数据,调用预存储的解释模块评估策略方案的可解释性参数,获得策略方案的敏感度数据、特征重要性数据和对抗样本分析数据。
在本步骤中,利用可解释性技术,对多智能体博弈得到的策略进行解释和理解,包括策略的意义、优势、局限性等,并与其他可能的策略进行比较和评价。常用的可解释性技术有敏感度分析、特征重要性分析、对抗样本分析等。
本实施例中,通过将问题抽象为一个数学模型,描述智能体之间的行为、策略、收益等关系,然后求解多智能体博弈模型,得到每个智能体的最优或次优策略,以及相应的收益;然后筛选出最适合问题场景的模型和算法,以及最优或次优的策略方案;最后分析策略方案对不同因素的敏感度、特征重要性和对抗样本等,以便于理解和验证策略方案。
如图2所示,根据本申请的一个方面,所述步骤S1进一步为:
步骤S11、对具体的问题场景进行分析,确定问题的背景、目标和约束条件,并根据问题场景选择合适的多智能体博弈模型类型;取用户需求数据,确定的决策问题场景,并采集研究数据,所述研究数据包括智能体特征、环境特征和博弈特征;分析归纳研究数据中的关键信息,提炼问题场景的背景、目标和约束条件;基于关键信息和预配置的映射关系,选择多智能体博弈模型并获取对应的博弈信息,博弈信息包括博弈类型、信息结构和时间顺序;
具体而言,首先,收集和整理与问题场景相关的数据,包括智能体的特征、环境的特征、博弈的特征等,以便于对问题场景有一个清晰和全面的了解。然后,分析和归纳数据中的关键信息,包括问题场景的背景(如应用领域、研究目的等)、目标(如期望达到什么效果或性能等)、约束条件(如技术难点、实际限制等),以便于对问题场景有一个明确和具体的定义。最后,根据数据中的关键信息,选择合适的多智能体博弈模型类型,包括博弈类型(如合作博弈、非合作博弈、零和博弈等)、信息结构(如完全信息、不完全信息等)、时间顺序(如同时博弈、先后博弈等),以便于对问题场景有一个合理和有效的建模。
步骤S12、基于已选择的多智能体博弈模型,对每个智能体进行建模,确定智能体的类型、数量、目标、行动空间、信息结构和奖励函数,并根据智能体之间的关系定义相应的效用函数或博弈矩阵;
在本步骤中,确定智能体的类型(如主动或被动)、数量(如固定或动态)、目标(如单一或多元)、行动空间(如离散或连续)、信息结构(如完全或不完全)、奖励函数(如确定或随机)等,并根据智能体之间的关系(如合作或竞争)定义相应的效用函数或博弈矩阵。具体的数据处理过程和实现过程如下:
首先,根据问题场景分析中选择的多智能体博弈模型类型,确定每个智能体的类型,即智能体是主动地参与博弈还是被动地受到博弈影响。例如,如果博弈类型是合作博弈,那么所有智能体都是主动类型;如果博弈类型是非合作博弈,那么可能有些智能体是主动类型,有些智能体是被动类型。
然后,根据问题场景分析中确定的约束条件,确定每个智能体的数量,即智能体是固定数量还是动态数量。例如,如果约束条件是技术难点,那么可能需要限制智能体的数量为固定值;如果约束条件是实际限制,那么可能需要适应智能体的数量为动态值。
接着,根据问题场景分析中确定的目标,确定每个智能体的目标,即智能体是追求单一目标还是多元目标。例如,如果目标是期望达到最大的收益或性能,那么可能需要让智能体追求单一目标;如果目标是期望达到最优的平衡或协调,那么可能需要让智能体追求多元目标。
然后,根据问题场景分析中选择的多智能体博弈模型类型,确定每个智能体的行动空间,即智能体可以采取的行动是离散的还是连续的。例如,如果博弈类型是零和博弈,那么可能需要让智能体的行动空间是离散的;如果博弈类型是非零和博弈,那么可能需要让智能体的行动空间是连续的。
接着,根据问题场景分析中选择的多智能体博弈模型类型,确定每个智能体的信息结构,即智能体可以观测到的信息是完全的还是不完全的。例如,如果信息结构是完全信息,那么每个智能体可以观测到所有其他智能体的信息;如果信息结构是不完全信息,那么每个智能体只能观测到部分或者没有其他智能体的信息。
最后,根据问题场景分析中确定的目标和约束条件,确定每个智能体的奖励函数,即智能体在每个状态下采取每个行动后得到的回报是确定的还是随机的。例如,如果目标是期望达到最大的收益或性能,那么可能需要让智能体的奖励函数是确定的;如果目标是期望达到最优的平衡或协调,那么可能需要让智能体的奖励函数是随机的。并且,根据智能体之间的关系(如合作或竞争),定义相应的效用函数或博弈矩阵,即智能体在每个状态下采取每个行动后对整个系统或其他智能体产生的影响是什么。例如,如果关系是合作,那么可能需要定义效用函数为所有智能体奖励函数之和;如果关系是竞争,那么可能需要定义博弈矩阵为每个智能体奖励函数之差。
步骤S13、对博弈的环境进行建模,确定环境的状态空间、转移函数和观测函数,并根据博弈的时间顺序定义相应的博弈树或博弈图;形成多智能体博弈模型集合。
对博弈的环境进行建模,确定环境的状态空间(如离散或连续)、转移函数(如确定或随机)、观测函数(如完全或部分)等,并根据博弈的时间顺序(如同时或先后)定义相应的博弈树或博弈图。具体的数据处理过程和实现过程如下:
首先,根据问题场景分析中选择的多智能体博弈模型类型和约束条件,确定环境的状态空间,即环境可以处于哪些状态,并且这些状态是离散的还是连续的。例如,如果博弈类型是合作博弈,并且约束条件是技术难点,那么可能需要让环境的状态空间是离散的;如果博弈类型是非合作博弈,并且约束条件是实际限制,那么可能需要让环境的状态空间是连续的。根据问题场景分析中选择的多智能体博弈模型类型和约束条件,确定环境的转移函数,即环境在每个状态下采取每个行动后会转移到哪些状态,并且这些转移是确定的还是随机的。例如,如果博弈类型是合作博弈,并且约束条件是技术难点,那么可能需要让环境的转移函数是确定的;如果博弈类型是非合作博弈,并且约束条件是实际限制,那么可能需要让环境的转移函数是随机的。然后,根据问题场景分析中选择的多智能体博弈模型类型和约束条件,确定环境的观测函数,即每个智能体在每个状态下可以观测到哪些信息,并且这些信息是完全的还是部分的。例如,如果信息结构是完全信息,并且约束条件是技术难点,那么可能需要让每个智能体在每个状态下可以观测到所有信息;如果信息结构是不完全信息,并且约束条件是实际限制,那么可能需要让每个智能体在每个状态下只能观测到部分或者没有信息。最后,根据问题场景分析中选择的多智能体博弈模型类型和约束条件,定义相应的博弈树或博弈图,即用图形的方式表示博弈的时间顺序、状态空间、行动空间、信息结构、奖励函数等。例如,如果博弈类型是先后博弈,并且约束条件是技术难点,那么可能需要使用博弈树来表示博弈过程;如果博弈类型是同时博弈,并且约束条件是实际限制,那么可能需要使用博弈图来表示博弈过程。
在在进一步的实施例中,使用聚类分析或图神经网络对状态空间进行分割:
对原始的状态空间数据进行预处理,包括数据清洗、数据标准化、数据降维等,以去除数据中的噪声、异常值、冗余特征等,并使数据符合一定的格式和范围。
选择合适的聚类分析或图神经网络方法来对预处理后的状态空间数据进行分割,以将数据划分为若干个相似的子集或簇。常用的聚类分析方法有K-Means、谱聚类、层次聚类等;常用的图神经网络方法有GCN、GAT、GraphSAGE等。评估数据分割的效果和质量,以确定分割是否合理和有效。常用的评估指标有轮廓系数、调整兰德指数、模块度等。
在本实施例中,根据具体的问题场景进行分析,选择合适的多智能体博弈模型类型,提高了方案的针对性和适应性。通过对每个智能体和博弈的环境进行建模,确定智能体的目标、行动空间、信息结构和奖励函数,以及环境的状态空间、转移函数和观测函数,提高了方案的完整性和准确性。通过形成多智能体博弈模型集合,为后续的博弈算法和评估算法提供多种选择,提高了方案的灵活性和优化性。
根据本申请的一个方面,所述步骤S13中还包括对状态空间进行分割:
步骤S131、读取原始的状态空间数据,对原始的状态空间数据进行预处理,包括数据清洗、数据标准化和数据降维,以去除数据中的噪声、异常值和冗余特征,使数据符合一定的格式和范围。
步骤S132、选择合适的聚类分析或图神经网络方法来对预处理后的状态空间数据进行分割,以将数据划分为若干个相似的子集或簇;
步骤S133、评估数据分割的效果和质量,以确定分割是否合理和有效。
通过对状态空间进行分割,以降低状态空间的复杂度和维度,提高了方案的效率和可行性。通过对原始的状态空间数据进行预处理,以提高数据的质量和可用性,提高了方案的准确性和鲁棒性。本实施例可以选择合适的聚类分析或图神经网络方法来对数据进行分割,以发现数据中的潜在结构和模式,提高了方案的灵活性和创新性。本实施例可以评估数据分割的效果和质量,以确定分割是否合理和有效,提高了方案的可靠性和优化性。
在进一步的实施例中,使用图神经网络方法来对预处理后的状态空间数据进行分割:
步骤13i、构建图结构:将预处理后的状态空间数据转换为图结构,即用节点和边来表示状态和状态之间的关系。常用的方法有以下几种:
基于距离的方法。这种方法根据状态之间的距离或相似度来建立边,例如欧氏距离、余弦相似度等。这种方法简单易实现,但可能忽略了状态之间的复杂依赖关系。
基于规则的方法。这种方法根据一些预定义的规则或逻辑来建立边,例如状态转移概率、因果关系等。这种方法可以捕捉状态之间的显式关系,但可能需要专家知识或额外的数据。
基于学习的方法。利用机器学习或深度学习来自动学习边的权重或存在性,例如图自编码器、图注意力网络等。这种方法可以捕捉状态之间的隐式关系,但可能需要大量的训练数据和计算资源。
步骤13ii、应用图神经网络,选择合适的图神经网络模型来对构建好的图结构进行信息传播和特征提取,从而得到每个节点(即每个状态)的新特征向量。常用的图神经网络模型有以下几种:
图卷积网络(GCN)。这种模型类似于卷积神经网络,但是将卷积操作从欧氏空间推广到非欧氏空间,即图空间。它通过将节点特征与邻居节点特征进行加权平均来更新节点特征,其中权重由邻接矩阵或拉普拉斯矩阵决定。
图注意力网络(GAT)。这种模型类似于注意力机制,但是将注意力机制从序列数据推广到图数据。它通过将节点特征与邻居节点特征进行加权拼接来更新节点特征,其中权重由注意力函数决定,可以是多头注意力或自注意力等。
图自编码器(GAE)。这种模型类似于自编码器,但是将自编码器从欧氏空间推广到非欧氏空间,即图空间。它通过将节点特征编码为低维向量,并通过解码器重构图结构来更新节点特征,其中编码器和解码器可以是GCN或GAT等。
步骤13iii、进行数据分割。根据图神经网络得到的新特征向量来对节点(即状态)进行分割,即将节点划分为若干个相似的子集或簇。常用的方法有以下几种3:
基于距离的方法。这种方法根据节点之间的距离或相似度来进行分割,例如K-Means、谱聚类、层次聚类等。这种方法简单易实现,但可能受到异常值或噪声的影响。
基于密度的方法。这种方法根据节点周围的密度来进行分割,例如DBSCAN、OPTICS、HDBSCAN等。这种方法可以发现任意形状的簇,但可能需要调整一些敏感的参数。
基于模型的方法。这种方法根据一些概率模型或优化目标来进行分割,例如高斯混合模型、混合模型聚类、图切割等。这种方法可以得到更准确的分割结果,但可能需要更多的计算资源。
如图3所示,根据本申请的一个方面,所述步骤S2进一步为:
步骤S21、读取已选择的多智能体博弈模型,并获取博弈类型和信息结构;
步骤S22、选择对应的多智能体博弈算法对每个智能体进行建模,获得多智能体博弈模型;首先判断博弈类型为非合作博弈还是混合式博弈,然后判断信息是否完全;
若为非合作式博弈且信息完全,选择反事实后悔最小化算法;若为非合作式博弈且信息不完全,选择虚拟自博弈算法;若为混合式博弈且信息不完全,选择深度Q网络算法;若为混合式博弈且信息完全,则从线性规划算法、支配策略小区算法或最优反应算法中选择一种算法;
步骤S23、构建多智能体博弈模型集合。
在本实施例中,根据已选择的多智能体博弈模型,获取博弈类型和信息结构,提高了方案的针对性和准确性。通过选择对应的多智能体博弈算法对每个智能体进行建模,提高了方案的效率和优化性。通过根据不同的博弈类型和信息结构,选择合适的博弈算法,包括反事实后悔最小化算法、虚拟自博弈算法、深度Q网络算法、线性规划算法、支配策略小区算法或最优反应算法,提高了方案的灵活性和创新性。通过构建多智能体博弈模型集合,为后续的求解和评估提供多种选择,提高了方案的可靠性和适应性。
如图4所示,根据本申请的一个方面,所述步骤S3进一步为:
步骤S31、基于对应的多智能体博弈算法,对模型进行计算求解,当使用反事实后悔最小算法时,过程包括:初始化每个智能体的策略和回报;对每个智能体进行迭代更新,计算其反事实后悔值,并根据其梯度方向调整其策略;重复上一步骤,直到达到收敛条件或预设的迭代次数;
步骤S32、对多智能体博弈算法进行优化,当选择深度Q网络算法时,使用双重Q学习机制,分别使用两个Q网络来估计动作值和选择动作,降低过度估计的偏差;
对所实现的多智能体博弈算法进行优化,提高其性能和效率,例如,如果选择深度Q网络算法,那么可以采用以下几种优化技术:(1)使用经验回放机制,从历史数据中随机抽取样本进行学习,打破数据之间的相关性;(2)使用目标网络机制,定期更新目标网络的参数,减少目标函数的震荡;(3)使用双重Q学习机制,分别使用两个Q网络来估计动作值和选择动作,降低过度估计的偏差;(4)使用多头注意力机制,增强智能体之间的信息交流和协调能力;(5)使用自适应学习率机制,根据梯度变化动态调整学习率,加速收敛过程。
步骤S33、对计算结果进行可视化分析和处理。
在本实施例中,基于对应的多智能体博弈算法,对模型进行计算求解,提高了方案的效率和准确性。通过对多智能体博弈算法进行优化,提高了方案的鲁棒性和创新性。通过对计算结果进行可视化分析和处理,提高了方案的可理解性和可信度。
如图5所示,根据本申请的一个方面,步骤S4进一步为:
步骤S41、从多智能体博弈得到的策略中提取关键信息,包括策略的类型、形式和参数;
步骤S42、对多智能体博弈得到的策略进行评价,包括策略的意义、优势和局限性,得到解释性参数,构建策略的解释性参数集合;
步骤S43、对多智能体博弈得到的策略进行比较,并根据不同的评价指标给出策略之间的优劣和差异;所述评价指标包括收益、效率和稳定性;
步骤S44、利用可解释性技术,对多智能体博弈得到的策略进行解释和理解,包括策略的原理、过程和结果,得到策略方案的敏感度数据、特征重要性数据和对抗样本分析数据并输出。
在本实施例中,通过从多智能体博弈得到的策略中提取关键信息,提高了方案的可理解性和可比较性。通过对多智能体博弈得到的策略进行评价,提高了方案的可信度和优化性。通过对多智能体博弈得到的策略进行比较,并根据不同的评价指标给出策略之间的优劣和差异,提高了方案的可选择性和适应性。通过利用可解释性技术,对多智能体博弈得到的策略进行解释和理解,提高了方案的可解释性和可验证性。
在本申请的另一实施例中,利用数据挖掘、机器学习、深度学习等技术,对多智能体博弈过程中产生的数据进行处理和分析,包括数据预处理、数据清洗、数据压缩、数据可视化、数据挖掘等,并从数据中提取有用的知识和规律,为决策提供支持和指导。具体的数据处理过程和实现过程如下:
首先,对多智能体博弈过程中产生的数据进行数据预处理,即对数据进行格式转换、缺失值填充、异常值检测、噪声消除等操作,以提高数据的质量和可用性。
然后,对多智能体博弈过程中产生的数据进行数据清洗,即对数据进行去重复、去冗余、去不一致等操作,以减少数据的复杂度和冗余性。
接着,对多智能体博弈过程中产生的数据进行数据压缩,即对数据进行降维、特征选择、数据聚类、数据编码、特征提取等操作,以降低数据的维度和存储空间。
然后,对多智能体博弈过程中产生的数据进行数据可视化,即对数据进行图形化、动画化、交互化等操作,以增强数据的可视性和可解释性。
最后,对多智能体博弈过程中产生的数据进行数据挖掘,即利用聚类分析、分类分析、关联分析、回归分析等技术,从数据中发现有用的模式和规律,并根据模式和规律生成相应的知识和建议,以辅助决策和优化策略。
在本申请的另一实施例中,利用评估指标和评估方法,对多智能体博弈系统的性能和效果进行评估,包括系统的准确性、稳定性、鲁棒性、可扩展性等。常用的评估指标有纳什均衡度、帕累托最优度、社会福利度等;常用的评估方法有交叉验证法、留一法、自助法等。具体的模型评估过程和实现过程如下:
首先,选择合适的评估指标来衡量多智能体博弈系统的性能和效果。例如,如果博弈类型是合作博弈,并且目标是达到最大的社会福利,那么可以选择社会福利度作为评估指标;如果博弈类型是非合作博弈,并且目标是达到最优的个体收益,那么可以选择纳什均衡度作为评估指标;如果博弈类型是混合博弈,并且目标是达到最优的平衡和协调,那么可以选择帕累托最优度作为评估指标。
然后,选择合适的评估方法来评估多智能体博弈系统的性能和效果。例如,如果数据量较大,并且数据分布较均匀,那么可以选择交叉验证法作为评估方法;如果数据量较小,并且数据分布较不均匀,那么可以选择留一法作为评估方法;如果数据量不确定,并且数据分布不明确,那么可以选择自助法作为评估方法。
接着,根据所选的评估指标和评估方法,对多智能体博弈系统的性能和效果进行评估。例如,如果选择社会福利度作为评估指标,并且选择交叉验证法作为评估方法,那么将数据集划分为若干个子集,并将其中一个子集作为测试集,其余的子集作为训练集,然后用训练集训练多智能体博弈系统,并用测试集测试多智能体博弈系统的社会福利度,重复这个过程若干次,并计算平均值和方差作为最终的评估结果。
在本申请的另一实施例中,利用可解释性技术,对多智能体博弈得到的策略进行解释和理解,包括策略的意义、优势、局限性等,并与其他可能的策略进行比较和评价。常用的可解释性技术有敏感度分析、特征重要性分析、对抗样本分析等。具体的策略解释过程和实现过程如下:
首先,利用敏感度分析技术,对多智能体博弈得到的策略进行敏感度分析,即分析策略对输入数据或参数变化的敏感程度。例如,如果想知道策略对某个智能体的行动空间变化的敏感程度,那么可以固定其他条件不变,只改变该智能体的行动空间,并观察策略的变化情况。
然后,利用特征重要性分析技术,对多智能体博弈得到的策略进行特征重要性分析,即分析策略对输入数据或参数中不同特征的重要程度。例如,如果想知道策略对某个智能体的目标函数中不同因素的重要程度,那么可以固定其他条件不变,只改变该智能体的目标函数中不同因素的权重,并观察策略的变化情况。
最后,利用对抗样本分析技术,对多智能体博弈得到的策略进行对抗样本分析,即分析策略对输入数据或参数中存在噪声或攻击时的鲁棒性。例如,如果想知道策略对某个智能体的观测信息中存在误差或欺骗时的鲁棒性,那么可以固定其他条件不变,只改变该智能体的观测信息中不同因素的误差或欺骗程度,并观察策略的变化情况。
根据本申请的一个方面,步骤S13a中,对状态空间数据进行预处理的过程包括:
步骤S131a、将获取到的状态空间数据转化为Transformer模型可以接受的输入格式:即逐一将每个智能体在每个状态下的观测信息和行动信息拼接成一个序列,并在序列的开头和结尾分别添加特殊的标记符号,以表示序列的开始和结束,同时为每个序列生成相应的位置编码和智能体编码,以表示序列中不同元素的位置和所属的智能体;
步骤S131b、将转化后的状态空间数据输入到Transformer模型中,进行自注意力计算:所述Transformer模型由多层自注意力层和前馈神经网络层组成,每一层都包含一个多头自注意力子层和一个前馈神经网络子层,并且在两个子层之间都有一个残差连接和一个层归一化操作;在自注意力子层中,将输入序列分别经过三个线性变换得到查询向量、键向量和值向量,然后将查询向量和键向量进行点积运算得到注意力得分矩阵,并对其进行缩放和softmax操作,得到注意力权重矩阵,将注意力权重矩阵和值向量进行点积运算得到输出序列;在前馈神经网络子层中,将自注意力子层的输出序列经过两个线性变换和一个激活函数得到最终的输出序列;
步骤S131c、从Transformer模型中提取出预定的信息作为数据预处理的结果;根据不同的目标和需求,选择对应的提取方式;当需要获取整个序列的信息时,选择标记符号对应的输出向量作为序列表示;当需要获取某个智能体或某个状态下的信息,选择相应位置或智能体编码对应的输出向量作为局部表示;当需要获取整个数据集的信息时,选择所有输出向量的平均值或最大值作为全局表示。
在本申请的另一实施例中,从多智能体博弈得到的策略中提取关键信息,包括策略的类型(如确定或随机)、形式(如表格或函数)、参数(如权重或概率)等,并将策略以简洁和清晰的方式表示出来。对多智能体博弈得到的策略进行评价,包括策略的意义(如达到什么目标或效果)、优势(如比其他策略更好或更快)、局限性(如存在什么缺陷或风险)等,并将评价以客观和公正的方式给出。对多智能体博弈得到的策略进行比较,包括与其他可能的策略进行对比和分析,并根据不同的指标(如收益、效率、稳定性等)给出策略之间的优劣和差异。利用可解释性技术,对多智能体博弈得到的策略进行解释和理解,包括策略的原理(如基于什么理论或算法)、过程(如经历了什么步骤或变化)、结果(如产生了什么影响或后果)等,并将解释以简明和易懂的方式呈现。采用一些技术来简化和抽象环境的状态空间和转移函数,以降低环境的复杂度和不确定性。例如,可以使用聚类分析或者图神经网络来对状态空间进行分割和表示,从而减少状态的维度和数量;可以使用贝叶斯网络或者深度神经网络来对转移函数进行建模和学习,从而提高转移函数的准确性和可预测性。采用一些技术来提高多智能体博弈算法的效率和效果,以应对智能体数量大和决策空间连续的挑战。例如,可以使用分布式计算或者并行计算来加速算法的运行速度和扩展性;可以使用深度强化学习或者演化算法来增强算法的学习能力和适应性。采用一些技术来评估多智能体博弈得到的策略的质量和稳定性,以应对智能体关系复杂时变的挑战。例如,可以使用博弈理论或者社会选择理论来分析策略的均衡性、有效性、公平性等指标;可以使用模拟测试或者实际部署来检验策略的可行性、可靠性、可持续性等指标。
通过对状态空间数据进行预处理,以提高数据的质量和可用性,提高了方案的准确性和鲁棒性。利用Transformer模型进行自注意力计算,以提取数据中的关键信息和潜在结构,提高了方案的灵活性和创新性。根据不同的目标和需求,选择对应的提取方式,以获取整个序列、局部或全局的信息表示,提高了方案的可理解性和可比较性。
根据本申请的一个方面,还包括:
步骤S131d、将预处理后的状态空间数据转化为量子计算可以接受的输入格式,即将每个智能体在每个状态下的观测信息和行动信息编码成一组量子比特,并用量子门来表示智能体之间的相互作用;
步骤S131e、将转化后的状态空间数据输入到量子计算模块中,进行量子计算;
步骤S131f、从量子计算模块中提取出有用的信息,作为数据表示和编码的结果。
在本实施例中,通过对状态空间数据进行预处理,以提高数据的质量和可用性,提高了方案的准确性和鲁棒性。通过利用量子计算技术进行数据表示和编码,以提高数据的压缩率和信息量,提高了方案的效率和创新性。通过从量子计算模块中提取出有用的信息,作为数据预处理的结果,提高了方案的可理解性和可比较性。
根据本申请的一个方面,还包括使用Transformer模型来生成不同形式和语言的策略解释,并用量子计算来评估策略解释的正确性和合理性。
使用数据预处理对照模块检验数据质量,包括如下流程:
利用BERT语言模型提取意图特征,通过有标签已知意图分类任务对模型进行预训练;
假设每类已知意图样本位于球状区域内,对于每类已知意图簇,定义簇中心和半径用于确定决策边界;
构造损失函数,在每类已知意图特征欧式空间内,同时平衡经验风险和开放空间风险,学习合适的决策边界兼顾已知意图分类和开放域意图检测性能;
利用训练阶段学习到的簇中心和决策边界识别已知意图和开放意图。
通过使用Transformer模型来生成不同形式和语言的策略解释,提高了方案的可理解性和可适应性。通过用量子计算来评估策略解释的正确性和合理性,提高了方案的可信度和优化性。通过使用数据预处理对照模块检验数据质量,提高了方案的准确性和鲁棒性。
根据本申请的另一个方面,一种基于云原生的多智能体博弈决策系统,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述任一项技术方案所述的基于云原生的多智能体博弈决策方法。
在进一步的实施例中,给出如下数据处理流程。
步骤S1: 状态空间数据的表示和编码
S11: 数据获取。从多智能体博弈系统中获取状态空间数据,即每个智能体在每个状态下的观测信息和行动信息。常用的数据获取方法有以下几种:
基于模拟的方法。这种方法利用模拟器或仿真器来生成状态空间数据,例如OpenAI Gym、PyMARL等。这种方法可以自由控制博弈的类型、规模、参数等,但可能与真实场景存在差异或偏差。
基于实验的方法。这种方法利用实验平台或设备来收集状态空间数据,例如RoboCup、StarCraft II等。这种方法可以更贴近真实场景,但可能受到实验条件或资源的限制。
基于混合的方法。这种方法利用模拟器和实验平台的结合来产生状态空间数据,例如AirSim、CARLA等。这种方法可以平衡真实性和可控性,但可能需要更多的技术和工作量。
S12: 数据预处理。对获取到的状态空间数据进行数据预处理,即对数据进行格式转换、缺失值填充、异常值检测、噪声消除等操作,以提高数据的质量和可用性。常用的数据预处理方法有以下几种:
基于规则的方法。这种方法根据一些预定义的规则或逻辑来进行数据预处理,例如将观测信息转化为向量或矩阵形式,将行动信息转化为离散或连续形式,将缺失值填充为均值或中位数等。这种方法可以简单易实现,但可能需要专家知识或额外的数据。
基于学习的方法。这种方法利用机器学习或深度学习来进行数据预处理,例如使用自编码器或变分自编码器来进行数据压缩或重构,使用生成对抗网络或变分生成对抗网络来进行数据增强或生成等。这种方法可以自动学习数据的特征和分布,但可能需要大量的训练数据和计算资源。
基于Transformer模型的方法。这种方法利用Transformer模型来进行数据预处理,即利用自注意力机制来捕捉数据中的长程依赖关系和多义性,提高数据的语义表达和信息抽取效果。这种方法可以适应不同类型和规模的数据,但可能需要调整一些超参数或结构。
S13: 数据表示和编码。对预处理后的状态空间数据进行数据表示和编码,即利用一些数学或物理模型来描述状态空间数据中不同智能体之间的关系和相互作用,以提高数据的可计算性和可分析性。常用的数据表示和编码方法有以下几种:
基于图的方法。这种方法利用图结构来表示状态空间数据,即用节点和边来表示智能体和智能体之间的关系,例如邻接矩阵、拉普拉斯矩阵、图嵌入等。这种方法可以直观地展示数据的拓扑结构和连接性,但可能忽略了数据的动态性和复杂性。
基于张量的方法。这种方法利用张量结构来表示状态空间数据,即用多维数组来表示智能体和智能体之间的相互作用,例如张量分解、张量网络、张量嵌入等。这种方法可以有效地捕捉数据的高维性和非线性性,但可能需要较多的存储空间和计算资源。
基于量子计算的方法。这种方法利用量子计算的原理和技术来表示状态空间数据,即用量子比特和量子门来表示智能体和智能体之间的叠加和纠缠,例如量子线路、量子态、量子嵌入等。这种方法可以极大地提高数据的处理和分析速度,但可能需要一些特殊的硬件和软件。
步骤S2:多智能体博弈算法的选择、实现和优化
S21、算法选择。根据博弈的类型和信息结构,选择合适的多智能体博弈算法,例如,如果博弈是合作式的,并且信息是完全的,那么可以选择反事实后悔最小化算法;如果博弈是非合作式的,并且信息是不完全的,那么可以选择虚拟自博弈算法;如果博弈是混合式的,并且信息是部分的,那么可以选择深度Q网络算法。
S22、算法实现。根据所选的多智能体博弈算法,实现相应的计算过程,例如,如果选择反事实后悔最小化算法,那么实现以下几个步骤:(1)初始化每个智能体的策略和回报;(2)对每个智能体进行迭代更新,计算其反事实后悔值,并根据其梯度方向调整其策略;(3)重复步骤(2),直到达到收敛条件或预设的迭代次数。
S23: 算法优化。对所实现的多智能体博弈算法进行优化,提高其性能和效率,例如,如果选择深度Q网络算法,那么可以采用以下几种优化技术:(1)使用经验回放机制,从历史数据中随机抽取样本进行学习,打破数据之间的相关性;(2)使用目标网络机制,定期更新目标网络的参数,减少目标函数的震荡;(3)使用双重Q学习机制,分别使用两个Q网络来估计动作值和选择动作,降低过度估计的偏差;(4)使用多头注意力机制,增强智能体之间的信息交流和协调能力;(5)使用自适应学习率机制,根据梯度变化动态调整学习率,加速收敛过程。
步骤S3: 模型评估和策略解释
S31: 数据处理和分析。利用数据挖掘、机器学习、深度学习等技术,对多智能体博弈过程中产生的数据进行处理和分析,包括数据预处理、数据清洗、数据压缩、数据可视化、数据挖掘等,并从数据中提取有用的知识和规律,为决策提供支持和指导。
S32: 模型评估。利用评估指标和评估方法,对多智能体博弈系统的性能和效果进行评估,包括系统的准确性、稳定性、鲁棒性、可扩展性等。常用的评估指标有纳什均衡度、帕累托最优度、社会福利度等;常用的评估方法有交叉验证法、留一法、自助法等。
S4: 策略解释。利用可解释性技术,对多智能体博弈得到的策略进行解释和理解,包括策略的意义、优势、局限性等,并与其他可能的策略进行比较和评价。常用的可解释性技术有敏感度分析、特征重要性分析、对抗样本分析等。
在本申请的另一实施例中,基于Transformer模型的数据预处理过程和实现过程如下:
首先,将获取到的状态空间数据转化为Transformer模型可以接受的输入格式,即将每个智能体在每个状态下的观测信息和行动信息拼接成一个序列,并在序列的开头和结尾分别添加特殊的标记符号,例如[CLS]和[SEP],以表示序列的开始和结束。同时,还需要为每个序列生成相应的位置编码和智能体编码,以表示序列中不同元素的位置和所属的智能体。
然后,将转化后的状态空间数据输入到Transformer模型中,进行自注意力计算。Transformer模型由多层自注意力层和前馈神经网络层组成,每一层都包含一个多头自注意力子层和一个前馈神经网络子层,并且在两个子层之间都有一个残差连接和一个层归一化操作。在自注意力子层中,将输入序列分别经过三个线性变换得到查询向量、键向量和值向量,然后将查询向量和键向量进行点积运算得到注意力得分矩阵,并对其进行缩放和softmax操作得到注意力权重矩阵,最后将注意力权重矩阵和值向量进行点积运算得到输出序列。在前馈神经网络子层中,将自注意力子层的输出序列经过两个线性变换和一个激活函数得到最终的输出序列。
最后,从Transformer模型中提取出有用的信息,作为数据预处理的结果。根据不同的目标和需求,可以选择不同的提取方式,例如,如果想获取整个序列的信息,那么可以选择[CLS]标记符号对应的输出向量作为序列表示;如果想获取某个智能体或某个状态下的信息,那么可以选择相应位置或智能体编码对应的输出向量作为局部表示;如果想获取整个数据集的信息,那么可以选择所有输出向量的平均值或最大值作为全局表示。
在本申请的另一实施例中,基于量子计算的数据表示和编码过程和实现过程如下:
首先,将预处理后的状态空间数据转化为量子计算可以接受的输入格式,即将每个智能体在每个状态下的观测信息和行动信息编码成一组量子比特,并用量子门来表示智能体之间的相互作用。常用的量子编码方法有以下几种:
基于幅度编码的方法。这种方法利用量子态中不同基态对应的幅度来表示数据中不同元素或特征的值,例如用xi来表示第i个元素或特征的值,并归一化所有的幅度,使得∑xi=1。这种方法可以充分利用量子态的高维性,但可能需要较多的量子比特和量子门。
基于相位编码的方法。这种方法利用量子态中不同基态对应的相位来表示数据中不同元素或特征的值,例如用eiθi来表示第i个元素或特征的值,并保持所有的幅度相等。这种方法可以节省量子比特和量子门的资源,但可能需要较高的精度和稳定性。
基于量子嵌入的方法。这种方法利用一些特殊的量子线路来表示数据中不同元素或特征的值,例如用随机特征映射或变分特征映射等技术来将数据从经典空间映射到量子空间,并用一些参数化的量子门来调整映射的效果。这种方法可以灵活地适应不同类型和规模的数据,但可能需要一些优化或训练的过程。
然后,将转化后的状态空间数据输入到量子计算模块中,进行量子计算。量子计算模块由多个量子比特和量子门组成,每个量子比特可以处于两个基态(0或1)或它们的叠加态,每个量子门可以对一个或多个量子比特进行操作,改变它们的幅度或相位。常用的量子计算技术有以下几种:
基于量子线路模型的技术。这种技术利用一系列固定或可调节的量子门来构建量子线路,实现对数据的处理和分析,例如用哈达玛门来实现数据的叠加,用CNOT门来实现数据的纠缠,用旋转门来实现数据的旋转等。这种技术可以直观地展示数据的变化过程,但可能需要较多的量子比特和量子门。
基于量子随机游走的技术。这种技术利用一些随机或确定性的规则来控制一个或多个量子比特在一个有限或无限的图结构上进行游走,实现对数据的搜索和优化,例如用Grover算法来实现无结构数据的快速搜索,用Shor算法来实现大数因式分解等。这种技术可以有效地提高数据的搜索和优化速度,但可能需要一些先验知识或假设条件。
基于量子变分的技术。这种技术利用一些参数化或可训练的量子线路来构建量子变分电路,实现对数据的生成和学习,例如用变分自编码器来实现数据的压缩和重构,用变分生成对抗网络来实现数据的增强和生成等。这种技术可以灵活地适应不同类型和规模的数据,但可能需要一些优化或训练的过程。
最后,从量子计算模块中提取出有用的信息,作为数据表示和编码的结果。根据不同的目标和需求,可以选择不只改变该智能体的观测信息中不同因素的误差或欺骗程度,并观察策略的变化情况。
在本申请的另一实施例中,数据处理过程如下:
步骤S1: 状态空间数据的表示和编码
S11: 数据获取。使用基于模拟、实验或混合的方法,从多智能体博弈系统中获取状态空间数据。
S12: 数据预处理。使用基于规则、学习或Transformer模型的方法,对获取到的状态空间数据进行数据预处理。
S13: 数据表示和编码。使用基于图、张量或量子计算的方法,对预处理后的状态空间数据进行数据表示和编码。
步骤S2: 多智能体博弈算法的选择、实现和优化
S21: 算法选择。根据博弈的类型和信息结构,选择合适的多智能体博弈算法。
S22: 算法实现。根据所选的多智能体博弈算法,实现相应的计算过程。
S23: 算法优化。对所实现的多智能体博弈算法进行优化,提高其性能和效率。
步骤S3: 模型评估和策略解释
S31: 数据处理和分析。使用基于聚类、分类、关联、回归等技术,对多智能体博弈过程中产生的数据进行处理和分析,并从数据中提取有用的知识和规律。
S32: 模型评估。使用基于纳什均衡度、帕累托最优度、社会福利度等指标,以及基于交叉验证法、留一法、自助法等方法,对多智能体博弈系统的性能和效果进行评估。
S4: 策略解释。使用基于敏感度分析、特征重要性分析、对抗样本分析等技术,对多智能体博弈得到的策略进行解释和理解,并与其他可能的策略进行比较和评价。
以上详细描述了本发明的优选实施方式,但是,本发明并不限于上述实施方式中的具体细节,在本发明的技术构思范围内,可以对本发明的技术方案进行多种等同变换,这些等同变换均属于本发明的保护范围。
Claims (10)
1.基于云原生的多智能体博弈决策方法,其特征在于,包括如下步骤:
步骤S1、基于已采集的用户需求构建问题场景,并构建至少一个多智能体博弈模型,形成多智能体博弈模型集合;
步骤S2、获取多智能体博弈模型的博弈类型,并基于博弈类型和信息结构,构建多智能体博弈算法,形成多智能体博弈算法集合;
步骤S3、逐一采用多智能体博弈算法求解多智能体博弈模型,获得求解结果,形成包括策略方案在内的解集;构建评估算法集合,基于预配置的指标对多智能体模型进行评估,形成多智能体博弈模型优选集合;
步骤S4、获取多智能体博弈模型优选集合中的过程数据,调用预存储的解释模块评估策略方案的可解释性参数,获得策略方案的敏感度数据、特征重要性数据和对抗样本分析数据。
2.如权利要求1所述的基于云原生的多智能体博弈决策方法,其特征在于,所述步骤S1进一步为:
步骤S11、对具体的问题场景进行分析,确定问题的背景、目标和约束条件,并根据问题场景选择合适的多智能体博弈模型类型;取用户需求数据,确定的决策问题场景,并采集研究数据,所述研究数据包括智能体特征、环境特征和博弈特征;分析归纳研究数据中的关键信息,提炼问题场景的背景、目标和约束条件;基于关键信息和预配置的映射关系,选择多智能体博弈模型并获取对应的博弈信息,博弈信息包括博弈类型、信息结构和时间顺序;
步骤S12、基于已选择的多智能体博弈模型,对每个智能体进行建模,确定智能体的类型、数量、目标、行动空间、信息结构和奖励函数,并根据智能体之间的关系定义相应的效用函数或博弈矩阵;
步骤S13、对博弈的环境进行建模,确定环境的状态空间、转移函数和观测函数,并根据博弈的时间顺序定义相应的博弈树或博弈图;形成多智能体博弈模型集合。
3.如权利要求2所述的基于云原生的多智能体博弈决策方法,其特征在于,所述步骤S13中还包括对状态空间进行分割:
步骤S131、读取原始的状态空间数据,对原始的状态空间数据进行预处理,包括数据清洗、数据标准化和数据降维,以去除数据中的噪声、异常值和冗余特征,使数据符合一定的格式和范围;
步骤S132、选择合适的聚类分析或图神经网络方法来对预处理后的状态空间数据进行分割,以将数据划分为若干个相似的子集或簇;
步骤S133、评估数据分割的效果和质量,以确定分割是否合理和有效。
4.如权利要求3所述的基于云原生的多智能体博弈决策方法,其特征在于,所述步骤S2进一步为:
步骤S21、读取已选择的多智能体博弈模型,并获取博弈类型和信息结构;
步骤S22、选择对应的多智能体博弈算法对每个智能体进行建模,获得多智能体博弈模型;首先判断博弈类型为非合作博弈还是混合式博弈,然后判断信息是否完全;
若为非合作式博弈且信息完全,选择反事实后悔最小化算法;若为非合作式博弈且信息不完全,选择虚拟自博弈算法;若为混合式博弈且信息不完全,选择深度Q网络算法;若为混合式博弈且信息完全,则从线性规划算法、支配策略小区算法或最优反应算法中选择一种算法;
步骤S23、构建多智能体博弈模型集合。
5.如权利要求4所述的基于云原生的多智能体博弈决策方法,其特征在于,所述步骤S3进一步为:
步骤S31、基于对应的多智能体博弈算法,对模型进行计算求解,当使用反事实后悔最小算法时,过程包括:初始化每个智能体的策略和回报;对每个智能体进行迭代更新,计算其反事实后悔值,并根据其梯度方向调整其策略;重复上一步骤,直到达到收敛条件或预设的迭代次数;
步骤S32、对多智能体博弈算法进行优化,当选择深度Q网络算法时,使用双重Q学习机制,分别使用两个Q网络来估计动作值和选择动作,降低过度估计的偏差;
步骤S33、对计算结果进行可视化分析和处理。
6.如权利要求5所述的基于云原生的多智能体博弈决策方法,其特征在于,步骤S4进一步为:
步骤S41、从多智能体博弈得到的策略中提取关键信息,包括策略的类型、形式和参数;
步骤S42、对多智能体博弈得到的策略进行评价,包括策略的意义、优势和局限性,得到解释性参数,构建策略的解释性参数集合;
步骤S43、对多智能体博弈得到的策略进行比较,并根据不同的评价指标给出策略之间的优劣和差异;所述评价指标包括收益、效率和稳定性;
步骤S44、利用可解释性技术,对多智能体博弈得到的策略进行解释和理解,包括策略的原理、过程和结果,得到策略方案的敏感度数据、特征重要性数据和对抗样本分析数据并输出。
7.如权利要求3所述的基于云原生的多智能体博弈决策方法,其特征在于,步骤S13a中,对状态空间数据进行预处理的过程包括:
步骤S131a、将获取到的状态空间数据转化为Transformer模型可以接受的输入格式:即逐一将每个智能体在每个状态下的观测信息和行动信息拼接成一个序列,并在序列的开头和结尾分别添加特殊的标记符号,以表示序列的开始和结束,同时为每个序列生成相应的位置编码和智能体编码,以表示序列中不同元素的位置和所属的智能体;
步骤S131b、将转化后的状态空间数据输入到Transformer模型中,进行自注意力计算:所述Transformer模型由多层自注意力层和前馈神经网络层组成,每一层都包含一个多头自注意力子层和一个前馈神经网络子层,并且在两个子层之间都有一个残差连接和一个层归一化操作;在自注意力子层中,将输入序列分别经过三个线性变换得到查询向量、键向量和值向量,然后将查询向量和键向量进行点积运算得到注意力得分矩阵,并对其进行缩放和softmax操作,得到注意力权重矩阵,将注意力权重矩阵和值向量进行点积运算得到输出序列;在前馈神经网络子层中,将自注意力子层的输出序列经过两个线性变换和一个激活函数得到最终的输出序列;
步骤S131c、从Transformer模型中提取出预定的信息作为数据预处理的结果;根据不同的目标和需求,选择对应的提取方式;当需要获取整个序列的信息时,选择标记符号对应的输出向量作为序列表示;当需要获取某个智能体或某个状态下的信息,选择相应位置或智能体编码对应的输出向量作为局部表示;当需要获取整个数据集的信息时,选择所有输出向量的平均值或最大值作为全局表示。
8.如权利要求7所述的基于云原生的多智能体博弈决策方法,其特征在于,还包括:
步骤S131d、将预处理后的状态空间数据转化为量子计算可以接受的输入格式,即将每个智能体在每个状态下的观测信息和行动信息编码成一组量子比特,并用量子门来表示智能体之间的相互作用;
步骤S131e、将转化后的状态空间数据输入到量子计算模块中,进行量子计算;
步骤S131f、从量子计算模块中提取出有用的信息,作为数据表示和编码的结果。
9.如权利要求8所述的基于云原生的多智能体博弈决策方法,其特征在于,还包括:使用Transformer模型来生成不同形式和语言的策略解释,并用量子计算来评估策略解释的正确性和合理性;
使用数据预处理对照模块检验数据质量,包括如下流程:
利用BERT语言模型提取意图特征,通过有标签已知意图分类任务对模型进行预训练;
假设每类已知意图样本位于球状区域内,对于每类已知意图簇,定义簇中心和半径用于确定决策边界;
构造损失函数,在每类已知意图特征欧式空间内,同时平衡经验风险和开放空间风险,学习合适的决策边界兼顾已知意图分类和开放域意图检测性能;
利用训练阶段学习到的簇中心和决策边界识别已知意图和开放意图。
10. 一种基于云原生的多智能体博弈决策系统,其特征在于,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求1至9任一项所述的基于云原生的多智能体博弈决策方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311335079.9A CN117076993A (zh) | 2023-10-16 | 2023-10-16 | 基于云原生的多智能体博弈决策系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311335079.9A CN117076993A (zh) | 2023-10-16 | 2023-10-16 | 基于云原生的多智能体博弈决策系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117076993A true CN117076993A (zh) | 2023-11-17 |
Family
ID=88713810
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311335079.9A Pending CN117076993A (zh) | 2023-10-16 | 2023-10-16 | 基于云原生的多智能体博弈决策系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117076993A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117633541A (zh) * | 2024-01-26 | 2024-03-01 | 中国人民解放军军事科学院国防科技创新研究院 | 面向博弈对抗方案评估的参数变量可控式样本生成方法 |
CN117633541B (zh) * | 2024-01-26 | 2024-05-10 | 中国人民解放军军事科学院国防科技创新研究院 | 面向博弈对抗方案评估的参数变量可控式样本生成方法 |
-
2023
- 2023-10-16 CN CN202311335079.9A patent/CN117076993A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117633541A (zh) * | 2024-01-26 | 2024-03-01 | 中国人民解放军军事科学院国防科技创新研究院 | 面向博弈对抗方案评估的参数变量可控式样本生成方法 |
CN117633541B (zh) * | 2024-01-26 | 2024-05-10 | 中国人民解放军军事科学院国防科技创新研究院 | 面向博弈对抗方案评估的参数变量可控式样本生成方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111582694B (zh) | 一种学习评估方法及装置 | |
WO2022008677A1 (en) | Method for detecting and mitigating bias and weakness in artificial intelligence training data and models | |
US20200167659A1 (en) | Device and method for training neural network | |
Bortolussi et al. | Bayesian statistical parameter synthesis for linear temporal properties of stochastic models | |
Rahman et al. | Discretization of continuous attributes through low frequency numerical values and attribute interdependency | |
CN113762595B (zh) | 通行时间预测模型训练方法、通行时间预测方法及设备 | |
US20220292315A1 (en) | Accelerated k-fold cross-validation | |
Li et al. | Explain graph neural networks to understand weighted graph features in node classification | |
CN113822315A (zh) | 属性图的处理方法、装置、电子设备及可读存储介质 | |
CN115661550A (zh) | 基于生成对抗网络的图数据类别不平衡分类方法及装置 | |
Pham et al. | Unsupervised training of Bayesian networks for data clustering | |
Golnaraghi et al. | Predicting construction labor productivity using lower upper decomposition radial base function neural network | |
CN116402352A (zh) | 一种企业风险预测方法、装置、电子设备及介质 | |
Bharadi | QLattice environment and Feyn QGraph models—a new perspective toward deep learning | |
CN113095501A (zh) | 一种基于深度强化学习的不平衡分类决策树生成方法 | |
Liu et al. | Residual useful life prognosis of equipment based on modified hidden semi-Markov model with a co-evolutional optimization method | |
CN116208399A (zh) | 一种基于元图的网络恶意行为检测方法及设备 | |
Zha et al. | Recognizing plans by learning embeddings from observed action distributions | |
CN117076993A (zh) | 基于云原生的多智能体博弈决策系统及方法 | |
Helwegen et al. | Fair algorithms in context | |
Swingler | Mixed Order Hyper-Networks for Function Approximation and Optimisation | |
Nuzzo | Sanity checks for explanations of deep neural networks predictions | |
Narayanan et al. | Overview of Recent Advancements in Deep Learning and Artificial Intelligence | |
Qu et al. | Two-stage coevolution method for deep CNN: A case study in smart manufacturing | |
CN115174421B (zh) | 基于自监督解缠绕超图注意力的网络故障预测方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |