CN109472363B

CN109472363B - 可解释性竞争对手建模方法

Info

Publication number: CN109472363B
Application number: CN201811273002.2A
Authority: CN
Inventors: 潘颖慧; 曾一锋; 唐静
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-10-29
Filing date: 2018-10-29
Publication date: 2021-11-23
Anticipated expiration: 2038-10-29
Also published as: CN109472363A

Abstract

本申请涉及一种可解释性竞争对手建模方法，该方法包括：建立可解释性竞争对手决策模型，所述可解释性竞争对手决策模型包括主体智能体决策模型和竞争对手候选模型；学习所述可解释性竞争对手决策模型；搜索所述主体智能体决策模型的失败原因；根据所述失败原因修正所述竞争对手候选模型；依据所述修正后的竞争对手候选模型更新所述可解释性竞争对手决策模型。本申请实现主体智能体自动建立竞争对手的决策模型，合理解释决策模型在实际操作过程中失败的原因，更新候选模型以达到优化自身决策的目的，提高竞争对手动作预测可靠性和准确性，并且，增强可解释性竞争对手决策模型的适应性。

Description

可解释性竞争对手建模方法

技术领域

本申请涉及人工智能技术领域，尤其是一种可解释性竞争对手建模方法。

背景技术

随着人工智能应用的日益深入和普及，应用领域专家及用户越来越需要了解该技术如何是求解复杂问题的，特别是在技术应用失败的时候，更加迫切地希望找到失败的原因。人工智能技术的可解释性对复杂、重要的任务求解至关重要，是保证技术可靠、应用安全的一个重要因素。

在很多情况下，不确定环境下竞争对手模型建立的场景往往是基于多智能体系统(Multiagent Systems)框架。当多个智能体在共同环境中执行任务时，某一智能体(一般称为主体智能体)的行为可能导致环境状态的更改，从而影响到其他智能体(合作型智能体或竞争型智能体即竞争对手)的行为，以及智能体后续的交互。因此，竞争对手建模的研究与多智能体交互式决策系统的研究密切相关，而基于多智能体交互式决策系统竞争对手建模中，大多数现有技术仍然是知识驱动的，模型构建往往受限于专家知识，这导致了竞争对手的行为预测可靠性和准确性均偏低。另外，主体智能体可能会观测到一些预想不到的外部环境状态变化，导致模型不能进行正确的推理，无法优化自身决策，从而导致建模失败。

发明内容

为至少在一定程度上克服基于知识驱动的多智能体交互式决策系统竞争对手建模中，模型构建受限于专家知识，导致竞争对手的行为预测可靠性和准确性均偏低。另外，主体智能体可能会观测到一些预想不到的外部环境状态变化，导致模型不能进行正确的推理，无法优化自身决策，从而导致建模失败的问题，本申请提供一种可解释性竞争对手建模方法，包括：

建立可解释性竞争对手决策模型，所述可解释性竞争对手决策模型包括主体智能体决策模型和竞争对手候选模型；

学习所述可解释性竞争对手决策模型；

搜索所述主体智能体决策模型的失败原因；

根据所述失败原因修正所述竞争对手候选模型；

依据所述修正后的竞争对手候选模型更新所述可解释性竞争对手决策模型。

进一步的，所述建立可解释性竞争对手决策模型，包括：建立基于交互式动态影响图决策框架的可解释性竞争对手决策模型。

进一步的，所述学习所述可解释性竞争对手决策模型，包括：基于和积最大网络算法学习所述可解释性竞争对手决策模型，并建立相应的动态基于和积最大网络模型。

进一步的，所述学习所述可解释性竞争对手决策模型还包括迁移学习算法，所述迁移学习算法通过分解复杂环境变量及智能体决策，优化所述动态基于和积最大网络模型。

进一步的，所述搜索所述主体智能体决策模型的失败原因，包括：

通过重要性抽样方法估计出候选的竞争对手系列动作；

从所述候选的竞争对手系列动作中选取最相关的竞争对手行为；

根据所述最相关的竞争对手行为确定所述主体智能体决策模型的失败原因。

进一步的，所述修正所述竞争对手候选模型，包括：

根据所述候选的竞争对手系列动作生成第一候选模型空间；

通过求解所述第一候选模型获取竞争对手系列动作；

从所述第一候选模型中抽样出一个或一组竞争对手系列动作为候选的竞争对手真实的系列动作；

依据所述候选的竞争对手真实的系列动作生成第二候选模型。

进一步的，所述生成第二候选模型，包括：

开发基于神经元计算的演化操作算子；

通过所述演化操作算子选择性地对所述第一候选模型进行有想象力的更新和修改，生成第二候选模型。

进一步的，所述的可解释性竞争对手建模方法还包括：基于值等价原理判断所述第二候选模型性能，从理论上对主体智能体的决策质量做一个预判，保证所述第二候选模型不损害主体智能体的决策质量。

进一步的，所述从所述第一候选模型中抽样出一个或一组竞争对手系列动作为候选的竞争对手真实的系列动作，包括：采用渐进学习模型从所述第一候选模型中抽样出一个或一组竞争对手系列动作为候选的竞争对手真实的系列动作，以生成第二候选模型。

进一步的，所述的可解释性竞争对手建模方法还包括：利用游戏重放数据生成竞争对手决策模型，在实时策略游戏平台上验证算法的实际效用。

本申请的实施例提供的技术方案可以包括以下有益效果：

本申请中，通过建立并学习可解释性竞争对手决策模型，搜索出主体智能体决策模型的失败原因，根据失败原因修正竞争对手候选模型，实现主体智能体自动建立竞争对手的决策模型，合理解释决策模型在实际操作过程中失败的原因，迅速而有效地更新候选模型以达到优化自身决策的目的，提高主体智能体决策模型预测的可靠性和准确性，通过加快识别真实模型的收敛速度，从而加快建模速度，增强可解释性竞争对手决策模型的适应性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本申请的实施例，并与说明书一起用于解释本申请的原理。

图1是本申请一个实施例提供的一种可解释性竞争对手建模方法的流程图。

具体实施方式

下面结合附图和实施例对本发明进行详细的描述。

如图1所示，本实施例的方法包括：

S1：建立可解释性竞争对手决策模型，所述可解释性竞争对手决策模型包括主体智能体决策模型和竞争对手候选模型；

S2：学习所述可解释性竞争对手决策模型；

S3：搜索所述主体智能体决策模型的失败原因；

S4：根据所述失败原因修正所述竞争对手候选模型；

S5：依据所述修正后的竞争对手候选模型更新所述可解释性竞争对手决策模型。

通过将可解释性技术与多智能体决策模型结合建立可解释性竞争对手决策模型，实现主体智能体自动建立竞争对手的决策模型，合理解释决策模型在实际操作过程中失败的原因，迅速而有效地更新竞争对手候选模型以达到优化自身决策的目的，提高主体智能体决策模型预测可靠性和准确性。

作为本发明可选的一种实现方式，所述建立可解释性竞争对手决策模型，包括：建立基于交互式动态影响图决策框架的可解释性竞争对手决策模型，为优化主体智能体的决策提供竞争对手行为的预测。

交互式动态影响图(I-DID：Interactive Dynamic Influence Diagram)可以表示潜在的问题结构，能够利用图论、贝叶斯网等相关理论简化模型，不仅能提高问题的求解能力，而且具有更好的可解释性。

I-DID是单个智能体影响图扩展而成的一种新型概率图模型，用于求解多智能体序贯决策问题，其数学理论是基于不确定环境下决策理论规划的一种决策框架。

交互式动态影响图(I-DID)在竞争型的多智能体决策系统中体现了较强的求解优势。I-DID的决策模型主要包括两个部分：一是其他智能体(即竞争对手)的候选模型空间，候选模型为主体智能体预测竞争对手的行为提供了重要的依据；二是主体智能体的决策模型，用来更新对候选模型的信度，优化自身决策。

交互式动态影响图决策框架中其他智能体(即竞争对手)的候选模型空间和主体智能体的决策模型两部分可以分别实现竞争对手的可解释性，实现主体智能体自动建立竞争对手的决策模型。

作为本发明可选的一种实现方式，所述学习所述可解释性竞争对手决策模型，包括：基于和积最大网络学习所述可解释性竞争对手决策模型，并建立相应的动态基于和积最大网络模型。

通过基于和积最大网络(SPMN：Sum-Product-Max Network)学习可解释性竞争对手决策模型，并建立相应的动态SPMN模型。SPMN具有因子表示方式，其推理和学习复杂度往往与模型规模线性相关，因此符合数据驱动的技术要求。并且该模型也能够明确表达变量之间的依赖关系，且可以清晰地描述智能体的决策过程。

动态SPMN决策模型并不是SPMN在不同时间片上的简单重复，而是需要清楚地表示智能体之间的动态交互以及环境的动态变化。学习可解释性竞争对手决策模型的关键在于确定部分可观测环境下的动态依赖关系和智能体的偏好，因此动态的SPMN学习算法无法直接适用到新模型的自动构建中，因此将动态SPMN决策模型转换为简单的SPMN决策模型，采用标准的搜索和评分框架学习新模型的结构和参数。

作为本发明可选的一种实现方式，所述学习所述可解释性竞争对手决策模型还包括迁移学习算法，所述迁移学习算法通过分解复杂环境变量及其智能体决策，优化所述动态基于和积最大网络模型。

智能体的偏好是模型学习中难以确定的决策参数之一，使用迁移学习技术，通过分解复杂环境变量及其智能体决策，从简单的SPMN决策模型中估计出适用于新领域的偏好数值，将根据同一类型的决策问题学习到的简单SPMN决策模型重复使用到复杂SPMN决策模型的构建当中，从而使动态的SPMN学习算法无法适用到新模型的自动构建中。

作为本发明可选的一种实现方式，所述搜索主体智能体决策模型的失败原因，包括：

通过重要性抽样方法估计出候选的竞争对手系列动作；

主体智能体为了优化自己的决策，需要推理其他智能体的行为，因此首先需要建立竞争对手的候选模型，然后求解这些模型以预测竞争对手的行为。在理论上，竞争对手的候选模型有无穷多个；然而由于候选模型空间有限，且模型求解难度随着候选模型数目的增加而加大，主体智能体有可能根本没有考虑到竞争对手的真实模型，从而导致其在实际应用中执行失败。具体地说，主体智能体可能会观测到一些预想不到的外部环境状态变化，导致模型不能进行正确的推理，无法优化自身决策。

通过重要性抽样的方法估计出候选的竞争对手系列动作，这些动作代表着真实模型的重要信息。由于候选的竞争对手系列动作并不能从目前主体智能体的决策模型中直接找到，需选取可能产生该系列动作的竞争对手决策模型加入第一候选模型空间中，从而扩大相似系列动作的搜索空间。

同时，从主体智能体的决策模型中可以确定与该系列动作最为相关的已经预测的竞争对手行为。采用贝叶斯模型中最相关解释技术主体智能体决策模型中搜索失败原因，最相关解释技术分解主体智能体与竞争对手交互空间之间的关系，根据实时的观测值进行搜索，以提高搜索效率。所述失败原因例如为来自竞争对手模型空间的不充分，或者为来自主体智能体对候选模型的信度估计误差。

作为本发明可选的一种实现方式，所述修正可解释性竞争对手决策模型，包括：

根据所述候选的竞争对手系列动作生成第一候选模型空间；

通过求解所述第一候选模型获取竞争对手系列动作；

建立第一候选模型空间，将第一候选模型建模到交互式动态影响图决策框架中的其他智能体(即竞争对手)的候选模型空间，当主体智能体对竞争对手真实模型的判断产生一定偏差的时候，基于交互式动态影响图可解释性竞争对手决策模型可以根据所观测到的环境变化信息进行及时地修正。具体地说，主体智能体需要选取或构造新的竞争对手模型，以弥补竞争对手候选模型空间不充分的缺陷。根据失败的原因，推断竞争对手的真实的系列动作，生成第二候选模型。

作为本发明可选的一种实现方式，所述生成第二候选模型，包括：

开发基于神经元计算的演化操作算子；

通过求解第一候选模型获取竞争对手系列动作，然后选取某个或者一组候选模型以充分表示候选的竞争对手真实的系列动作，生成第二候选模型，以满足实时在线交互的需求。

作为本发明可选的一种实现方式，所述的可解释性竞争对手建模方法还包括：基于值等价原理判断所述第二候选模型性能，从理论上对主体智能体的决策质量做一个预判，保证所述第二候选模型不损害主体智能体的决策质量。从而保证可解释性竞争对手建模方法的正确性。

作为本发明可选的一种实现方式，所述从所述第一候选模型中抽样出一个或一组竞争对手系列动作为候选的竞争对手真实的系列动作，包括：采用渐进学习模型从所述第一候选模型中抽样出一个或一组竞争对手系列动作为候选的竞争对手真实的系列动作，以生成第二候选模型。

以使生成第二候选模型更加有针对性，有益于构建更具有适应性的可解释性竞争对手模型。

作为本发明可选的一种实现方式，所述的可解释性竞争对手建模方法还包括：利用游戏重放数据生成竞争对手决策模型，在实时策略游戏平台上验证算法的实际效用。

利用游戏重放数据产生大量仿真数据，辅助算法性能的测试，从而提高算法正确性以保证可解释性竞争对手建模方法顺利实施。

本实施例中，通过建立并学习可解释性竞争对手决策模型，搜索出主体智能体决策模型的失败原因，根据失败原因修正竞争对手候选模型，实现主体智能体自动建立竞争对手的决策模型，合理解释决策模型在实际操作过程中失败的原因，迅速而有效地更新候选模型以达到优化自身决策的目的，提高主体智能体决策模型预测的可靠性和准确性，通过加快识别真实模型的收敛速度，从而加快建模速度，增强可解释性竞争对手决策模型的适应性。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

需要说明的是，本发明不局限于上述最佳实施方式，本领域技术人员在本发明的启示下都可得出其他各种形式的产品，但不论在其形状或结构上作任何变化，凡是具有与本申请相同或相近似的技术方案，均落在本发明的保护范围之内。

Claims

1.一种可解释性竞争对手建模方法，其特征在于，包括：

建立可解释性竞争对手决策模型，所述可解释性竞争对手决策模型包括主体智能体决策模型和竞争对手候选模型；利用游戏重放数据生成竞争对手决策模型，在实时策略游戏平台上验证算法的实际效用；

学习所述可解释性竞争对手决策模型；

搜索所述主体智能体决策模型的失败原因，包括：通过重要性抽样方法估计出候选的竞争对手系列动作；

根据所述最相关的竞争对手行为确定所述主体智能体决策模型的失败原因；

根据所述失败原因修正所述竞争对手候选模型，包括：

根据所述候选的竞争对手系列动作生成第一候选模型空间；

通过求解所述第一候选模型获取竞争对手系列动作；

依据所述候选的竞争对手真实的系列动作生成第二候选模型；

2.根据权利要求1所述的可解释性竞争对手建模方法，其特征在于，所述建立可解释性竞争对手决策模型，包括：建立基于交互式动态影响图决策框架的可解释性竞争对手决策模型。

3.根据权利要求1所述的可解释性竞争对手建模方法，其特征在于，所述学习所述可解释性竞争对手决策模型，包括：基于和积最大网络算法学习所述可解释性竞争对手决策模型，并建立相应的动态基于和积最大网络模型。

4.根据权利要求3所述的可解释性竞争对手建模方法，其特征在于，所述学习所述可解释性竞争对手决策模型还包括迁移学习算法，所述迁移学习算法通过分解复杂环境变量及智能体决策，优化所述动态基于和积最大网络模型。

5.根据权利要求1所述的可解释性竞争对手建模方法，其特征在于，所述生成第二候选模型，包括：

开发基于神经元计算的演化操作算子；

6.根据权利要求5所述的可解释性竞争对手建模方法，其特征在于，还包括：基于值等价原理判断所述第二候选模型性能，从理论上对主体智能体的决策质量做一个预判，保证所述第二候选模型不损害主体智能体的决策质量。

7.根据权利要求1所述的可解释性竞争对手建模方法，其特征在于，所述从所述第一候选模型中抽样出一个或一组竞争对手系列动作为候选的竞争对手真实的系列动作，包括：采用渐进学习模型从所述第一候选模型中抽样出一个或一组竞争对手系列动作为候选的竞争对手真实的系列动作，以生成第二候选模型。