CN108446801A

CN108446801A - 一种多人信息非对称博弈游戏决策生成系统

Info

Publication number: CN108446801A
Application number: CN201810238739.4A
Authority: CN
Inventors: 尹愚
Original assignee: Chengdu Elephant Fractal Intelligent Technology Co Ltd
Current assignee: Chengdu Elephant Fractal Intelligent Technology Co Ltd
Priority date: 2018-03-22
Filing date: 2018-03-22
Publication date: 2018-08-24

Abstract

本发明属于基于神经网络模型的计算系统技术领域，特别涉及一种多人信息非对称博弈游戏决策生成系统，包括业务特征分析模块、仿真模块、网络训练模块及策略预期判断模块，所述网络训练模块包括特征映射网络输入模块；所述业务特征分析模块与仿真模块信号相连，所述仿真模块与网络训练模块信号相连，所述网络训练模块与所述策略预期判断模块信号相连。与现有技术相比，本发明通过深度学习和增强学习技术实现对行动策略的自归纳，可解决以下问题：A.计算策略规则设计中人工干预要求高；B.问题状态空间大的情况下对计算量要求非常高；C.策略制定下的行动模式简单，容易被发现规律；D.本发明是目前代价最小的求解纳什均衡问题的方法。

Description

一种多人信息非对称博弈游戏决策生成系统

技术领域

本发明属于基于神经网络模型的计算系统技术领域，特别涉及一种多人信息非对称博弈游戏决策生成系统。

背景技术

多人信息非对称博弈游戏的特点是博弈游戏中的每个参与者拥有的信息并不相同，且每个参与者可以拥有不同的策略、目标和奖励。现有技术中多人信息非对称博弈游戏的决策生成方案主要包括通过策略树遍历求解最优策略、依据胜率与赔率下回报情况进行概率决策与通过计算反事实后悔最小求解博弈策略。

然而，策略树遍历求解最优策略的方案需对所有可能的策略进行彻底或者有限的遍历，所需探索的状态空间可能极大，现有计算能力无法满足需求；概率决策求解方案是依据仿真结果或者历史经验，制作概率行动表，预期行为倾向于大概率发生事件，但该方案需要业务领域高级知识专家支持，主观性较大，无法对问题状态空间进行全面刻画，且概率表行动模式较为单一，容易被发现规律；计算反事实后悔最小的求解方案是对博弈论中的纳什均衡进行近似求解，其计算过程仍需进行对策略树的有限探索，计算量大，难以实时完成。

发明内容

为了克服现有技术的不足，本发明提供一种多人信息非对称博弈游戏决策生成系统，以通过深度学习实现信息非对称游戏策略的自动归纳，通过增强学习实现信息非对称游戏策略的自动演化，并通过人工神经网络技术大幅度减少游戏策略设计的人工干预。

为解决现有技术存在的问题，现特别提出一种多人信息非对称博弈游戏决策生成系统。

一种多人信息非对称博弈游戏决策生成系统，包括业务特征分析模块、仿真模块、网络训练模块及策略预期判断模块，所述网络训练模块包括特征映射网络输入模块；所述业务特征分析模块与仿真模块信号相连，所述仿真模块与网络训练模块信号相连，所述网络训练模块与所述策略预期判断模块信号相连。

所述策略预期判断模块与所述仿真模块信号相连。

该决策生成系统的决策生成步骤如下：

S1.业务特征分析模块根据游戏内容界定出业务内容，并根据业务内容定义待训练的输入数据结构和输出数据结构；

输入和输出的数据结构根据游戏内容界定，本领域技术人员根据游戏内容知晓其定义方法。

S2.仿真模块根据业务特征分析模块界定出的业务内容产生限制条件下的受限训练数据；

具体而言，受限训练数据是指用于训练网络的数据。

S3.网络训练模块中的特征映射网络输入模块对受限训练数据的数据结构进行变形和/或转换，网络训练模块继而使用变形和/或转换后的训练数据进行人工神经网络训练，直至达到该限制条件下的训练预期；

所述网络训练模块的主要作用是训练网络，特征映射网络输入模块用于在正式训练前涉及对训练数据的变形和/或转换。

S3中的变形指数据结构变形，如通过主成分分析（PCA）降维；S3中的转换指特征映射，如通过拉普拉斯变换、傅里叶变换、小波变换等。

S4.策略预期判断模块对策略效果进行评估，若策略效果无法达到预期，仿真模块改变限制条件产生新的受限训练数据，网络训练模块对新的受限训练数据进行人工神经网络训练并达到训练预期，直至策略效果达到预期。

例如：一个游戏的多种获胜方式可被限定为多种限制条件（如限制麻将获胜方式可以是清一色、平胡等），达到某一限制条件（如清一色）下的训练预期后，改变新的限制条件（如改为平胡），重新进行网络训练，当所有限制条件（如麻将的所有胡牌方式）下的网络都达到了训练预期，即所有条件下的损失函数趋近0，系统通过图灵测试判断策略效果是否达到预期。

进一步地，上述受限训练数据为仿真模块对业务内容进行受限蒙特卡洛仿真而产生。

游戏有不同的规则，这些规则造成了游戏的限制条件，设定限制条件则为不同限制条件下的胜利规则。

由于博弈游戏往往具有巨大的统计空间，无法采用常规蒙特卡洛仿真进行有效的探索空间统计采样。本发明采用的受限蒙特卡洛仿真是在蒙特卡洛仿真的基础上，设定限制条件，而压缩探索空间，逐步逼近。

进一步地，特征映射网络输入模块根据后端网络数据输入结构要求，对数据结构进行变形和/或转换，以适合需求。

进一步地，网络训练模块通过调整网络权重实现人工神经网络训练，网络训练模块采用标准BP（误差逆向传播）神经网络方法调整网络权重。BP神经网络方法是对多层神经网络进行训练的常见方法，通过调整网络权重，使误差沿梯度方向下降。经过对人工神经网络的反复训练与调整，使人工神经网络实际输出与预期输出趋于无限接近。

可选择地，网络训练模块通过调整网络拓扑结构实现人工神经网络训练。

进一步地，网络训练模块通过计算损失函数判断人工神经网络训练是否达到训练预期。具体地，系统通过计算损失函数衡量调整后人工神经网络的实际输出与预期输出之间的差异。

进一步地，策略预期判断模块通过图灵测试判断策略效果是否达到预期。

与现有技术相比，本发明通过深度学习和增强学习技术实现对行动策略的自归纳，可解决以下问题：A.计算策略规则设计中人工干预要求高；B.问题状态空间大的情况下对计算量要求非常高；C.策略制定下的行动模式简单，容易被发现规律；D. 本发明是目前代价最小的求解纳什均衡问题的方法。

附图说明

图1为本发明实施例提供的一种多人信息非对称博弈游戏决策生成系统的系统结构示意图。

图2为本发明实施例提供的一种多人信息非对称博弈游戏决策生成系统的决策生成流程示意图。

附图中：1、业务特征分析模块，2、仿真模块，3、网络训练模块，4、特征映射网络输入模块、5、策略预期判断模块，100、多人信息非对称博弈游戏决策生成系统。

图2中步骤101对应步骤S1，为业务特征分析模块的工作内容；步骤102对应步骤S2，为仿真模块的工作内容；步骤103、步骤104和步骤105对应步骤S3，为含有特征映射网络输入模块的网络训练模块的工作内容；步骤106为策略预期判断模块的工作内容。

具体实施方式

实施例1

一种多人信息非对称博弈游戏决策生成系统，包括业务特征分析模块1、仿真模块2、网络训练模块3及策略预期判断模块5，所述网络训练模块3包括特征映射网络输入模块4；所述业务特征分析模块1与仿真模块2信号相连，所述仿真模块2与网络训练模块3信号相连，所述网络训练模块3与所述策略预期判断模块5信号相连。所述策略预期判断模块5与所述仿真模块2信号相连。

实施例2

在实施例1的基础上，多人信息非对称博弈游戏决策生成系统的决策生成步骤如下：

S1.业务特征分析模块1根据游戏内容界定出业务内容，并根据业务内容定义待训练的输入数据结构和输出数据结构；

S2.仿真模块2根据业务特征分析模块1界定出的业务内容产生限制条件下的受限训练数据；

具体而言，受限训练数据是指用于训练网络的数据。

S3.网络训练模块3中的特征映射网络输入模块4对受限训练数据的数据结构进行变形和/或转换，网络训练模块3继而使用变形和/或转换后的训练数据进行人工神经网络训练，直至达到该限制条件下的训练预期；

所述网络训练模块3的主要作用是训练网络，特征映射网络输入模块4用于在正式训练前涉及对训练数据的变形和/或转换。

S3中的变形指数据结构变形，如通过主成分分析PCA降维；S3中的转换指特征映射，如通过拉普拉斯变换、傅里叶变换、小波变换等。

S4.策略预期判断模块5对策略效果进行评估，若策略效果无法达到预期，仿真模块2改变限制条件产生新的受限训练数据，网络训练模块3对新的受限训练数据进行人工神经网络训练并达到训练预期，直至策略效果达到预期。

进一步地，上述受限训练数据为仿真模块2对业务内容进行受限蒙特卡洛仿真而产生。

进一步地，特征映射网络输入模块4根据后端网络数据输入结构要求，对数据结构进行变形和/或转换，以适合需求。

进一步地，网络训练模块3通过调整网络权重实现人工神经网络训练，网络训练模块3采用标准BP（误差逆向传播）神经网络方法调整网络权重。BP神经网络方法是对多层神经网络进行训练的常见方法，通过调整网络权重，使误差沿梯度方向下降。经过对人工神经网络的反复训练与调整，使人工神经网络实际输出与预期输出趋于无限接近。

可选择地，网络训练模块3通过调整网络拓扑结构实现人工神经网络训练。

进一步地，网络训练模块3通过计算损失函数判断人工神经网络训练是否达到训练预期。具体地，系统通过计算损失函数衡量调整后人工神经网络的实际输出与预期输出之间的差异。

进一步地，策略预期判断模块5通过图灵测试判断策略效果是否达到预期。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

本实施例中，多人信息非对称博弈游戏决策生成系统100的系统结构参照说明书附图1，系统包括业务特征分析模块1，仿真模块2，网络训练模块3及策略预期判断模块5，其中，网络训练模块3包括特征映射网络输入模块4。

多人信息非对称博弈游戏决策生成系统100的决策生成流程参照说明书附图2，在步骤101中，业务特征分析模块1根据游戏内容界定出业务内容，并根据业务内容定义待训练的输入和输出的数据结构。在步骤102中，仿真模块2根据业务特征分析模块1界定出的业务内容产生限制条件下的受限训练数据。在步骤103中，网络训练模块3的特征映射网络输入模块4对受限训练数据的数据结构进行变形和/或转换。在步骤104中，网络训练模块3使用变形和/或转换后的训练数据进行人工神经网络训练。在步骤105中，判断当前人工神经网络是否满足该限制条件下的训练预期，若当前人工神经网络尚未达到训练预期，则重复步骤104-105，直至训练目标达成。在步骤106中，策略预期判断模块5对策略效果进行评估，若策略效果无法达到预期，则重复步骤102-106，并在每次重复过程中的步骤102时，利用仿真模块2改变限制条件产生新的受限训练数据，网络训练模块103对新的受限训练数据进行人工神经网络训练并达到训练预期，直至策略预期判断模块5判断策略效果达到预期。

所述受限训练数据为仿真模块2对业务内容进行受限蒙特卡洛仿真而产生。

所述特征映射网络输入模块4根据后端网络数据输入结构要求，对数据结构进行变形和/或转换，以适合需求。

所述网络训练模块3通过调整网络权重实现人工神经网络训练。网络训练模块3可采用标准BP神经网络方法调整网络权重。可选择地，网络训练模块3可通过调整网络拓扑结构实现人工神经网络训练。

所述网络训练模块3通过计算损失函数判断人工神经网络训练是否达到训练预期。

所述策略预期判断模块5通过图灵测试判断策略效果是否达到预期。

以上实施例仅用以说明本发明的技术方案，而非对其限制。本领域技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求所界定的保护范围为准。

Claims

1.一种多人信息非对称博弈游戏决策生成系统，其特征在于：包括业务特征分析模块（1）、仿真模块（2）、网络训练模块（3）及策略预期判断模块（5），所述网络训练模块（3）包括特征映射网络输入模块（4）；所述业务特征分析模块（1）与仿真模块（2）信号相连，所述仿真模块（2）与网络训练模块（3）信号相连，所述网络训练模块（3）与所述策略预期判断模块（5）信号相连。

2.根据权利要求1所述的一种多人信息非对称博弈游戏决策生成系统，其特征在于：所述策略预期判断模块（5）与所述仿真模块（2）信号相连。

3.根据权利要求2所述的一种多人信息非对称博弈游戏决策生成系统，其特征在于：该决策生成系统的决策生成步骤如下：

S1.业务特征分析模块（1）根据游戏内容界定出业务内容，并根据业务内容定义待训练的输入数据结构和输出数据结构；

S2.仿真模块（2）根据业务特征分析模块（1）界定出的业务内容产生限制条件下的受限训练数据；

S3.网络训练模块（3）中的特征映射网络输入模块（4）对受限训练数据的数据结构进行变形和/或转换，网络训练模块（3）继而使用变形和/或转换后的训练数据进行人工神经网络训练，直至达到该限制条件下的训练预期；

S4.策略预期判断模块（5）对策略效果进行评估，若策略效果无法达到预期，仿真模块（2）改变限制条件产生新的受限训练数据，网络训练模块（3）对新的受限训练数据进行人工神经网络训练并达到训练预期，直至策略效果达到预期。

4.根据权利要求3所述的一种多人信息非对称博弈游戏决策生成系统，其特征在于：所述受限训练数据为仿真模块（2）对业务内容进行受限蒙特卡洛仿真而产生。

5.根据权利要求3所述的一种多人信息非对称博弈游戏决策生成系统，其特征在于：特征映射网络输入模块（4）根据后端网络数据输入结构要求，对数据结构进行变形和/或转换，以适合需求。

6.根据权利要求3所述的一种多人信息非对称博弈游戏决策生成系统，其特征在于：网络训练模块（3）通过调整网络权重实现人工神经网络训练，网络训练模块（3）采用标准BP神经网络方法调整网络权重；经过对人工神经网络的反复训练与调整，使人工神经网络实际输出与预期输出趋于无限接近。

7.根据权利要求3所述的一种多人信息非对称博弈游戏决策生成系统，其特征在于：网络训练模块（3）通过调整网络拓扑结构实现人工神经网络训练。

8.根据权利要求3所述的一种多人信息非对称博弈游戏决策生成系统，其特征在于：网络训练模块（3）通过计算损失函数判断人工神经网络训练是否达到训练预期。

9.根据权利要求3所述的一种多人信息非对称博弈游戏决策生成系统，其特征在于：策略预期判断模块（5）通过图灵测试判断策略效果是否达到预期。