CN110929871A

CN110929871A - 博弈决策方法和系统

Info

Publication number: CN110929871A
Application number: CN201911120853.8A
Authority: CN
Inventors: 刘洁; 陈志熙; 石佳
Original assignee: Nanjing Starfire Technology Co ltd
Current assignee: Nanjing Starfire Technology Co ltd
Priority date: 2019-11-15
Filing date: 2019-11-15
Publication date: 2020-03-27

Abstract

本申请实施例提供了一种博弈决策方法和系统。该博弈决策方法包括服务器端基于预先训练好的环境预测模型，根据不完美信息环境已知状态的数据对所述不完美信息环境未知状态的数据进行预测，得到所述不完美信息环境未知状态的数据的有效预测结果；所述服务器端基于强化学习模型，根据所述不完美信息环境已知状态的数据和所述不完美信息环境未知状态的数据的所述有效预测结果做出有效决策。该博弈决策方法能够根据不完美信息环境已知状态的数据对不完美信息环境未知状态的数据进行预测，以便做出有效决策。

Description

博弈决策方法和系统

技术领域

本申请实施例涉及人工智能技术领域，尤其涉及一种不完美信息环境下的博弈决策方法和系统。

背景技术

博弈是在一定的规则下，从允许选择的行为或策略中进行选择并加以实施，它充分考虑了个体的预测行为和实际行为，并研究它们的优化策略。如果在博弈过程中的任何时间点，每个参与者都能观察并记忆之前各参与者选择的行动，就称为完美信息博弈，否则称为不完美信息博弈。在不完美信息博弈过程中，由于参与者对其它参与者的特征、策略空间以及收益函数信息了解的不够准确，随着博弈问题规模越来越大、复杂度越来越高，难以及时的进行信息、数据的更新，导致很难做出有效决策。

发明内容

有鉴于此，本申请实施例提供一种博弈决策方法和系统，用以解决或缓解现有技术中的问题。

本申请实施例提供了一种博弈决策方法，包括：服务器端基于预先训练好的环境预测模型，根据不完美信息环境已知状态的数据对所述不完美信息环境未知状态的数据进行预测，得到所述不完美信息环境未知状态的数据的有效预测结果；所述服务器端基于强化学习模型，根据所述不完美信息环境已知状态的数据和所述不完美信息环境未知状态的数据的所述有效预测结果做出有效决策。

可选地，在本申请的任一实施例中，所述基于预先训练好的环境预测模型，根据不完美信息环境已知状态的数据对所述不完美信息环境未知状态的数据进行预测，得到所述不完美信息环境未知状态的数据的有效预测结果还包括：基于预先训练好的所述环境预测模型中的第一子模型，根据所述不完美信息环境已知状态的数据，得到所述不完美信息环境已知状态的数据的编码结果；基于预先训练好的所述环境预测模型中的第二子模型，根据所述编码结果生成所述不完美信息环境未知状态的数据的所述有效预测结果。

可选地，在本申请的任一实施例中，所述基于预先训练好的所述环境预测模型中的第一子模型，根据所述不完美信息环境已知状态的数据，得到所述不完美信息环境已知状态的数据的编码结果包括：基于预先训练好的所述环境预测模型中的所述第一子模型，对所述不完美信息环境已知状态的数据进行特征抽取，得到所述不完美信息环境已知状态的数据的所述编码结果。

可选地，在本申请的任一实施例中，所述基于预先训练好的所述环境预测模型中的第二子模型，根据所述编码结果生成所述不完美信息环境未知状态的数据的有效预测结果包括：基于预先训练好的所述环境预测模型中的所述第二子模型，对所述编码结果进行升维，得到所述不完美信息环境未知状态的数据的所述有效预测结果。

可选地，在本申请的任一实施例中，在所述基于预先训练好的环境预测模型，根据不完美信息环境已知状态的数据对所述不完美信息环境未知状态的数据进行预测，得到所述不完美信息环境未知状态的数据的有效预测结果之前，还包括：服务器端基于所述第一子模型，根据不完美信息环境样本已知状态的数据，得到所述不完美信息环境样本已知状态的数据的样本编码结果；所述服务器端基于所述第二子模型，根据所述样本编码结果，生成所述不完美信息环境样本未知状态的数据的样本预测结果；所述服务器端根据所述样本预测结果与所述不完美信息环境样本未知状态的实际状态的数据，对所述第一子模型、第二子模型进行调整，以完成所述环境预测模型的训练。

可选地，在本申请的任一实施例中，所述根据所述样本预测结果与所述不完美信息环境样本未知状态的实际状态的数据，对所述第一子模型、第二子模型进行调整，以完成所述环境预测模型的训练包括：对所述样本预测结果与所述不完美信息环境样本未知状态的实际状态的数据进行均方差计算，根据计算结果对所述第一子模型、第二子模型进行调整，以完成所述环境预测模型的训练。

可选地，在本申请的任一实施例中，所述基于强化学习模型，根据所述不完美信息环境已知状态的数据和所述不完美信息环境未知状态的数据的所述有效预测结果做出有效决策包括：基于所述强化学习模型，根据所述不完美信息环境已知状态的数据和所述有效预测结果作出初步决策，通过价值函数对所述初步决策进行评价，若所述价值函数收敛，则将所述初步决策作为所述有效决策。

本申请实施例还提供一种博弈决策系统，包括：在服务器端配置的预测单元和决策单元，所述预测单元，配置为基于预先训练好的环境预测模型，根据不完美信息环境已知状态的数据对所述不完美信息环境未知状态的数据进行预测，得到所述不完美信息环境未知状态的数据的有效预测结果；所述决策单元，配置为基于强化学习模型，根据所述不完美信息环境已知状态的数据和所述不完美信息环境未知状态的数据的所述有效预测结果做出有效决策。

可选地，在本申请的任一实施例中，所述预测单元包括：编码结果生成子单元，配置为基于预先训练好的所述环境预测模型中的第一子模型，根据所述不完美信息环境已知状态的数据，得到所述不完美信息环境已知状态的数据的编码结果；预测结果生成子单元，配置为基于预先训练好的所述环境预测模型中的第二子模型，根据所述编码结果生成所述不完美信息环境未知状态的数据的有效预测结果。

可选地，在本申请的任一实施例中，所述编码结果生成子单元，进一步配置为基于预先训练好的所述环境预测模型中的所述第一子模型，对所述不完美信息环境已知状态的数据进行特征抽取，得到所述不完美信息环境已知状态的数据的所述编码结果。

可选地，在本申请的任一实施例中，所述预测结果生成子单元，进一步配置为基于预先训练好的所述环境预测模型中的所述第二子模型，对所述编码结果进行升维，得到所述不完美信息环境未知状态的数据的所述有效预测结果。

可选地，在本申请的任一实施例中，所述决策单元，进一步配置为基于所述强化学习模型，根据所述不完美信息环境已知状态的数据和所述有效预测结果作出初步决策，通过价值函数对所述初步决策进行评价，若所述价值函数收敛，则将所述初步决策作为所述有效决策。

本申请实施例提供的一种博弈决策技术方案中，服务器端基于预先训练好的环境预测模型，根据不完美信息环境已知状态的数据对所述不完美信息环境未知状态的数据进行预测，得到所述不完美信息环境未知状态的数据的有效预测结果；服务器端基于强化学习模型，根据所述不完美信息环境已知状态的数据和所述不完美信息环境未知状态的数据的所述有效预测结果做出有效决策。该博弈决策方法根据不完美信息环境已知状态的数据对不完美信息环境未知状态的数据进行预测，以便作出有效决策。

附图说明

后文将参照附图以示例性而非限制性的方式详细描述本申请实施例的一些具体实施例。附图中相同的附图标记标示了相同或类似的部件或部分。本领域技术人员应该理解，这些附图未必是按比例绘制的。附图中：

图1a为根据本申请第一实施例所示的博弈决策方法的流程示意图；

图1b为根据本申请第一实施例所示的方法中步骤S101的流程示意图；

图2为根据本申请第二实施例所示的环境预测模型的训练方法的流程示意图；

图3为根据本申请第三实施例所示的博弈决策系统的结构示意图，

图4为根据本申请第四实施例所示的环境预测模型训练系统的结构示意图；

图5为根据本申请第五实施例所示的电子设备的结构示意图；

图6为根据本申请第六实施例所示的电子设备的硬件结构。

具体实施方式

实施本申请实施例的任一技术方案必不一定需要同时达到以上的所有优点。

为了使本领域的人员更好地理解本申请实施例中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于本申请实施例保护的范围。

下面结合本申请实施例附图进一步说明本申请实施例具体实现。

在此，对本申请实施例中的部分概念进行说明。在本申请的实施例中，所述环境为不完美信息环境，该不完美信息环境包括已知状态和未知状态，本申请实施例即是通过不完美信息环境已知状态的数据对不完美信息环境未知状态的数据进行预测，以便于作出有效决策。

首先，在此需要说明的是，本申请实施例中的博弈决策方法、环境预测模型的训练方法均在服务器端执行，博弈决策系统、环境预测模型的训练系统均配置在服务器端。

第一实施例

图1a为根据本申请第一实施例所示的博弈决策方法的流程示意图；如图1a所示，其包括以下步骤：

步骤S101：服务器端基于预先训练好的环境预测模型，根据不完美信息环境已知状态的数据对所述不完美信息环境未知状态的数据进行预测，得到所述不完美信息环境未知状态的数据的有效预测结果；

本实施例中，环境预测模型可以为多层感知器、循环神经网络以及图神经网络等，在此并不进行限定。其中，不完美信息环境已知状态的数据、不完美信息环境未知状态的数据均可以是结构化数据，也可以是非结构化数据，或者是其它类型的数据(比如：半结构化数据)。

图1b为根据本申请第一实施例所示的方法中步骤S101的流程示意图；如图1b所示，步骤S101包括，

步骤S111：基于预先训练好的所述环境预测模型中的第一子模型，根据所述不完美信息环境已知状态的数据，得到所述不完美信息环境已知状态的数据的编码结果；

具体的，基于预先训练好的所述环境预测模型中的所述第一子模型，对所述不完美信息环境已知状态的数据进行特征抽取，得到所述不完美信息环境已知状态的数据的所述编码结果。进一步的，基于预先训练好的环境预测模型中的所述第一子模型，对所述不完美信息环境已知状态的数据进行特征抽取，得到所述不完美信息环境已知状态的数据的特征向量，将所述特征向量作为所述不完美信息环境已知状态的数据的编码结果。

本实施例中，基于预先训练好的所述环境预测模型中的所述第一子模型，对所述不完美信息环境已知状态的数据进行降维，即对所述不完美信息环境已知状态的数据从高维到低维进行映射，实现对所述不完美信息环境已知状态的数据的特征抽取，得到所述不完美信息环境已知状态的数据的特征向量。

需要说明的是，并不对第一子模型进行具体限定，能够通过对不完美信息环境已知状态的数据进行降维，实现对不完美信息环境已知状态的数据的特征抽取，得到不完美信息环境已知状态的数据的特征向量的模型均可作为第一子模型。在此，第一子模型可以为采用主成分分析法(Principal Component Analysis，简称PCA)的主成分分析模型、采用多维标度分析法(multidimensional scaling，简称MDS)的多维标度分析模型、采用线性判别分析法(Latent Dirichlet Allocation，简称LDA)的线性判别分析模型、采用等度量映射法(Isometric Feature Mapping，简称Isomap)的等度量映射模型、采用局部线性嵌入法(Locally Linear Embedding，简称LLE)的局部线性嵌入模型。这些模型作为第一子模型，均可以对不完美信息环境已知状态的数据进行降维，实现对不完美信息环境已知状态的数据的特征抽取，得到不完美信息环境已知状态的数据的特征向量。此外，第一子模型也可以为神经网络模型，其中卷积神经网络模型的结构是卷积层和池化层组成的，卷积层有激活函数，池化层没有激活函数，比如卷积神经网络模型对不完美信息环境已知状态的数据进行降维，实现对不完美信息环境已知状态的数据的特征抽取，得到不完美信息环境已知状态的数据的特征向量。

当第一子模型采用主成分分析模型时，首先，将不完美信息环境已知状态的数据输入主成分分析模型，通过正交变换生成不完美信息环境已知状态的数据的变换矩阵；然后，将此变换矩阵与输入的不完美信息环境已知状态的数据相乘得到低维的不完美信息环境已知状态的数据，实现不完美信息环境已知状态的数据从高维到低维的映射，完成不完美信息环境已知状态的数据的降维，达到对不完美信息环境已知状态的数据进行特征抽取，得到环境已知状态的数据的特征向量的目的。

当第一子模型为采用流形学习方法的模型时，将不完美信息环境已知状态的数据输入第一子模型，找到不完美信息环境已知状态的数据的低维描述，分析不完美信息环境已知状态的数据中低维流形排列的规律，基于这种规律对不完美信息环境已知状态的数据进行降维，实现对环境已知状态的数据的特征抽取，得到环境已知状态的数据的特征向量。

本实施例中，通过对所述不完美信息环境已知状态的数据进行降维，实现对不完美信息环境已知状态的数据的特征抽取，得到所述不完美信息环境已知状态的数据的特征向量，将所述特征向量作为所述编码结果，可以为对不完美信息环境未知状态的有效预测奠定基础。

步骤S121：基于预先训练好的所述环境预测模型中的第二子模型，根据所述编码结果生成所述不完美信息环境未知状态的数据的所述有效预测结果。

具体的，基于预先训练好的所述环境预测模型中的所述第二子模型，对所述编码结果进行升维，得到所述不完美信息环境未知状态的数据的所述有效预测结果。基于预先训练好的所述环境预测模型中的所述第二子模型，对所述编码结果进行升维，可以实现对所述不完美信息环境未知状态的数据进行重构，得到所述不完美信息环境未知状态的数据的所述有效预测结果。

需要说明的是，并不对第二子模型进行具体限定，能够对所述编码结果进行升维，得到所述不完美信息环境未知状态的有效预测结果的模型均可作为第二子模型。在此，第二子模型可以为神经网络模型，比如反卷积神经网络模型，实现对编码结果进行升维，完成不完美信息环境未知状态的数据的重构，得到不完美信息环境未知状态的数据的有效预测结果；也可以为采用插值方法的模型，比如：采用双线性插值方法的双线性插值模型、采用拉格朗日插值方法的拉格朗日插值模型、采用牛顿插值方法的牛顿插值模型以及采用分段插值方法的分段插值模型等。这些模型择一作为第二子模型，均可以实现对编码结果进行升维，完成不完美信息环境未知状态的数据的重构，得到不完美信息环境未知状态的数据的有效预测结果。此外，第二子模型还可以为采用反池化操作的反池化模型，实现对编码结果进行升维，完成不完美信息环境未知状态的数据的重构，得到不完美信息环境未知状态的数据的有效预测结果。

优选的，所述第二子模型为反卷积神经网络模型，通过所述反卷积神经网络模型对所述编码结果进行升维，以对所述不完美信息环境未知状态的数据进行重构，得到所述不完美信息环境未知状态的数据的所述有效预测结果。本实施例中，将编码结果输入反卷积神经网络模型，在反卷积神经网络模型中，反卷积神经网络模型通过学习编码结果与不完美信息环境未知状态的数据的有效预测结果之间的非线性映射关系，从而完成不完美信息环境未知状态的数据的重构，得到不完美信息环境未知状态的数据的有效预测结果。

步骤S102：所述服务器端基于强化学习模型，根据所述不完美信息环境已知状态的数据和所述不完美信息环境未知状态的数据的所述有效预测结果做出有效决策。

在此步骤中，强化学习模型可以为强化学习神经网络模型，其能够根据不完美信息环境已知状态的数据和有效预测结果作出决策。不完美信息环境未知状态的有效预测结果与不完美信息环境已知状态的数据密切相关，在不完美信息环境已知状态的数据改变时，通过环境预测模型能够实时的改变不完美信息环境未知状态的有效预测结果，使强化学习模型能够根据不完美信息环境最新的已知状态数据和有效预测结果作出有效决策。

具体的，所述基于强化学习模型，根据所述不完美信息环境已知状态的数据和所述不完美信息环境未知状态的数据的所述有效预测结果做出有效决策包括：基于所述强化学习模型，根据所述不完美信息环境已知状态的数据和所述有效预测结果作出初步决策，通过价值函数对所述初步决策进行评价，若所述价值函数收敛，则将所述初步决策作为所述有效决策。本事实例中，若价值函数收敛，则说明作出的初步决策为有效决策；若价值函数不收敛，则说明作出的初步决策不是有效决策，对强化学习模型的参数进行调整，再次根据不完美信息环境已知状态的数据和环境预测模型的有效预测结果作出决策，由价值函数对再次作出的决策进行评价，确定是否对强化学习模型进行调整。直至价值函数对强化学习模型作出的决策进行评价时，价值函数收敛，则强化学习模型作出的决策为有效决策。

第二实施例

与前述实施例提供的博弈决策方法相对应，本申请实施例还提供一种根据不完美信息环境样本已知状态的数据对所述环境预测模型进行训练的方法，其中，不完美信息环境样本通过对大量不完美信息环境进行样本采集得到，下面结合附图和实施例对该方法的具体实现进行描述。

图2为根据本申请实施例二所示的环境预测模型的训练方法的流程示意图，如图2所示，该训练方法包括：

步骤S201：服务器端基于所述第一子模型，根据不完美信息环境样本已知状态的数据，得到所述不完美信息环境样本已知状态的数据的样本编码结果；

具体的，基于所述第一子模型，对所述不完美信息环境样本已知状态的数据进行特征抽取，得到所述不完美信息环境样本已知状态的数据的所述样本编码结果。进一步的，基于所述第一子模型，对所述不完美信息环境样本已知状态的数据进行特征抽取，得到所述不完美信息环境样本已知状态的数据的样本特征向量，将所述样本特征向量作为所述不完美信息环境已知状态的数据的所述样本编码结果。

本实施例中，基于所述第一子模型，根据不完美信息环境样本已知状态的数据，得到所述不完美信息环境样本已知状态的数据的样本编码结果的方法、流程与上述第一实施例中步骤S111中基于预先训练好的所述环境预测模型中的第一子模型，根据所述不完美信息环境已知状态的数据，得到所述不完美信息环境已知状态的数据的编码结果的方法、流程相似，在此，不再一一赘述。

步骤S202：所述服务器端基于所述第二子模型，根据所述样本编码结果，生成所述不完美信息环境样本未知状态的数据的样本预测结果；

具体的，基于所述第二子模型，对所述样本编码结果进行升维，以得到所述不完美信息环境样本未知状态的数据的样本预测结果。进一步的，基于所述第二子模型，对所述样本编码结果进行升维，以对所述不完美信息环境样本未知状态的数据进行重构，得到所述不完美信息环境样本未知状态的所述样本预测结果。

本步骤中，基于所述第二子模型，根据所述样本编码结果，生成所述不完美信息环境样本未知状态的数据的样本预测结果的方法、流程与上述第一实施例中步骤S121中基于预先训练好的所述环境预测模型中的第二子模型，根据所述编码结果生成所述不完美信息环境未知状态的数据的有效预测结果的方法、流程相似，在此，不再一一赘述。

步骤S203：所述服务器端根据所述样本预测结果与所述不完美信息环境样本未知状态的实际状态的数据，对所述第一子模型、所述第二子模型进行调整，以完成所述环境预测模型的训练。

本步骤中，不完美信息环境样本未知状态的实际状态表征为不完美信息环境样本未知状态在实际发生之后所示出的状态，不完美信息环境样本未知状态的实际状态的数据为不完美信息环境样本未知状态在将来时刻发生之后的实际数据。

具体的，对所述样本预测结果与所述不完美信息环境样本未知状态的实际状态的数据进行均方差计算，根据计算结果对所述第一子模型、所述第二子模型进行调整，以完成所述环境预测模型的训练。

本实施例中，通过代价函数对所述样本预测结果与所述不完美信息环境样本未知状态的实际状态的数据进行均方差计算，采用梯度下降的方法寻求代价函数的计算结果，计算结果越小，说明基于第二子模型得到的样本预测结果越精确，也即通过环境预测模型得到的样本预测结果越精确。

通过代价函数得到样本预测结果与不完美信息环境样本未知状态的实际状态的数据的均方差的计算结果后，将该计算结果与预设的训练阈值进行比较，若计算结果小于等于预设的训练阈值，则认为基于第二子模型得到的样本预测结果是精确的，即通过环境预测模型得到样本预测结果是精确的，此时，对环境预测模型的训练结束。若通过代价函数得到的计算结果大于预设的训练阈值，则认为基于第二子模型得到的样本预测结果不够精确，即通过环境预测模型得到样本预测结果不够精确，此时，对第一子模型、第二子模型进行调整，通过调整后的第一子模型、第二子模型重新对所述不完美信息环境样本未知状态的数据进行预测，得到新的样本预测结果；然后，通过代价函数对新的样本预测结果与所述不完美信息环境样本未知状态的实际状态数据进行均方差计算，将得到的新的计算结果与预设的训练阈值进行比较，确定是否需要对第一子模型、第二子模型进行调整。循环往复，直至计算结果小于等于预设的训练阈值，则可认为基于第一子模型、第二子模型得到的样本预测结果是精确的，即通过环境预测模型得到样本预测结果是精确的，对环境预测模型的训练完成。

第三实施例

基于前述实施例提供的博弈决策方法，相应地，本申请实施例还还提供一种博弈决策系统。下面结合附图和实施例对该方法的具体实现进行描述。

图3为根据本申请第三实施例所示的博弈决策系统的结构示意图；如图3所示，该决策系统包括：在服务器端配置的预测单元301和决策单元302，所述预测单元301，配置为基于预先训练好的环境预测模型，根据不完美信息环境已知状态的数据对所述不完美信息环境未知状态的数据进行预测，得到所述不完美信息环境未知状态的数据的有效预测结果；所述决策单元302，配置为基于强化学习模型，根据所述不完美信息环境已知状态的数据和所述不完美信息环境未知状态的数据的所述有效预测结果做出有效决策。

具体的，所述预测单元301包括：编码结果生成子单元，配置为基于预先训练好的环境预测模型中的第一子模型，根据所述不完美信息环境已知状态数据，得到所述不完美信息环境已知状态的数据的编码结果；预测结果生成子单元，配置为基于预先训练好的所述环境预测模型中的第二子模型，根据所述编码结果生成所述不完美信息环境未知状态的数据的有效预测结果。

所述编码结果生成子单元进一步配置为基于预先训练好的所述环境预测模型中的所述第一子模型，对所述不完美信息环境已知状态的数据进行特征抽取，得到所述不完美信息环境已知状态的数据的所述编码结果。所述编码结果生成子单元更进一步配置为基于预先训练好的环境预测模型中的所述第一子模型，对所述不完美信息环境已知状态的数据进行特征抽取，得到所述不完美信息环境已知状态的数据的特征向量，将所述特征向量作为所述不完美信息环境已知状态的数据的编码结果。

本实施例中，所述编码结果生成子单元配置为基于预先训练好的所述环境预测模型中的所述第一子模型，对所述不完美信息环境已知状态的数据进行降维，即对所述不完美信息环境已知状态的数据从高维到低维进行映射，实现对所述不完美信息环境已知状态的数据的特征抽取，得到所述不完美信息环境已知状态的数据的特征向量。

所述预测结果生成子单元进一步配置为基于预先训练好的所述环境预测模型中的所述第二子模型，对所述编码结果进行升维，得到所述不完美信息环境未知状态的数据的所述有效预测结果。所述预测结果生成子单元更进一步配置基于预先训练好的所述环境预测模型中的所述第二子模型，对所述编码结果进行升维，以对所述不完美信息环境未知状态的数据进行重构，得到所述不完美信息环境未知状态的数据的所述有效预测结果。

所述决策单元302进一步配置为基于所述强化学习模型，根据所述不完美信息环境已知状态的数据和所述有效预测结果作出初步决策，通过价值函数对所述初步决策进行评价，若所述价值函数收敛，则将所述初步决策作为所述有效决策。

需要说明的是，本实施例的决策系统的操作可参考上述第一实施例博弈决策方法的流程，在此不在一一赘述。

第四实施例

基于前述实施例提供的环境预测模型的训练方法，相应地，本申请还提供一种环境预测模型训练系统，配置为根据不完美信息环境样本的已知状态数据对所述环境预测模型进行训练。下面结合附图和实施例对该系统的具体实现进行描述。

图4为根据本申请第四实施例所示的环境预测模型训练系统的结构示意图，如图4所述，该训练系统包括：在服务器端配置的样本编码结果生成单元401、样本预测结果生成单元402以及训练模型调整单元403，所述样本编码结果生成单元401，配置为基于环境预测模型中的第一子模型，根据不完美信息环境样本已知状态的数据，得到所述不完美信息环境样本已知状态的数据的样本编码结果；所述样本预测结果生成单元402，配置为基于环境预测模型中的第二子模型，根据所述样本编码结果，生成所述不完美信息环境样本未知状态的数据的样本预测结果；所述训练模型调整单元403，配置为根据所述样本预测结果与所述不完美信息环境样本未知状态的实际状态的数据，对所述第一子模型、所述第二子模型进行调整，以完成所述环境预测模型的训练。

所述样本编码结果生成单元401，进一步配置为基于所述第一子模型，对所述不完美信息环境样本已知状态的数据进行特征抽取，得到所述不完美信息环境样本已知状态的数据的所述样本编码结果。所述样本编码结果生成单元401更进一步配置为基于所述第一子模型，对所述不完美信息环境样本已知状态的数据进行特征抽取，得到所述不完美信息环境样本已知状态的数据的样本特征向量，将所述样本特征向量作为所述不完美信息环境已知状态的数据的所述样本编码结果。

所述样本预测结果生成单元402，进一步配置为基于所述第二子模型，对所述样本编码结果进行升维，以得到所述不完美信息环境样本未知状态的数据的样本预测结果。所述样本预测结果生成单元402更进一步配置为基于所述第二子模型，对所述样本编码结果进行升维，以对所述不完美信息环境样本未知状态的数据进行重构，得到所述不完美信息环境样本未知状态的所述样本预测结果。

所述训练模型调整单元403，进一步配置为对所述样本预测结果与所述不完美信息环境样本未知状态的实际状态的数据进行均方差计算，根据计算结果对所述第二子模型进行调整，以完成所述环境预测模型的训练。

本实施例的环境预测模型训练系统的操作可参考上述第二实施例的环境预测模型训练方法的流程，在此不再一一赘述。

需要说明的时，本实施例所示的环境预测模型训练系统可作为上述实施例所示的博弈决策系统的一部分，具体的，将本实施例中的训练模型调整单元403加入上述博弈决策系统中的预测单元301，作为预测单元301的一部分，用预测单元中301的编码结果生成子单元代替样本编码结果生成单元401、用预测结果生成子单元代替样本预测结果生成单元402以及将本实施例中的训练模型调整单元403加入上述博弈决策系统中的预测单元301，作为预测单元301的一部分，以便环境预测模型的训练与利用环境预测模型做出决策。

第五实施例

本申请还提供一种电子设备，下面结合附图和实施例对该电子设备的具体实现进行描述。

图5为根据本申请第五实施例所示的电子设备的结构示意图；该设备可以包括：

一个或多个处理器501；

计算机可读介质502，可以配置为存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述任一实施例中所述的博弈决策方法。

第六实施例

本申请实施例还提供一种电子设备的硬件结构。下面结合附图和实施例对该电子设备的硬件结果的具体实现进行描述。

图6为根据本申请第六实施例所示的电子设备的硬件结构；如图6所示，该设备的硬件结构可以包括：处理器601，通信接口602，计算机可读介质603和通信总线604；

其中处理器601、通信接口602、计算机可读介质603通过通信总线604完成相互间的通信；

可选的，通信接口602可以为通信模块的接口，如GSM模块的接口；

其中，处理器601具体可以配置为：基于预先训练好的环境预测模型，根据不完美信息环境已知状态的数据对所述不完美信息环境未知状态的数据进行预测，得到所述不完美信息环境未知状态的数据的有效预测结果；基于强化学习模型，根据所述不完美信息环境已知状态的数据和所述不完美信息环境未知状态的数据的所述有效预测结果做出有效决策。

处理器601可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本申请实施例的电子设备以多种形式存在，包括但不限于:

(1)移动通信设备:这类设备的特点是具备移动通信功能，并且以提供话音、数据通信为主要目标。这类终端包括:智能手机(例如iPhone)、多媒体手机、功能性手机，以及低端手机等。

(2)超移动个人计算机设备:这类设备属于个人计算机的范畴，有计算和处理功能，一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等，例如iPad。

(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器(例如iPod)，掌上游戏机，电子书，以及智能玩具和便携式车载导航设备。

(4)服务器:提供计算服务的设备，服务器的构成包括处理器810、硬盘、内存、系统总线等，服务器和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面要求较高。

(5)其他具有数据交互功能的电子装置。

至此，已经对本主题的特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作可以按照不同的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序，以实现期望的结果。在某些实施方式中，多任务处理和并行处理可以是有利的。

在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device,PLD)(例如现场可编程门阵列(Field Programmable GateArray，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware DescriptionLanguage)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(RubyHardware Description Language)等，目前最普遍使用的是VHDL(Very-High-SpeedIntegrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定事务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行事务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种博弈决策方法，其特征在于，包括：

服务器端基于预先训练好的环境预测模型，根据不完美信息环境已知状态的数据对所述不完美信息环境未知状态的数据进行预测，得到所述不完美信息环境未知状态的数据的有效预测结果；

所述服务器端基于强化学习模型，根据所述不完美信息环境已知状态的数据和所述不完美信息环境未知状态的数据的所述有效预测结果做出有效决策。

2.根据权利要求1所述的方法，其特征在于，所述基于预先训练好的环境预测模型，根据不完美信息环境已知状态的数据对所述不完美信息环境未知状态的数据进行预测，得到所述不完美信息环境未知状态的数据的有效预测结果包括：

基于预先训练好的所述环境预测模型中的第一子模型，根据所述不完美信息环境已知状态的数据，得到所述不完美信息环境已知状态的数据的编码结果；

基于预先训练好的所述环境预测模型中的第二子模型，根据所述编码结果生成所述不完美信息环境未知状态的数据的所述有效预测结果。

3.根据权利要求2所述的方法，其特征在于，所述基于预先训练好的所述环境预测模型中的第一子模型，根据所述不完美信息环境已知状态的数据，得到所述不完美信息环境已知状态的数据的编码结果包括：基于预先训练好的所述环境预测模型中的所述第一子模型，对所述不完美信息环境已知状态的数据进行特征抽取，得到所述不完美信息环境已知状态的数据的所述编码结果。

4.根据权利要求3所述的方法，其特征在于，所述基于预先训练好的所述环境预测模型中的第二子模型，根据所述编码结果生成所述不完美信息环境未知状态的数据的有效预测结果包括：基于预先训练好的所述环境预测模型中的所述第二子模型，对所述编码结果进行升维，得到所述不完美信息环境未知状态的数据的所述有效预测结果。

5.据权利要求1项所述的方法，其特征在于，在所述基于预先训练好的环境预测模型，根据不完美信息环境已知状态的数据对所述不完美信息环境未知状态的数据进行预测，得到所述不完美信息环境未知状态的数据的有效预测结果之前，还包括：

服务器端基于所述第一子模型，根据不完美信息环境样本已知状态的数据，得到所述不完美信息环境样本已知状态的数据的样本编码结果；

所述服务器端基于所述第二子模型，根据所述样本编码结果，生成所述不完美信息环境样本未知状态的数据的样本预测结果；

所述服务器端根据所述样本预测结果与所述不完美信息环境样本未知状态的实际状态的数据，对所述第一子模型、所述第二子模型进行调整，以完成所述环境预测模型的训练。

6.根据权利要求5所述的方法，其特征在于，所述根据所述样本预测结果与所述不完美信息环境样本未知状态的实际状态的数据，对所述第一子模型、第二子模型进行调整，以完成所述环境预测模型的训练包括：对所述样本预测结果与所述不完美信息环境样本未知状态的实际状态的数据进行均方差计算，根据计算结果对所述第一子模型、第二子模型进行调整，以完成所述环境预测模型的训练。

7.根据权利1-6任一所述的方法，其特征在于，所述基于强化学习模型，根据所述不完美信息环境已知状态的数据和所述不完美信息环境未知状态的数据的所述有效预测结果做出有效决策包括：基于所述强化学习模型，根据所述不完美信息环境已知状态的数据和所述有效预测结果作出初步决策，通过价值函数对所述初步决策进行评价，若所述价值函数收敛，则将所述初步决策作为所述有效决策。

8.一种博弈决策系统，其特征在于，包括：在服务器端配置的预测单元和决策单元，

所述预测单元，配置为基于预先训练好的环境预测模型，根据不完美信息环境已知状态的数据对所述不完美信息环境未知状态的数据进行预测，得到所述不完美信息环境未知状态的数据的有效预测结果；

所述决策单元，配置为基于强化学习模型，根据所述不完美信息环境已知状态的数据和所述不完美信息环境未知状态的数据的所述有效预测结果做出有效决策。

9.根据权利要求8所述的博弈决策系统，其特征在于，所述预测单元包括：

编码结果生成子单元，配置为基于预先训练好的所述环境预测模型中的第一子模型，根据所述不完美信息环境已知状态的数据，得到所述不完美信息环境已知状态的数据的编码结果；

预测结果生成子单元，配置为基于预先训练好的所述环境预测模型中的第二子模型，根据所述编码结果生成所述不完美信息环境未知状态的数据的有效预测结果。

10.根据权利要求9所述的博弈决策系统，其特征在于，所述编码结果生成子单元，进一步配置为基于预先训练好的所述环境预测模型中的所述第一子模型，对所述不完美信息环境已知状态的数据进行特征抽取，得到所述不完美信息环境已知状态的数据的所述编码结果。

11.根据权利要求10所述的博弈决策系统，其特征在于，所述预测结果生成子单元，进一步配置为基于预先训练好的所述环境预测模型中的所述第二子模型，对所述编码结果进行升维，得到所述不完美信息环境未知状态的数据的所述有效预测结果。

12.根据权利要求8-11所述的博弈决策系统，其特征在于，所述决策单元，进一步配置为基于所述强化学习模型，根据所述不完美信息环境已知状态的数据和所述有效预测结果作出初步决策，通过价值函数对所述初步决策进行评价，若所述价值函数收敛，则将所述初步决策作为所述有效决策。