CN108701260B

CN108701260B - 用于辅助决策的系统和方法

Info

Publication number: CN108701260B
Application number: CN201680079996.7A
Authority: CN
Inventors: H·普伊洛
Original assignee: Thales SA
Current assignee: Thales SA
Priority date: 2015-11-27
Filing date: 2016-11-24
Publication date: 2022-09-27
Anticipated expiration: 2036-11-24
Also published as: US20180349783A1; EP3380994A1; FR3044438A1; CN108701260A; CA3006383A1; US11120354B2; WO2017089443A1

Abstract

本发明提出了一种用于确定由竞争系统中给定的竞争实体实施的动作的决策辅助方法，竞争系统包括竞争实体和至少另一个对手竞争实体，竞争实体能够实施一组预定义的动作中的动作，每个动作都根据由对手竞争实体实施的动作而提供不同的期望收益。每个实体还能够实施一组预定义的学习方法中的学习方法以学习对手实体的动作，‑将每个学习方法与基本概率函数关联(604)，基本概率函数对给定的竞争实体的每个可能动作分配概率参数；‑确定全局概率函数(608)，所述全局概率函数对每个基本概率函数分配概率参数；‑利用全局概率函数来选择(609)基本概率函数中的一个；‑应用选定的基本概率函数以确定能够由所述给定的竞争实体实施的动作中的动作(610)。

Description

用于辅助决策的系统和方法

技术领域

本发明总体上涉及用于管理数据的系统，并且更具体地，涉及用于辅助决策的系统和方法。

背景技术

决策辅助系统用于必须做出策略决定的多个领域，例如军事领域。具体地，这种系统可以用于响应于由攻击性装置触发的攻击而优化防御策略。该攻击性装置可以由一个或更多个操作员通过控制界面进行控制。

该攻击性装置的行为的建模是能够预测其将来的动作并相应地适应防御策略的关键因素。简单的策略决策模型是已知的，可用于提供关于防御装置对于攻击性装置的动作可预知的收益(正面或负面)的信息。收益的概念量化了可以通过选择一个动作而非另一个动作而获得的优势，这个优势取决于对手的选择。

采用了已知的基于博弈论的建模方法，从而在安全问题的框架内对策略决策建模。一场“博弈”包括一组竞争实体(也称为“参与者”)，一组可用于这些竞争实体的活动/动作(也称为“策略”)，以及每个动作的组合的预期收益的规格。

在博弈情境中，可以定义均衡状态。这表明，通过定义安全博弈，需要了解所有的动作以及可能的收益值。均衡构成了这样的状况，参与者(包括安全博弈情况下的攻击性装置和防御装置)根据该状况无意改变他们的动作选择(即，他们的策略)。约翰·纳什(JohnNash)的理论(1957)已证明在一场博弈中总是存在“混合”均衡。该理论表明，对于任何类型的博弈，总是存在超越了参与者的策略的概率分布，这导致均衡。

确定该均衡不总是简单的问题，并且不总是所期望的。事实上，在某些情况下，期望确定最接近“社会”优化而不是均衡的解决方案。

大多数现有的方法都使用了简单的学习过程来寻找均衡或者接近均衡的值。例如，布朗的虚拟参与者算法需要了解对手装置的每个活动以及系统的相应收益。结果，由于对手策略未知或者由于对手策略的组合不可计算，该解决方案在实践中不适用于许多问题。此外，在某些场景下，参与者的策略可能会随着时间的推移而改变，此时情境可能会改变所感知的收益。为了解决这些问题，其他已知的方法是基于使用配置为提供接近均衡的值或接近社会最优的值的学习过程。然而，这些方法针对静态选择的学习过程。

发明内容

本发明旨在通过提出一种用于确定由竞争系统中给定的竞争实体实施的动作的决策辅助方法来改善现状，所述竞争系统包括竞争实体和至少另一个对手竞争实体，竞争实体能够实施一组预定义的动作中的动作，每个动作都根据由所述对手竞争实体实施的动作而提供不同的期望收益，每个实体还能够实施一组预定义的学习过程中的学习过程以学习对手实体的动作，所述方法包括：

-将每个学习过程与基本概率函数相关联，所述基本概率函数将概率参数与给定的竞争实体的每个可能动作相关联；

-确定全局概率函数，所述全局概率函数将概率参数与每个基本概率函数相关联；

-利用全局概率函数来选择基本概率函数中的一个；

-应用选定的基本概率函数以确定能够由所述给定的竞争实体实施的动作中的动作。

所述方法可以例如包括生成动作建议，所述动作建议包括已确定的动作的标识符。

在一个实施方案中，所述方法包括以包括竞争实体的可能动作的集合和应用于所述动作的收益函数的博弈模型的形式对给定的竞争实体的策略情况进行建模的预先步骤，所述收益函数将期望的收益与竞争实体的每个动作或动作的组合相关联。

具体地，所述概率参数可以是权重值。

在某些实施方案中，所述基本概率函数可以对应于根据概率分布定义的概率向量的分量。

于是，概率向量的每个分量可以取决于预定义的基本权重。

所述方法可以特别地包括基于学习数据计算收益函数的步骤。

在这种情况下，所述收益函数可以取决于加权和、Choquet积分、广义加性实用模型、神经网络的多评价指标模型的至少一个。

作为变体，收益函数可以取决于概率模型。

根据本发明的特征，所述方法可以包括响应于通过执行或通过模拟选定的基本概率函数和在竞争系统中至少一次实际选择的动作而获得的学习数据的接收、利用更新函数更新至少一个基本概率函数的步骤。

所述更新步骤可以包括更新选定的基本概率函数。

所述更新步骤还可以包括更新所述其他的基本概率函数的至少一个。

所述更新步骤还可以包括对于每个基本概率函数应用不同的更新函数。

在一个实施方案中，所述更新函数可以包括取决于获得的收益的至少一个更新函数。

所述更新函数可以包括基于基本权重的至少一个更新函数，每个基本权重与给定的动作相关联并且所述基本权重取决于获得的收益。

特别是，给定的基本概率函数的更新函数可以包括动作方面的分量，每个动作方面的分量取决于所涉及的决策步骤中与动作相关联的基本权重与对应于所述决策步骤中的基本概率函数的不同分量的基本权重的总和之间的比率。

根据另一个特征，所述更新步骤还可以包括根据在给定的决策步骤利用与要更新的基本概率函数相关联的学习过程所导致的损失来更新所述基本权重。

所述更新步骤可以包括通过将玻尔兹曼分布函数应用于获得的收益来更新所述基本权重。

所述更新步骤可以包括根据表示探索率的环境状况以及重置因子的环境状况的参数来更新所述基本权重。

所述更新函数可以包括取决于通过测量在给定决策步骤中选择与基本概率函数相关联的学习过程而不是另一个学习过程的遗憾而接收的收益参数的至少一个更新函数。

本发明还提出了一种计算机程序产品，所述计算机程序包括代码指令，当所述程序在计算机上执行时，所述计算机程序能够执行根据前述特征中的任一个的方法的步骤。

本发明还提出了一种用于确定由竞争系统中给定的竞争实体实施的动作的决策辅助系统，所述竞争系统包括所述竞争实体和至少另一个对手竞争实体，竞争实体能够实施一组预定义的动作中的动作，每个动作都根据由所述对手竞争实体实施的动作而提供不同的期望收益，每个实体还能够实施一组预定义的学习过程中的学习过程以学习对手实体的动作，每个学习过程都与将概率参数与给定的竞争实体的每个可能动作相关联的基本概率函数相关联。根据本发明的一个方面，所述决策辅助系统包括全局学习模块，所述全局学习模块配置为确定能够将概率参数与每个基本概率函数相关联的全局概率函数，所述全局学习模块还包括选择单元，所述选择单元配置为通过利用全局概率函数来选择所述基本概率函数中的一个，所述全局学习模块能够应用选定的基本概率函数以确定由所述给定的竞争实体实施的所述动作中的动作，例如生成包括动作的标识符的建议。

因此，本发明提供了一种元学习过程，其使得可以在策略决策情境下的决策辅助系统中选择最合适的学习过程。当命令和控制单元必须做出其优点或缺点取决于对手装置的动作的决策时，根据本发明的决策辅助系统能够提供最佳建议。

根据本发明的实施方案因此使得可以从一组预定义的学习方案中确定最佳学习方案，以确定诸如这些的最佳建议。

所提出的实施方案尤其使得可以从一组学习过程中学习为系统提供最大收益的学习过程。

本发明的一个优点是不需要全面了解所考虑的竞争系统中的竞争实体的所有可能动作。特别地，根据本发明的过程和系统能够处理对手实体收益的不确定性。此外，它们动态地适应在竞争系统或其他学习方案中新动作的添加，例如对于动态博弈(就是说情境也可能影响预期收益的博弈)的处理特别有利的与马尔科夫决策过程相关的算法(例如，

SARSA)。

本发明的另一个优点是提供了一种能够动态地适应对手装置规则变化的决策辅助系统。

附图说明

借助以下说明以及所附附图，本发明的其他特征和优点将变得显而易见，其中：

-图1是根据具体实施方案的实施决策辅助系统的示例性架构的示意图；

-图2是示出了根据现有技术在决策周期期间由学习过程实施的步骤的流程图；

-图3示出了本发明的实施方案能够应用的包括一组发射器和一组接收器的电信系统类型的示例性竞争系统；

-图4示出了对应于示例性竞争系统的示例性收益矩阵，在该示例性竞争系统中竞争实体受到由一个或更多个攻击性实体实施的电子攻击的威胁；

-图5是根据具体实施方案的包括元学习装置的决策辅助系统的示意图；

-图6是示出了根据具体实施方案的决策辅助过程的主要步骤的总体流程图；

-图7示出了根据一个实施方案可以实施决策辅助系统的示例性环境；

-图8为对应于与图4相同的示例性实施方案的示例性收益矩阵；

-图9是示出了当两个竞争实体使用布朗算法时，根据示例性实施方案的两个竞争实体的收益随时间的演变(50次执行的平均)的图；

-图10是示出在图9的示例中与每个实体的每个动作的选择相关联的概率值的演变的图；

-图11是示出根据示例性实施方案，每个竞争实体在100次博弈之后获得的平均收益的示例性收益表；

-图12示出了以一种特定的学习过程获得的结果；以及

-图13是可以用于实施根据具体实施方案的决策辅助系统的IT系统的示意图。

具体实施方式

图1以示意的方式示出了根据具体实施方案的实施决策辅助系统10的示例性架构。决策辅助系统10与请求装置11(也称为控制装置)交互。

控制装置11设计为控制竞争系统101中的一个或更多个竞争实体20A。决策辅助系统10可以接收由控制装置发送的请求，以提供由竞争系统中给定的竞争实体20A实施的动作的建议(静态模式)。决策辅助系统10还可以例如响应于在竞争系统中检测到的竞争情境的变化动态地或者周期性地生成由给定的竞争实体实施的动作的建议。

如此处所使用的，表述“竞争实体”或“竞争智能体”指代竞争中(也就是说具有相反的目标)的智能体或实体，实体(或智能体)的成功可通过击败一个或更多个其他实体(或智能体)而实现。因此，竞争实体可以包括攻击性实体和对抗性实体。实体其本身可以是装置或系统。

竞争实体与竞争环境或系统相关联(“多智能体”环境或系统)，该系统可以包括一个或更多个竞争实体。

竞争环境还可以包括独立实体(其目标与竞争实体无关)和/或协作实体。

每个竞争实体的控制装置11能够触发受控的竞争实体20A的环境中的动作并且例如通过传感器收集该环境的数据。所述传感器可以布置在竞争实体20A处或竞争实体20A的环境中。每个实体例如可以是：

-配备有传感器(光学传感器、声音传感器等)的装置。控制装置11可以通过各种指令来控制装置的动作。

-能够在其环境中实施动作的软件装置，例如通过网络分发消息、基于鼠标的移动收集其环境的数据、网络消息等。

竞争实体的行为通过限定由该实体实施的一个或更多个动作的策略来进行描述。应注意的是，这里所使用的术语“动作”指的是“逻辑”动作，也就是说由系统建模的动作。该动作可以对应于一个或更多个“物理”子动作。例如，对于“分发消息”动作，将能够实施多个物理子动作，例如“选择频率”、“建立连接”、“分发消息”。这些动作的该策略可以由决策辅助系统10定义，并且由实体20A的装置实施。作为变体，决策辅助系统10可以实施选定的动作，而不是发送建议，因此对应于自动决策。

根据本发明的一个方面，决策辅助系统10包括元学习模块50(也称为全局“学习模块”或“全局学习装置”)，该元学习模块50配置为从一组预定义的学习算法中选择一种学习算法，并且应用该选定的算法，从而确定对于给定的竞争实体实施的动作的选择。

多智能体系统中的学习算法(或学习过程)配置为通过利用获得的关于该实体的环境的经验(策略情况数据，下文中也称为“学习数据”)来对于给定实体(学习的那个实体)确定可以相对于对手实体提供最大收益的策略。

因此，如果对手策略是已知的，则多智能体学习算法试图学习由收益矩阵表示的模型，或者如果该策略未知，则学习收益向量。与竞争系统相关联的收益矩阵表示为元组(A_1..N，R_1..N，_1...M)，其中N表示竞争实体的数量，Cn是实体n可以选择的动作的集合，Rn是M×N维矩阵，它给出N个实体的M个可能动作的每个可能组合的可能收益。

如此处所使用的，表述竞争实体的“收益”表示在该实体的集合应用该动作之后由该实体获得的利益或损失。因此，竞争实体的“收益”表示定量数据，然而，该定量数据可以基于情况的定量分析得出。此外，收益可以被测量(因此它们被称为“可观测的”)，或者可以通过使用情况的多个特征参数并且通过将所述多个特征参数组合成多评价指标函数(例如，加权和、绍凯(Choquet)积分、广义加性实用模型等)或与其他过程(例如：贝叶斯网络、神经网络等)结合来计算。无论收益定义的模式如何，都可以在使用该方法之前确定。因此，收益可以是正的、负的(对应于损失的收益)或零。

用于竞争实体的表述“策略”表示由一组动作之间的实体做出的选择；如果策略基于单一确定性选择，则该策略可以是纯粹的；或者如果策略基于动作之间的概率选择，则该策略可以是“混合”的。

已知的多智能体学习过程可以基于各种已知的模型：

-马尔科夫决策过程

-所谓的“单臂强盗(bandit)”过程

-强化学习过程

-虚拟参与者过程

-矩阵博弈。

更确切地说，学习过程从参数中学习在实体的某种状态下选择一个动作的概率，并提供关于动作(选择)的概率分布。

学习过程与基本概率函数相关，基本概率函数对应于可以由竞争实体实施的动作的基本概率分布。该基本概率函数可以采取概率向量的形式，该概率向量的每个分量对应于选择给定实体的动作的概率。已知的学习算法可以实施各种类型的等式或模型。因此，与每个学习算法相关联的概率向量从一种类型的算法到另一种类型的算法不同。

学习算法要达到的稳定点称为纳什均衡，这一点对应于构成最佳响应的点。纳什均衡表示包括每个实体N的一组概率向量的策略集合，从而发现向量p_n是对对手竞争实体“-n”的向量p_-n的更好的响应。

给定的竞争实体的环境可以是变化的。学习算法(也称为学习过程)可以用于使实体能够适应于这样的变化。这些算法还可以使得竞争实体能够适应于其他实体对于学习数据的影响。学习数据可以包括在对实体的情境中的动作执行或模拟之后观测和/或计算的一组数据。学习数据的观测可以通过应用动作并且观测在应用这些动作之后获得的结果来执行。

特别地，学习数据可以包括与竞争实体获得的收益(对于动作的失败/成功的学习)相关的数据。

多智能体学习过程可以用几个特性来表征，如合理性特性(实体试图按照一定的时间尺度最大化它们的收益)、收敛特性(学习算法稳定为平稳概率向量)、安全性特性或“非遗憾”特性。某些学习算法可以基于以下假设：所有竞争实体的收益矩阵是已知的和/或已知对手实体的策略或动作。

通常，学习过程可以根据图2中的流程图的步骤、在包括决策步骤(或时期)的整个决策周期期间利用单个学习方法来实施。

对于给定的学习过程(块200)，只要博弈没有终止(条件201)，就在步骤202，根据学习过程选择动作。

在步骤203，对通过应用该动作实现的收益进行计算。

在步骤204，利用收益对学习过程的概率函数进行更新。

为了识别要选择的动作，学习过程以均衡的方式利用开发信息(利用过去的信息)和探索数据(通过测试新策略或已使用的策略)。

根据本发明的实施方案的元学习模块50不限于在整个决策周期中使用单个学习算法，而是利用一组学习算法来确定在给定时刻由给定实体实施的动作。

因此，元学习模块50配置为通过利用学习数据从预定义的学习算法的集合中选择一种学习算法，从而改善决策方法以及实体的性能。

元学习模块50能够根据获得的学习数据来动态修改决策模块的参数。学习方法包括智能体、其环境和对手实体之间的一组交互周期。在每个周期期间，决策辅助系统10可以接收学习数据(观测阶段)，分析这些数据以确定先前选择的动作的情境和收益，并通过使用其元学习模块动态地确定动作的新选择。在竞争实体实施动作之后或者在数个动作执行结束时，可以收集新的学习数据。然后，可以通过重复该方法来实施新的决策周期。

决策辅助系统10可以以包括选定动作的标识符的建议的形式将结果反馈给控制装置11。

控制装置11然后可以或不可以根据针对控制装置的标准，将建议应用给竞争环境和/或所收集的补充信息。

在一个实施方案中，控制装置11可以在竞争系统中形成竞争实体的主要部分，例如具有模拟的目的。

在与军事策略领域有关的示例性实施方案中，控制装置11可以是作战管理系统，其能够控制与对手作战装置(攻击性竞争实体)有关的对抗性作战装置(对抗性竞争实体)的动作，对手作战装置的动作可以阻碍对抗性作战装置的动作取得成功。

因此，决策辅助系统和过程允许控制与其他对手实体“-n”相对的竞争实体“n”的控制装置11通过使用学习算法k＝1,…,K，从一组动作Cm，i＝1,…,m中选择要选择的动作Ci(也称为“选择”)，使得由该学习算法k选择的动作在决策周期的给定时刻或步骤t提供最大收益。决策辅助过程可以重复，直到t达到预定的阈值Ts或无限。在一个实施方案中，决策辅助系统10可以通过观测基本概率函数和元学习过程的概率的稳定性(或收敛性)来确定更新学习过程的步骤的停止。例如，如果这些概率不在两个步骤t和t+1之间演变，则超过阈值ε。

在决策步骤t中使用动作Ci的实体n的收益将在下文中表示为u_n,-n(i,t)或以简化的符号u(i,t)表示，其中i＝1,…,m是竞争实体动作的指数。收益可以通过函数来定义，也可以直接以值的名义来观测(例如：作战单元的数量仍然有效)。应注意的是，收益函数对相对于对手实体的决策(或选择)而做出决定(即做出选择)的优点建模。在某些实施方案中，收益函数可能受到与环境特性有关的或与用于收集环境数据的传感器有关的某种不确定性的影响。然后考虑概率分布(随机博弈论)。在其他实施方案中，收益函数还可以覆盖考虑的实体的给定情况和/或资源的若干特性(例如：仍然有效的作战单元的数量+赢/输的地形+机动的成本+等等)，然后涉及一个多评价指标函数。这些函数可以采用Choquet积分或广义加性实用模型的形式。

本发明的实施方案例如可以在包括一组发射器20A和一组接收器20B/20C的电信系统类型的竞争系统中实现，如图3所示。

参考图3，这样的系统包括在通信网络中互连的一个或更多个发射器20A和一个或更多个接收器20B/20C，该通信网络可以由竞争实体形成，发射器20A能够构成对抗性实体，一个或更多个接收器20B能够构成攻击性实体。

在图3的示例中，竞争系统10包括攻击性接收器20B和对抗性发射器20A。

发射器20A希望在去往目标接收器20C的公共传输通道上分发消息。交换的消息30可以是清晰的消息(即，未加密的消息)或加密的消息。攻击性接收器20B的目标是试图阻止消息。

例如，发射器20A以及接收器20B和20C可以是移动通信网络中的移动用户设备，例如移动电话或智能手机。

在变体实施方案中，竞争系统可以包括根据互联网协议在互联网网络中交换http消息的用户/服务器类型的发射器20A和接收器20B/20C，实体20B试图阻止由实体20A发送的去往接收方设备20C(计算机、智能手机、IT平板电脑等)的消息。

对手实体20B可以尝试通过诸如攻击技术的多种技术来阻碍由发射器20A发送的消息的转发：

-通过入侵(利用系统弱点执行未经授权的指令，如利用配置错误或漏洞)；

-通过物理动作(破坏，物理改变或网络组成部分的改变)；

-通过身份欺骗(使用假身份来欺骗系统或用户)；

-通过代码注入(在系统上安装和执行秘密模块)；

-通过监听(在网络上被动并且秘密监听从而恢复信息)。

当然，本发明不限于这种类型的竞争系统，并且包括包含至少两个对手竞争实体的任何类型的竞争系统。此外，如果环境是唯一一个影响系统收益的，则该环境本身可以认为是对手竞争实体。具体地，在没有对手但是包括导致实体的收益改变的环境条件的情境中，该环境本身可以是竞争实体。例如，在网络中，如果所考虑的实体配置为实施路由策略，则用户流量可以被认为是竞争实体，用户构成环境，该环境的目标是最大化其在网络中的比特率。本发明也不限于上文的说明中引用的应用的示例。例如，本发明的决策辅助系统可以用于作战系统，在该作战系统中，竞争实体由用于选择开火策略、命令演习、无线电频率等的军事装置组成。在另一个示例中，本发明的决策辅助系统可以用于能量管理系统，该能量管理系统包括能量生产实体和能量消耗实体，决策辅助系统10可由生产实体使用以在能量存储的动作或向消费者实体转售能量的动作之间做出决定。在另一个示例中，本发明的决策辅助系统可以用于交通管理系统，其中所考虑的实体配置为分配资源(长途公车或公共汽车的数量、交通灯处的等待时间等)或者用于安全管理系统以通过模拟攻击者的入侵来确定安全策略。

本发明实施方案中的决策辅助过程和系统通过在每个决策步骤中从一组预定的学习算法中选择学习算法来确定给定实体的动作的最优选择，使得能够控制竞争实体的动作。

图4示出了对应于示例性竞争系统的收益矩阵(也称为收益表)，在该竞争系统中竞争实体20A受到由一个或更多个攻击性实体20B实施的电子攻击的威胁。

在诸如此类的竞争系统中，对抗性实体20A可以通过在未被阻止的通信装置上分发数据来“赢”，或者通过在被阻止的通信装置中分发该消息而“输”。

图4的表格对应于当攻击性实体阻止通信装置时使用单个通信装置(例如，天线类型的通信装置)并应用成本c的示例。图4的示例性表格对应于单个对抗性实体。

对抗性实体20A可以选择通过不同的通信装置(天线、卫星)分发或不分发该数据。

所述对抗性实体或多个实体21B可以选择阻止或不阻止一个或更多个这些通信装置。

竞争环境中对抗性实体20A的可能动作(“分发”或“不分发”消息)在第一列40中显示，而竞争环境中攻击性实体20B的可能动作(“阻止”、“不阻止”通信装置)在第一行42中表示。在矩阵410至413的每个条目中，针对对抗性实体20A估计的收益在左侧部分中显示(由附图标记A标记)，而针对攻击性实体20B估计的收益在右侧部分中显示(由附图标记B标记)。

在图4的示例中，纳什均衡由每个竞争实体的概率向量

表示。

尽管不限于这样的应用，但是本发明对于在非合作决策的情境下的辅助决策表现出特别的兴趣。事实上，在这样的情境下，收益函数考虑了由所谓的“友好”竞争实体感知的收益。然后，控制装置11能够通过传感器或者通信模块来观测关于学习“友好”竞争实体的数据，“友好”竞争实体可以通过该通信模块分发这些数据。

图5是根据某些实施方案的包括元学习模块的决策辅助系统10的示意图。

决策辅助系统10配置为通过利用一组预定义的学习过程来确定由竞争环境中的竞争实体(例如，对抗性实体20A)实施的动作的选择。相应地，元学习模块50确定并使用元学习函数，以从预定义的学习过程52中选择学习过程并使用选定的学习过程来确定由竞争实体实施的动作(即，策略)。决策辅助系统10包括元学习模块50(也称为全局学习模块)，以通过学习从K个学习过程的集合52中选择学习过程。

元学习模块50还可以包括：

-博弈模型生成器51，其配置为根据所考虑的使用情境生成博弈模型(也称为“策略情况”)。特别地，该模型包括利用系统10的实体的一组可能动作和应用于该动作的收益函数。该收益可以被观测或者被观测并计算。收益函数可以计算先验未知的收益(对于给定情况，即所考虑的竞争实体的动作，对手实体的动作或有关该状况的其他信息)。收益函数可以或者不可以被建模，并且是决策辅助系统10的输入。这样生成的模型可以在没有更新阶段的情况下使用，以接收或确定学习数据。

-初始化单元53，其用于初始化预定义的组52的学习过程；以及

-学习过程选择单元54，其用于确定元学习函数(也称为“全局”学习函数)并且通过利用该元学习函数从K个学习过程52中选择学习过程；

-动作确定单元55，其用于根据选定的学习过程来确定由给定的竞争实体实施的动作的选择。

如此处所使用的，术语“情境”或“情况”表示决策辅助系统10所使用的并且控制装置11所依赖的应用环境。例如，情境可以是利用实施态势感知的控制装置11的军事情境。应用情境可以是使用监控装置类型的控制装置11的电信情境。与情境相关联的装置(其可以是控制装置11本身或不同的装置)配置为一旦选定的动作执行就收集学习数据(或者另外要求不同的装置)并将学习数据提供给决策辅助系统10。

根据本发明的具体实施方案的决策辅助过程和系统可以在以下阶段中实施：

-在决策阶段中，以确定由竞争实体20A实施的动作(在下文中也称为“策略”或“选择”或“策略动作”)，从而获得相对于对手实体20B的最佳收益；

-在更新阶段中，以基于根据收益参数56确定的学习数据来更新学习过程和元学习函数中的至少一个，所述收益参数56通过在竞争实体的情境下模拟或者执行动作而获得或估计。

图6是示出了根据某些实施方案的决策辅助过程的主要步骤的总体流程图，该决策辅助过程可以在包括一组竞争实体的竞争系统中实施。

学习过程集合52中的每个学习过程M_k对应于能够“学习”哪些动作对于对手的动作的选择有可能提供最佳收益的学习过程。如果存在这种确定最佳响应的策略，则已知这种确定最佳响应的策略收敛于纯粹纳什均衡。如果不存在，则学习过程可能或多或少很好地适合于找到混合纳什均衡或使收益最大化的概率向量，本发明最终趋于最适合的学习过程。每个学习过程与基本概率函数PEk相关联，基本概率函数PEk将概率p_ik与可由竞争系统中给定的竞争实体20A实施的m个动作中的每个动作Ci相关联。

基本概率函数PEk可以由概率分布定义。概率分布可以表现为概率向量的形式，所述概率向量的每个分量对应于基本概率函数PEk中的一个。在一个实施方案中，元学习概率的分布可以基于学习数据来确定，并且可以由概率向量p(t)＝(p₁(t),…,p_K(t))进行表示，从而使：

-向量p(t)的每个分量p_k(t)对应于通过学习过程k＝1,…,K计算的基本概率函数中的一个，

-t表示决策步骤，并且

-K表示学习过程的数量。

在该实施方案中，对应于给定学习过程Mk的每个基本概率函数PEk通过概率向量p(t)的第k个分量p_k(t)而定义，因此取决于t：PEk(t)＝p_k(t)。

基本概率函数和元概率函数可以特别服从在方法的实施的每个步骤t处应用的等式(以下也称为更新等式)。

因此，每个分量p_k(t)将概率参数与可由竞争实体实施的每个动作Ci相关联(指数i＝1,…,m对应于系统的动作或仅对应于可由对抗性实体20A实施的动作)：

p_k(t)＝(p_1k(t),…,p_ik(t),…,p_mk(t))

例如，概率参数可以利用权重进行计算。通过非限制性示例，将参考权重类型的概率参数给出随后的说明。

可以实施在先步骤600以加载由决策辅助方法使用的一组学习算法{1,…,K}。在一个实施方案中，可以在该决策方法的任意时刻热添加或删除一个或更多个学习算法。

在步骤601，删除了与竞争系统中给定的竞争实体20A相关的触发条件。例如，可以响应于由控制竞争实体的控制装置11发送的请求的接收来检测触发条件，该请求包括竞争实体的标识以及关于实体的情境和对手实体20B的数据。该请求可以由控制装置11发送以获得由竞争实体20A实施的关于竞争系统101的对手实体20B的动作Ci的建议(下文中称为“策略选择”)，从而使动作Ci优化对抗性实体20A相对于这些对手实体(也称为攻击性实体)的收益。建议的动作Ci与期望的收益相关联，如果该系统包括多个对抗性实体20B，则该期望的收益可以取决于一个或更多个反向选择。

如果在步骤601中检测到触发条件，则根据每个学习算法k(ME1,…MEK)来初始化(604)或更新(605和606)基本概率函数{PE1,…PEK}。每个基本概率函数PEk将概率参数与考虑的竞争实体20A的每个可能动作相关联，这些概率参数对应于竞争实体20A的可能动作的集合上的概率分布。在一个实施方案中，每个概率参数可以是权重或分数(score)。具体地，每个概率函数可以由包括一组分量的概率向量来定义，概率向量的每个分量表示与动作Ci中的一个相关联的概率参数。

通过非限制性示例，将参考权重类型的概率参数给出随后的描述。

例如，在每个决策步骤t：

-基本概率函数PE1将权重p₁(t)＝(w₁₁(t),…,w_1m(t))与实体20A的可能动作C₁,…,C_m(策略选择)相关联；

-基本概率函数PE2将权重p₂(t)＝(w₂₁(t),…,w_2m(t))与实体20A的可能动作C₁,…,C_m相关联；

-基本概率函数PEK将权重p_K(t)＝(w_K1(t),…,w_Km(t))与实体20A的可能动作相关联。

在决策辅助方法的第一个决策步骤，对每个基本概率函数PEk进行初始化(604)。在一个实施方案中，根据均匀的概率分布，基本概率函数可以被初始化为相同的值(即，对于所有函数PEk，权重w_k1(t),…,w_km(t)是相同的)。此外，步骤604可以包括初始化元概率函数(也称为“全局概率函数”)，该元概率函数将权重(或者更一般的，概率参数)与基本概率函数的每一个相关联。

另外，在步骤605和606，可以根据学习数据或在学习算法的整个集合上的变化数据(添加或删除)来更新基本概率函数PEk。

在步骤607，利用在实施选定的动作之后获得的收益来更新全局概率函数(“元概率函数”)MF，标记为p(t)。元概率函数将权重w_k(t)与标记为p_k(t)的K个基本概率函数Pek中的每个相关联：

p(t)＝(w₁(t),…,w_k(t),…,w_K(t))。

权重w_ik(t)和w_k(t)在每个决策步骤t进行计算，并且可以例如基于如下的等式进行计算，该等式利用了通过将收益函数应用于学习数据(其可由竞争系统101通过控制系统11而提供)而获得的收益。在步骤609，基本概率函数PEk中的一个通过利用元概率函数MF而选择。为此，系统对0和1之间的值进行随机抽取，并将该值与概率函数ME的概率进行比较。对于每个基本函数PEj，函数ME的概率相加。如果在函数PEj处，总和超过了随机抽取的值，则选定的基本概率函数为函数PE_j-1。

在步骤610，选定的基本概率函数PEk用于确定竞争实体20A相对于对抗性实体20B的策略选择Ci(动作)。选定的基本概率函数PEk可以通过利用概率分布(例如，如果权重是概率，则可以进行随机抽取，并且将随机抽取的结果与概率分布进行比较)来选择动作Ci。应注意的是，通过将每个权重除以概率向量p_k(t)的权重的总和，可以将权重简化为概率。

在步骤611，可以将建议发送给控制装置11(或者，如果该控制装置形成了实体的主要部分，则可以直接发送给竞争实体20A)，该建议可以包括在步骤610确定的动作Ci的选择的标识符。控制装置11可以触发动作Ci对控制装置11所控制的对抗性竞争实体20A的情况(或情境)的应用，或者根据关于实体20A的环境和/或情境的一组信息来采取另一控制决策。

控制装置11可以在真实情况(实际执行)或模拟情况(模拟执行)中触发执行选定的策略选择Ci。控制装置11还可以配置为估计或测量所获得的收益和其他辅助数据(收益数据和形成学习数据的辅助数据)作为执行动作的结果。具体地，所获得的“收益”可以表示观测的结果与期望的结果、通过传感器测量的测量值等之间的比率。所获得的“收益”可以基于涉及关于多个观测的度量以及这些度量中的预期值的数据的多评价指标函数进行计算。所获得的“收益”还可以涉及能够考虑观测中的不确定性(例如，错误率)的过程。

然后，控制装置11可以将包括关于所获得收益的数据的学习数据发送给决策辅助系统10(以反馈模式)。应注意的是，在某些实施方案中，控制装置11可以形成决策辅助系统10的主要部分。

更确切地说，在某些实施方案中，决策辅助方法可以进一步包括：响应于在给定的竞争实体20A的情况下接收到作为策略选择Ci的执行结果收集的学习数据(605)并且在从这些数据中提取了参与收益函数的计算(606)的度量之后，在步骤607，更新至少一个基本概率函数的步骤。更新步骤607包括更新选定的基本概率功函数，并且还可以包括更新一个或更多个其他基本概率函数。更新基本概率函数也可以响应于添加或删除学习过程而触发。由控制装置11收集的学习数据(605)因此可以在收益函数(其给出收益)中和/或在更新基本概率函数的步骤中使用。

具体地，更新步骤607可以包括基于学习数据(特别是所获得的收益)并且通过利用更新函数(其可以取决于与要更新的每个基本概率函数相关联的学习过程)来更新基本概率函数PEk。更新函数可以配置为更新概率向量的分量或者与动作相关联的概率参数(例如，权重)的值。

在一个实施方案中，可以对于所有的基本概率函数的集合52定义同一个更新函数。作为变体，可以对于单个基本概率函数或对于基本概率函数的集合52的子组定义更新函数。在图5中示出的元学习模块50可以特别地包括逻辑代理59(示意性地示出)，其能够实施对于每个基本概率函数定义的更新函数。

在所谓的“模拟”情况的实施方案中，步骤601至611可以通过利用与完整(或者通过插入特定值而补充)的情况相关联的收益矩阵而重复多次，以便训练元学习函数，并且加速向最优概率收敛(元学习模块50关于学习过程进行学习)。

在另一个所谓的“在线”实施方案中，可以通过利用学习数据(特别是由一个或更多个传感器提供的获得的收益的测量值)来对每个决策步骤t实施图6的决策辅助方法的单次迭代。这种传感器也可以用于提供关于实际执行的动作的信息。这些传感器的性质和定位可以取决于应用情境和/或竞争环境101。在军事情境下，这些传感器例如可以包括卫星。在电信情境下，这些传感器例如可以包括探针，其配置为复制待检查的数据包。作为变体，学习数据(特别是关于收益的测量值和由竞争的实体执行的动作)可以不存在或不确定。在这种情况下，某些学习过程的有效性可能有限(例如：如果竞争实体的动作不可观测，则所谓的“虚拟”参与者过程不可用)。本发明的一个优点是恰好可以通过利用元学习方法来适应这种类型的情境。

该方法和元学习模块因此使得可以基于竞争实体的收益函数，可能地，基于未知的或已知的对抗性实体的收益函数(例如，当收益矩阵不是由决策辅助系统10支配时)，从K个学习过程的集合(52)中为给定的竞争实体确定最佳学习过程。

作为变体，不执行更新步骤(605,606,607和608)，图6的方法的初始化步骤604的执行(条件603)可以响应于关于决策步骤t(t<T)的条件的验证而触发。因此，如果确定出t小于可能动作T的数量(或者添加到学习过程和动作的数量K×M的T)，则执行步骤604。作为变体，忽略该方法的这些相同步骤的条件可以涉及基本概率函数PEk或元学习函数MF的权重的演变。如果这些权重关于阈值∈

固定，则使用该方法的参数。

如果关于t的条件满足，则执行图6的决策辅助方法的步骤609至611，以根据步骤604的初始化数据，例如均匀分布数据(于是基本概率函数是均匀的)来选择要应用的学习过程。

在步骤607，从学习数据中提取与收益函数有关的标准的值或度量。收益函数例如可以是Choquet积分类型的、广义加性实用模型类型或神经网络类型的多评价标准数学函数。作为变体，如果某些标准不确定，则可以利用贝叶斯网络类型的概率模型来计算收益函数。例如，当基于不同的传感器收集学习数据时，传感器可以被选择为具有非确定性的精确度(错误率等)和/或不能够获得信息。

在一个实施方案中，概率向量p(t)以及每个基本概率向量p_k(t)(对应于与给定学习过程Mk相对应的基本概率函数PEk)可以通过利用基于基本权重w_k(t)的更新函数p_k(t)或者基于基本权重w_ik(t)的对于分量p_ik(t)的更新函数分别在步骤607和608中进行更新，所述基本权重基于获得的收益(56)。具体地，在步骤606，与动作i相关联的每个基本概率函数k的分量p_ik(t)的更新函数可以取决于步骤t中的基本权重w_ik(t)与步骤t中的基本概率函数k的基本权重的总和w_k(t)之间的比率，例如根据等式(1)：

回顾一下，指数i＝1,…,m对应于系统的动作或对抗性实体可以实施的动作。

为了便于理解图6的方法的某些实施方案，提供了以下的定义：

-变量p_k，其表示步骤609中元函数提出基本函数k的概率；

-变量p_ik，其表示步骤610中基本函数k提出动作i的概率；

-变量w_ik，其表示对应于动作i的基本函数k的权重；

-变量w_k，其表示与每个基本概率函数k相关联的总权重(w_ik的总和)；以及

-变量w，其表示变量w_k的总和。

应注意的是，步骤601至611可以重复T次。在本发明的方法的每个执行或决策步骤t＝1,…,T，上述的变量然后通过结合表述“(t)”进行表示。

在一个实施方案中，步骤608中的全局概率函数的分量的更新函数可以取决于基本权重w_k(t)与基本权重w(t)之间的比率，例如根据等式(2)：

作为变体，每个概率向量p_ik(t)可以在步骤607中更新，以这样的方式来确保如下的特定探索(尝试新的动作或重新执行某些动作)：

同样地，每个概率向量p(t)或p_k(t)可以在步骤608中更新，以这样的方式来确保如下的特定探索(尝试新的动作或重新执行某些动作)：

参数0<γ_t≤1可能会随时间减小，从而使探索稳定或恒定。

在另一个实施方案中，可以在步骤607和/或608中直接基于测量在给定决策步骤中选择学习过程的遗憾的收益参数来更新概率分布。

表示为

其中τ≤t，遗憾参数表示选择学习过程j而不是k的遗憾，其中u_τ表示所接收的收益，然后可以在步骤607中根据以下更新函数来更新概率向量p_k(t)的每个分量w_jk，其中Ct表示由系统在决策步骤t选择的动作：

类似地，可以根据以下更新函数在步骤608更新全局向量p(t)的每个分量w_k，其中Ct表示由系统在决策步骤t选择的动作：

在另一个实施方案中，可以在步骤607中直接基于根据等式[3]获得的收益、根据以下更新函数来更新基本向量p_k(t)的每个分量w_ik，其中b≤0.5并且b可能随着时间减小：

类似地，可以在步骤608中直接基于根据等式[3]获得的收益、根据以下更新函数来更新全局向量p(t)的每个分量w_k，其中b≤0.5并且b可能随着时间减小：

在等式[8]中，u(k，t)表示通过选择基本概率函数PEk而获得的收益。因此，u(k，t)等于通过选择动作i而获得的收益，从而如果在步骤t选择了PEk，则u(k，t)＝u(i，t)。

另外，根据等式[1](或者[2])和[3](或者[4])来更新基本概率函数(或者为步骤608中的元函数)的步骤607可以包括通过使用所获得的收益或等式[9]的公式(或者[10]，用于在步骤608中更新全局概率向量)来更新基本权重w_ik(t+1)(或者w_k(t+1))。

在等式[9]中，参数

并且l_i(t)表示在决策步骤t选择动作Ci所导致的损失。在等式[10]中，参数l_k(t)表示在决策步骤t使用学习过程k所造成的损失。

在另一个变体中，通过使用等式[1](或者[2])和[3](或者[4])来更新基本概率函数的步骤607(或者在更新元函数的步骤608)中的基本概率向量的权重也可以通过将玻尔兹曼(或吉布斯)分布函数应用于根据以下等式获得的收益而更新：

用于更新步骤607；

用于更新步骤608。

应注意的是，等式[7]和[8]尤其适合于收益在时间上的分布未知时。尤其是，如果对于一个或更多个学习过程选择的相同的给定动作观测到明显的收益变化。

在另一个实施方案中，权重可以考虑由决策辅助系统10定义的环境状态s∈S。在该实施方案中，例如由等式[1](或者[2])和[3](或者[4])定义的基本概率函数的权重(607)(或者元函数的权重(608))也可以根据以下等式更新：

-对于更新步骤607为以下等式[13]：

w_s，ik(t+1)＝(1-α)w_s，ik(t)+α[u_t(a_k)+γmax_s′，i，kw_s′，i′k(t+1)] [13]

-对于更新步骤608为以下等式[14]：

w_s，k(t+1)＝(1-α)w_s，k(t)+α[u_t(a_k)+γmax_s′，k′w_s′，k′(t+1)] [14]

在等式[13]和[14]中，参数α表示也可以随时间减小的探索率，γ表示更新率(其可以加权未来收益的重要性)。

在一个实施方案中，由决策辅助系统10收集的学习数据可以是平均收益数据。于是，基本概率函数PEk可以通过利用作为概率参数(其与每个动作Ci相关联)的分数而定义。

例如，对于每个基本概率函数PEk(其与给定的学习过程相对应)，与动作Ci相关联的分数可以根据每个动作响应于执行学习过程PEk至少一次而获得的收益的平均值来确定。

为了增加探索，可以使用随机数来选择动作上的均匀概率分布。

作为变体，可以基于通过使用对应于基本概率函数PEk的学习过程k接收的收益的平均值并且通过考虑探索因子来确定与每个动作Ci相关联的分数。例如，该分数(score)可以根据以下等式进行计算：

其中N_i表示动作Ci已被选择的次数，

是通过选择动作Ci所获得的收益的平均值。

元学习函数可用于执行绘制(tirage)，从而可以选择基本概率函数。

在另一个实施方案中，决策辅助系统10配置为收集关于对手实体20B的动作的信息并且接收与每个动作Ci已经选择的次数有关的信息。于是，学习数据可以包括关于对手实体20B的动作的数据。在这样的实施方案中，决策辅助系统10可以确定与对手实体选择的动作有关的概率分布，并且可以确定对手实体的可能动作。然后，每个基本概率函数PEk可以将概率参数不仅与对抗性实体10A的可能动作相关联，而且还与对手实体20B的可能动作相关联。在步骤610中选择的动作因此对应于在应对对手实体的策略的同时最大化竞争实体20A的收益的动作。

图7示出了根据一个实施方案可以实施决策辅助系统10的示例性环境。竞争系统101包括通过网络102连接的计算机类型的竞争实体。实体20A(对抗性实体)试图经由互联网网络102向接收方计算机20C发送消息(例如，http消息)。竞争实体20B试图阻止消息的分发。该决策辅助系统10类似于图1中的决策辅助系统。然而，在图7的实施方案中，该决策辅助系统10进一步包括情境监控单元57，该情境监控单元57配置为监控情境的变化。监控单元57可以包括用于检测竞争实体的新动作的动作检测器570以及用于检测竞争实体相对于目标收益(例如，收益平均值)的收益发散的收益发散检测器571。决策辅助系统10还可以包括用于更新学习过程的单元58，该单元配置为根据情境监控单元57检测到的变化来更新K个学习过程中的一个或更多个学习过程，例如由动作检测器570检测到的新动作的出现或由收益检测器571检测到的收益的强烈发散的检测。收益检测器571可以应用与收益相关的一组统计测试，例如收益变化的极限测试或诸如ARIMA(“自回归整合移动平均”的首字母缩略词)或Page-Kinkley测试的测试。响应于这些测试，用于更新学习过程的单元可以触发学习数据的重新初始化。这种重新初始化可以以重启的形式来实现，例如通过将与基本函数PEk相关联的基本权重设置为1或通过根据均匀概率分布修改权重来实现。作为变体，可以通过修改对应于学习函数Mk的基本概率函数PEk来实现重新初始化，从而使它们通过将概率参数初始化为初始值而将概率参数(例如，权重)与检测到的每个新动作相关联。初始值可以通过根据元概率函数绘制而确定。

因此，无论学习算法52的数量和性质如何，本发明都可以通过元学习装置10来选择学习算法。

发明人将本发明的决策辅助系统和方法的性能与布朗的常规博弈算法进行了比较，如图8的收益矩阵所示。该收益矩阵对应于与图3相同的示例性实施方案，其中c＝0.3。

第一组实验在包含两个实体1和2的竞争系统中使用布朗算法对100个决策步骤进行50次。首先观测两个竞争实体，假设每个实体都可以具有关于另一个竞争实体的选择的信息，并且已知另一个竞争实体的收益矩阵。

图9示出了当两个竞争实体1和2使用布朗算法时，实体1和2随着时间获得的收益的示例性演变(50次执行的平均值)：长期来看，实体2获得的收益要高于实体1的收益。

图10表示与实验期间每个实体1或2的每个动作A或B的选择相关联的概率值的示例性演变：

-第一个曲线C1表示与实验期间实体1的每个动作A的选择相关联的概率值的演变；

-第二个曲线C2表示与实验期间实体1的每个动作B的选择相关联的概率值的演变；

-第三个曲线C3表示与实验期间实体2的每个动作A的选择相关联的概率值的演变；

-第四个曲线C4表示与实验期间实体2的每个动作B的选择相关联的概率值的演变。

图10示出了每个实体都遵循将概率值

与动作{A,B}关联的混合策略。

因此，图9和图10示出了布朗算法收敛于混合纳什均衡。

通过改变每个竞争实体的学习过程，已经为图2的表格所示的示例性竞争情境实施了决策辅助方法。已经观察出，对于这个示例的最有效学习过程是对应于等式[5]的学习过程。为了评估本发明的决策方法的有效性，基于确定元学习函数的步骤，将本发明与布朗算法和根据等式[5]的传统学习算法进行比较。还应该注意的是，其他实验已经表明，根据等式[5]的学习算法相对于布朗算法更有效。回想一下，像布朗算法一样，公式[5]假定环境对竞争情境有影响。可以例如通过利用对手实体的策略以各种方式对环境进行建模。

图1以示意的方式示出了根据某些实施方案的实施决策辅助系统10的示例性架构。

通常，学习过程可以根据图2中的流程图的步骤、在整个决策周期期间利用单个学习方法来实施。

图4示出了对应于示例性竞争系统的收益矩阵(也称为收益表)，在该示例性竞争系统中竞争实体20A受到由一个或更多个攻击性实体20B实施的电子攻击的威胁。

图7示出了根据一个实施方案可以实施决策辅助系统10的示例性环境。竞争系统101包括通过网络102连接的计算机类型的竞争实体。

发明人将本发明的决策辅助系统和方法的性能与布朗的常规博弈算法进行了比较，如图8的收益矩阵所示。该收益矩阵对应于与图3相同的示例性实施方案。

图10表示与实验期间每个实体1或2的每个动作A或B的选择相关联的概率值的示例性演变。

图11的表格示出了每个竞争实体在100次博弈之后获得的平均收益(实体1的结果在左侧列900中显示，实体2获得的结果在右侧列902中显示)。在该示例中，可以观察出，竞争实体1的最佳策略是基于公式EQ.5选择学习过程，而竞争实体2的最佳策略是使用根据本发明的决策辅助方法，该决策辅助方法使用元学习函数。

表12显示了基于等式4的利用更多“盲”学习过程所获得的结果。在这种情况下，当两个实体使用根据本发明的决策辅助方法时达到均衡(在该示例中，均衡是社会最优)。

本领域技术人员将理解，根据实施方案的决策辅助方法可以通过硬件、软件或硬件与软件的组合以各种方式，特别是以程序代码的形式来实现，该程序代码可以以各种形式以程序产品的形式分配。特别地，程序代码可以借助于计算机可读介质来分配，该计算机可读介质可以包括计算机可读存储介质和通信介质。本说明书中所描述的方法可以特别地以可由IT计算机设备中的一个或更多个处理器执行的计算机程序指令的形式来实施。这些计算机程序指令还可以存储在计算机可读介质中。

特别是，如图13中所示，决策辅助系统10和/或控制装置11和/或每个竞争实体20A或20B可以以一个或更多个IT设备或系统70(下文中称为计算机)的形式实施。计算机70可以包括：处理器71、存储器72、大容量存储器存储设备75、输入/输出接口(I/O)77(例如，视频屏幕，触摸屏，输入设备和控件，诸如字母数字键盘、指点设备、数字键盘、按钮、控制按钮、麦克风等)。计算机70也可以通过网络76和/或I/O接口77以功能方式联接到一个或更多个外部资源。外部资源79可以包括(但不限于)服务器、数据库、大容量存储设备、外围设备、基于云的网络服务或任何其他可由计算机70使用的合适的IT资源。

处理器71可以包括一个或更多个处理器设备，诸如微处理器、微控制器、中央处理单元或根据存储在存储器72中的操作指令操纵(模拟或数字)信号的任何其他设备。处理器71可以在保存在存储器72中的操作系统73的控制下操作。操作系统73可以管理IT资源，例如以保存在存储器72中的一个或更多个软件应用程序74的形式整合的IT程序代码。

本发明不限于以非限制性示例的方式在上文中说明的实施方案。本发明包含可以由本领域技术人员设想的所有的变体实施方案。特别是，本发明不限于特定的竞争系统，并且包括包含至少两个对手竞争实体的任何竞争系统。此外，学习过程(或算法)的组合52可以包括任何类型的学习过程，而没有任何限制。学习过程(或算法)的组合52也不受学习过程的特定数量的限制。本发明不限于学习过程的特定更新函数。这些更新函数可以对于每个学习过程而不同。这些更新函数也可以在决策辅助方法的每次迭代之间对于给定的学习过程而变化。

Claims

1.一种在竞争系统中实施的决策支持方法，所述方法用于确定由所述竞争系统中给定的实体实施的动作，所述竞争系统包括所述给定的实体和至少另一个对抗性实体，所述竞争系统的实体能够实施一组预定义的动作中的动作，其中，所述对抗性实体的动作能够对由所述给定的实体实施的动作的成功产生负面影响，所述竞争系统的实体表示装置或系统，由所述竞争系统的实体实施的动作或动作的组合提供利用收益函数确定的期望收益，所述给定的实体能够实施一组预定义的学习方法中的学习方法以学习对抗性实体的动作，其中，所述方法包括：

-将多个基本概率函数中的基本概率函数与每个学习方法相关联(604)，基本概率函数将概率参数与所述一组预定义的动作中的给定的实体的每个动作相关联，每个基本概率函数被表示为概率向量，所述概率向量的每个分量将概率参数与所述一组预定义的动作中的每个动作相关联，所述概率参数对应于所述一组预定义的动作中的概率分布；

-确定全局概率函数(608)，所述全局概率函数将概率参数与每个基本概率函数相关联；

-利用所述全局概率函数来选择(609)所述基本概率函数中的一个；以及

-应用选定的基本概率函数以确定所述一组预定义的动作的所述动作中的动作(610)，由所述给定的实体对确定的动作的实施提供获得的收益，

其中，所述全局概率函数是利用所述获得的收益来更新的。

2.根据权利要求1所述的方法，其特征在于，所述方法包括以包括实体的可能动作的集合和应用于所述动作的收益函数的博弈模型的形式对给定的实体的策略情况进行建模的预先步骤。

3.根据权利要求1所述的方法，其特征在于，所述概率参数是权重值。

4.根据权利要求1所述的方法，其特征在于，所述概率向量的每个分量取决于预定义的基本权重。

5.根据权利要求1所述的方法，其特征在于，所述方法包括基于学习数据计算收益函数的步骤(606)。

6.根据权利要求5所述的方法，其特征在于，所述收益函数取决于以下多评价指标模型中的至少一个：加权和、Choquet积分、广义加性实用模型、神经网络。

7.根据权利要求5所述的方法，其特征在于，所述收益函数取决于概率模型。

8.根据权利要求1所述的方法，其特征在于，所述方法包括响应于通过执行或通过模拟选定的基本概率函数和在系统中至少一次实际选择的动作而获得的学习数据的接收，利用更新函数更新至少一个基本概率函数的步骤。

9.根据权利要求8所述的方法，其特征在于，更新步骤(607)包括更新所述选定的基本概率函数。

10.根据权利要求9所述的方法，其特征在于，所述更新步骤(607)还包括更新其他的基本概率函数中的至少一个。

11.根据权利要求10所述的方法，其特征在于，所述更新步骤(607)包括对每个基本概率函数应用不同的更新函数。

12.根据权利要求8所述的方法，其特征在于，所述更新函数包括取决于获得的收益的至少一个更新函数。

13.根据权利要求8所述的方法，其特征在于，所述更新函数包括取决于基本权重的至少一个更新函数，每个基本权重与给定的动作相关联并且所述基本权重取决于获得的收益。

14.根据权利要求13所述的方法，其特征在于，给定的基本概率函数的所述更新函数包括动作方面的分量，每个动作方面的分量取决于所涉及的决策步骤中与所述动作相关联的基本权重与对应于所述决策步骤中的基本概率函数的各分量的基本权重的总和之间的比率。

15.根据权利要求13所述的方法，其特征在于，更新步骤还包括根据在给定的决策步骤利用与要更新的基本概率函数相关联的学习方法所导致的损失来更新所述基本权重。

16.根据权利要求13所述的方法，其特征在于，更新步骤包括通过将玻尔兹曼分布函数应用于获得的收益来更新所述基本权重。

17.根据权利要求13所述的方法，其特征在于，更新步骤包括根据表示探索率的环境状况以及重置因子的环境状况的参数来更新所述基本权重。

18.根据权利要求8所述的方法，其特征在于，所述更新函数包括取决于通过测量在给定的决策步骤中选择与基本概率函数相关联的学习方法而不是另一个学习方法的遗憾而接收到的收益参数的至少一个更新函数。

19.一种存储代码指令的计算机可读存储介质，当所述代码在计算机上执行时，所述代码指令使得能够执行根据权利要求1至18中的任一项所述的方法的步骤。

20.一种用于确定由竞争系统中给定的实体(20)实施的动作的决策支持系统(10)，所述竞争系统包括所述给定的实体和至少另一个对抗性实体，所述给定的实体能够实施一组预定义的动作中的动作，其中，所述对抗性实体的动作能够对所述给定的实体的动作的成功产生负面影响，所述竞争系统的实体表示装置或系统，由所述竞争系统的实体实施的动作或动作的组合提供利用收益函数确定的期望收益，所述给定的实体能够实施一组预定义的学习方法中的学习方法以学习对抗性实体的动作，每个学习方法都与多个基本概率函数中的基本概率函数相关联，基本概率函数将概率参数与所述一组预定义的动作中的每个动作相关联，每个基本概率函数被表示为概率向量，所述概率向量的每个分量将概率参数与所述一组预定义的动作中的每个动作相关联，所述概率参数对应于所述一组预定义的动作中的概率分布，并且其中，所述系统包括全局学习模块(50)，所述全局学习模块(50)配置为确定能够将概率参数与每个基本概率函数相关联的全局概率函数，所述全局学习模块还包括选择单元(54)，所述选择单元(54)能够利用全局概率函数来选择所述基本概率函数中的一个，所述全局学习模块能够应用选定的基本概率函数以确定所述一组预定义的动作的所述动作中的动作，由所述给定的实体对确定的动作的实施提供获得的收益，其中，所述全局概率函数是利用所述获得的收益来更新的。