CN115017677A

CN115017677A - 一种面向推演仿真的行动策略预判方法及系统

Info

Publication number: CN115017677A
Application number: CN202210456777.3A
Authority: CN
Inventors: 林旺群; 赵得智; 刘波; 孙晓; 伊山; 徐菁
Original assignee: Strategic Evaluation And Consultation Center Of Pla Academy Of Military Sciences
Current assignee: Strategic Evaluation And Consultation Center Of Pla Academy Of Military Sciences
Priority date: 2022-04-27
Filing date: 2022-04-27
Publication date: 2022-09-06
Anticipated expiration: 2042-04-27
Also published as: CN115017677B

Abstract

本发明提供一种面向推演仿真的行动策略预判方法及系统，包括基于智能对抗推演仿真系统获取对抗方行动装备及各装备的初始部署位置，并将所述对抗方各装备及其部署位置作为一个可能的行动策略；将所述行动策略与预先存储的所有的对抗方行动策略进行比对，当所述行动策略与预先存储的对抗方行动策略都不相同时，所述行动策略被确认为对抗方的一个新行动策略并存储；本发明提供的技术方案通过深入考虑分析行动双方态势信息，在双方实力的基础上，提前制定多套本方备选行动策略，以便在推演正式开始前，根据获知的态势情报和历史对抗数据，确定策略切换时机以选择最合适的行动方案，从而大大提高了获胜的概率。

Description

一种面向推演仿真的行动策略预判方法及系统

技术领域

本发明涉及信息技术领域，具体涉及一种面向推演仿真的行动策略预判方法及系统。

背景技术

面向推演仿真的行动策略(以下简称行动策略)是指在推演仿真环境下，红蓝双方进行博弈对抗过程中，各方根据需要所制定的行动方针和斗争策略，通常表现为作战方案，具体包括可能采取的作战编成、兵力部署和攻防时机等。对对方行动策略进行快速准确预判，能够提高本方推演能力和水平，提高作战效果。

联合作战智能对抗推演中，红蓝双方通常采用“背靠背”方式，在每场推演对抗开始前，公开双方所处战场环境和兵力构成等详细信息。同时还会明确此次对抗中各方的任务目标，以及相应的胜负积分规则。除此以外，双方的兵力编组、行动部署、行动计划等都是相互透明的。推演对抗开始后，通常需要先运用必要的侦察手段来获知对手的兵力初始部署和兵力调动信息，使得本方兵力智能体能够根据此态势情况以及后续变化，按照交战规则和预定作战方案不断实施相应的作战行动，直至分出胜负或者推演时间结束。整个推演过程，既是红蓝双方智能体应变能力的较量，又是交战双方行动策略优劣的比较。由于推演仿真过程中“战争迷雾”的存在，行动策略预判极其困难，目前公开的研究甚少，几乎处于空白状态。

假设已知对方的主要装备型号、数量，以及各场推演中侦察到的各作战装备初始部署位置。如何以这些初始部署位置为主要依据，提取对手主要行动策略特征，并通过行动策略特征库快速匹配，寻找本方最优应对行动策略，是一项创新性强，且具有重要意义的工作。

发明内容

为了解决现有技术存在的问题，本发明提供一种面向推演仿真的行动策略预判方法，包括：

基于智能对抗推演仿真系统获取对抗方装备及其初始部署位置，并将所述对抗方各装备部署位置作为备选行动策略；

将所述备选行动策略与预先存储的所有的对抗方行动策略进行比对，当所述备选行动策略与预先存储的的对抗方行动策略都不相同时，所述备选行动策略被确认为对抗方的一个新行动策略意图；

所述对抗方行动策略包括：装备及各装备的初始部署位置；所述存储的所有的对抗方行动策略包括：历史推演发现并存储的对抗方行动策略。

优选的，所述基于智能对抗推演仿真系统获取对抗方装备及各装备的初始部署位置包括：

在所述智能对抗推演仿真系统开始执行对抗时获取对抗方所有装备，以及各装备的坐标位置；

所述备选行动策略以各装备编号以及各装备的坐标位置顺序组成的数组向量进行表示；

所述坐标位置包括二元数组或三元数组。

优选的，所述对抗方行动策略中装备的初始部署位置为坐标位置；

所述坐标位置包括：二元数组或三元数组。

优选的，所述将所述备选行动策略与预先存储的所有的对抗方行动策略进行比对，当所述备选行动策略与预先存储的对抗方行动策略都不相同时，所述备选行动策略被确认为对抗方的一个新行动策略，包括：

步骤1：从对抗方行动策略列表中选取第一个行动策略；

步骤2：以当前选取行动策略中各装备编号以及各装备的坐标位置顺序组成的数组向量对所述当前选取行动策略进行表示；

步骤3：计算所述备选行动策略与当前选取行动策略的欧氏距离；

步骤4：基于欧氏距离判定所述行动策略与当前选取行动策略的相似度；

步骤5：当相似度在设定阈值范围内，所述备选行动策略与当前选取行动策略为同一策略或相近策略，结束比对；否则，执行步骤6；

步骤6：判断行动策略列表中是否还有未被选取的行动策略，若有，则继续从行动策略列表中获取下一个行动策略，并执行步骤2；若没有，则所述行动策略被确认为对抗方的一个新行动策略，结束比对；

其中，所述对抗方行动策略以行动策略列表的形式存储。

优选的，所述计算所述备选行动策略与当前行动策略的欧氏距离，包括：

分别计算所述行动策略对应的数组向量和当前行动策略对应的向量数据中各装备间的欧氏距离；

以各装备重要性进行加权，计算所述行动策略对应的数组向量和当前行动策略对应的数组向量间的欧氏距离。

优选的，当坐标位置为二元数组时，所述各装备在不同策略间的欧氏距离的计算式如下：

式中，

为对抗方s的装备n在所述备选行动策略i与当前行动策略j间的欧氏距离；

分别为所述备选行动策略i和当前行动策略j在x轴的坐标位置；

分别为所述备选行动策略i和当前行动策略j在y轴的坐标位置；

当坐标位置为三元数组时，所述各装备在不同策略间的欧氏距离的计算式如下：

式中，

分别为所述备选行动策略i和当前行动策略j在z轴的坐标位置。

优选的，所述数组向量间的欧氏距离计算式如下：

式中，

为策略i和j的两个数组向量间的加权欧氏距离；

为s方装备n在s方所有装备中的权重。

优选的，所述相似度的计算式如下：

式中，f为相似度；

为策略i和j的两个数组向量间的加权欧氏距离；

为s方所述备选行动策略i对应的数组向量到所在坐标系原点的距离；

为s方当前行动策略j对应的数组向量到所在坐标系原点的距离。

优选的，当所述备选行动策略被确认为对抗方的新行动策略之后还包括：

将所述新行动策略存储于对抗方行动策略列表中。

基于同一种发明构思，本发明还提供一种面向推演仿真的行动策略预判系统，包括：

部署位置确认模块，用于基于智能对抗推演仿真系统获取对抗方装备及其初始部署位置，并将所述对抗方各装备部署位置作为备选行动策略；

行动策略确认模块，用于将所述备选行动策略与预先存储的所有的对抗方行动策略进行比对，当所述备选行动策略与预先存储的的对抗方行动策略都不相同时，所述备选行动策略被确认为对抗方的一个新行动策略意图；

与现有技术相比，本发明的有益效果为：

本发明提供一种面向推演仿真的行动策略预判方法及系统，包括基于智能对抗推演仿真系统获取对抗方装备及各装备的初始部署位置，并将所述对抗方装备及各装备的部署位置作为行动策略；将所述行动策略与预先存储的所有的对抗方行动策略进行比对，当所述行动策略与所述所有的对抗方行动策略都不相同时，所述行动策略被确认为对抗方的行动策略；本发明提供的技术方案通过深入考虑分析行动双方态势信息，在双方实力的基础上，提前制定多套作战策略，以便在行动正式开始前，根据获知的态势情报和历史对抗数据，确定策略切换时机以选择最合适的行动策略，从而大大提高了获胜的概率。

附图说明

图1为本发明的面向推演仿真的行动策略预判方法流程简图；

图2为实施例1行动策略预判算法基本流程图；

图3为本发明的面向推演仿真的行动策略预判系统结构图；

图4为实施例3的面向推演仿真的行动策略预判方法流程图。

具体实施方式

为了更好地理解本发明，下面结合说明书附图和实例对本发明的内容做进一步的说明。

实施例1：

虽然对手行动策略对本方不透明，但对手各装备的初始部署位置会一定程度暴露出其行动策略，所以能够在一定程度上依据装备初始部署位置，大致分析出对手的行动策略。这表明，可以利用某些被获知的态势情报信息，判断对手行动策略，以便通过多次模拟仿真找出本方应对该行动策略的最佳策略。

行动策略判断，是以推演仿真环境下的战场初始态势为主要信息来源，从中提取关键信息作为特征，以此标记对手的行动策略。这样，可以根据已有各场推演仿真结果，记录本方各行动策略在对手不同行动策略下的胜负得分，从而预判对手下一场推演可能的兵力部署，并选择相应的本方行动策略以最大化胜率或得分，算法重点是不完全信息条件下基于历史数据的情况判断。

在执行本发明提供的技术方案前先对本方案涉及的理论进行介绍：

1.对兵力部署与行动方案、行动策略关系的分析

由问题描述可知，兵力部署主要是指各装备部署的时空位置。因为装备部署的时空位置限制了装备可能的行动，所以确定了兵力部署，实际上也大体确定了行动计划，同样也基本确定了主要由兵力部署与行动计划构成的行动方案。如前所述，行动方案体现了行动策略，两者基本为一一对应的关系，但考虑到行动方案有其标准和具体的定义与内涵，为方便计，本文后续统一使用行动策略进行表述。

从宏观上讲，在多场次重复对抗推演中，即使受到对抗过程中不确定因素的影响，导致具体行动的细节可能存在一些局部差异，但同一行动策略下的推演结果仍应基本保持一致，或相差不多。由此可以推断，对于两个相近或相似的行动策略，整体而言，结果也应该是大体相同一致的，即结果所表现出的胜负趋势不会出现较大分歧，如相反或相悖。而如前所述，兵力部署在很大程度上决定了行动策略。因此，预判对手行动策略的关键是比较其兵力部署的异同。

兵力部署是指装备的初始部署位置。比较兵力部署，就是比较两个行动策略中，所有装备初始部署位置的异同。每个装备的初始部署位置是一组坐标，若只考虑经纬度，则是一个二元数组，若考虑高度，则是一个三元数组。所有装备的初始部署位置整合起来构成了一个数组向量。因此，比较两个行动策略的兵力部署，实质是对两个数组向量进行比较。

2.对兵力部署中不同行动装备的分析

此外，还需注意区分不同装备在行动对抗中发挥的作用。首先需要明确的是，联合行动智能对抗从来都不是单打独斗，而是两个复杂系统间进行的整体对抗。在此基础上，还需要清醒的认识到，系统内部的各个行动装备，虽然在对抗中都发挥着独特的作用，但不同装备发挥作用的大小，以及对整体行动结果的影响仍然是不同的，甚至可能存在较大差异。例如，在一场夺岛海空联合行动中，通常情况下，一艘主力驱逐舰显然比一架普通作战飞机更重要，其发挥的作用、对战局的影响也更大。

因此，各个装备在兵力组成中的重要程度是不同的。当两个行动策略所对应方案的兵力组成完全一致时，重要程度越高的装备，初始部署时空位置差别越大，表明不同行动策略下对该装备的运用差别越大，由此反映出的行动策略也相差较大。反之，若不同行动策略下重要装备的初始部署位置相距越近，则表明可能的行动方案越相似，行动策略也越相近。而重要程度相对较低的行动装备，其行动在整个对抗过程中发挥的作用和影响较小，因此其初始部署位置相对于整体行动方案而言不太敏感，虽然也一定程度反映了行动策略之间的差异，但这种差异一般情况下，并不会给两个行动策略带来实质性的差别。

由此可见，所有装备初始部署位置这一数组向量中各成员的权重是不均衡的，即其影响权重不同。装备越重要，其初始部署位置对应的数组在向量中的影响权重越高，反之则影响权重越小。

经过上述分析，原行动策略预判问题转化为了两个数组向量的比较问题。两个数组向量相同或相近，则相应的两个行动策略可以认为是一致或相似的，否则会被判定为两个不同的行动策略。因此，行动策略预判的本质是数组向量比较，核心是两个数组向量的相似性度量。相似性度量通常采用的方法是计算两个样本之间的“距离”，相关经典方法有很多，如欧式距离，曼哈顿距离，夹角余弦，信息熵等。本行动策略预判算法从智能对抗这一问题背景出发，设计了一种基于经验阈值的加权欧氏距离计算方法，用于计算两套不同兵力部署之间的“距离”，以此定量化不同兵力部署的相似性，从而方便的比较两者异同，进而判断行动策略是否相同或相近，为本方遴选更合适的行动策略提供有效依据。

因此，本发明提供一种面向推演仿真的行动策略预判方法，如图1所示包括：

S1、基于智能对抗推演仿真系统获取对抗方装备及其初始部署位置，并将所述对抗方各装备部署位置作为备选行动策略；

S2、将所述备选行动策略与预先存储的所有的对抗方行动策略进行比对，当所述备选行动策略与预先存储的的对抗方行动策略都不相同时，所述备选行动策略被确认为对抗方的一个新行动策略意图；

行动策略判断的主要依据是推演刚开始不久时，通过侦察获取到对方大部分装备的初始部署情况，算法需要根据这些侦察情报数据，判断对方当前的行动策略是否是新策略。

步骤S2中将所述行动策略与预先存储的所有的对抗方行动策略进行比对，当所述行动策略与所述所有的对抗方行动策略都不相同时，所述行动策略被确认为对抗方的新行动策略，包括：

步骤1：从对抗方行动策略列表中选取第一个行动策略；

其中，所述对抗方行动策略以行动策略列表的形式存储。

对算法使用的变量及其含义如表1所示。

表1行动策略预判算法所用变量

补充说明：

1.本算法采用装备初始部署位置代表行动策略，因此行动策略可表示为

2.策略相似度阈值是由用户设定的两个方案的最大偏差，作为判定策略是否相近或相似的标准。

算法的假设条件有：

1.联合行动智能对抗共进行Round场推演；

2.每方均有N^s种装备，

3.每方所属各装备具有重要性权重，

4.双方每场推演采用的行动策略均不公开；

5.方案相似度阈值由用户根据偏好自行设定。

算法的目标函数为：

式中，f为相似度；

为策略i和j的两个数组向量间的加权欧氏距离行动行动；

为s方备选行动策略i对应的数组向量到所在坐标系原点的距离；

由于算法的目的是判断两个行动策略是否相似或相近，甚至相同，因此，在用数组向量表示行动策略的基础上，以两个数组向量(简称为

)间的加权欧式距离作为主要判断依据。为了更为直观的表示该加权欧式距离的大小，通过将其与某一数组向量到坐标原点的欧式距离相比来进行归一化处理，以该比值作为最终的目标函数。在被比较数组向量的选择上，目标函数采用选取较大者的策略，即以

作为分母，以减小选取较小者可能造成的误差。将任一目标函数值与用户预设的相似度阈值进行比较，若大于等于阈值，则认为所比较的两个行动策略的差距在可接受范围内，判定两者相似或相近；否则，则认为两个行动策略的差距较大，判定两者不同。

下面对本发明提供的技术方案的做进一步的介绍，如图2所示：

1：算法初始化。假定本方为红方。初始化推演场次r＝1，记录的对抗方为蓝方行动策略列表

为空，初始化本方各行动装备重要性权值

(当本方为蓝方时，算法类同)。

2：进入第r′场推演。先根据已记录蓝方行动策略列表

的长度，暂将该场推演对手采用的行动策略记为蓝方的第j个行动策略，

通过情报侦察获取蓝方各装备初始部署位置

则蓝方行动策略

可被表示为由蓝方所有装备初始部署位置，按装备编号顺序组成的数组向量，即

3：判断对手是否采用了新行动策略。

3.1遍历列表

初始化列表指针j＝1

3.2选取列表

中列表指针所指蓝方行动策略

对应的数组向量，计算两个数组向量间，按照装备重要性权值加权后的欧氏距离，具体公式为：

式中，

为对抗方s的装备n在所述行动策略i与当前行动策略j间的欧氏距离；

为策略i和j的两个数组向量间的加权欧氏距离；

为s方装备n在s方所有装备中的权重。

3.3根据目标函数公式计算目标函数值f，并与用户设定的相似度阈值θ进行比较。若f＜θ，即相似度小于阈值，认为两个数组向量不同，转步骤3.4；否则，相似度大于等于阈值，认为两个数组向量基本相同，转步骤3.5。

3.4比较j与列表长度

判断列表是否已遍历完。若

表明还未遍历完，转步骤3.2；否则，表明已遍历完，转步骤3.6。

3.5由于判定两个数组向量基本相同，因此认为蓝方当前采取的行动策略

与列表指针j指向的行动策略

相似或相同，即行动策略

不属于新行动策略，不添加到列表

3.6若已遍历完列表，表明当前蓝方行动策略对应的数组向量与列表中任一数组向量都不相同或相近，因此可判定蓝方该行动策略属于没有记录在列表中的新行动策略，将该数组向量添加到列表中。

4：检查推演是否结束。若r<R，表明推演场次小于预设总场数，场次数加1，r＝r+1，转2，继续下场推演；否则，算法结束。

实施例2：

为了实现上述一种面向推演仿真的行动策略预判方法，本发明还提供一种面向推演仿真的行动策略预判系统，如图3所示，包括：

所述部署位置确认模块具体用于：

所述行动策略以各装备编号以及各装备的坐标位置顺序组成的数组向量进行表示；

所述对抗方行动策略中的装备的初始部署位置为坐标位置；

所述坐标位置包括：二元数组或三元数组。

所述行动策略确认模块具体用于：

步骤1：从对抗方行动策略列表中选取第一个行动策略；

其中，所述对抗方行动策略以行动策略列表的形式存储。

计算所述行动策略与当前行动策略的欧氏距离，包括：

当坐标位置为二元数组时，各装备在不同策略间的欧氏距离的计算式如下：

式中，

分别为所述行动策略i和当前行动策略j在x轴的坐标位置；

分别为所述行动策略i和当前行动策略j在y轴的坐标位置；

式中，

分别为所述行动策略i和当前行动策略j在z轴的坐标位置。

数组向量间的欧氏距离计算式如下：

式中，

为策略i和j的两个数组向量间的加权欧氏距离；

为s方装备n在s方所有装备中的权重。

相似度的计算式如下：

式中，f为相似度；

为策略i和j的两个数组向量间的加权欧氏距离行动行动；

为s方所述行动策略i对应的数组向量到所在坐标系原点的距离；

行动策略确认模块还包括：当所述行动策略被确认为对抗方的新行动策略之后，将所述新行动策略对抗方存储于行动策略列表中。

其具体内容可以参考实施例1，这里不再赘述。

实施例3

利用本发明提供的一种面向推演仿真的行动策略预判方法可以实现：

一种面向智能对抗的多方案自主切换方法，包括：

1)、获取预先确定的己方行动方案列表；所述己方行动方案列表包括至少一个己方行动方案；

2)、利用对抗推演仿真系统，基于预设对抗推演场次数量，从己方行动方案列表切换行动方案进行对抗，并根据对抗结果对己方行动方案列表中各行动方案进行排序；

3)、基于所述己方行动方案排序结果确定最优行动方案。

优选的，所述利用对抗推演仿真系统，基于预设对抗推演场次数量，从己方行动方案列表切换行动方案进行对抗，并根据对抗结果对己方行动方案列表中各行动方案进行排序，包括：

步骤1：从预先确定的己方行动方案列表中选择第一个己方行动方案；

步骤2：基于己方行动方案与对方行动方案利用智能对抗推演仿真系统进行对抗，并记录对抗情况；根据对抗情况从己方行动方案列表中确定下场对抗的己方行动方案，并判断是否达到对抗推演场次，如果达到则执行结束；否则执行步骤3；

步骤3：当己方行动方案列表中所有行动方案执行完成后，基于历史对抗情况对己方行动方案列表中所有己方行动方案进行排序；

步骤4：从排序后的己方行动方案列表中选择第一个己方行动方案执行步骤2，直到达到预设对抗推演场次，执行结束。

优选的，所述记录对抗情况，包括：

记录己方行动方案i的第r_i场对抗推演的得分

当前行动方案i的历史推演总得分

以及相应的历史推演场均得分

优选的，所述当前行动方案i的历史推演总得分

的计算式如下；

所述当前行动方案i的历史场均得分

的计算式如下：

式中，r_i为当前行动方案i的已推演场数；

为己方行动方案i的第j场对抗推演的得分，其中j的取值为1到r_i。

优选的，所述从预先确定的己方行动方案列表中选择第一个己方行动方案之前还包括：

对每个行动方案设定最小试探推演场数min(R_test)；

所述最小试探推演场数min(R_test)根据系统的推演结果置信度ε和用户期望的推演结果置信度E计算确定。

优选的，所述最小试探推演场数min(R_test)的计算式如下；

式中，E为用户期望的推演结果置信度，ε为系统的推演结果置信度。

优选的，所述根据对抗情况从己方行动方案列表中确定下场对抗的己方行动方案，包括：

如果本场己方胜利，则己方行动方案列表中当前选择的己方行动方案为下场对抗的己方行动方案，否则，检查当前的己方行动方案与当前对方行动方案的对抗次数是否达到最小试探推演场数min(R_test)；

当若未达到最小试探推演场数min(R_test)，则下场对抗继续使用当前选择的行动方案，否则，选择己方行动方案列表中当前选择的方案的下一个方案为下场对抗的己方行动方案。

优选的，所述基于各场对抗情况对己方行动方案列表中所有己方行动方案进行排序，包括：

基于己方行动方案列表中各方案的历史场均得分

进行排序。

优选的，所述从己方行动方案列表切换行动方案进行对抗，之前还包括：

初始化下述中的至少一个或多个参数：用户预设方案总数I，总推演场数R，用户期望的推演结果置信度E，本方各行动方案胜算度初值ps_i，以及单场推演期望得分的初值

对己方行动方案列表中的己方行动方案设置行动方案胜算度初值ps_i，并根据所述行动方案胜算度初值设定己方行动方案列表的初始排序；

根据系统的推演结果置信度ε和用户期望的推演结果置信度E，计算确定最小试探推演场次min(R_test)。

优选的，所述基于己方行动方案与对方行动方案利用智能对抗推演仿真系统进行对抗，并记录对抗情况，之后还包括：

判断所述对方行动方案是否为新的对方行动方案，如果是则存储于对方行动方案列表中。

优选的，所述判断所述对方行动方案是否为新的对方行动方案包括：

基于智能对抗推演仿真系统获取对抗方装备及各装备的初始部署位置，并将所述对抗方装备及各装备的部署位置作为行动方案；

将所述行动方案与预先存储的所有的对抗方行动方案进行比对，当所述行动方案与所述所有的对抗方行动方案都不相同时，所述行动方案被确认为对抗方的新行动方案；

所述存储的所有的对抗方行动方案包括：装备及各装备的初始部署位置。

上述方法使用的变量如表2所示

表2所用变量

其中，每场推演结果的置信度ε为系统内定，表示该场推演结果的可信程度，由系统自身的设计与实现所决定，不由用户设定，也不随推演条件的变化而改变；期望推演结果置信度E，由用户根据自己的偏好设定，表示用户满意的、期望达到的推演结果置信度。由上述两个参数可以确定最小试探推演场数min(R_test)，即达到用户认可的、信服的推演结果置信度，最少需要进行的推演场次。通常情况下，用户设定的期望推演结果置信度E会大于系统内定每场推演结果置信度ε，需要进行至少min(R_test)场推演，提高推演结果置信度，使用户认为推演结果达到满意程度，此时当前所采用作战方案的整体获胜概率及得分才是可信的、可用的。相关计算公式如下

公式变形后，得到

类似的，还设定了单场推演期望得分s_exp，表示用户满意的单场推演最小得分，并由用户设定其初始值

推演开始后，首先按照各行动方案胜算度初值由高到低排序，选取排序第一的行动方案进行min(R_test)场推演，并计算单场平均分，如果低于当前的单场推演期望得分，则认为该行动方案经过推演验证后并不理想，将该行动方案放入排序队尾，并自动切换当前排序中的下一行动方案准备进行下一场推演；否则，继续保持当前行动方案继续进行min(R_test)场推演。如此循环，直到推演结束。

下面对本发明提供的技术方案的做进一步的介绍，如图4所示：

1)：算法初始化。

1.1)初始化各参数，包括用户预设方案总数I，总推演场数R，用户期望的推演结果置信度E，本方各行动方案胜算度初值ps_i，以及单场推演期望得分的初值

1.2)：按照行动方案胜算度初值ps_i，对用户预设方案按照逆序进行排列，得到优先排序列表，并初始化列表指针指向第一个方案。

2)：根据系统的推演结果置信度ε和用户期望的推演结果置信度E，计算最小试探推演场次min(R_test)，具体计算如公式(3)所示。

3)：选择优先排序列表中，列表指针所指向的行动方案i，进行min(R_test)场推演，记录各场推演得分，并计算该min(R_test)场试探推演的的历史推演总得分

以及相应的历史推演场均得分

4)：判断当前列表中的所有行动方案是否都已推演过。

(1)如果是，即已将当前列表中所有意图轮换一遍，则根据各意图的场均得分重新排序，得到一个新的优先排序列表，重置列表指针为1，选择指针对应的行动方案进行下场推演，转步骤5)。

(2)如果不是，列表指针指向当前优先排序列表中的下一个行动方案，并选择该行动方案进行下一场推演，转步骤3)。

5)：对推演场数r_i进行判断。

如果r_i<R更新r_i＝r_i+1，转步骤3)；否则，算法结束。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上仅为本发明的实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均包含在申请待批的本发明的权利要求范围之内。