CN112464548B

CN112464548B - 对抗单位的动态分配装置

Info

Publication number: CN112464548B
Application number: CN202010642634.2A
Authority: CN
Inventors: 张海林; 齐智敏; 马贤明; 王全东; 黄谦; 王锐华; 皮雄军; 高和顺
Original assignee: Baiyang Times Beijing Technology Co ltd; Evaluation Argument Research Center Academy Of Military Sciences Pla China
Current assignee: Baiyang Times Beijing Technology Co ltd; Evaluation Argument Research Center Academy Of Military Sciences Pla China
Priority date: 2020-07-06
Filing date: 2020-07-06
Publication date: 2021-05-14
Anticipated expiration: 2040-07-06
Also published as: CN112464548A

Abstract

本发明公开了一种对抗单位的动态分配装置，该装置具体包括：获取模块，用于获取数字战场环境中的对抗信息；预处理模块，用于对对抗信息进行预处理得到预处理信息；输出模块，利用训练好的循环神经网络模型对作为初始状态的分组开始向量和作为初始输入的预处理信息进行处理得到第一步输出，利用注意力模型对第一步输出与n个对抗单位的属性信息、分组结束单位的分组结束向量进行处理；采样模块，根据预设的随机采样规则，对归一化结果进行采样得到采样结果；循环模块，用于重复执行上述步骤，直至本次的采样结果为与分组结束单位对应的分量。通过该装置得到的分组信息更贴近数字战场环境，利于完成对抗任务，还能适应数字战场形势的变化。

Description

对抗单位的动态分配装置

技术领域

本发明属于数字战场仿真技术领域，具体涉及一种对抗单位的动态分配装置。

背景技术

在数字仿真战场环境中，存在着对抗双方，对抗双方中的一方会针对另一方发起对抗任务。为了完成对抗任务，该一方会对能执行对抗任务的己方单位进行分组，一般分成若干组，同组成员会做相同或相似的动作。下面以红方为对抗双方中的一方，蓝方为对抗双方中的另一方为例对分组进行说明。

当对抗任务为突防时，红方经常会派出数架战斗机同时突防；当对抗任务为抵近侦察蓝方具有攻击能力的单位，如防御工事时，红方经常会派出多架无人机同时侦察。为了简化控制，目前分组一般是事先指定的固定分组，固定分组有较大的缺点，例如，有的是以一个红方单位为一组,如果执行某个任务只有一个红方单位，红方单位在执行此任务过程中可能会被蓝方攻击单位击落，后续再只派出一个红方单位执行此任务，则仍会被击落，从而导致任务依然失败。有的是以多个红方单位为一组，各组的红方单位数量相同，此时通过蓝方火力较猛区域时分组内成员与通过蓝方火力较弱时分组内成员相同，如此会导致任务不能有效完成。总体而言，目前的数字仿真战场中，对抗单位分配模式相对固化，不能根据外部环境变化采取相应的策略。

发明内容

为了解决上述问题，本发明提供了一种对抗单位的动态分配装置，其包括：

获取模块，用于获取数字战场环境中的对抗信息，所述对抗信息包括：n个对抗单位的属性信息、若干个攻击单位的属性信息和若干个目标单位的属性信息，所述对抗单位用于执行对抗任务且属于对抗双方中的一方，所述攻击单位用于阻碍所述对抗单位执行对抗任务，目标单位为对抗单位执行对抗任务的目标方，所述攻击单位和所述目标单位均属于对抗双方中的另一方，n≥2且为正整数；

预处理模块，用于对所述对抗信息进行预处理，得到符合循环神经网络模型输入要求的预处理信息；

输出模块，用于利用训练好的循环神经网络模型对作为初始状态的分组开始向量和作为初始输入的所述预处理信息进行处理，得到第一步输出，利用注意力模型对所述第一步输出与n个所述对抗单位的属性信息、分组结束单位的分组结束向量进行处理，然后再进行归一化处理，得到归一化结果，所述归一化结果为(n+1)维归一化结果向量，(n+1)维归一化结果向量中各分量依次表示采集到各对抗单位、分组结束单位的概率；

采样模块，用于根据预设的随机采样规则，对所述归一化结果进行采样，得到采样结果，与所述采样结果对应的对抗单位属于分组信息；

循环模块，用于重复执行所述输出模块和所述采样模块的功能，并依次将训练好的循环神经网络模型的上一步得到的状态和所述预处理信息作为训练好的循环神经网络模型的本步的输入，直至本次的采样结果为与所述分组结束单位对应的分量；其中，分组开始向量和分组结束向量均经过训练得到。

上述五个模块依次连接。

在如上所述的动态分配装置中，所述预处理模块用于：对每个所述对抗单位的属性信息、每个所述攻击单位的属性信息和每个所述目标单位的属性信息进行若干层变换和融合处理得到高维向量，所述高维向量为符合循环神经网络模型模型输入要求的预处理信息，所述变换包括全连接层变换和激活函数处理。融合处理是指将多个向量处理为一个向量，处理过程是各矩阵或向量对应位置相加或取最大值。

在如上所述的动态分配装置中，所述激活函数为修正线性单元函数。

在如上所述的动态分配装置中，所述采样模块用于：随机生成判断阈值t，t∈[0,1]；若k是满足p0+p1+…+pi>＝t的所有i中的最小的数，则本次采样结果为pk；其中，k和i均为自然数且均属于[0,n]，pi表示(n+1)维归一化结果向量中第(i+1)个分量。

在如上所述的动态分配装置中，所述循环模块在执行完上述功能后，还判断当前时刻与上一次决策时刻的间隔是否为预设决策间隔；若判断为是，则依次执行获取模块、预处理模块、输出模块、采样模块的功能，其中，所述上一次决策时刻为循环模块中采样到分组结束单位的时刻；若判断为否，则继续等待直到时间间隔为预设决策间隔。

本发明的有益效果是：

(1)本发明通过本动态分配装置得到的分组信息更贴近数字战场环境，更有利于完成对抗任务；本发明还能够适应在推演过程中数字战场形势的变化，本发明通过把包括红蓝双方和战场环境的当时的特征信息输入神经网络，经过训练后的神经网络能够自动对对抗单位进行分组，能在数字战场中根据当前的场景对对抗单位动态进行分组。

(2)本发明具有应用范围广的优势。本发明装置主要运用在数字战场仿真构建上，数字战场以战场环境数据为基础，运用电子计算机仿真技术，对战场环境的数据仿真描述，建构完整的战场环境和交战双方武器装备的时空数据模型，供作战模拟使用。同时，在实际操作过程中，红蓝双方都可以使用。本发明也可用于武器平台试验使用。

附图说明

图1为本发明装置的用于实现对抗单位的动态分配方法的神经网络结构示意图；

图2为本发明装置实现的一种对抗单位的动态分配方法的流程示意图；

图3为本发明装置应用的一种抵近侦察场景示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施方式作进一步地详细描述。

实施例1：一种对抗单位的动态分配装置。

本发明实施例提供了一种对抗单位的动态分配装置，用于数字战场环境，其包括：获取模块、预处理模块、输出模块、采样模块和循环模块。

具体而言，获取模块用于获取数字战场环境中的对抗信息，对抗信息包括：n个对抗单位的属性信息、若干个攻击单位的属性信息和若干个目标单位的属性信息，对抗单位用于执行对抗任务且属于对抗双方中的一方，攻击单位用于阻碍对抗单位执行对抗任务，攻击单位和目标单位均属于对抗双方中的另一方，n≥2且为正整数。

预处理模块用于对对抗信息进行预处理，得到符合循环神经网络模型输入要求的预处理信息。

输出模块，用于利用训练好的循环神经网络模型对作为初始状态的分组开始向量和作为初始输入的预处理信息进行处理，得到第一步输出，利用注意力模型对第一步输出与n个对抗单位的属性信息、分组结束单位的分组结束向量进行处理，然后再进行归一化处理，得到归一化结果，归一化结果为(n+1)维向量，(n+1)维向量中各分量依次表示采集到各对抗单位、分组结束单位的概率，其中，分组开始向量和分组结束向量均经过训练得到。

采样模块，用于根据预设的随机采样规则，对归一化结果进行采样，得到采样结果，与采样结果对应的对抗单位属于分组信息。

循环模块，用于重复执行输出模块和采样模块的功能，并依次将训练好的循环神经网络模型的上一步得到的状态和预处理信息作为训练好的循环神经网络模型的本步的输入，直至本次的采样结果为与分组结束单位对应的分量。

可选地，预处理模块用于：对每个所述对抗单位的属性信息、每个所述攻击单位的属性信息和每个所述目标单位的属性信息进行若干层变换和融合处理得到高维向量，所述高维向量为符合循环神经网络模型模型输入要求的预处理信息；其中，所述变换包括：全连接层变换和激活函数处理。

可选地，所述激活函数为修正线性单元函数。

可选地，所述采样模块用于：随机生成t，t∈[0,1]；若k是满足p0+p1+…+pi>＝t的所有i中的最小的数，则本次采样结果为pk；其中，k和i均为自然数且均属于[0,n]，pi表示(n+1)维向量中第(i+1)个分量。

可选地，本动态分配装置还包括：判断模块和执行模块。

判断模块用于判断当前时刻与上一次决策时刻的间隔是否为预设决策间隔。执行模块用于若判断模块判断为是，则依次实现获取模块、预处理模块、输出模块、采样模块和循环模块的功能，其中，上一次决策时刻为循环模块中采样到分组结束单位的时刻。

实施例2：一种利用本装置进行对抗单位动态分配的方法。

数字战场环境中，存在着对抗双方，下面以红方为对抗双方中的一方、蓝方为对抗双方中的另一方为例对本发明实施例提供的对抗单位的动态分配方法进行说明。图1为本发明装置的用于实现对抗单位的动态分配方法的神经网络结构示意图。图2为本发明装置实现的一种对抗单位的动态分配方法的流程示意图。本发明实施例提供了一种对抗单位的动态分配方法，用于数字战场环境，该方法包括如下步骤：

步骤S1，由获取模块执行，获取数字战场环境中的对抗信息，对抗信息包括：n个对抗单位的属性信息、若干个攻击单位的属性信息和若干个目标单位的属性信息，对抗单位用于执行对抗任务且属于对抗双方中的一方，攻击单位用于阻碍对抗单位执行对抗任务，攻击单位和目标单位均属于对抗双方中的另一方。

具体地，基于对抗任务，对数字战场环境中的各单位进行划分，划分为：对抗单位、攻击单位和目标单位，其中，对抗单位属于红方且为能被红方控制的单位，即能接收红方发出的指令或称受红方控制，然后根据指令执行相应动作；攻击单位属于蓝方，受蓝方控制，其用于阻碍对抗单位执行对抗，换言之，攻击单位为能攻击到包括但不限于对抗单位的属于红方的单位；目标单位为对抗单位执行对抗任务的目标方。基于不同的对抗任务，一个蓝方的单位可能同时既是攻击单位，又是目标单位，例如对抗任务为突防时，蓝方的战斗机既是攻击单位，又是目标单位。在对抗任务中，对抗单位的数量为n个，n为大于等于2的正整数。攻击单位的数量可以为一个，也可以为多个，目标单位的数量也如此，具体数量的多少视数字战场环境以及对抗任务而定。

下面以战场场景为例对对抗任务、对抗单位、攻击单位和目标单位进行说明。

在一个交战场景中，红方有雷达、空对空战斗机、对地导弹，蓝方有雷达、空对地战斗机、空对空战斗机。红方的对抗任务是消灭所有蓝方攻击单位。由于红方所有单位都可以控制，所以红方所有单位都属于对抗单位。蓝方雷达不具有攻击能力，但是对于战局有影响，如果雷达不开，蓝方的战斗机将无法知道红方战斗机和对地导弹位置，从而无法攻击，因此其属于目标单位，所以攻击单位是指：空对地战斗机、空对空战斗机，目标单位为所有蓝方单位，即雷达、空对地战斗机、空对空战斗机。

在一个抵近侦察场景中，如图3所示，红方有两架无人侦察机20、21，蓝方有三个营地和一个碉堡25，其中，两个营地为真营地22、24，一个为假营地(或称伪装营地)24。红方的对抗任务是抵近侦察，通过抵近侦察得知蓝方三个营地的精确位置和真假。在该场景下，对抗单位为两架无人侦察机，攻击单位为碉堡，目标单位为三个营地。攻击单位和目标单位的大概位置和类型可由红方的预警机提前得到，但是不知道其精确位置和真假，因此需要执行抵近侦察任务。

获取对抗信息，对抗信息包括：各对抗单位的属性信息、攻击单位的属性信息和目标单位的属性信息，每个属性信息用向量表示，属性信息为与对抗任务相关的信息(或称对完成对抗任务效果有影响的特征)，其可以包括：单位类型、目前坐标、攻击距离、移动速度，还可以包括：移动方向，在其他的实施例中，还可以包括其他信息，本实施例对此不进行限定。单位类型是用数字化表示各单位，如营地为1，直升机为2等等。该属性信息可以通过预警机获取。

步骤S2，由预处理模块执行，对对抗信息进行预处理，得到符合循环神经网络模型输入要求的预处理信息。

具体地，对每个对抗单位的属性信息、每个攻击单位的属性信息和每个目标单位的属性信息进行若干层变换和融合处理得到高维向量，高维向量为符合循环神经网络模型输入要求的预处理信息。进行若干层变换的目的是从原始特征中得到变化后的特征，变化后的特征为更符合计算条件(或期望)的特征。变换包括：FC(fully connected layers，全连接层)变换和激活函数处理，即一层变换为两次变换，激活函数优选为relu(Rectifiedlinear unit,修正线性单元)函数，此时经过一层变换的输出可以表示为：output＝relu(全连接(input))，可以用fc_relu表示一层变换。应用时，可以是：先进行若干层变换，然后再进行融合处理；还可以是：先进行若干层变换，再进行融合处理，然后再进行若干层变换。变换的层数可以为一层，还可以为多层，本实施例对此不进行限定。融合处理是指将多个向量处理为一个向量，该向量经处理后变为高维向量，如256维。具体的处理过程可以是：各矩阵或向量对应位置相加、取最大值等等。

S3，由输出模块执行，利用训练好的循环神经网络模型对作为初始状态的分组开始向量和作为初始输入的预处理信息进行处理，得到第一步输出，利用注意力模型对第一步输出与总向量进行处理，然后再进行归一化处理，得到归一化结果，归一化结果为(n+1)维归一化结果向量，(n+1)维归一化结果向量中各分量依次对应表示采集到各对抗单位、分组结束单位的概率。

具体地，将高维向量作为训练好的RNN(循环神经网络，Recurrent NeuralNetwork)模型的初始输入，分组开始向量作为RNN的初始状态。分组开始向量可以经训练得到(或称经学习得到)，还可以任意指定，如全0向量。RNN模型根据初始状态(或称state)和初始输入得到第一步输出，即为RNN0。RNN0分别与总向量做注意力模型(attentionModel)，总向量为n个对抗单位的属性信息和分组结束向量组成的向量，总向量的各分量分别为各对抗单位的属性信息(或称属性信息所组成的向量)和分组结束向量。对注意力模型输出的结果再进行归一化处理，得到一个(n+1)维的向量，再采样得到本次选择哪个对抗单位。归一化处理可以选用softmax函数，其中，(n+1)中的n表示对抗单位的数量个数，1表示分组结束向量。分组结束向量属于分组结束单位，其可以经训练得到(或称经学习得到)，还可以任意指定，如全1向量。softmax输出为一个(n+1)维的归一化结果向量，如(p0，p1，…pn)，其中p0+p1+…+pn＝1，分别表示分别采样到第一对抗单位、第二对抗单位、…、分组结束单位的概率。

下面以RNN0为向量a，2个对抗单位的属性信息分别为向量b0、b1，分组结束向量为bn为例对注意力模型的处理进行说明。

总向量xxx为(b0、b1、bn)，则注意力模型的处理可以写成attention(RNN0,(xxx))，a、b0、b1和bn都是维度相同的向量，若处理过程是点积，则注意力模型的输出的向量可以为(a与b0的点积，a与b1的点积，…，a与bn的点积)，因此，b0，b1，…，bn中与a更接近的向量，其输出向量中对应位置的值更大。在其他的实施例中，注意力模型的处理过程还可以是其他运算方式，本实施例对此不进行限定。

S4，由采样模块执行，根据预设的随机采样规则，对归一化结果进行采样，得到采样结果，与采样结果对应的对抗单位属于分组信息。

具体地，随机采样规则为：随机生成判断阈值t，t∈[0,1]，若k是满足p0+p1+…+pi>＝t的所有i中的最小的数，则本次采样结果为pk，其中，k和i均为自然数且均属于[0,n]，pi表示(n+1)维归一化结果向量中第(i+1)个分量。换言之，采样过程如下：生成一个0～1之间的随机数字t，找到满足p0+p1+…+pk>＝t的最小的k，则本次采样为k，采样结果为与pk对应的对抗单位。

例如，在上述抵近侦察任务中，对抗单位的数量n为2，分别为：无人机1，无人机2，因此，这个(n+1)维向量为3维，如果采样为0，即k＝0，而p0与无人机1对应，则表示无人机1属于分组信息；如果采样为1，即k＝1，而p1与无人机2对应，则表示无人机2属于分组信息；如果采样为2，即k＝2，而p2与分组结束单位对应，则表示分组结束。

S5，由循环模块执行，判断采样结果中是否含有与分组结束单位对应的分量，若判断为没有，则重复执行步骤S3～S4，并依次将训练好的循环神经网络模型的上一步得到的状态(或称state)和预处理信息作为训练好的循环神经网络模型的本步的输入，直至本次的采样结果为与分组结束单位对应的分量。

具体地，当采样结果中含有与分组结束单位对应的分量时，表明分组结束，从而得到完整的分组。以抵近侦察任务为例，参见图1，对抗单位的数量为3，3个对抗单位分别为第一对抗单位、第二对抗单位和第三对抗单位，则(3+1)维的向量表示为：(p0，p1，p2，p3)，p0、p1、p2、p3分别与第一对抗单位、第二对抗单位、第三对抗单位和分组结束单位对应，经采样得到第一采样结果，结果为1，则选中第二对抗单位，由于采样结果不与分组结束单位对应，所以继续采样，经采样得到第二采样结果，结果为2，则选中第三对抗单位，由于采样结果仍不与分组结束单位对应，所以继续采样，经采样得到第三采样结果，结果为3，则选中分组结束单位，由于分组结束单位表明分组结束，不再继续采样，因此，此次分组信息为：第二个对抗单位、第三个对抗单位。

以RNN0表示第一步输出，RNN1表示第二步输出为例对采样过程进行说明：RNN0＝RNN(fc_relu的ouput,分组开始向量)的output，sample(softmax(attention(RNN0,(xxx))))，则RNN1＝RNN(RNN0,对抗单位1)的output，sample(softmax(attention(RNN1,(xxx))))，fc_relu表示全连层变换和激活函数处理，sample表示采样处理。

图1为本装置完成对抗单位的动态分配方法的神经网络的结构图，神经网络经强化学习训练而成，在该图中示意出了三个对抗单位，N1个攻击单位、N2个目标单位，第一采样结果、第二采样结果和第三采样结果、N1和N2为正整数。

随着推演的进行，对抗单位、攻击单位和目标单位的数量和部分属性如携弹数量也会发生变化。为了更好地适应不断发生变化的数字战场场景，在步骤S5之后，本方法还包括：

判断当前时刻与上一次决策时刻的间隔是否为预设决策间隔；若判断为是，则执行上述步骤S1～步骤S5，具体地上一次决策时刻为上一次得到完整分组信息的时刻或采样到分组结束单位的时刻；若判断为否，则继续等待直到时间间隔为预设决策间隔。

在上一次决策时刻中，得到了分组信息，该分组内各单位会执行相应任务，若当前决策间隔(即当前时刻与上一次决策时刻的间隔)为预设决策间隔，即决策时间到，则开始执行步骤S1～步骤S5，以得到与本次决策时刻对应的完整分组信息，此时步骤S1中获取数字战场环境中的对抗信息为获取当前时刻数字战场环境中的对抗信息。预设决策间隔可以根据实验来确定，还可以根据预设规则确定，例如：执行任务的对抗单位被击落，又可以根据预设时间来确定，本实施例对此不进行限定。

应用中，在第一个决策时刻，神经网络输出分组，此分组只有无人机1；在第二个决策时刻，神经网络输出分组，此分组只有无人机2；在第三个决策时刻，神经网络输出分组，此分组有无人机1和无人机2。得到一个分组，该分组执行相应任务；决策间隔已到，则会得到下一个分组，该分组执行相应的可能和上一个分组不同的任务，如果该分组与上一个分组具有相同的单位，当该分组执行任务时，若相同的单位还没有执行完上一个分组对应的任务，则会中断任务，转向执行新的任务，即该分组要执行的任务。

在图3的无人机抵近侦察场景中，红方有两架无人侦察机，蓝方有三个营地(一个为假)和一个碉堡，蓝方攻击单位和目标单位的大概位置和类型已由红方的预警机提前得到，但是不知道其精确位置和真假。红方的任务是：1)通过抵近侦察得知蓝方三个营地的精确位置和真假2)在完成侦察的前提下时间越短越好3)在完成侦察的前提下己方无人机损失越少越好。由于蓝方营地3靠近蓝方碉堡，蓝方碉堡具有一定的攻击力，且红方无人机侦察蓝方每个单位需要一定的时间，如果红方每次派一架无人机侦察蓝方营地3，则会造成该无人机损失，且无法完成侦察任务。

对应于图3的神经网络，红方单位(或称对抗单位)为红方无人机20和红方无人机21，蓝方攻击单位为蓝方碉堡25，目标单位为蓝方营地22、蓝方营地23和蓝方营地24。

在训练过程中，强化学习会尝试各种分组方案，下面列举其中的三种方案：

1.分组方案a：先将无人机分成两组分别侦察蓝方营地22和蓝方营地23，再编为1组同时侦察蓝方营地24，这样能完成侦察任务，同时侦察时间较短，但会损失一架无人机。

2.分组方案b：始终将红方无人机20和21分成1组，依次侦察蓝方营地22、蓝方营地23和蓝方营地24，这样可以完成侦察任务，但是比分组方案a时间长，从而回报较低。

3.分组方案c：始终将红方无人机20和21分别分组，初期分别侦察蓝方营地22和23，然后两个无人机依次侦察蓝方营地24。这样会导致无人机20和21依次被碉堡击毁，且没有完成侦察任务。这样的方案回报很低。

除了上述三种分组方案外，强化学习还会尝试其它不同的方案。每种方案得到不同的结果/回报，对应一个训练样本。强化学习在训练过程中，会优化到较大回报所对应的分组方案，从而得到分组方案a。

完成训练后，在推演时，神经网络将会按照分组方案a进行分组。

如果场景更大，任务更复杂，强化学习尝试的方案会更多，训练样本也会更多，如果想要得到比较理想的结果，训练所需要的算力也会更多，但是基本的原理是一致的。

下面说明如何运用强化学习将图1中的神经网络训练出在不同场景下能较优分组的效果。

强化学习用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化。图1中的神经网络的分组方案是智能体的策略一个很重要的组成部分。在训练过程中，智能体在不同的局(一局是红方和蓝方一次完整的推演)中，会尝试不同的策略，图1中的神经网络在不同的局中在相同/类似的场景中会尝试不同的分组方案，从而得到不同的结果，得到不同的回报(回报指的是对于不同的结果人的量化的评价，评价越好，则回报越高)。每一局完成后，就会形成一个训练样本。强化学习的训练会自动将算法优化到样本中能得到较大的回报的策略上，从而得到较优的分组方案。

需要说明的是，关于获取模块、预处理模块、输出模块、采样模块和循环模块功能的具体实现，可参照实施例2中的相关内容。

由技术常识可知，本发明可以通过其它的不脱离其精神实质或必要特征的实施方案来实现。因此，上述公开的实施方案，就各方面而言，都只是举例说明，并不是仅有的。所有在本发明范围内或在等同于本发明的范围内的改变均被本发明包含。

Claims

1.一种对抗单位的动态分配装置，其特征在于，具体包括：

输出模块，用于利用训练好的循环神经网络模型对作为初始状态的分组开始向量和作为初始输入的所述预处理信息进行处理，得到第一步输出，利用注意力模型对所述第一步输出与n个所述对抗单位的属性信息、分组结束单位的分组结束向量进行处理，然后再进行归一化处理，得到归一化结果，所述归一化结果为(n+1)维归一化结果向量，(n+1)维向量中各分量依次表示采集到各对抗单位、分组结束单位的概率；

循环模块，用于重复执行所述输出模块和所述采样模块的功能，并依次将训练好的循环神经网络模型的上一步得到的状态和所述预处理信息作为训练好的循环神经网络模型的本步的输入，直至本次的采样结果为与所述分组结束单位对应的分量；其中，分组开始向量和分组结束向量均经过训练得到；

上述五个模块依次连接。

2.如权利要求1所述的对抗单位的动态分配装置，其特征在于，所述预处理模块用于：对每个所述对抗单位的属性信息、每个所述攻击单位的属性信息和每个所述目标单位的属性信息进行若干层变换和融合处理得到高维向量，所述高维向量为符合循环神经网络模型模型输入要求的预处理信息，所述变换包括全连接层变换和激活函数处理；融合处理是指将多个向量处理为一个向量，处理过程是各矩阵或向量对应位置相加或取最大值。

3.如权利要求1所述的对抗单位的动态分配装置，其特征在于，所述采样模块用于：随机生成判断阈值t，t∈[0,1]；若k是满足p0+p1+…+pi>＝t的所有i中的最小的数，则本次采样结果为pk；其中，k和i均为自然数且均属于[0,n]，pi表示(n+1)维归一化结果向量中第(i+1)个分量。

4.如权利要求1所述的对抗单位的动态分配装置，其特征在于，所述循环模块在执行完上述功能后，还判断当前时刻与上一次决策时刻的间隔是否为预设决策间隔；若判断为是，则依次执行获取模块、预处理模块、输出模块、采样模块的功能，其中，所述上一次决策时刻为循环模块中采样到分组结束单位的时刻；若判断为否，则继续等待直到时间间隔为预设决策间隔。