CN113779347A - 人机对抗临机环境生成方法、装置、存储介质及设备 - Google Patents
人机对抗临机环境生成方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN113779347A CN113779347A CN202111338899.4A CN202111338899A CN113779347A CN 113779347 A CN113779347 A CN 113779347A CN 202111338899 A CN202111338899 A CN 202111338899A CN 113779347 A CN113779347 A CN 113779347A
- Authority
- CN
- China
- Prior art keywords
- confrontation
- generating
- mobile unit
- key point
- machine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 76
- 230000008859 change Effects 0.000 claims abstract description 43
- 230000009471 action Effects 0.000 claims abstract description 34
- 238000004590 computer program Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 7
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 238000013519 translation Methods 0.000 claims description 4
- 238000011156 evaluation Methods 0.000 abstract description 5
- 238000012549 training Methods 0.000 abstract description 5
- 238000012795 verification Methods 0.000 abstract description 5
- 241000282414 Homo sapiens Species 0.000 description 11
- 230000008569 process Effects 0.000 description 7
- 239000003795 chemical substances by application Substances 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000019771 cognition Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012876 topography Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000010187 selection method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/907—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/909—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F7/00—Methods or arrangements for processing data by operating upon the order or content of the data handled
- G06F7/58—Random or pseudo-random number generators
- G06F7/588—Random number generators, i.e. based on natural stochastic processes
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Library & Information Science (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Position Fixing By Use Of Radio Waves (AREA)
Abstract
本发明提供人机对抗临机环境生成方法、装置、存储介质及设备,包括:根据对抗地图、候选行动单元及候选要点地形,生成临机行动单元和临机要点地形;所述生成临机行动单元包括:生成行动单元临机位置和生成行动单元临机时间,具体包括:根据对抗双方所有候选行动单元的横纵坐标平均值,得到行动单元临机位置;根据对抗双方所有候选行动单元是否在对抗开始前改变位置,计算生成行动单元临机时间;所述生成临机要点地形包括:选择要点地形和生成要点地形临机时间;根据对抗双方行动单元临机位置,选择要点地形;根据要点地形是否在对抗开始前出现,计算要点地形临机时间。为智能体临机应变能力的评估和训练提供了有效验证环境。
Description
技术领域
本发明涉及人机对抗技术领域,具体涉及人机对抗临机环境生成方法、装置、存储介质及设备。
背景技术
在决策智能的探索道路上,人机对抗已成为国际公认的重要途径之一。人机对抗作为人工智能研究的前沿方向,已成为国内外智能决策领域研究的热点,并为探寻机器智能的内在生长机制和关键技术的验证提供有效试验环境和途径。基于人类现有的知识和智能水平,通过研究和实现新型的智能学习算法,使得机器智能在可控的范围内不断接近、达到甚至超过人类的智能水平。整个过程不仅能够让机器更加智能地为人类服务,而且人类也能够借鉴机器智能的发展过程,提升自身的智能水平,进而推动整个社会由信息化向智能化发展。然而,巨复杂、高动态、不确定的强对抗环境给智能认知和决策带来巨大挑战,人类的感知和决策能力由于受自身生理和心理方面的限制,面对复杂、动态、对抗环境下智能认知与决策需求,迫切需要以机器为载体的人工智能技术的辅助与支撑。
真实对抗环境瞬息万变,对抗智能体快速响应及应变能力至关重要,临机应变能力是智能体发展的重要方向,智能体需要能够应对环境、对手、甚至自己的突发变化,这就对临机环境支撑提出了新的要求。因此,亟需一种临机环境生成方法,在感知-推理-决策-控制等决策过程中体现智能体的自主决策能力。
发明内容
有鉴于此,本发明第一方面,提供一种人机对抗临机环境生成方法,所述方法包括:
根据对抗地图、候选行动单元及候选要点地形,生成临机行动单元和临机要点地形,输出临机行动单元信息和临机要点地形信息;
所述生成临机行动单元包括:生成行动单元临机位置和生成行动单元临机时间,具体包括:
S1:根据对抗双方所有候选行动单元的横纵坐标平均值,得到行动单元临机位置;
S2:根据对抗双方所有候选行动单元是否在对抗开始前改变位置,计算生成行动单元临机时间;
生成临机要点地形包括:选择要点地形和生成要点地形临机时间;
S3:根据对抗双方行动单元临机位置,选择要点地形;
S4:根据要点地形是否在对抗开始前出现,计算要点地形临机时间。
在一些实施例中,所述根据对抗双方所有候选行动单元的横纵坐标平均值得到行动单元临机位置的具体方法包括:
S1-1:分别计算对抗双方所有候选行动单元横纵坐标平均值,得出对抗双方初始中心位置;
S1-2:计算对抗双方初始中心位置横纵坐标平均值,得出对抗中心位置;
S1-3:随机生成一个数值作为角度改变值a;
S1-4:随机生成一个数值作为距离改变值d;
S1-5:以对抗中心位置坐标为起点O,以所述候选行动单元坐标为终点P i ,生成向量OP i ,向量OP i 旋转步骤S1-3计算得到的角度a,同时平移步骤S1-4计算得到的距离d,经旋转平移仿射变换后得到的新向量终点坐标为该行动单元临机位置。
在一些实施例中,所述根据对抗双方所有候选行动单元是否在对抗开始前改变位置,计算生成行动单元临机时间的具体方法包括:
S2-1:对每个候选行动单元,以第一给定概率选择是否在对抗开始前改变行动单元位置,如果是,则行动单元临机时间为零;如果否,则转到步骤S2-2;
S2-2:随机生成一个数值作为行动单元临机时间。
在一些实施例中,所述随机生成一个数值作为角度改变值a的具体方法包括:从(-A,A]内随机生成一个数值作为角度改变值a,其中A取值范围为0到180;
所述随机生成一个数值作为距离改变值d的具体方法包括:从(-D,L)内随机生成一个数值作为距离改变值d,其中D为对抗中心位置距离对抗双方初始中心位置的较小值,L为对抗双方初始中心位置距离对抗地图边界的较小值;
所述第一给定概率为0.5的概率值;
所述随机生成一个数值作为行动单元临机时间值的具体方法包括:从[αT,βT]内随机生成一个数值作为行动单元临机时间值,其中T为对抗总时长,α和β是两个参数,满足0≤α<β≤1。
在一些实施例中,所述根据对抗双方行动单元临机位置选择要点地形的具体方法包括:
S3-1:分别计算对抗双方行动单元临机位置横纵坐标平均值,得出对抗双方临机中心位置;
S3-2:计算对抗双方临机中心位置横纵坐标平均值,得出对抗中心临机位置;
S3-3:以对抗中心临机位置为原点,划分四象限;
S3-4:对于每一个象限,随机生成一个自然数Ni;
S3-5:将每一象限内的随机抽取相应数目为Ni的候选要点地形作为最终选取的要点地形。
在一些实施例中,所述根据要点地形是否在对抗开始前出现,计算要点地形临机时间的具体方法包括:
S4-1:对每个所述要点地形,以第二给定概率选择是否在对抗开始前出现,如果是,则要点地形临机时间为零;如果否,则转到步骤S4-2;
S4-2:随机生成一个数值作为要点地形临机时间值。
在一些实施例中,所述对于每一个象限,随机生成一个自然数Ni的具体方法包括:
从[γM,δM]内随机生成一个自然数Ni,其中M为本象限内每种要点地形的总数量,γ和δ是两个参数,满足0≤γ<δ≤1;
所述第二给定概率为0.5的概率值;
所述随机生成一个数值作为要点地形临机时间值的具体方法包括:
从[εT,ζT]内随机生成一个数值作为要点地形临机时间值,其中T为对抗总时长,ε和ζ是两个参数,满足0≤ε<ζ≤1。
本发明第二方面,提供一种人机对抗临机环境生成装置,所述装置包括:
临机行动单元生成模块和临机要点地形生成模块;
所述临机行动单元生成模块包括:行动单元临机位置生成模块和行动单元临机时间生成模块;
所述临机要点地形生成模块包括:要点地形选择模块和要点地形临机时间生成模块;
所述行动单元临机位置生成模块:根据对抗双方所有候选行动单元的横纵坐标平均值,得到行动单元临机位置;
所述行动单元临机时间生成模块:根据抗双方所有候选行动单元是否在对抗开始前改变位置,计算生成行动单元临机时间;
所述要点地形选择模块:根据对抗双方行动单元临机位置,选择要点地形;
要点地形临机时间生成模块:根据要点地形是否在对抗开始前出现,计算要点地形临机时间。
本发明第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现第一方面所述的一种人机对抗临机环境生成方法的步骤。
本发明第四方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述一种人机对抗临机环境生成方法的步骤。
本申请实施例提供的上述技术方案与现有技术相比具有如下优点:
本方法通过对抗双方临机行动单元的生成使得环境中的“人”要素和“机”要素发生同步对称性变化,通过临机要点地形的生成使得环境中的“物”要素发生均匀变化,为智能体临机应变能力的评估和训练提供了有效验证环境。
附图说明
图1为本发明实施例提供的人机对抗临机环境生成方法的步骤框图;
图2为本发明实施例提供的生成行动单元临机位置方法的流程示意图;
图3为本发明实施例提供的选择要点地形方法的流程示意图;
图4为本发明实施例提供的陆战兵棋人机对抗环境示例;
图5为本发明实施例提供的人机对抗临机环境生成方法的流程图;
图6为本发明实施例提供的生成行动单元临机位置方法的流程示意图;
图7为本发明实施例提供的选择要点地形方法的流程示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的装置和方法的例子。
在本发明使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本发明。在本发明和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本发明可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本发明范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。
实施例1:
如图5所示,本申请实施例提供的人机对抗临机环境生成方法,包括:
根据对抗地图、候选行动单元及候选要点地形,生成临机行动单元和临机要点地形,输出临机行动单元信息和临机要点地形信息;
生成临机行动单元包括:生成行动单元临机位置和生成行动单元临机时间,具体包括:
S1:根据对抗双方所有候选行动单元的横纵坐标平均值,得到行动单元临机位置;
在一些实施例中,如图6所示所述根据对抗双方所有候选行动单元的横纵坐标平均值得到行动单元临机位置的具体方法包括:
S1-1:分别计算对抗双方所有候选行动单元横纵坐标平均值,得出对抗双方初始中心位置;
S1-2:计算对抗双方初始中心位置横纵坐标平均值,得出对抗中心位置;
S1-3:随机生成一个数值作为角度改变值a;
在一些实施例中,所述随机生成一个数值作为角度改变值a的具体方法包括:从(-A,A]内随机生成一个数值作为角度改变值a,其中A取值范围为0到180;
S1-4:随机生成一个数值作为距离改变值d;
在一些实施例中,所述随机生成一个数值作为距离改变值d的具体方法包括:从(-D,L)内随机生成一个数值作为距离改变值d,其中D为对抗中心位置距离对抗双方初始中心位置的较小值,L为对抗双方初始中心位置距离对抗地图边界的较小值;
S1-5:对每一个候选行动单元,以对抗中心位置坐标为起点O,以所述候选行动单元坐标为终点P i ,生成向量OP i ,向量OP i 旋转步骤S1-3计算得到的角度a,同时平移步骤S1-4计算得到的距离d,经旋转平移仿射变换后得到的新向量终点坐标为该行动单元临机位置;
S2:根据抗双方所有候选行动单元是否在对抗开始前改变位置,计算生成行动单元临机时间;
所述根据对抗双方所有候选行动单元是否在对抗开始前改变位置,计算生成行动单元临机时间的具体方法包括:
S2-1:对每个候选行动单元,以第一给定概率选择是否在对抗开始前改变行动单元位置,如果是,则行动单元临机时间为零;如果否,则转到步骤S2-2;
S2-2:随机生成一个数值作为行动单元临机时间;
在一些实施例中,所述第一给定概率为0.5的概率值;
在一些实施例中,所述随机生成一个数值作为行动单元临机时间值的具体方法包括:从[αT,βT]内随机生成一个数值作为行动单元临机时间值,其中T为对抗总时长,α和β是两个参数,满足0≤α<β≤1;
所述生成临机要点地形包括:选择要点地形和生成要点地形临机时间;
S3:根据对抗双方行动单元临机位置,选择要点地形;
在一些实施例中,如图7所示所述根据对抗双方行动单元临机位置选择要点地形的具体方法包括:
S3-1:分别计算对抗双方行动单元临机位置横纵坐标平均值,得出对抗双方临机中心位置;
S3-2:计算对抗双方临机中心位置横纵坐标平均值,得出对抗中心临机位置;
S3-3:以对抗中心临机位置为原点,划分四象限;
S3-4:对于每一个象限,随机生成一个自然数Ni;
S3-5:将每一象限内的随机抽取相应数目为Ni的候选要点地形作为最终选取的要点地形
在一些实施例中,所述对于每一个象限,随机生成一个自然数Ni的具体方法包括:
从[γM,δM]内随机生成一个自然数Ni,其中M为本象限内每种要点地形的总数量,γ和δ是两个参数,满足0≤γ<δ≤1
S4:根据要点地形是否在对抗开始前出现,计算要点地形临机时间;
在一些实施例中,所述根据要点地形是否在对抗开始前出现,计算要点地形临机时间的具体方法包括:
S4-1:对每个所述要点地形,以第二给定概率选择是否在对抗开始前出现,如果是,则要点地形临机时间为零;如果否,则转到步骤S4-2;
在一些实施例中,所述第二给定概率为0.5的概率值;
S4-2:随机生成一个数值作为要点地形临机时间值;
在一些实施例中,所述随机生成一个数值作为要点地形临机时间值的具体方法包括:
从[εT,ζT]内随机生成一个数值作为要点地形临机时间值,其中T为对抗总时长,ε和ζ是两个参数,满足0≤ε<ζ≤1。
上述方法中:
1)行动单元指参与对抗的主体,候选行动单元指生成环境可能用到的行动单元集。本实施例中,候选行动单元包括步战车、坦克、步兵、无人站车、巡飞弹等。
2)对抗地图指行动单元的行动区域。本实施例中,对抗地图由六角格表示,刻画高程、特殊地形、范围大小等基本信息。
3)要点地形指对抗地图中对环境产生重要影响的位置。候选要点地形指生成环境可能用到的要点地形集。本实施例中,候选要点地形包括路障和夺控点。
本发明公开的上述方法通过对抗双方临机行动单元的生成使得环境中的“人”(人类控制的行动单元)要素和“机”(机器控制的行动单元)要素发生同步对称性变化,通过临机要点地形的生成使得环境中的“物”(对抗地图)要素发生均匀变化,从成生成多样化的对抗环境,为智能体在多样化环境下临机应变能力的评估和训练提供了有效验证环境。
实施例2:
图1为本发明实施例提供的人机对抗临机环境生成方法的流程示意图,如图1所示,输入为对抗地图信息、候选行动单元及要点地形信息,方法首先根据输入信息生成临机行动单元,然后基于输入信息及临机行动单元信息生成临机要点地形,最后将临机行动单元信息和临机要点地形信息作为输出信息,输入到环境引擎中。
具体地,生成临机行动单元包括生成行动单元临机位置、生成行动单元临机时间;所述生成临机要点地形包括选择要点地形、生成要点地形临机时间。
图2为本发明实施例提供的生成行动单元临机位置流程。
步骤S11:分别计算对抗双方所有候选行动单元横纵坐标平均值,得出对抗双方各自初始中心位置。具体地,如图4所述,本发明优选实施例中,以陆战兵棋人机对抗决策为例,假设红方候选行动单元有步战车(坐标值2425)、坦克(坐标值2526)、步兵(坐标值2425)、无人站车(坐标值2425)、巡飞弹(坐标值2425);蓝方候选行动单元有步战车1(坐标值3851)、步战车2(坐标值4052)、坦克1(坐标值3849)、坦克2(坐标值4049)、步兵1(坐标值3851)、步兵2(坐标值4052)。通过计算,得出红方初始中心位置为2425,蓝方初始中心位置为3950。
步骤S12:计算对抗双方初始中心位置横纵坐标平均值,得出对抗中心位置。具体地,由步骤S11得到红方初始中心位置为2425,蓝方初始中心位置为3950,计算两者横纵坐标平均值,得出对抗中心位置3137。
步骤S13:从(-A,A]内随机生成一个数值作为角度改变值a,其中A取值范围为0到180。具体地,本实施例中,生成a为30。
步骤S14:从(-D,L)内随机生成一个数值作为距离改变值d,其中D为对抗中心位置距离对抗双方初始中心位置的较小值,L为对抗双方初始中心位置距离对抗地图边界的较小值。具体地,本实施例中,生成d为2。
步骤S15:对每一个候选行动单元,以对抗中心位置坐标为起点O,以所述候选行动单元坐标为终点P i ,生成向量OP i ,向量OP i 旋转步骤S13计算得到的角度a,同时平移步骤S14计算得到的距离d,经旋转平移等仿射变换后得到的新向量终点坐标为该行动单元临机位置。具体地,本实施例中,对每一个候选行动单元,以对抗中心坐标3137为起点,顺时针旋转30度,之后再相对对抗中心位置方向平移2格距离,得到其临机坐标值位置。
调整后的红方行动单元:步战车(临机坐标值2226)、坦克(临机坐标值2327)、步兵(临机坐标值2226)、无人站车(临机坐标值2226)、巡飞弹(临机坐标值2226);调整后的蓝方行动单元:步战车1(临机坐标值3581)、步战车2(临机坐标值3853)、坦克1(临机坐标值3650)、坦克2(临机坐标值3850)、步兵1(临机坐标值3581)、步兵2(临机坐标值3853)。
生成行动单元临机时间的具体实现方法是:
步骤S2-1:对每个行动单元,以0.5概率选择是否在对抗开始前改变行动单元位置,如果是,则行动单元临机时间为零;如果否,则转到步骤S2-2。
步骤S2-2:从[αT,βT]内随机生成一个数值作为行动单元临机时间值,其中T为对抗总时长,α和β是两个参数,满足0≤α<β≤1。
具体地,在本实施例中,对抗总时长T为1800秒,α为0.3,β为0.6。假设红方步战车、巡飞弹、步兵和无人站车在对抗开始前就出现在临机位置上,坦克在1000秒时出现在临机位置。
图3为本发明实施例提供的选择要点地形流程。
步骤S31:分别计算对抗双方行动单元临机位置横纵坐标平均值,得出对抗双方各自临机中心位置。具体地,本发明优选实施例中,已经计算出来了对抗双方行动单元临机位置,分别计算对抗双方行动单元临机位置横纵坐标平均值,红方为2226,蓝方为3658。
步骤S32:计算对抗双方临机中心位置横纵坐标平均值,得出对抗中心临机位置。具体地,计算由步骤S31得到红蓝双方临机中心位置的横纵坐标平均值,得出对抗中心位置2942。
步骤S33:以对抗中心临机位置为原点,划分四象限。具体地,本发明优选实施例中,以2942为原点,将地图划分四象限。
步骤S34:对于每一个象限,从[γM,δM]内随机生成一个自然数Ni,其中M为本象限内每种要点地形的总数量,γ和δ是两个参数,满足0≤γ<δ≤1。具体地,如图4所述,本发明优选实施例中,存在两种要点地形,路障和夺控点,取γ为0.5,δ为1。对于路障,四象限M分别为0、3、3、1,随机生成一个自然数Ni分别为0、2,2,1;夺控点要点地形选择方法同理,四象限M分别为0、0、2、0,随机生成一个自然数Ni分别为0、0,2,0。
步骤S35:在每一象限内的每种要点地形随机抽取相应数目为Ni的要点地形作为最终选取要点地形。具体地,本发明优选实施例中,对于路障要点地形,第二象限抽取坐标2729、2737两处路障,第三象限抽取坐标3333、4141两处路障。
生成要点地形临机时间的具体实现方法是:
步骤S4-1:对每个要点地形,以0.5概率选择是否在对抗开始前出现,如果是,则要点地形临机时间为零;如果否,则转到步骤S4-2;
步骤S4-2:从[εT,ζT]内随机生成一个数值作为要点地形临机时间值,其中T为对抗总时长,ε和ζ是两个参数,满足0≤ε<ζ≤1。
具体地,在本实施例中,对抗总时长T为1800秒,ε为0.2,ζ为0.8。假设所有夺控点都在对抗开始前就出现,所有路障都在800秒时出现。
将上述生成的临机行动单元信息及临机要点地形信息最为临机环境信息,输入给环境引擎,生成临机环境。
本方法通过对抗双方临机行动单元的生成使得环境中的“人”要素和“机”要素发生同步对称性变化,通过临机要点地形的生成使得环境中的“物”要素发生均匀变化,为智能体临机应变能力的评估和训练提供了有效验证环境。
实施例3:
与前述人机对抗临机环境生成方法的实施例相对应(或基于同一发明构思),本发明还提供了人机对抗临机环境生成装置的实施例,包括:临机行动单元生成模块和临机要点地形生成模块;
所述临机行动单元生成模块包括:行动单元临机位置生成模块和行动单元临机时间生成模块;
所述临机要点地形生成模块包括:要点地形选择模块和要点地形临机时间生成模块;
所述行动单元临机位置生成模块:根据对抗双方所有候选行动单元的横纵坐标平均值,得到行动单元临机位置;
所述行动单元临机时间生成模块:根据对抗双方所有候选行动单元是否在对抗开始前改变位置,计算生成行动单元临机时间;
所述要点地形选择模块:根据对抗双方行动单元临机位置,选择要点地形;
要点地形临机时间生成模块:根据要点地形是否在对抗开始前出现,计算要点地形临机时间。
本方法通过对抗双方临机行动单元的生成使得环境中的“人”要素和“机”要素发生同步对称性变化,通过临机要点地形的生成使得环境中的“物”要素发生均匀变化,为智能体临机应变能力的评估和训练提供了有效验证环境。
实施例4:
一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1-2方法的步骤。
实施例5:
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现实施例1-2方法的步骤。
本发明人机对抗临机环境生成装置的实施例可以应用在计算机上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在计算机的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,本发明人机对抗临机环境生成装置所在设备的一种硬件结构,除了处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的设备通常根据该设备的实际功能,还可以包括其他硬件,对此不再赘述。
上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程,在此不再赘述。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本发明方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本说明书中描述的主题及功能操作的实施例可以在以下中实现:数字电子电路、有形体现的计算机软件或固件、包括本说明书中公开的结构及其结构性等同物的计算机硬件、或者它们中的一个或多个的组合。本说明书中描述的主题的实施例可以实现为一个或多个计算机程序,即编码在有形非暂时性程序载体上以被数据处理装置执行或控制数据处理装置的操作的计算机程序指令中的一个或多个模块。可替代地或附加地,程序指令可以被编码在人工生成的传播信号上,例如机器生成的电、光或电磁信号,该信号被生成以将信息编码并传输到合适的接收机装置以由数据处理装置执行。计算机存储介质可以是机器可读存储设备、机器可读存储基板、随机或串行存取存储器设备、或它们中的一个或多个的组合。
本说明书中描述的处理及逻辑流程可以由执行一个或多个计算机程序的一个或多个可编程计算机执行,以通过根据输入数据进行操作并生成输出来执行相应的功能。所述处理及逻辑流程还可以由专用逻辑电路—例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)来执行,并且装置也可以实现为专用逻辑电路。
适合用于执行计算机程序的计算机包括,例如通用和/或专用微处理器,或任何其他类型的中央处理单元。通常,中央处理单元将从只读存储器和/或随机存取存储器接收指令和数据。计算机的基本组件包括用于实施或执行指令的中央处理单元以及用于存储指令和数据的一个或多个存储器设备。通常,计算机还将包括用于存储数据的一个或多个大容量存储设备,例如磁盘、磁光盘或光盘等,或者计算机将可操作地与此大容量存储设备耦接以从其接收数据或向其传送数据,抑或两种情况兼而有之。然而,计算机不是必须具有这样的设备。此外,计算机可以嵌入在另一设备中,例如移动电话、个人数字助理(PDA)、移动音频或视频播放器、游戏操纵台、全球定位系统(GPS)接收机、或例如通用串行总线(USB)闪存驱动器的便携式存储设备,仅举几例。
适合于存储计算机程序指令和数据的计算机可读介质包括所有形式的非易失性存储器、媒介和存储器设备,例如包括半导体存储器设备(例如EPROM、EEPROM和闪存设备)、磁盘(例如内部硬盘或可移动盘)、磁光盘以及CD ROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充或并入专用逻辑电路中。
虽然本说明书包含许多具体实施细节,但是这些不应被解释为限制任何发明的范围或所要求保护的范围,而是主要用于描述特定发明的具体实施例的特征。本说明书内在多个实施例中描述的某些特征也可以在单个实施例中被组合实施。另一方面,在单个实施例中描述的各种特征也可以在多个实施例中分开实施或以任何合适的子组合来实施。此外,虽然特征可以如上所述在某些组合中起作用并且甚至最初如此要求保护,但是来自所要求保护的组合中的一个或多个特征在一些情况下可以从该组合中去除,并且所要求保护的组合可以指向子组合或子组合的变型。
类似地,虽然在附图中以特定顺序描绘了操作,但是这不应被理解为要求这些操作以所示的特定顺序执行或顺次执行、或者要求所有例示的操作被执行,以实现期望的结果。在某些情况下,多任务和并行处理可能是有利的。此外,上述实施例中的各种系统模块和组件的分离不应被理解为在所有实施例中均需要这样的分离,并且应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或者封装成多个软件产品。
由此,主题的特定实施例已被描述。其他实施例在所附权利要求书的范围以内。在某些情况下,权利要求书中记载的动作可以以不同的顺序执行并且仍实现期望的结果。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.人机对抗临机环境生成方法,其特征在于,所述方法包括:
根据对抗地图、候选行动单元及候选要点地形,生成临机行动单元和临机要点地形,输出临机行动单元信息和临机要点地形信息;
所述生成临机行动单元包括:生成行动单元临机位置和生成行动单元临机时间,具体包括:
S1:根据对抗双方所有候选行动单元的横纵坐标平均值,得到行动单元临机位置;
S2:根据对抗双方所有候选行动单元是否在对抗开始前改变位置,计算生成行动单元临机时间;
生成临机要点地形包括:选择要点地形和生成要点地形临机时间;
S3:根据对抗双方行动单元临机位置,选择要点地形;
S4:根据要点地形是否在对抗开始前出现,计算要点地形临机时间。
2.根据权利要求1所述的人机对抗临机环境生成方法,其特征在于,所述根据对抗双方所有候选行动单元的横纵坐标平均值,得到行动单元临机位置的具体方法包括:
S1-1:分别计算对抗双方所有候选行动单元横纵坐标平均值,得出对抗双方初始中心位置;
S1-2:计算对抗双方初始中心位置横纵坐标平均值,得出对抗中心位置;
S1-3:随机生成一个数值作为角度改变值a;
S1-4:随机生成一个数值作为距离改变值d;
S1-5:对每一个候选行动单元,以对抗中心位置坐标为起点O,以所述候选行动单元坐标为终点P i ,生成向量OP i ,向量OP i 旋转步骤S1-3计算得到的角度a,同时平移步骤S1-4计算得到的距离d,经旋转平移仿射变换后得到的新向量终点坐标为该行动单元临机位置。
3.根据权利要求2所述的人机对抗临机环境生成方法,其特征在于,所述根据对抗双方所有候选行动单元是否在对抗开始前改变位置,计算生成行动单元临机时间的具体方法包括:
S2-1:对每个候选行动单元,以第一给定概率选择是否在对抗开始前改变行动单元位置,如果是,则行动单元临机时间为零;如果否,则转到步骤S2-2;
S2-2:随机生成一个数值作为行动单元临机时间。
4.根据权利要求3所述的人机对抗临机环境生成方法,其特征在于,所述随机生成一个数值作为角度改变值a的具体方法包括:从(-A,A]内随机生成一个数值作为角度改变值a,其中A取值范围为0到180;
所述随机生成一个数值作为距离改变值d的具体方法包括:从(-D,L)内随机生成一个数值作为距离改变值d,其中D为对抗中心位置距离对抗双方初始中心位置的较小值,L为对抗双方初始中心位置距离对抗地图边界的较小值;
所述第一给定概率为0.5的概率值;
所述随机生成一个数值作为行动单元临机时间值的具体方法包括:从[αT,βT]内随机生成一个数值作为行动单元临机时间值,其中T为对抗总时长,α和β是两个参数,满足0≤α<β≤1。
5.根据权利要求1所述的人机对抗临机环境生成方法,其特征在于,所述根据对抗双方行动单元临机位置选择要点地形的具体方法包括:
S3-1:分别计算对抗双方行动单元临机位置横纵坐标平均值,得出对抗双方临机中心位置;
S3-2:计算对抗双方临机中心位置横纵坐标平均值,得出对抗中心临机位置;
S3-3:以对抗中心临机位置为原点,划分四象限;
S3-4:对于每一个象限,随机生成一个自然数Ni;
S3-5:将每一象限内的随机抽取相应数目为Ni的候选要点地形作为最终选取的要点地形。
6.根据权利要求5所述的人机对抗临机环境生成方法,其特征在于,所述根据要点地形是否在对抗开始前出现,计算要点地形临机时间的具体方法包括:
S4-1:对每个所述要点地形,以第二给定概率选择是否在对抗开始前出现,如果是,则要点地形临机时间为零;如果否,则转到步骤S4-2;
S4-2:随机生成一个数值作为要点地形临机时间值。
7.根据权利要求6所述的人机对抗临机环境生成方法,其特征在于,所述对于每一个象限,随机生成一个自然数Ni的具体方法包括:
从[γM,δM]内随机生成一个自然数Ni,其中M为本象限内每种要点地形的总数量,γ和δ是两个参数,满足0≤γ<δ≤1;
所述第二给定概率为0.5的概率值;
所述随机生成一个数值作为要点地形临机时间值的具体方法包括:
从[εT,ζT]内随机生成一个数值作为要点地形临机时间值,其中T为对抗总时长,ε和ζ是两个参数,满足0≤ε<ζ≤1。
8.一种人机对抗临机环境生成装置,其特征在于,所述装置包括:
临机行动单元生成模块和临机要点地形生成模块;
所述临机行动单元生成模块包括:行动单元临机位置生成模块和行动单元临机时间生成模块;
所述临机要点地形生成模块包括:要点地形选择模块和要点地形临机时间生成模块;
所述行动单元临机位置生成模块:根据对抗双方所有候选行动单元的横纵坐标平均值,得到行动单元临机位置;
所述行动单元临机时间生成模块:根据对抗双方所有候选行动单元是否在对抗开始前改变位置,计算生成行动单元临机时间;
所述要点地形选择模块:根据对抗双方行动单元临机位置,选择要点地形;
要点地形临机时间生成模块:根据要点地形是否在对抗开始前出现,计算要点地形临机时间。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现权利要求1-7任一项所述方法的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任一项所述人机对抗临机环境生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111338899.4A CN113779347B (zh) | 2021-11-12 | 2021-11-12 | 人机对抗临机环境生成方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111338899.4A CN113779347B (zh) | 2021-11-12 | 2021-11-12 | 人机对抗临机环境生成方法、装置、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113779347A true CN113779347A (zh) | 2021-12-10 |
CN113779347B CN113779347B (zh) | 2022-04-01 |
Family
ID=78873881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111338899.4A Active CN113779347B (zh) | 2021-11-12 | 2021-11-12 | 人机对抗临机环境生成方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113779347B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015186338A1 (ja) * | 2014-06-05 | 2015-12-10 | 日本電気株式会社 | 非線形計画問題処理装置および非線形計画問題処理方法 |
CN112121419A (zh) * | 2020-09-11 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 虚拟对象控制方法、装置、电子设备以及存储介质 |
CN112990452A (zh) * | 2021-05-06 | 2021-06-18 | 中国科学院自动化研究所 | 人机对抗知识驱动型决策方法、装置及电子设备 |
-
2021
- 2021-11-12 CN CN202111338899.4A patent/CN113779347B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015186338A1 (ja) * | 2014-06-05 | 2015-12-10 | 日本電気株式会社 | 非線形計画問題処理装置および非線形計画問題処理方法 |
CN112121419A (zh) * | 2020-09-11 | 2020-12-25 | 腾讯科技(深圳)有限公司 | 虚拟对象控制方法、装置、电子设备以及存储介质 |
CN112990452A (zh) * | 2021-05-06 | 2021-06-18 | 中国科学院自动化研究所 | 人机对抗知识驱动型决策方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113779347B (zh) | 2022-04-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ko et al. | Key points estimation and point instance segmentation approach for lane detection | |
Zhou et al. | Global and local-contrast guides content-aware fusion for RGB-D saliency prediction | |
CN111191492B (zh) | 信息估计、模型检索和模型对准方法和装置 | |
Duarte et al. | Hybrid control for large swarms of aquatic drones | |
US20210049415A1 (en) | Behaviour Models for Autonomous Vehicle Simulators | |
Yu et al. | Review of deep reinforcement learning | |
CN112057858B (zh) | 虚拟对象的控制方法、装置、设备及存储介质 | |
CN111709471A (zh) | 对象检测模型的训练方法以及对象检测方法、装置 | |
CN112489119A (zh) | 一种增强可靠性的单目视觉定位方法 | |
Dwivedi et al. | What do navigation agents learn about their environment? | |
Hundt et al. | " good robot! now watch this!": Repurposing reinforcement learning for task-to-task transfer | |
Katyal et al. | Occupancy map prediction using generative and fully convolutional networks for vehicle navigation | |
CN113779347B (zh) | 人机对抗临机环境生成方法、装置、存储介质及设备 | |
Wang et al. | An underwater single target tracking method using SiamRPN++ based on inverted residual bottleneck block | |
Mcelhinney et al. | Exosomatic route choice in navigation evidence from video game player data | |
Lu et al. | A hybrid CNN-LSTM architecture for path planning of mobile robots in unknow environments | |
Zhao et al. | Object detection based on hierarchical multi-view proposal network for autonomous driving | |
Yang et al. | Rmp: A random mask pretrain framework for motion prediction | |
Yang et al. | Autonomous exploration and navigation of mine countermeasures USV in complex unknown environment | |
Haley et al. | Low level entity state sequence mapping to high level behavior via a DeepLSTM model | |
Li et al. | YOLO-A2G: An air-to-ground high-precision object detection algorithm based on YOLOv5 | |
Artizzu et al. | Deep reinforcement learning with omnidirectional images: application to uav navigation in forests | |
Silveira et al. | 3D robotic mapping: A biologic approach | |
Comi et al. | Implicit neural representation for 3d shape reconstruction using vision-based tactile sensing | |
Peña-Rios et al. | A type-2 fuzzy logic based system for asset geolocation within augmented reality environments |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |