CN115952867B - 一种博弈对抗数据的处理方法及装置、设备及存储介质 - Google Patents

一种博弈对抗数据的处理方法及装置、设备及存储介质 Download PDF

Info

Publication number
CN115952867B
CN115952867B CN202310229903.6A CN202310229903A CN115952867B CN 115952867 B CN115952867 B CN 115952867B CN 202310229903 A CN202310229903 A CN 202310229903A CN 115952867 B CN115952867 B CN 115952867B
Authority
CN
China
Prior art keywords
action
sequence
behavior
countermeasure
game
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310229903.6A
Other languages
English (en)
Other versions
CN115952867A (zh
Inventor
倪晚成
徐佳乐
黄凯奇
王士贤
张书晨
陈杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202310229903.6A priority Critical patent/CN115952867B/zh
Publication of CN115952867A publication Critical patent/CN115952867A/zh
Application granted granted Critical
Publication of CN115952867B publication Critical patent/CN115952867B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Processing Or Creating Images (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开涉及一种博弈对抗数据的处理方法及装置、设备及存储介质,所述方法包括:对于所获取博弈对抗数据中的每一个对抗实体,根据所述博弈对抗数据,生成与当前对抗实体对应的时间连续的动作序列;将所述动作序列分割为多个动作子序列;确定每一个动作子序列对应的第一行为语义,并基于多个动作子序列各自对应的第一行为语义,得到当前对抗实体对应的时间连续的第一行为序列;根据多个对抗实体各自对应的第一行为序列,生成多个第二行为语义;最终根据对抗实体的动作序列、第一行为序列和第二行为序列生成博弈对抗文本。从原始博弈对抗数据生成博弈对抗文本的过程,不仅实现对整个博弈过程的自动认知理解,而且也实现对博弈对抗数据的语义标注。

Description

一种博弈对抗数据的处理方法及装置、设备及存储介质
技术领域
本公开涉及博弈对抗技术领域,尤其涉及一种博弈对抗数据的处理方法及装置、设备及存储介质。
背景技术
目前,对博弈对抗数据的解析仅限于提供底层的回放数据解析、基本指标数据挖掘和回放定位功能等,无法在认知层次自动给出博弈过程的语义描述,也无法整合不同场次的博弈对抗结果,更无法展示多场博弈对抗过程的回放数据的综合信息。
另外,为实现自动给出博弈过程的语义描述,需要基于由人类经验知识构建的大规模数据集学习机器模型,但目前领域内无相关数据集,因此,需要人工标注大量的回放数据。然而,人工在原始数据上从0开始标注是一项十分繁琐耗时的工作,目前领域内无相关的便捷标注工具。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开的实施例提供了一种博弈对抗数据的处理方法及装置、设备及存储介质。
第一方面,本公开的实施例提供了一种博弈对抗数据的处理方法,所述方法包括:
获取博弈对抗数据;
对于所述博弈对抗数据中的每一个对抗实体,执行如下步骤:
根据所述博弈对抗数据,生成与当前对抗实体对应的时间连续的动作序列;
基于所述动作序列中多个动作之间的关联特征,将所述动作序列分割为多个动作子序列,其中,每一个动作子序列均构成行为;
确定每一个动作子序列对应的第一行为语义,并基于多个动作子序列各自对应的第一行为语义,得到当前对抗实体对应的时间连续的第一行为序列;
根据多个对抗实体各自对应的第一行为序列,生成多个第二行为语义,并基于多个第二行为语义得到第二行为序列;
根据所述动作序列、所述第一行为序列和所述第二行为序列生成博弈对抗文本。
在一种可能的实施方式中,所述根据所述博弈对抗数据,生成与当前对抗实体对应的时间连续的动作序列,包括:
对于所述博弈对抗数据中的每一个动作指令,关联当前动作指令与预设执行时长;
确定与当前动作指令对应的对抗实体;
根据预设执行时长内对抗实体的状态,确定当前动作指令的执行情况;
响应于所述执行情况为执行成功,将当前动作指令作为其对应的真实动作;
响应于所述执行情况为执行失败,将所述对抗实体在预设执行时长内的实际动作,作为当前动作指令对应的真实动作;
按照动作指令在博弈对抗过程中的时间顺序,对所述博弈对抗数据中的所有动作指令对应的真实动作进行排序,得到与当前对抗实体对应的时间连续的动作序列。
在一种可能的实施方式中,所述按照动作指令在博弈对抗过程中的时间顺序,对所述博弈对抗数据中的所有动作指令对应的真实动作进行排序,得到与当前对抗实体对应的时间连续的动作序列,包括:
按照动作指令在博弈对抗过程中的时间顺序,对所述博弈对抗数据中的所有动作指令对应的真实动作进行排序,并对排序后真实动作序列中的每个真实动作,赋予真实动作对应的预设执行时长,得到带有执行时长的时序化真实动作序列;
根据带有执行时长的时序化真实动作序列,确定博弈对抗总时长中的空缺时段;
获取所述空缺时段内对抗实体的实际动作,作为空缺时段内的真实动作;
将空缺时段内的真实动作补充至带有执行时长的时序化真实动作序列中,得到与当前对抗实体对应的时间连续的动作序列。
在一种可能的实施方式中,所述基于所述动作序列中多个动作之间的关联特征,将所述动作序列分割为多个动作子序列,包括:
按照预设分组规则,将所述动作序列分为初始动作子序列的集合;
将所述集合中的每一个初始动作子序列输入预先训练的行为识别模型中,从所述集合中筛选出构成行为的动作子序列,其中,所述行为识别模型用于基于所述动作序列中多个动作之间的关联特征,确定动作子序列是否构成行为;
将构成行为的动作子序列,作为筛选出的目标动作子序列。
在一种可能的实施方式中,所述确定每一个动作子序列对应的第一行为语义,包括:
按照不同动作子序列在博弈对抗过程中的时间顺序,对所有动作子序列进行排序;
将排序后的所有动作子序列输入预先训练的行为语义理解模型中,得到每一个动作子序列各自对应的第一行为语义,其中,所述行为语义理解模型用于基于每一个动作子序列的自身特征和不同动作子序列之间的关联特征,确定动作子序列对应的第一行为语义。
在一种可能的实施方式中,所述根据多个对抗实体各自对应的第一行为序列,生成多个第二行为语义,包括:
按照不同对抗实体对应的第一行为序列在博弈对抗过程中的时间顺序,对多个对抗实体对应的多个第一行为序列进行排序;
将排序后所有第一行为序列中的所有第一行为语义输入预先训练的行为语义理解模型中,得到多个第二行为语义,其中,所述行为语义理解模型基于不同行为之间的协同特征,对第一行为语义进行融合。
在一种可能的实施方式中,所述根据所述动作序列、所述第一行为序列和所述第二行为序列生成博弈对抗文本,包括:
将所述动作序列、第一行为序列和第二行为序列输入预先训练的文本生成模型,对所述动作序列、第一行为序列和第二行为序列进行特征编码,得到中间深层特征,并解码所述中间深层特征,获取博弈对抗文本。
在一种可能的实施方式中,所述方法还包括:
提取博弈对抗数据中的基础指标数据,其中,所述基础指标数据包括:编组信息、得分信息、单位分钟内下达动作指令数目的平均值、不同类型实体的资源使用情况、不同类型实体的移动位置热图、攻击行为的目标分布;
对于时间连续的动作序列中的每一个动作,确定每一个动作的价值;
将第一行为语义、第二行为语义、每一个动作的价值作为博弈对抗数据的标注数据。
在一种可能的实施方式中,所述对于时间连续的动作序列的每一个动作,确定每一个动作的价值,包括:
从时间连续的动作序列中选出目标动作;
从时间连续的动作序列中选取包括目标动作的目标动作序列,其中,所述目标动作序列用于确定目标动作的价值;
将目标动作序列输入预先训练的动作价值判别模型中,预测出目标动作的价值,得到每一个动作的价值。
在一种可能的实施方式中,所述方法还包括:
对已知的动作序列中的每一个动作进行标注,将标注动作后的动作序列分为动作子序列,并将构成行为的动作子序列标注为行为,以标注后的动作子序列作为输入,动作子序列的标注结果作为输出,训练预先构建的行为识别模型,得到训练后的行为识别模型;
对已知的按时间排序的多个动作子序列中每一个动作子序列进行标注,得到每一个动作子序列的第一行为语义,以按时间排序的多个动作子序列作为输入,以每一个动作子序列的第一行为语义作为输出,训练预先构建的行为语义理解模型,得到训练后的行为语义理解模型;
对已知的排序后所有第一行为序列中的所有第一行为语义进行标注,得到与第一行为语义对应的第二行为语义,以第一行为序列及第一行为语义为输入,以第二行为语义为输出,训练预先构建的行为语义理解模型,得到训练后的行为语义理解模型;
对已知的动作序列、第一行为序列和第二行为序列进行标注,得到与整场博弈过程对应的博弈对抗文本,以所述动作序列、所述第一行为序列和第二行为序列为输入,以与整场博弈过程对应的博弈对抗文本为输出,训练预先构建的文本生成模型,得到训练后的文本生成模型;
对已知的动作序列进行标注,得到动作序列中每一个动作的价值,以动作序列作为输入,以每一个动作的价值作为输出,训练预先构建的动作价值判别模型,得到训练后的动作价值判别模型;
为训练后的行为识别模型、训练后的行为语义理解模型、训练后的文本生成模型、训练后的动作价值判别模型的输出值分别提供新的修正值,用于重新训练所述行为识别模型、所述行为语义理解模型、所述文本生成模型、所述动作价值判别模型。
在一种可能的实施方式中,所述方法还包括:
基于预设的博弈过程自然语言描述模板,根据动作序列、第一行为序列和第二行为序列确定博弈对抗文本。
在一种可能的实施方式中,所述方法还包括:
获取包括预设查询条件的查询请求;
响应于所述查询请求,提供符合所述预设查询条件的博弈综合信息,其中,所述博弈综合信息包括博弈对抗的基础指标数据、第一行为语义、第二行为语义和博弈对抗文本;
对博弈综合信息进行图形化处理,供查询请求端进行可视化展示。
第二方面,本公开的实施例提供了一种博弈对抗数据的处理装置,包括:
获取模块,用于获取博弈对抗数据;
第一生成模块,用于对于所述博弈对抗数据中的每一个对抗实体,根据所述博弈对抗数据,生成与当前对抗实体对应的时间连续的动作序列;
分割模块,用于基于所述动作序列中多个动作之间的关联特征,将所述动作序列分割为多个动作子序列,其中,每一个动作子序列均构成行为;
确定模块,用于确定每一个动作子序列对应的第一行为语义,并基于多个动作子序列各自对应的第一行为语义,得到当前对抗实体对应的时间连续的第一行为序列;
第二生成模块,用于根据多个对抗实体各自对应的第一行为序列,生成多个第二行为语义,并基于多个第二行为语义得到第二行为序列;
第三生成模块,用于根据所述动作序列、所述第一行为序列和所述第二行为序列生成博弈对抗文本。
第三方面,本公开的实施例提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述的博弈对抗数据的处理方法。
第四方面,本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述的博弈对抗数据的处理方法。
本公开实施例提供的上述技术方案与现有技术相比至少具有如下优点的部分或全部:
本公开实施例所述的博弈对抗数据的处理方法,
获取博弈对抗数据;对于所述博弈对抗数据中的每一个对抗实体,执行如下步骤:根据所述博弈对抗数据,生成与当前对抗实体对应的时间连续的动作序列;基于所述动作序列中多个动作之间的关联特征,将所述动作序列分割为多个动作子序列,其中,每一个动作子序列均构成行为;确定每一个动作子序列对应的第一行为语义,并基于多个动作子序列各自对应的第一行为语义,得到当前对抗实体对应的时间连续的第一行为序列;根据多个对抗实体各自对应的第一行为序列,生成多个第二行为语义,并基于多个第二行为语义得到第二行为序列;根据所述动作序列、所述第一行为序列和所述第二行为序列生成博弈对抗文本,能够通过博弈对抗数据逐步获取各实体的动作、动作序列、行为、行为语义直到博弈对抗文本,不仅实现对整个博弈对抗过程的自动认知理解,而且还能为人类认知数据标注提供参考值。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1示意性示出了根据本公开实施例的博弈对抗数据的处理方法的流程示意图;
图2示意性示出了根据本公开实施例的博弈对抗数据的自动认知过程和标注过程的流程示意图;
图3示意性示出了根据本公开实施例的博弈对抗数据的认知结果的查询过程的流程示意图;
图4示意性示出了根据本公开实施例的博弈对抗数据的处理的装置的结构框图;
图5示意性示出了根据本公开另一实施例的博弈对抗数据的处理的装置的结构框图;
图6示意性示出了根据本公开实施例的电子设备的结构框图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开的一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本公开保护的范围。
参见图1,本公开的实施例提供了一种博弈对抗数据的处理方法,所述方法包括:
S1,获取博弈对抗数据。
在一些实施例中,博弈对抗数据可以是博弈对抗回放数据,也可以是博弈对抗实时数据,其中,博弈对抗回放数据为整个博弈对抗过程完成之后的获取整个博弈对抗过程的数据。
在一些实施例中,在兵棋推演中,博弈对抗数据文件以json文件的形式记录,为节省存储空间,json文件压缩后以zip文件形式存储。用户上传回放数据zip文件后,装置首先解压文件获取json文件,进而读取json文件,获取博弈对抗数据。博弈对抗数据以秒为单位记录推演过程中各个算子的状态和下达的动作指令,因此解析json回放文件,可获得各个算子的状态序列和动作指令序列。
在一些实施例中,博弈对抗数据可以是从攻防系统中获取的,也可以是从博弈对抗游戏中获取。
S2,对于所述博弈对抗数据中的每一个对抗实体,根据所述博弈对抗数据,生成与当前对抗实体对应的时间连续的动作序列。
在一些实施例中,在博弈对抗数据为博弈对抗回放数据的情况下,从博弈对抗回放数据中获取对抗过程中每个对抗实体在每个时刻的状态和动作,再根据每个对抗实体在每个时刻的状态和动作生成与当前对抗实体对应的时间连续的动作序列;在博弈对抗数据为博弈对抗实时数据的情况下,确定博弈对抗实时数据的采集时段,其中,所述采集时段为在当前时刻之前、与当前时刻相隔预设时长的一个时段;获取采集时段产生的博弈对抗实时数据,从博弈对抗实时数据中获取对抗过程中每个对抗实体在每个时刻的状态和动作,再根据每个对抗实体在每个时刻的状态和动作生成与当前对抗实体对应的时间连续的动作序列。在实际应用中,按照博弈对抗实时数据的边获取边处理的方式,能够在整个博弈对抗过程结束后很短的时间内获得博弈过程理解结果,使得博弈对抗用户能够及时的看到博弈过程理解结果。
在一些实施例中,以兵棋推演等博弈对抗游戏可以是,在一个由具有不同地形地势的连续六角格地图上,红方、蓝方分别执坦克、战车、步兵、巡飞弹等多个算子,由己方阵地出发,抢占中间关键位置并尽可能消灭敌方算子的过程,其中,对抗实体可以是算子。
S3,基于所述动作序列中多个动作之间的关联特征,将所述动作序列分割为多个动作子序列,其中,每一个动作子序列均构成行为。
在一些实施例中,博弈对抗数据中仅记录动作,并没有记录由动作序列组成的行为,而行为往往属于认知理解层次,往往无法直接获得。
S4,确定每一个动作子序列对应的第一行为语义,并基于多个动作子序列各自对应的第一行为语义,得到当前对抗实体对应的时间连续的第一行为序列。
在一些实施例中,通过分割动作序列得到的行为,没有具体的语义,需要确定每一个行为的第一行为语义,其中,第一行为语义为行为本身的语义。
S5,根据多个对抗实体各自对应的第一行为序列,生成多个第二行为语义,并基于多个第二行为语义得到第二行为序列。
在一些实施例中,第二行为序列中的第二行为语义可以是按时间顺序排序得到的,但是时间上可能不连续,因为第一行为序列中时间上不连续的至少2个第一行为语义也可能融合为1个第二行为语义,所以由第二行为语义生成的第二行为序列在时间上可能不连续。
在一些实施例中,多个对抗实体对应的多个第一行为序列,构成整个博弈对抗过程对应的完整第一行为序列,对完整第一行为序列中,多个实体在不同时间的第一行为可以构成一个协同行为,从完整第一行为序列中可以获得多个第二行为。
S6,根据所述动作序列、所述第一行为序列和所述第二行为序列生成博弈对抗文本。
在一些实施例中,博弈对抗文本用于以文本的方式描述整个博弈对抗过程,例如博弈对抗过程的攻防战报等。
在一些实施例中,步骤S2中,所述根据所述博弈对抗数据,生成与当前对抗实体对应的时间连续的动作序列,包括:
对于所述博弈对抗数据中的每一个动作指令,关联当前动作指令与预设执行时长;
确定与当前动作指令对应的对抗实体;
根据预设执行时长内对抗实体的状态,确定当前动作指令的执行情况;
响应于所述执行情况为执行成功,将当前动作指令作为其对应的真实动作;
响应于所述执行情况为执行失败,将所述对抗实体在预设执行时长内的实际动作,作为当前动作指令对应的真实动作;
按照动作指令在博弈对抗过程中的时间顺序,对所述博弈对抗数据中的所有动作指令对应的真实动作进行排序,得到与当前对抗实体对应的时间连续的动作序列。
在一些实施例中,兵棋推演博弈对抗游戏中,下达的动作指令不一定全部被成功执行。有些动作的执行需要一定的时间,若在该段时间内该算子被压制、被射击消亡,或执行中途有新的指令下达,或执行中途游戏结束,均会导致该动作不能完整成功执行。而博弈对抗数据不能直接读取动作指令的实际执行情况,因此需要根据算子的状态序列和动作指令序列,关联动作指令与下达动作指令后一段时间内的算子状态和后续动作指令,判断该动作指令是否完整执行。如对于“解聚”动作指令,该动作可实现兵力的解散,需要75秒的执行时间。若解聚完成时间点在推演完成时间点之前,且解聚期间该算子没有下达新的动作指令,且解聚期间该算子状态中的“被压制”属性和“同格交战”属性均为“0”,则认为该动作指令被成功执行。相反,若解聚完成时间点在推演完成时间点之后,则该动作指令执行失败,失败原因为“解聚完成前推演结束”;若解聚期间该算子又下达了新的动作指令,则该动作指令执行失败,失败原因为“新动作破坏解聚过程”;若解聚期间该算子被攻击导致处于被压制状态,则该动作指令执行失败,失败原因为“解聚中途被压制导致失败”;若解聚期间该算子与其他算子同格触发了同格交战,则该动作指令执行失败,失败原因为“中途同格交战导致失败”。若解聚期间该算子被消灭,则该动作指令执行失败,失败原因为“算子消亡导致解聚失败”。至少满足一条失败原因,则动作指令执行失败。
在一些实施例中,所述按照动作指令在博弈对抗过程中的时间顺序,对所述博弈对抗数据中的所有动作指令对应的真实动作进行排序,得到与当前对抗实体对应的时间连续的动作序列,包括:
按照动作指令在博弈对抗过程中的时间顺序,对所述博弈对抗数据中的所有动作指令对应的真实动作进行排序,并对排序后真实动作序列中的每个真实动作,赋予真实动作对应的预设执行时长,得到带有执行时长的时序化真实动作序列;
根据带有执行时长的时序化真实动作序列,确定博弈对抗总时长中的空缺时段;
获取所述空缺时段内对抗实体的实际动作,作为空缺时段内的真实动作;
将空缺时段内的真实动作补充至带有执行时长的时序化真实动作序列中,得到与当前对抗实体对应的时间连续的动作序列。
在一些实施例中,兵棋推演博弈对抗游戏中,以算子为单位,描述每个算子的时序动作序列,动作序列中每个动作的格式为“开始时间-结束时间-动作类型”。如(1)红方算子坦克编号0:0-100-机动,121-196-切换状态至掩蔽,213-213-射击,340-340-射击,363-403-机动,396-396-射击,404-500-机动(机动完成前游戏结束);(2)红方算子步兵编号202:0-0-上车,1-352-在车上,353-428-下车,429-498-机动;(3)蓝方算子坦克编号4:0-0-解聚, 104-144-机动,144-144-射击,146-166-机动, 220-340-机动,341-414-机动停止。如此,列举出红方和蓝方每个算子的时序动作序列,获得每个算子在推演过程中的动作表现。其中,每个动作都关联该动作时间段内算子的状态,如红方坦克编号0动作“0-100-机动”关联的算子状态为:[第0秒:{所属方:红方;算子类型:坦克;算子编号:0;状态:正常机动;血量:4;所处位置:3563;……},第1秒:{所属方:红方;算子类型:坦克;算子编号:0;状态:正常机动;血量:4;所处位置:3563;……},……第100秒:{所属方:红方;算子类型:坦克;算子编号:0;状态:正常机动;血量:4;所处位置:3765;……}]
假设推演总时长为500秒,可观察到上述红方算子步兵编号202和蓝方算子坦克编号4的动作序列最后一个动作的结束时间均不是500,此种现象的引起原因可能是算子后期无动作或算子消亡。且可观察到,动作序列中的时间是非连续的,因为博弈对抗数据仅记录算子的动作,而不记录无动作时的静止。因此,需要自动补全原始的动作序列,形成连续时间的、完整的算子动作序列。如上述例子补全后为:(1)红方算子坦克编号0:0-100-机动,101-120-静止,121-196-切换状态至掩蔽,197-212-静止,213-213-射击,214-339-静止,340-340-射击,341-362-静止,363-403-机动,396-396-射击,404-500-机动(机动完成前游戏结束);(2)红方算子步兵编号202:0-0-上车,1-352-在车上,353-428-下车,429-498-机动,499-499-消亡;(3)蓝方算子坦克编号4:0-0-解聚,1-103-静止, 104-145-机动,144-144-射击,146-166-机动,167-219-静止,220-340-机动,341-414-机动,414-500-静止。
本实施例对结构化、细节化的原始博弈对抗数据识别执行失败的动作指令,补全无动作时间段,形成连续的、真实的、清晰的对抗实体动作序列,能够将原始博弈对抗数据转化为客观的博弈过程叙述,使得用户对整个博弈过程的认识更全面。
在一些实施例中,步骤S3中,所述基于所述动作序列中多个动作之间的关联特征,将所述动作序列分割为多个动作子序列,包括:
按照预设分组规则,将所述动作序列分为初始动作子序列的集合;
将所述集合中的每一个初始动作子序列输入预先训练的行为识别模型中,从所述集合中筛选出构成行为的动作子序列,其中,所述行为识别模型用于基于所述动作序列中多个动作之间的关联特征,确定动作子序列是否构成行为;
将构成行为的动作子序列,作为筛选出的目标动作子序列。
在一些实施例中,兵棋推演博弈对抗游戏中,连续多个底层动作可以构成一个更长的行为序列,行为识别为从动作序列中识别出明显的行为,产生行为序列,如步战车的动作序列“100-155-静止,156-156-被引导射击,157-244-静止,245-245-被引导射击,246-342-静止,343-343-被引导射击,344-350-静止,351-351-被引导射击,352-366-静止,367-476-机动”,根据步战车只有静止时才能射击的特点,前9个连续的动作可构成一个行为,与最后一个“机动”动作区别。
在一些实施例中,步骤S4中,所述确定每一个动作子序列对应的第一行为语义,包括:
按照不同动作子序列在博弈对抗过程中的时间顺序,对所有动作子序列进行排序;
将排序后的所有动作子序列输入预先训练的行为语义理解模型中,得到每一个动作子序列各自对应的第一行为语义,其中,所述行为语义理解模型用于基于每一个动作子序列的自身特征和不同动作子序列之间的关联特征,确定动作子序列对应的第一行为语义。
在一些实施例中,兵棋推演博弈对抗游戏中,行为是具有一定语义的、更长的连续动作序列。上述行为识别实现了由底层动作到行为的转换,行为语义理解为获取每个识别出的行为的语义。如上述前9个动作构成的行为,其语义为“停止间射击”;最后一个“机动”动作,其语义为“转移阵地”。因此上述动作序列,经行为识别和行为语义理解后,形成的行为序列为“100-366-停止间射击,367-476-转移阵地”。
本实施例能够从底层动作中抽象出实体行为,并理解实体行为的语义,获得认知层面的博弈过程表述。
在一些实施例中,步骤S5中,所述根据多个对抗实体各自对应的第一行为序列,生成多个第二行为语义,包括:
按照不同对抗实体对应的第一行为序列在博弈对抗过程中的时间顺序,对多个对抗实体对应的多个第一行为序列进行排序;
将排序后所有第一行为序列中的所有第一行为语义输入预先训练的行为语义理解模型中,得到多个第二行为语义,其中,所述行为语义理解模型基于不同行为之间的协同特征,对第一行为语义进行融合。
在一些实施例中,所述行为语义理解模型的输入除了排序后所有第一行为序列中的所有第一行为语义,还可以包括:第一行为序列中,每个第一行为语义对应的特征,如时间、地点、武器等。
在一些实施例中,步骤S6中,所述根据所述动作序列、所述第一行为序列和所述第二行为序列生成博弈对抗文本,包括:
将所述动作序列、第一行为序列和第二行为序列输入预先训练的文本生成模型,对所述动作序列、第一行为序列和第二行为序列进行特征编码,得到中间深层特征,并解码所述中间深层特征,获取博弈对抗文本。
在一些实施例中,所述文本生成模型的输入还可以包括文本生成模型的上一个模型输出值。
本实施例能够基于对抗过程指标数据和认知层博弈过程表述,生成博弈过程和博弈结果的直观文本描述,便于博弈复盘存档与查阅。
在一些实施例中,所述方法还包括:
提取博弈对抗数据中的基础指标数据,其中,所述基础指标数据包括:编组信息、得分信息、单位分钟内下达动作指令数目的平均值、不同类型实体的资源使用情况、不同类型实体的移动位置热图、攻击行为的目标分布;
对于时间连续的动作序列中的每一个动作,确定每一个动作的价值;
将第一行为语义、第二行为语义、每一个动作的价值作为博弈对抗数据的标注数据。
所述基础指标数据包括:玩家编组信息、玩家得分信息、玩家APM(Action PerMinute, APM)、不同类型实体的资源使用情况、不同类型实体的移动位置热图、攻击行为的目标分布等;
在一些实施例中,兵棋推演博弈对抗游戏中,玩家编组信息记录红方和蓝方的玩家身份和每个玩家控制的算子id。如用户1共计1个玩家属于红方阵营,用户101、用户102共计2个玩家属于蓝方阵营,则玩家编组信息的形式为:{1: {"阵营":红, "控制算子": [0,1,101,102,400,401], "用户ID": "1","用户昵称": "用户1"},101: {"阵营": 蓝, "控制算子": [10001, 10101,10400], "用户ID":"101", "用户昵称":"用户101"},102: {"阵营": 蓝, "控制算子": [10001,10102,10401], "用户ID": "102", "用户昵称":"用户102"}}。
玩家得分信息记录整局推演中红蓝双方攻击得分、抢占关键点得分、剩余算子得分、总分及净胜分等信息。如:{红方:{"攻击得分":403,"抢占关键点得分":180,"剩余算子得分":293,"总分":876,"净胜分":173}},{蓝方:{"攻击得分":270,"抢占关键点得分":260,"剩余算子得分":173,"总分":703,"净胜分":-173}}。
玩家APM(Action Per Minute, APM)指单位分钟内玩家下达动作指令数目的平均值。
不同类型实体的资源使用情况,其中资源指算子及算子所搭载的武器,一个玩家可以控制多个算子,一个算子可以搭载多种武器。通过分析玩家所控算子和武器的使用数量,可获得玩家对资源使用的模式规律。
不同类型实体的移动位置热图,反映不同算子对地图上对不同六角格位置的选择偏好。利用颜色标出算子在推演过程中的所处位置分布,颜色越深,表示算子处于该位置的时长越久。
攻击行为的目标分布,反映不同类型算子对攻击目标的选择偏好。统计攻击行为的源算子、目标算子及攻击次数,如“步兵攻击坦克10次、步兵攻击战车7次、步兵攻击步兵2次”,由此可获取“步兵类型算子更倾向于攻击坦克或战车等车辆单位,而不倾向于攻击步兵类型单位”。
本实施例能够通过获取过程指标的统计数据,辅助博弈过程认知。
在一些实施例中,所述对于时间连续的动作序列的每一个动作,确定每一个动作的价值,包括:
从时间连续的动作序列中选出目标动作;
从时间连续的动作序列中选取包括目标动作的目标动作序列,其中,所述目标动作序列用于确定目标动作的价值;
将目标动作序列输入预先训练的动作价值判别模型中,预测出目标动作的价值,得到每一个动作的价值。
在一些实施例中,兵棋推演博弈对抗游戏中,对每个算子的每个底层动作进行价值判别。判别的结果包括:高价值、低价值、由人类操作局限性引起的静止动作、误操作。如“0-100-机动,101-108-静止,109-121-切换状态至掩蔽(新动作导致切换失败),122-296-机动,200-200-射击,290-209-射击,297-320-机动,321-321-消亡”,各个动作的价值判别结果为“高价值,人类操作局限性,误操作,高质量,高质量,高质量,低质量”。其中,低质量与高质量可以通过不同的质量指数表示。
本实施例能够识别动作的价值,有些动作是高价值,有些是低价值,而有些是因为紧张或操作不熟练引起的误操作,为机器模仿学习提供高质量的监督数据。
在一些实施例中,所述方法还包括:
对已知的动作序列中的每一个动作进行标注,将标注动作后的动作序列分为动作子序列,并将构成行为的动作子序列标注为行为,以标注后的动作子序列作为输入,动作子序列的标注结果作为输出,训练预先构建的行为识别模型,得到训练后的行为识别模型;
对已知的按时间排序的多个动作子序列中每一个动作子序列进行标注,得到每一个动作子序列的第一行为语义,以按时间排序的多个动作子序列作为输入,以每一个动作子序列的第一行为语义作为输出,训练预先构建的行为语义理解模型,得到训练后的行为语义理解模型;
对已知的排序后所有第一行为序列中的所有第一行为语义进行标注,得到与第一行为语义对应的第二行为语义,以第一行为序列及第一行为语义为输入,以第二行为语义为输出,训练预先构建的行为语义理解模型,得到训练后的行为语义理解模型;
对已知的动作序列、第一行为序列和第二行为序列进行标注,得到与整场博弈过程对应的博弈对抗文本,以所述动作序列、所述第一行为序列和第二行为序列为输入,以与整场博弈过程对应的博弈对抗文本为输出,训练预先构建的文本生成模型,得到训练后的文本生成模型;
对已知的动作序列进行标注,得到动作序列中每一个动作的价值,以动作序列作为输入,以每一个动作的价值作为输出,训练预先构建的动作价值判别模型,得到训练后的动作价值判别模型;
为训练后的行为识别模型、训练后的行为语义理解模型、训练后的文本生成模型、训练后的动作价值判别模型的输出值分别提供新的修正值,用于重新训练所述行为识别模型、所述行为语义理解模型、所述文本生成模型、所述动作价值判别模型。
在一些实施例中,在动作价值判别模型中,动作的时间属性使其具有上下文因果关联关系,因此动作的价值无法由自身判定,还需结合其前后的动作关联分析。因此,动作价值判别模型的输入需是时序化的动作序列,所以可采用循环神经网络或Transformer架构等可以处理序列输入的深度神经网络模型。动作价值判别旨在通过分析动作自身特征和动作序列内多个动作间的关联特征,判断序列中每个动作的价值,动作价值可从候选类别(高价值、低价值、人类操作局限性、误操作)中选择,因此该问题可看作深度学习中的序列标注问题。神经网络模型的输入为时序性的动作序列,序列中每个动作的特征包含时间、时间内的状态、施事者、受事者、地点、武器、动作效果等属性,这些属性经特征编码后拼接作为该动作的输入特征向量
Figure SMS_1
。经神经网络计算处理后,获得动作价值属于每个类别的概率,/>
Figure SMS_2
,输入为n个动作的特征向量,输出n个动作的概率向量/>
Figure SMS_3
。其中,/>
Figure SMS_4
是一个/>
Figure SMS_5
的概率向量,对应第i个动作价值属于高价值、低价值、人类操作局限性、误操作四个类别的概率,判定概率最高的类别为动作的价值。
在行为识别模型中,该模型旨在从动作序列中识别出具有较长时间特征与明显语义的行为,该问题具有很多种建模方式,本实施例提供一种“判断输入动作序列是否构成一个行为”的二分类建模方式。采用循环神经网络或Transformer架构等可以处理序列输入的深度神经网络模型,对输入的动作序列进行编码,获取动作序列的综合特征表示,进而根据综合特征表示输出该动作序列属于构成行为的概率。
Figure SMS_11
,其中,/>
Figure SMS_20
。若/>
Figure SMS_25
,表示该输入动作序列无法构成一个行为;若/>
Figure SMS_10
,表示该输入动作序列可以构成一个行为。对于一个很长的、可能包含多个行为的动作序列,则从第一个动作开始不断往后扩展划分序列输入模型进行判断。如需识别动作序列/>
Figure SMS_16
中的多个行为,则以/>
Figure SMS_30
为首开始判断各动作序列构成的行为,若判断出/>
Figure SMS_32
、/>
Figure SMS_7
、/>
Figure SMS_18
均不构成一个行为,而/>
Figure SMS_27
构成一个行为,则认为/>
Figure SMS_31
为该动作序列中的第一个行为;进而以/>
Figure SMS_8
为首开始判断,若判断出/>
Figure SMS_15
构成一个行为,而/>
Figure SMS_21
不构成行为,则认为/>
Figure SMS_28
为该动作序列中的第二个行为;进而以/>
Figure SMS_12
为首开始判断,若判断出/>
Figure SMS_14
、/>
Figure SMS_22
、/>
Figure SMS_29
均不构成行为,而/>
Figure SMS_6
构成一个行为,则认为/>
Figure SMS_13
是该动作序列中的第三个行为。最终判断/>
Figure SMS_19
自身是否构成行为,若判断出/>
Figure SMS_24
自身构成一个行为,则输入动作序列中共识别出四个行为,分别是/>
Figure SMS_9
、/>
Figure SMS_17
、/>
Figure SMS_23
、/>
Figure SMS_26
。神经网络模型可以批处理多个输入样本,因此上述多个子动作序列的判断可以并行计算,并不会耗费过多的计算时间。
在行为语义理解模型中,该模型同上述动作价值判别模型类似,均可以看作一个序列标注问题,只是将输入和判别的基本单位由动作改为行为。其是通过分析行为自身特征和行为序列内多个行为间的关联特征,判断序列中每个行为的第一语义,第一行为语义可从候选类别(常规机动、行军、机动侦察、定点侦察、强攻、追击、机会射击、夺占、防守、撤离、掩蔽)中选择。同样可采用循环神经网络或Transformer架构等可以处理序列输入的深度神经网络模型。神经网络模型的输入为时序性的行为序列
Figure SMS_33
,序列中的每个行为由一个或多个动作构成,每个行为的特征向量等于构成该行为的多个动作特征向量的加和。如/>
Figure SMS_34
……。经神经网络计算处理后,获得行为语义属于每个类别的概率/>
Figure SMS_35
,输入为n个行为的特征向量,输出n个行为的概率向量。其中,/>
Figure SMS_36
是一个/>
Figure SMS_37
的概率向量,对应第i个行为语义属于上述11个类别的概率,判定概率最高的类别为该行为的语义。除此之外,还可根据由深度神经网络模型获取的每个行为的深层特征,采用关联识别或相关性计算的方法识别出第二行为及第二行为语义。其中,第二行为语义可从候选类别(步兵引导战车、无人战车引导战车、无人机引导战车、炮兵校射、炮兵间瞄点选择、视野协同、火力合同、空地协同、地空协同、空空协同)中选择。
在文本生成模型中,该模型将结构化的博弈过程状态和动作数据转换为文本形式,实现从结构化数据模态向文本模态的转换。与上述三个模型仅用到“编码器”不同,该模型需同时用到“编码器”和“解码器”,“编码器”负责提取输入结构化数据的深层特征,“解码器”负责根据输入的深层特征生成文本形式的输出。其输入为行为序列
Figure SMS_38
,经“编码器”神经网络后输出深层特征/>
Figure SMS_39
,进而“解码器”根据深层特征及前一步解码器的输出生成当前步的输出/>
Figure SMS_40
,其中,/>
Figure SMS_41
为随机初始化的向量,/>
Figure SMS_42
表示当前步输出在字典上的概率分布,选择概率最大的“字”作为当前步的文本输出。“解码器”一字一字地输出文本描述,直至输出end字符结束输出。
上述4个内置模型均通过深度学习领域典型的监督学习方式获得,需要利用大规模高质量的人类标注数据训练,模型才能达到很好的应用效果。但由于目前博弈对抗回放标注数据的缺乏,以及标注工具的缺乏导致人类标注工作难以开展,难以获得大规模高质量的人类标注数据。因此,本公开的内置模型在最初可以是利用少量标注数据训练获得的。通过内置模型提供一个初级的机器标注结果,进而人类再纠正机器标注结果中的错误,提供一种便捷的纠错式人类数据标注工具,便于获取大规模人类标注数据。如此通过该装置的标注功能,不断积累人类高质量标注数据,进而利用这些数据再去训练内置模型,提升内置模型的能力。最终实现机器的认知能力类比人类,从机器学习人类认知,过渡到机器可以自行很好地进行博弈对抗数据认知。
本公开以提供一个便捷的纠错式数据标注工具为基础,显著地提升人类数据标注效率,高效地构建大规模知识与数据融合的深度学习数据集,进而利用所获数据集训练获得可靠的机器认知模型,最终提供一个博弈对抗数据解析认知平台,通过内置模型实现机器对博弈过程的自动理解。
本公开提供一个博弈对抗,特别是即时策略型博弈对抗过程的认知工具,和一个博弈对抗数据标注工具,两者相辅相成,内置认知模型(可以由小规模数据集训练获得,认知能力可能较差)提供一个博弈过程初步认知结果,人类标注专家以纠正初步认知结果中错误的方式进行该博弈过程的标注。随着人类标注数据的增多,可构建大规模的知识与数据融合的深度学习数据集,进而再次训练内置模型,提升内置模型的认知能力。最终,在高质量内置认知模型的支持下,得到一个可靠的博弈过程认知工具。
在一些实施例中,所述方法还包括:
基于预设的博弈过程自然语言描述模板,根据动作序列、第一行为序列和第二行为序列确定博弈对抗文本。
在一些实施例中,博弈过程的文本描述可以采用博弈过程自然语言描述模板匹配的方法,如行为“460-460-攻击(源算子类型:武装直升机,源算子编号:0600,源算子位置:4133,被攻击算子类型:重型战车,被攻击算子编号:0108,被攻击算子位置:5341,战损:全歼)”,匹配至模板“(时间)时,(玩家阵营)方(算子类型)编号(算子编号)在(算子位置)位置攻击处于(敌方算子位置)位置的敌方(算子类型)编号(算子编号),攻击结果为(战损)”,获得的文本描述为“460秒时,红方武装直升机编号0600在4133位置攻击处于5341位置的敌方重型战车编号0108,攻击结果为全歼”,便于非本场博弈玩家直观便捷地得知本场博弈的过程。
在一些实施例中,博弈过程自然语言描述模板还用于:文本生成模型生成的博弈过程文本描述可能形式比较灵活,若想要获得格式相对固定的文本描述,则可采用模板匹配方法。灵活的数据通过与模板匹配获得形式相对固定的文本描述。模板的样式可设计为,1)非攻击行为:(时间)时,(玩家阵营)方(算子类型)编号(算子编号)在(行为发出位置)处(行为类型),(行为目标)。举例为“160步时,红方坦克编号0003在5421位置处行军,沿道路行进至6026位置”。2)攻击行为:(时间)时,(玩家阵营)方(算子类型)编号(算子编号)在(算子位置)位置攻击处于(敌方算子位置)位置的敌方(算子类型)编号(算子编号),攻击结果为(战损)。举例为“460秒时,红方武装直升机编号0600在4133位置攻击处于5341位置的敌方重型战车编号0108,攻击结果为消灭敌方两个单位”。上述非攻击行为和攻击行为仅为两种样例,除此之外,还可以设计更多种类样式的模板。
在一些实施例中,所述方法还包括:
获取包括预设查询条件的查询请求;
响应于所述查询请求,提供符合所述预设查询条件的博弈综合信息,其中,所述博弈综合信息包括博弈对抗的基础指标数据、第一行为语义、第二行为语义和博弈对抗文本;
对博弈综合信息进行图形化处理,供查询请求端进行可视化展示。
在一些实施例中,所述方法还包括:
以博弈对抗数据的文件名称为索引,将每个博弈对抗数据的博弈过程叙述(动作序列)、基础指标数据、博弈过程认知表述(第一行为序列)、博弈过程文本描述(博弈对抗文本)、博弈过程认知表述(第二行为序列)标注结果存储至预设的数据库,以在读取时搜索博弈对抗数据的文件名称,即可获取该博弈对抗数据的解析、认知与标注结果。
以博弈对抗游戏为例,说明本实施例的博弈对抗数据的处理方法的应用场景。
场景1:博弈对抗数据的自动认知过程,参见图2,步骤如下:
步骤S21:用户登录个人账户,上传需要解析的博弈对抗数据文件;
步骤S22:初步解析博弈对抗数据,生成动作序列:
步骤S221:解压文件并初步解析博弈对抗数据,获取时序化实体状态和底层动作指令;
步骤S222:读取步骤S221处理结果,关联处理实体状态和动作指令,获取各动作指令的实际执行情况;
步骤S223:读取步骤S221所获实体状态信息和步骤S222所获真实底层动作信息,以对抗实体为单位,补全无动作时间段,获得时序化的动作序列。
步骤S23:若缺少可用的内置模型,执行博弈对抗数据标注方法。否则,调用所需内置模型,执行步骤S24;
步骤S24:获取步骤S22所述动作序列,生成对抗基本指标数据、第一行为序列、第二行为序列、博弈对抗文本:
步骤S241:读取步骤S22所获动作序列,采用数据统计挖掘方法获得不同阵营玩家的各项指标数据;
步骤S242:读取步骤S22所获动作序列,并行调用内置模型中的动作价值判别模型、行为识别模型和行为语义理解模型,获得相应的底层动作判别、行为识别和行为语义理解结果,形成第一行为序列、第二行为序列;
注意:步骤S241、步骤S242无顺序要求,可并行执行。
步骤S243:读取步骤S241所获基础指标数据和步骤S242所获第一行为序列、第二行为序列,调用内置模型中的文本生成模型,采用深度神经网络;或调用内置模型中的博弈过程自然语言描述模板,采用模板匹配法,生成不同阵营玩家的博弈对抗文本。
步骤S25:读取步骤S22所获动作序列,步骤S24所获基础指标数据、第一行为序列、第二行为序列和博弈对抗文本,存储至数据库。图形化处理所获数据,发送至前端进行可视化展示,并形成最终的结果文件发送至前端,供人类用户下载保存;
步骤S26:人类用户通过前端查看博弈对抗数据认知结果,下载所需结果文件。
步骤S21中,用户通过输入用户名、邮箱或手机号和密码的组合登录个人账户,验证身份,其中,验证身份在用户个人中心进行,用户个人中心包括用户名、头像、联系方式、邮箱等个人材料的管理与编辑;用户个人中心还包括历史操作记录,历史操作记录存储用户使用该系统的历史操作时间、操作事项及结果等信息,如在数据解析认知功能中,记录形式为“时间:XX年XX月XX日XX时XX分;操作:数据解析认知;博弈对抗回放文件:XXXXXXXX.zip;解析认知结果:XXXXXX.xlsx”;在数据标注功能中,记录形式为“时间:XX年XX月XX日XX时XX分;操作:数据标注;回放文件:XXXXXXXX.zip;修正文件:YYYYYY.xlsx;修正后结果YYYYYYYY-Result.xlsx”;在数据查询功能中,记录形式为:“时间:XX年XX月XX日XX时XX分;操作:数据查询;查询条件:用户名001,分队级对抗”;查询结果:http://XXX/XXX(链接形式,点击可转至该界面)。其中,解析为从博弈对抗数据中,获取对抗过程中算子在每个时刻的状态和动作;认知为判别算子动作的价值(高价值、低价值、或误操作),抽象合并算子的动作序列,形成行为序列,理解行为序列中每个行为的语义,汇总上述信息,形成战报;
用户点击博弈对抗数据文件上传接口,触发本地文件目录浏览功能,选择拟解析认知的博弈对抗数据上传至该博弈对抗游戏,经处理后,返回解析认知结果,解析认知结果允许通过下载接口下载至本地。其中,解析认知结果以文字和图表的形式展示:部分指标信息(如玩家编组信息、玩家得分信息)和博弈过程文本描述以文字形式展示:基础指标信息如“红方玩家:用户1、用户2;蓝方玩家:用户3、用户4;红方净胜分:100;蓝方净胜分:-100”;博弈过程文本描述如“460秒时我方武装直升机编号0600在4133位置攻击处于5341位置的敌方重型战车编号0108,攻击结果为全歼”。部分指标信息和认知结果以图表形式展示:如玩家APM(Action Per Minute, APM)指标以横轴时间(/分钟),纵轴动作数量(/个)的形式展示;不同类型实体的资源使用情况以横轴资源类型,纵轴资源使用数量形式展示;攻击行为目标分布以源攻击实体与被攻击实体间的攻击次数强度图形式展示。认知结果以“动作-行为”的层次化结构展示。(1)最底层的“动作”层以单个算子为单位,展示每个算子的动作序列。以图结构形式展示,以算子的动作为节点,动作节点间的时序关系为边。点击动作节点,扩展出该动作的基本信息(编号、时间、地点、施事者、受事者、动作效果)和动作价值(高价值、低价值、由人类操作局限性引起的静止动作、误操作)。(2)中间的“行为层”,以单个算子为单位,展示每个算子的行为序列。在底层动作图上,将构成行为的连续动作标注成同一颜色,不同行为间颜色不同。点击行为中的动作节点,扩展出该行为的编号、组成元素和语义信息。
场景2:博弈对抗数据的标注过程,参见图2,步骤如下:
情况一:若缺少与博弈对抗数据认知任务相关的内置模型,则通过该方法从0开始标注数据,利用标注结果监督学习获得内置模型;
情况二:若不缺少所需内置模型,但人类用户发现博弈对抗数据解析与认知结果中的博弈过程认知表述存在不准确之处,可进行人工修正。进而利用人工修正的标注结果进一步训练内置模型,提升内置模型的能力。
步骤S31:人类用户通过前端触发数据标注功能;
步骤S32:人类用户通过鼠标选择标注对象,从标注对象指明接口获取相应对象的编号。所述标注对象:在情况一中,为动作序列中的底层动作;在情况二中,为第二行为序列中的元素,包括价值判别错误的底层动作、行为识别错误的底层动作、行为语义理解错误的行为;
步骤S33:人类用户通过前端输入相应的标注值,标注值输入接口读取人工标注值。所述标注值包括:底层动作的价值、构成单个行为的底层动作、行为的语义理解。
步骤S34:查看是否仍存在待标注对象,若是,则反复执行步骤S32-S33,直至无错误,跳转至步骤S35;
步骤S35:根据步骤S32-S34所获的标注对象编号和标注值,修改原始动作价值、第一行为序列和第二行为序列,形成动作价值、第一行为序列和第二行为序列标注结果。
步骤S36:读取步骤S35所获动作价值、第一行为序列和第二行为序列标注结果,存储至数据库。图形化处理所获数据,发送至前端进行可视化展示,并形成最终的结果文件发送至前端,供人类用户下载保存;
步骤S37:定期从数据库读取动作价值、第一行为序列和第二行为序列标注结果,训练内置模型。
在一些实施例中,用户在数据标注时,首先自动生成博弈对抗数据的认知结果(动作价值、第一行为序列和第二行为序列),并以上述图结构形式进行可视化。用户点击具有认知错误的动作节点或行为节点,标注对象指明接口自动获取并显示错误动作或节点的编号。进而,用户在标注值输入接口输入错误修正值。其余解析认知标注结果可视化界面和下载接口同上述数据解析认知功能端。
场景3:博弈对抗数据的认知结果的查询过程,参见图3,步骤如下:
步骤S41:人类用户通过前端登录个人账户,选择数据查询功能端,设置所需查询条件;
步骤S42:根据所设查询条件,在数据库中筛选符合查询条件的所有博弈对抗场次,读取所有博弈对抗数据的认知结果;
步骤S43:对步骤S42所获多场对抗的认知结果进行整合汇总,获得历史博弈对抗的汇总信息;
步骤S44:读取步骤S43所获历史对抗综合信息,图形化处理所获数据,发送至前端进行可视化展示。
在一些实施例中,设置多种查询条件,如玩家、地图、时间、场次数量、赛事等。每个查询条件设置一定的候选范围,多个条件组合可形成更复杂的查询条件。如“用户X在XX赛事编号XX地图上,XX年X月份以来近XX场对抗”的综合情况。查询结果可视化界面以图表的形式展示该玩家胜率、积分、资源使用模式等结果。
本公开提供一个集数据认知与数据标注一体,且两者相辅相成的便捷工具,作为“人在回路”博弈对抗辅助分析工具,为指挥员回顾对抗过程、分析对抗策略及方法提供帮助,同时,为领域专家标注博弈对抗数据,反馈自身经验知识提供了一个便捷平台,极大地提高了数据标注的效率,有助于获取领域高质量大数据,服务于智能技术研究。
参见图4,本公开的实施例提供了一种博弈对抗数据的处理装置,包括:
获取模块41,用于获取博弈对抗数据;
第一生成模块42,用于对于所述博弈对抗数据中的每一个对抗实体,根据所述博弈对抗数据,生成与当前对抗实体对应的时间连续的动作序列;
分割模块43,用于基于所述动作序列中多个动作之间的关联特征,将所述动作序列分割为多个动作子序列,其中,每一个动作子序列均构成行为;
确定模块44,用于确定每一个动作子序列对应的第一行为语义,并基于多个动作子序列各自对应的第一行为语义,得到当前对抗实体对应的时间连续的第一行为序列;
第二生成模块45,用于根据多个对抗实体各自对应的第一行为序列,生成多个第二行为语义,并基于多个第二行为语义得到第二行为序列;
第三生成模块46,用于根据所述动作序列、所述第一行为序列和所述第二行为序列生成博弈对抗文本。
在一些实施例中,第一生成模块,还用于:
对于所述博弈对抗数据中的每一个动作指令,关联当前动作指令与预设执行时长;
确定与当前动作指令对应的对抗实体;
根据预设执行时长内对抗实体的状态,确定当前动作指令的执行情况;
响应于所述执行情况为执行成功,将当前动作指令作为其对应的真实动作;
响应于所述执行情况为执行失败,将所述对抗实体在预设执行时长内的实际动作,作为当前动作指令对应的真实动作;
按照动作指令在博弈对抗过程中的时间顺序,对所述博弈对抗数据中的所有动作指令对应的真实动作进行排序,得到与当前对抗实体对应的时间连续的动作序列。
在一些实施例中,第一生成模块,还用于:
所述按照动作指令在博弈对抗过程中的时间顺序,对所述博弈对抗数据中的所有动作指令对应的真实动作进行排序,得到与当前对抗实体对应的时间连续的动作序列,包括:
按照动作指令在博弈对抗过程中的时间顺序,对所述博弈对抗数据中的所有动作指令对应的真实动作进行排序,并对排序后真实动作序列中的每个真实动作,赋予真实动作对应的预设执行时长,得到带有执行时长的时序化真实动作序列;
根据带有执行时长的时序化真实动作序列,确定博弈对抗总时长中的空缺时段;
获取所述空缺时段内对抗实体的实际动作,作为空缺时段内的真实动作;
将空缺时段内的真实动作补充至带有执行时长的时序化真实动作序列中,得到与当前对抗实体对应的时间连续的动作序列。
在一些实施例中,分割模块还用于:
按照预设分组规则,将所述动作序列分为初始动作子序列的集合;
将所述集合中的每一个初始动作子序列输入预先训练的行为识别模型中,从所述集合中筛选出构成行为的动作子序列,其中,所述行为识别模型用于基于所述动作序列中多个动作之间的关联特征,确定动作子序列是否构成行为;
将构成行为的动作子序列,作为筛选出的目标动作子序列。
在一些实施例中,确定模块,用于:
按照不同动作子序列在博弈对抗过程中的时间顺序,对所有动作子序列进行排序;
将排序后的所有动作子序列输入预先训练的行为语义理解模型中,得到每一个动作子序列各自对应的第一行为语义,其中,所述行为语义理解模型用于基于每一个动作子序列的自身特征和不同动作子序列之间的关联特征,确定动作子序列对应的第一行为语义。
在一些实施例中,第二生成模块,还用于:
按照不同对抗实体对应的第一行为序列在博弈对抗过程中的时间顺序,对多个对抗实体对应的多个第一行为序列进行排序;
对排序后所有第一行为序列中的所有第一行为语义输入预先训练的行为语义理解模型中,得到多个第二行为语义,其中,所述行为语义理解模型基于不同行为之间的协同特征,对第一行为语义进行融合。
在一些实施例中,第三生成模块,还用于:
将所述动作序列、第一行为序列和第二行为序列输入预先训练的文本生成模型,对所述动作序列、第一行为序列和第二行为序列进行特征编码,得到中间深层特征,并解码所述中间深层特征,获取博弈对抗文本。
在一些实施例中,所述装置还包括:
数据挖掘模块,用于提取博弈对抗数据中的基础指标数据,其中,所述基础指标数据包括:编组信息、得分信息、单位分钟内下达动作指令数目的平均值、不同类型实体的资源使用情况、不同类型实体的移动位置热图、攻击行为的目标分布;
内置模型与资源模块,用于存储动作价值判别模型、行为识别模型、行为语义理解模型、文本生成模型及预设的博弈过程自然语言描述模板;
数据库模块,用于存储每个回放数据的解析与认知结果。所述结果包括:动作序列、动作价值、基础指标数据、第一行为序列、第二行为序列、博弈对抗文本。
在一些实施例中,所述装置还用于:
从时间连续的动作序列中选出目标动作;
从时间连续的动作序列中选取包括目标动作的目标动作序列,其中,所述目标动作序列用于确定目标动作的价值;
将目标动作序列输入预先训练的动作价值判别模型中,预测出目标动作的价值,得到每一个动作的价值。
在一些实施例中,所述方法还包括数据标注功能端,用于:
对已知的动作序列中的每一个动作进行标注,将标注动作后的动作序列分为动作子序列,并将构成行为的动作子序列标注为行为,以标注后的动作子序列作为输入,动作子序列的标注结果作为输出,训练预先构建的行为识别模型,得到训练后的行为识别模型;
对已知的按时间排序的多个动作子序列中每一个动作子序列进行标注,得到每一个动作子序列的第一行为语义,以按时间排序的多个动作子序列作为输入,以每一个动作子序列的第一行为语义作为输出,训练预先构建的行为语义理解模型,得到训练后的行为语义理解模型;
对已知的排序后所有第一行为序列中的所有第一行为语义进行标注,得到与第一行为语义对应的第二行为语义,以所有第一行为序列为输入,以第一行为序列及第一行为语义为输出,训练预先构建的行为语义理解模型,得到训练后的行为语义理解模型;
对已知的动作序列、第一行为序列和第二行为序列进行标注,得到与整场博弈对抗对应的博弈对抗文本,以所述动作序列、所述第一行为序列和第二行为序列为输入,以与整场博弈对抗对应的博弈对抗文本为输出,训练预先构建的文本生成模型,得到训练后的文本生成模型;
对已知的动作序列进行标注,得到动作序列中每一个动作的价值,以动作序列作为输入,以每一个动作的价值作为输出,训练预先构建的动作价值判别模型,得到训练后的动作价值判别模型;
为训练后的行为识别模型、训练后的行为语义理解模型、训练后的文本生成模型、训练后的动作价值判别模型的输出值分别提供新的修正值,用于重新训练所述行为识别模型、所述行为语义理解模型、所述文本生成模型、所述动作价值判别模型。
在一些实施例中,所述装置还用于:
基于预设的博弈过程自然语言描述模板,根据动作序列、第一行为序列和第二行为序列确定博弈对抗文本。
在一些实施例中,所述装置还包括:
获取包括预设查询条件的查询请求;
响应于所述查询请求,提供符合所述预设查询条件的博弈综合信息,其中,所述博弈综合信息包括博弈对抗的基础指标数据、第一行为语义和第二行为语义;
对博弈综合信息进行图形化处理,供查询请求端进行可视化展示。
参见图5,在实际应用中,在博弈对抗数据为回放数据的情况下,本公开的博弈对抗数据的处理装置可以包括:前端交互模块、回放数据解析模块、回放数据挖掘与认知模块、内置模型与资源模块、解析认知结果输出模块、回放数据标注模块、回放数据查询模块和数据库模块,其中,回放数据挖掘与认知模块包括数据挖掘模块、获取模块、第一生成模块、分割模块、确定模块、第二生成模块、第三生成模块。
其中,前端交互模块,用于人类用户与系统的交互,包括用户个人中心、数据解析认知功能端、数据标注功能端、数据查询功能端。
用户个人中心,用于用户登录、个人资料管理、历史操作记录;数据解析认知功能端,用于数据解析认知功能,包括上传回放数据文件接口、解析认知结果可视化界面和下载接口;数据标注功能端,用于纠错形式的数据标注功能,包括标注对象指明接口、标注值输入接口、解析认知标注结果可视化界面和下载接口。其中,标注对象指明接口,用于点击指出数据解析认知结果的错误之处;标注值输入接口,用于输入对错误的修正值;数据查询功能端,用于数据查询功能,包括查询条件选择接口、查询结果可视化界面。
回放数据解析模块,用于对用户上传的回放数据文件进行解析与预处理,获取真实的、完整的博弈过程叙述。包括回放数据处理模块、动作关联纪实模块、博弈过程叙述模块:
回放数据处理模块,用于解压用户上传的回放数据文件,对数据文件进行初步解析,获得对抗过程中每个时间单位对抗实体的状态与下达的底层动作指令;动作关联纪实模块,用于根据回放数据处理模块获得的时序实体状态和底层动作指令,关联底层动作指令与指令下达特定时间(时间长度由对抗规则确定:不同的实体类型和动作类型下,指令完整执行的时间间隔不同)内相应实体的状态,获取该指令在对抗中的实际执行情况,若该指令得以完整成功地执行,则将该指令作为真实动作;若该指令未能完整成功执行,则获取失败原因和相应实体的真实动作;博弈过程叙述模块,用于以不同玩家阵营的各个对抗实体为单位,按照时间顺序,整合回放数据处理模块获得的时序性实体状态信息和动作关联纪实模块获得的真实底层动作信息,并补全无动作时间内动作类型为“静止”,最终获取各对抗实体完整的博弈过程叙述。
回放数据挖掘与认知模块,用于根据回放数据解析模块所获博弈过程叙述,获取该场博弈对抗的基本指标数据和抽象认知语义表述。包括基础指标挖掘模块、行为识别与语义理解模块、博弈过程自然语言描述模块:
基础指标挖掘模块,用于根据博弈过程叙述获取不同阵营玩家在博弈对抗过程中的基础指标数据。其中,所述基础指标数据包括:玩家编组信息、玩家得分信息、玩家APM(Action Per Minute, APM)、不同类型实体的资源使用情况、不同类型实体的移动位置热图、攻击行为的目标分布等;行为识别与语义理解模块,用于抽象博弈过程叙述,生成博弈过程的认知表述。利用内置模型,对博弈过程叙述进行底层动作价值判别、行为识别和行为语义理解分析,获取以行为为基本单位的博弈过程认知表述;博弈过程自然语言描述模块,用于综合博弈过程认知表述和基础指标数据,利用模板匹配法或多模态内容生成方法,生成对不同玩家博弈过程的文本描述。
内置模型与资源模块,用于装置内置模型、模板等资源的存储与更新。其中,所述内置模型包括:动作价值判别模型、行为识别模型、行为语义理解模型和多模态内容生成模型。所述内置模板包括博弈过程自然语言描述模板。1)动作价值判别模型,用于判别各底层动作的价值。该模型以底层动作信息和环境信息为输入,判断其是高价值动作、低价值动作还是误操作等。其中,所述底层动作信息包括时间、地点、动作类型、施事实体、受事实体和资源使用等信息;所述环境信息包括与目标的差距、关联实体信息和场景信息等。2)行为识别模型,用于识别具有一定含义的实体行为。该模型以序列化的底层动作为输入,聚合具有相关性的多个底层动作,形成高层次的语义行为。3)行为语义理解模型,用于对行为识别模型所获实体行为进行语义理解。该模型以序列化的实体行为和行为间的关联关系为输入,为每个实体行为生成相应的语义表述。4)文本生成模型,用于以深度神经网络的形式生成博弈对抗过程的直观文本描述。该模型以博弈过程认知表述为输入,以神经网络为载体,输出不同玩家的对抗过程文本描述。5)博弈过程自然语言描述模板,用于以模板匹配的形式生成博弈对抗过程的直观文本描述。将博弈过程认知表述和基础指标数据与模板进行匹配,获取不同玩家的对抗过程文本描述。
所述内置模型与资源模块,其内置模型具有定期自学习、自提升的特点。该模块定期读取人工修正标注过的回放数据与相应的解析认知结果作为监督数据,训练更新各个内置模型,不断提升模型的能力。解析认知结果输出模块,用于存储解析、认知、查询所获数据于数据库模块;用于生成回放数据解析与认知结果的文件,并向前端交互界面提供解析与认知结果的可视化展示和文件下载接口;也用于向前端交互界面提供回放数据查询结果的可视化展示。其中,所述回放数据解析与认知结果包括:回放数据解析模块所获博弈过程叙述,回放数据挖掘与认知模块所获基础指标数据、博弈过程认知表述、博弈过程文本描述;所述回放数据查询结果包括:回放数据查询模块所获历史对抗综合信息。
回放数据标注模块,用于根据人类用户对博弈过程认知表述的错误指正,修正由装置内部模型自动生成的博弈过程认知表述,形成准确的博弈过程认知表述。
回放数据查询模块,用于根据前端交互模块数据查询功能端所接收的人类用户查询条件,查找符合查询条件的所有对抗场次,并对多场对抗的解析与认知结果进行整合汇总,获取综合的历史对抗信息。其中,所述查询条件包括:对抗场景、玩家、实体类型、行为类型和对抗形式等。
数据库模块,用于存储每个回放数据的解析与认知结果。所述结果包括:博弈过程叙述、基础指标数据、博弈过程认知表述、博弈过程文本描述、博弈过程认知表述标注结果。
本公开的装置是一个纠错修正式的复盘数据标注工具,内置模型基准用于上述动作价值识别、行为识别和行为语义理解,人类用户以纠正内置模型输出结果中错误的方式进行数据标注,极大地提升了数据标注的效率,另外,还可以用于特定条件下多场对抗数据的综合信息查询,提供多种特定视角下的宏观统计信息。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
上述实施例中,获取模块41、第一生成模块42、分割模块43、确定模块44、第二生成模块45、第三生成模块46中的任意多个可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。获取模块41、第一生成模块42、分割模块43、确定模块44、第二生成模块45、第三生成模块46中的至少一个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,获取模块41、第一生成模块42、分割模块43、确定模块44、第二生成模块45、第三生成模块46中的至少一个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。
参见图6,本公开的实施例提供的电子设备,包括处理器1110、通信接口1120、存储器1130和通信总线1140,其中,处理器1110,通信接口1120,存储器1130通过通信总线1140完成相互间的通信;
存储器1130,用于存放计算机程序;
处理器1110,用于执行存储器1130上所存放的程序时,实现如下所示博弈对抗数据的处理方法:
获取博弈对抗数据;
对于所述博弈对抗数据中的每一个对抗实体,执行如下步骤:
根据所述博弈对抗数据,生成与当前对抗实体对应的时间连续的动作序列;
基于所述动作序列中多个动作之间的关联特征,将所述动作序列分割为多个动作子序列,其中,每一个动作子序列均构成行为;
确定每一个动作子序列对应的第一行为语义,并基于多个动作子序列各自对应的第一行为语义,得到当前对抗实体对应的时间连续的第一行为序列;
根据多个对抗实体各自对应的第一行为序列,生成多个第二行为语义,并基于多个第二行为语义得到第二行为序列;
根据所述动作序列、所述第一行为序列和第二行为序列生成博弈对抗文本。
上述的通信总线1140可以是外设部件互连标准(PeripheralComponentInterconnect,简称PCI)总线或扩展工业标准结构(ExtendedIndustry StandardArchitecture,简称EISA)总线等。该通信总线1140可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口1120用于上述电子设备与其他设备之间的通信。
存储器1130可以包括随机存取存储器(Random AccessMemory,简称RAM),也可以包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。可选的,存储器1130还可以是至少一个位于远离前述处理器1110的存储装置。
上述的处理器1110可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processing,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
本公开的实施例还提供了一种计算机可读存储介质。上述计算机可读存储介质上存储有计算机程序,上述计算机程序被处理器执行时实现如上所述的博弈对抗数据的处理方法。
该计算机可读存储介质可以是上述实施例中描述的设备/装置中所包含的;也可以是单独存在,而未装配入该设备/装置中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的博弈对抗数据的处理方法。
根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (15)

1.一种博弈对抗数据的处理方法,其特征在于,所述方法包括:
获取博弈对抗数据;
对于所述博弈对抗数据中的每一个对抗实体,执行如下步骤:
根据所述博弈对抗数据,生成与当前对抗实体对应的时间连续的动作序列;
基于所述动作序列中多个动作之间的关联特征,将所述动作序列分割为多个动作子序列,其中,每一个动作子序列均构成行为;
确定每一个动作子序列对应的第一行为语义,并基于多个动作子序列各自对应的第一行为语义,得到当前对抗实体对应的时间连续的第一行为序列;
根据多个对抗实体各自对应的第一行为序列,生成多个第二行为语义,并基于多个第二行为语义得到第二行为序列;
根据所述动作序列、所述第一行为序列和所述第二行为序列生成博弈对抗文本。
2.根据权利要求1所述的方法,其特征在于,所述根据所述博弈对抗数据,生成与当前对抗实体对应的时间连续的动作序列,包括:
对于所述博弈对抗数据中的每一个动作指令,关联当前动作指令与预设执行时长;
确定与当前动作指令对应的对抗实体;
根据预设执行时长内对抗实体的状态,确定当前动作指令的执行情况;
响应于所述执行情况为执行成功,将当前动作指令作为其对应的真实动作;
响应于所述执行情况为执行失败,将所述对抗实体在预设执行时长内的实际动作,作为当前动作指令对应的真实动作;
按照动作指令在博弈对抗过程中的时间顺序,对所述博弈对抗数据中的所有动作指令对应的真实动作进行排序,得到与当前对抗实体对应的时间连续的动作序列。
3.根据权利要求2所述的方法,其特征在于,所述按照动作指令在博弈对抗过程中的时间顺序,对所述博弈对抗数据中的所有动作指令对应的真实动作进行排序,得到与当前对抗实体对应的时间连续的动作序列,包括:
按照动作指令在博弈对抗过程中的时间顺序,对所述博弈对抗数据中的所有动作指令对应的真实动作进行排序,并对排序后真实动作序列中的每个真实动作,赋予真实动作对应的预设执行时长,得到带有执行时长的时序化真实动作序列;
根据带有执行时长的时序化真实动作序列,确定博弈对抗总时长中的空缺时段;
获取所述空缺时段内对抗实体的实际动作,作为空缺时段内的真实动作;
将空缺时段内的真实动作补充至带有执行时长的时序化真实动作序列中,得到与当前对抗实体对应的时间连续的动作序列。
4.根据权利要求1所述的方法,其特征在于,所述基于所述动作序列中多个动作之间的关联特征,将所述动作序列分割为多个动作子序列,包括:
按照预设分组规则,将所述动作序列分为初始动作子序列的集合;
将所述集合中的每一个初始动作子序列输入预先训练的行为识别模型中,从所述集合中筛选出构成行为的动作子序列,其中,所述行为识别模型用于基于所述动作序列中多个动作之间的关联特征,确定动作子序列是否构成行为;
将构成行为的动作子序列,作为筛选出的目标动作子序列。
5.根据权利要求1所述的方法,其特征在于,所述确定每一个动作子序列对应的第一行为语义,包括:
按照不同动作子序列在博弈对抗过程中的时间顺序,对所有动作子序列进行排序;
将排序后的所有动作子序列输入预先训练的行为语义理解模型中,得到每一个动作子序列各自对应的第一行为语义,其中,所述行为语义理解模型用于基于每一个动作子序列的自身特征和不同动作子序列之间的关联特征,确定动作子序列对应的第一行为语义。
6.根据权利要求1所述的方法,其特征在于,所述根据多个对抗实体各自对应的第一行为序列,生成多个第二行为语义,包括:
按照不同对抗实体对应的第一行为序列在博弈对抗过程中的时间顺序,对多个对抗实体对应的多个第一行为序列进行排序;
将排序后所有第一行为序列中的所有第一行为语义输入预先训练的行为语义理解模型中,得到多个第二行为语义,其中,所述行为语义理解模型基于不同行为之间的协同特征,对第一行为语义进行融合。
7.根据权利要求1所述的方法,其特征在于,所述根据所述动作序列、所述第一行为序列和所述第二行为序列生成博弈对抗文本,包括:
将所述动作序列、第一行为序列和第二行为序列输入预先训练的文本生成模型,对所述动作序列、第一行为序列和第二行为序列进行特征编码,得到中间深层特征,并解码所述中间深层特征,获取博弈对抗文本。
8.根据权利要求1所述的方法,其特征在于,所述方法还包括:
提取博弈对抗数据中的基础指标数据,其中,所述基础指标数据包括:编组信息、得分信息、单位分钟内下达动作指令数目的平均值、不同类型实体的资源使用情况、不同类型实体的移动位置热图、攻击行为的目标分布;
对于时间连续的动作序列中的每一个动作,确定每一个动作的价值;
将第一行为语义、第二行为语义、每一个动作的价值作为博弈对抗数据的标注数据。
9.根据权利要求8所述的方法,其特征在于,所述对于时间连续的动作序列的每一个动作,确定每一个动作的价值,包括:
从时间连续的动作序列中选出目标动作;
从时间连续的动作序列中选取包括目标动作的目标动作序列,其中,所述目标动作序列用于确定目标动作的价值;
将目标动作序列输入预先训练的动作价值判别模型中,预测出目标动作的价值,得到每一个动作的价值。
10.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对已知的动作序列中的每一个动作进行标注,将标注动作后的动作序列分为动作子序列,并将构成行为的动作子序列标注为行为,以标注后的动作子序列作为输入,动作子序列的标注结果作为输出,训练预先构建的行为识别模型,得到训练后的行为识别模型;
对已知的按时间排序的多个动作子序列中每一个动作子序列进行标注,得到每一个动作子序列的第一行为语义,以按时间排序的多个动作子序列作为输入,以每一个动作子序列的第一行为语义作为输出,训练预先构建的行为语义理解模型,得到训练后的行为语义理解模型;
对已知的排序后所有第一行为序列中的所有第一行为语义进行标注,得到与第一行为语义对应的第二行为语义,以所有第一行为序列及第一行为语义为输入,以第二行为语义为输出,训练预先构建的行为语义理解模型,得到训练后的行为语义理解模型;
对已知的动作序列、第一行为序列和第二行为序列进行标注,得到与整场博弈过程对应的博弈对抗文本,以所述动作序列、所述第一行为序列和第二行为序列为输入,以与整场博弈过程对应的博弈对抗文本为输出,训练预先构建的文本生成模型,得到训练后的文本生成模型;
对已知的动作序列进行标注,得到动作序列中每一个动作的价值,以动作序列作为输入,以每一个动作的价值作为输出,训练预先构建的动作价值判别模型,得到训练后的动作价值判别模型;
为训练后的行为识别模型、训练后的行为语义理解模型、训练后的文本生成模型、训练后的动作价值判别模型的输出值分别提供新的修正值,用于重新训练所述行为识别模型、所述行为语义理解模型、所述文本生成模型、所述动作价值判别模型。
11.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于预设的博弈过程自然语言描述模板,根据动作序列、第一行为序列和第二行为序列确定博弈对抗文本。
12.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取包括预设查询条件的查询请求;
响应于所述查询请求,提供符合所述预设查询条件的博弈综合信息,其中,所述博弈综合信息包括博弈对抗的基础指标数据、第一行为语义、第二行为语义和博弈对抗文本;
对博弈综合信息进行图形化处理,供查询请求端进行可视化展示。
13.一种博弈对抗数据的处理装置,其特征在于,包括:
获取模块,用于获取博弈对抗数据;
第一生成模块,用于对于所述博弈对抗数据中的每一个对抗实体,根据所述博弈对抗数据,生成与当前对抗实体对应的时间连续的动作序列;
分割模块,用于基于所述动作序列中多个动作之间的关联特征,将所述动作序列分割为多个动作子序列,其中,每一个动作子序列均构成行为;
确定模块,用于确定每一个动作子序列对应的第一行为语义,并基于多个动作子序列各自对应的第一行为语义,得到当前对抗实体对应的时间连续的第一行为序列;
第二生成模块,用于根据多个对抗实体各自对应的第一行为序列,生成多个第二行为语义,并基于多个第二行为语义得到第二行为序列;
第三生成模块,用于根据所述动作序列、所述第一行为序列和所述第二行为序列生成博弈对抗文本。
14.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现权利要求1-12中任一项所述的博弈对抗数据的处理方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-12中任一项所述的博弈对抗数据的处理方法。
CN202310229903.6A 2023-03-10 2023-03-10 一种博弈对抗数据的处理方法及装置、设备及存储介质 Active CN115952867B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310229903.6A CN115952867B (zh) 2023-03-10 2023-03-10 一种博弈对抗数据的处理方法及装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310229903.6A CN115952867B (zh) 2023-03-10 2023-03-10 一种博弈对抗数据的处理方法及装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN115952867A CN115952867A (zh) 2023-04-11
CN115952867B true CN115952867B (zh) 2023-06-02

Family

ID=85891273

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310229903.6A Active CN115952867B (zh) 2023-03-10 2023-03-10 一种博弈对抗数据的处理方法及装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN115952867B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829566A (zh) * 2018-12-26 2019-05-31 中国人民解放军国防科技大学 一种生成作战行动序列的方法
CN110659742A (zh) * 2019-09-10 2020-01-07 阿里巴巴集团控股有限公司 获取用户行为序列的序列表示向量的方法和装置
CN112329348A (zh) * 2020-11-06 2021-02-05 东北大学 一种面向非完全信息条件下军事对抗博弈的智能决策方法
CN113408412A (zh) * 2021-06-18 2021-09-17 北京工业大学 网络直播主播的行为识别方法、系统、设备及存储介质
CN113868527A (zh) * 2021-09-28 2021-12-31 中国科学院自动化研究所 一种可解释的策略游戏多玩家风格评估方法及装置
CN113988301A (zh) * 2021-12-13 2022-01-28 中国科学院自动化研究所 战术策略生成方法、装置、电子设备及存储介质
CN114492749A (zh) * 2022-01-24 2022-05-13 中国电子科技集团公司第五十四研究所 面向限时红蓝对抗问题动作空间解耦的博弈决策方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2414767A1 (en) * 2009-03-31 2012-02-08 BAE Systems PLC Assigning weapons to threats

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109829566A (zh) * 2018-12-26 2019-05-31 中国人民解放军国防科技大学 一种生成作战行动序列的方法
CN110659742A (zh) * 2019-09-10 2020-01-07 阿里巴巴集团控股有限公司 获取用户行为序列的序列表示向量的方法和装置
CN112329348A (zh) * 2020-11-06 2021-02-05 东北大学 一种面向非完全信息条件下军事对抗博弈的智能决策方法
CN113408412A (zh) * 2021-06-18 2021-09-17 北京工业大学 网络直播主播的行为识别方法、系统、设备及存储介质
CN113868527A (zh) * 2021-09-28 2021-12-31 中国科学院自动化研究所 一种可解释的策略游戏多玩家风格评估方法及装置
CN113988301A (zh) * 2021-12-13 2022-01-28 中国科学院自动化研究所 战术策略生成方法、装置、电子设备及存储介质
CN114492749A (zh) * 2022-01-24 2022-05-13 中国电子科技集团公司第五十四研究所 面向限时红蓝对抗问题动作空间解耦的博弈决策方法

Also Published As

Publication number Publication date
CN115952867A (zh) 2023-04-11

Similar Documents

Publication Publication Date Title
US11227235B1 (en) Universal artificial intelligence engine for autonomous computing devices and software applications
US11135514B2 (en) Data processing method and apparatus, and storage medium for concurrently executing event characters on a game client
CN112494952B (zh) 目标游戏用户的检测方法、装置及设备
Patil et al. Align-rudder: Learning from few demonstrations by reward redistribution
US9020865B2 (en) Method for summarizing event-related texts to answer search queries
CN107335220A (zh) 一种消极用户的识别方法、装置及服务器
CN111589157B (zh) Ai模型使用方法、设备及存储介质
CN107526682B (zh) 测试机器人的ai行为树的生成方法、装置及设备
Weber et al. Using automated replay annotation for case-based planning in games
CN111701240A (zh) 虚拟物品的提示方法、装置、存储介质和电子装置
Robberechts et al. un-xPass: Measuring Soccer Player's Creativity
Qin et al. Mp5: A multi-modal open-ended embodied system in minecraft via active perception
Taesiri et al. Clip meets gamephysics: Towards bug identification in gameplay videos using zero-shot transfer learning
CN115952867B (zh) 一种博弈对抗数据的处理方法及装置、设备及存储介质
Jacob et al. A non-intrusive approach for 2d platform game design analysis based on provenance data extracted from game streaming
CN112245934A (zh) 虚拟场景应用中虚拟资源的数据分析方法、装置及设备
Weber Integrating learning in a multi-scale agent
CN114238648B (zh) 一种基于知识图谱的博弈对抗行为决策方法及装置
Janusz et al. Learning multimodal entity representations and their ensembles, with applications in a data-driven advisory framework for video game players
CN112052386B (zh) 信息推荐方法、装置和存储介质
CN113704519A (zh) 一种数据集的确定方法、装置、计算机设备以及存储介质
Tsaur et al. [Retracted] Effective Bots’ Detection for Online Smartphone Game Using Multilayer Perceptron Neural Networks
ZINI Clustering and reproduction of players' exploration paths in video games
McMichael et al. Modelling, simulation and estimation of situation histories
CN107392257B (zh) 操作序列的获取方法、装置、存储介质、处理器和服务端

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant