CN117648585B - 基于任务相似度的智能决策模型泛化方法和装置 - Google Patents

基于任务相似度的智能决策模型泛化方法和装置 Download PDF

Info

Publication number
CN117648585B
CN117648585B CN202410118074.9A CN202410118074A CN117648585B CN 117648585 B CN117648585 B CN 117648585B CN 202410118074 A CN202410118074 A CN 202410118074A CN 117648585 B CN117648585 B CN 117648585B
Authority
CN
China
Prior art keywords
task
intelligent decision
decision model
similarity
matched
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202410118074.9A
Other languages
English (en)
Other versions
CN117648585A (zh
Inventor
徐新海
李渊
刘运韬
李晟泽
张峰
章杰元
顾孔静
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Defense Technology Innovation Institute PLA Academy of Military Science
Original Assignee
National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Defense Technology Innovation Institute PLA Academy of Military Science filed Critical National Defense Technology Innovation Institute PLA Academy of Military Science
Priority to CN202410118074.9A priority Critical patent/CN117648585B/zh
Publication of CN117648585A publication Critical patent/CN117648585A/zh
Application granted granted Critical
Publication of CN117648585B publication Critical patent/CN117648585B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于任务相似度的智能决策模型泛化方法和装置,属于人工智能领域,其中方法包括:构建智能决策模型库;智能决策模型库包括至少一个智能决策模型和每一个智能决策模型对应的任务特征;获取待匹配任务的静态特征和动态特征;动态特征是基于当前时刻待匹配任务的任务状态和预先训练的变分解码器得到的;计算每一个所述智能决策模型的任务特征与所述待匹配任务的任务相似度;所述任务相似度为静态特征相似度和动态特征相似度的加权和;基于各所述任务相似度,确定所述待匹配任务对应的泛化智能决策模型。本发明的基于任务相似度的智能决策模型泛化方法实现了在智能决策模型库中确定与待匹配任务匹配度最高的智能决策模型。

Description

基于任务相似度的智能决策模型泛化方法和装置
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于任务相似度的智能决策模型泛化方法和装置。
背景技术
以强化学习为代表的智能决策方法在棋类博弈、实时策略游戏等问题上取得了巨大的成功。通过海量模拟对抗训练出的决策模型在实际应用中存在泛化难的问题。任务或者场景发生变化,智能决策模型的性能就会严重下降甚至不再适用。现实世界中的任务往往是多种多样的,任务场景所涉及的任务实体、任务目的、任务空间等各类要素在实际应用中都会发生变化。
现有技术中,大模型技术路线在多任务处理上表现出一定的效果。例如DeepMind开发的GoTo模型能够处理600余种任务。然而,对于新任务其仍然难以应对,环境或者任务性质发生变化时,大模型也会失效。同时,大模型的训练成本极大,适用性差。
如何从构建的智能决策模型库中找到与任务最匹配的模型是解决新任务泛化的关键问题。
发明内容
针对现有技术存在的问题,本发明提供一种基于任务相似度的智能决策模型泛化方法和装置。
本发明提供一种基于任务相似度的智能决策模型泛化方法,包括:
构建智能决策模型库;所述智能决策模型库包括至少一个智能决策模型和每一个所述智能决策模型对应的任务特征;
获取待匹配任务的静态特征和动态特征;所述动态特征是基于当前时刻所述待匹配任务的任务状态和预先训练的变分解码器得到的;
计算每一个所述智能决策模型的任务特征与所述待匹配任务的任务相似度;所述任务相似度为静态特征相似度和动态特征相似度的加权和;
基于各所述任务相似度,确定所述待匹配任务对应的泛化智能决策模型。
根据本发明提供的一种基于任务相似度的智能决策模型泛化方法,所述变分解码器基于以下步骤训练得到:
获取样本库和仿真次数;所述样本库中包括初始样本任务;
在仿真环境中执行所述初始样本任务,并记录至少一个当前决策时刻点的任务状态和上一决策时刻点的执行效果值;
将各所述任务状态和执行效果值存储至所述样本库中,得到更新后的样本库;
基于所述更新后的样本库和损失函数对所述变分解码器进行训练,得到用于表征所述初始样本任务动态特征的隐变量;训练次数为所述仿真次数。
根据本发明提供的一种基于任务相似度的智能决策模型泛化方法,所述方法还包括:
采用公式(1)确定所述损失函数:
(1)
其中,B为选取样本的数量,为所述当前决策时刻的任务状态,/>为预测的下一决策时刻的任务状态,/>为上一决策时刻的执行效果值,/>为预测的下一决策时刻的执行效果值。
根据本发明提供的一种基于任务相似度的智能决策模型泛化方法,所述静态特征包括任务兵力、任务时间和任务空间;所述方法还包括:
采用公式(2)确定所述静态特征相似度:
(2)
其中,为所述待匹配任务X和智能决策模型Y的静态任务相似度,/>为所述智能决策模型Y的任务兵力,/>为所述待匹配任务的任务兵力,/>为所述智能决策模型Y的任务时间,/>为所述待匹配任务的任务时间,/>为所述智能决策模型Y的任务空间,/>为所述待匹配任务的任务空间,α,β和γ是权重参数。
根据本发明提供的一种基于任务相似度的智能决策模型泛化方法,所述方法还包括:
采用公式(3)确定所述动态特征相似度:
(3)
其中,为所述待匹配任务X和智能决策模型Y的动态任务相似度,/>为所述智能决策模型Y的隐变量,/>为所述待匹配任务X的隐变量。
根据本发明提供的一种基于任务相似度的智能决策模型泛化方法,所述方法还包括:
采用公式(4)确定所述任务相似度:
(4)
其中,和/>是权重参数,且/>大于/>
根据本发明提供的一种基于任务相似度的智能决策模型泛化方法,所述计算每一个所述智能决策模型的任务特征与所述待匹配任务的任务相似度之前,包括:
在所述待匹配任务的任务类型和各所述智能决策模型的任务类型匹配的情况下,计算每一个所述智能决策模型的任务特征与所述待匹配任务的任务相似度。
本发明还提供一种基于任务相似度的智能决策模型泛化装置,包括:
构建模块,用于构建智能决策模型库;所述智能决策模型库包括至少一个智能决策模型和每一个所述智能决策模型对应的任务特征;
获取模块,用于获取待匹配任务的静态特征和动态特征;所述动态特征是基于当前时刻所述待匹配任务的任务状态和预先训练的变分解码器得到的;
计算模块,用于计算每一个所述智能决策模型的任务特征与所述待匹配任务的任务相似度;所述任务相似度为静态特征相似度和动态特征相似度的加权和;
确定模块,用于基于各所述任务相似度,确定所述待匹配任务对应的泛化智能决策模型。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的基于任务相似度的智能决策模型泛化方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的基于任务相似度的智能决策模型泛化方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的基于任务相似度的智能决策模型泛化方法。
本发明提供的基于任务相似度的智能决策模型泛化方法和装置,通过构建包括至少一个智能决策模型和每一个智能决策模型对应的任务特征的智能决策模型库,然后获取待匹配任务的静态特征和动态特征,需要说明的是,动态特征是基于当前时刻待匹配任务的任务状态和预先训练的变分解码器得到的,接着计算每一个智能决策模型的任务特征与待匹配任务的任务相似度,任务相似度为静态特征相似度和动态特征相似度的加权和,由于加权考虑了静态相似度和动态相似度,不仅考虑了任务本身的静态属性,还考虑由于环境变化带来的动态特征的改变,最后基于任务相似度,在智能决策模型库中挑选与待匹配任务匹配度最高的智能决策模型,本发明的基于任务相似度的智能决策模型泛化方法实现了在智能决策模型库中确定与待匹配任务匹配度最高的智能决策模型。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的基于任务相似度的智能决策模型泛化方法的流程示意图之一;
图2是本发明提供的基于任务相似度的智能决策模型泛化方法的变分解码器训练示意图;
图3是本发明提供的基于任务相似度的智能决策模型泛化方法的变分解码器的计算网络;
图4为本发明实施例的基于任务相似度的智能决策模型泛化方法的总体原理图;
图5是本发明提供的基于任务相似度的智能决策模型泛化装置的结构示意图;
图6是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图6描述本发明的基于任务相似度的智能决策模型泛化方法和装置。
图1是本发明提供的基于任务相似度的智能决策模型泛化方法的流程示意图之一,如图1所示,本发明实施例提供的基于任务相似度的智能决策模型泛化方法的实施步骤如下:
步骤101、构建智能决策模型库;所述智能决策模型库包括至少一个智能决策模型和每一个所述智能决策模型对应的任务特征;
具体地,在本步骤中,首先需要构建智能决策模型库,事实上,需要将生成的智能决策模型存储在智能决策模型库中,在具体实施中,智能决策模型有多种形式,例如神经网络、行为树、状态机等。根据任务的不同,通过不同的训练方式会产生不同类型的智能决策模型,将这些模型存储在智能决策模型库中。还需要说明的是,每一个智能决策模型对应一个属性文件,模型的属性文件中包括了描述该智能决策模型的各个维度属性的信息。例如本发明实施例中要用到的任务特征,除此之外,属性文件中还会包括智能决策模型对应的任务名称、模型的测试胜率和模型测试胜率的方差值。模型测试胜率和模型测试胜率的方差值表示智能决策模型模型运行一定次数后的对应统计值。
步骤102、获取待匹配任务的静态特征和动态特征;所述动态特征是基于当前时刻所述待匹配任务的任务状态和预先训练的变分解码器得到的;
具体地,在本步骤中,对于新的待匹配任务,获取待匹配任务的任务类型例如在军事对抗场景中有不同的任务类型,包括空中侦察任务、空中打击任务、空中巡逻任务、海上打击任务等等。任务的类型属性由领域人员进行明确,在制定任务时填写好。首先从智能决策模型库中筛选出与待匹配任务的任务类型相同的智能决策模型,然后再进行后续的筛选。接着,获取待匹配任务的静态特征和动态特征,待匹配任务的静态特征主要是对任务的静态属性信息进行描述,包括任务兵力、任务目的、任务时间、任务空间。以星际争霸游戏中人族采矿任务为例,其任务类型采矿任务。任务兵力为一定数量的农民、采矿机器人等,任务时间为一个时间段,任务空间为地图上选定的一定区域。即,待匹配任务的静态特征是可以直接获取的。
进一步的,待匹配任务的动态特征是基于待匹配任务的任务状态和预先训练的变分解码器得到的。在本发明实施例中,待匹配任务的动态特征通过状态转移函数来表征。状态转移函数是马尔科夫过程的一个基础概念,表示任务从一个状态转移到下一个状态的概率。在马尔科夫过程中,一个任务表示为三元组。S表示任务的状态空间,A表示任务的动作空间,P表示任务的状态转移函数。状态转移函数能够较为准确的刻画任务运行过程中的特征。在本发明实施例中,通过预先训练好的变分解码器,计算任务的动态特征,即状态转移函数,变分解码器的具体训练过程在后续内容中进行论述。
步骤103、计算每一个所述智能决策模型的任务特征与所述待匹配任务的任务相似度;所述任务相似度为静态特征相似度和动态特征相似度的加权和;
在经过任务类型匹配后,从智能决策模型库中筛选出了的多个智能决策模型,分别计算待匹配任务和经过任务类型匹配筛选出的多个智能决策模型中每一个智能决策模型的静态特征相似度和动态特征相似度,然后计算静态特征相似度和动态特征相似度的加权和,作为待匹配任务和经过任务类型匹配筛选后的每一个智能决策模型的任务相似度,基于该任务相似度做后续的处理。
步骤104、基于各所述任务相似度,确定所述待匹配任务对应的泛化智能决策模型。
具体地,基于上述步骤,对于智能决策模型库中的所有智能决策模型进行了第一轮的筛选,筛选的条件是任务类型,首选从智能决策模型库中筛选出与待匹配任务的任务类型相同的智能决策模型,组成第一智能决策模型库。接着,基于上述步骤102和步骤103,分别计算第一智能决策模型库中每一个智能决策模型与的任务特征与待匹配任务的任务相似度,基于上述论述可知,任务相似度是静态任务相似度和动态任务相似度的加权和,这样就得到了智能决策模型库中每一个智能决策模型和待匹配任务的任务相似度,基于每一个智能决策模型的任务相似度,从第一智能决策模型库进行二轮筛选,选出任务相似度大于预设阈值的智能决策模型,组成第二智能决策模型库。进一步的,针对第二智能决策模型库中的智能决策模型,按照智能决策模型的胜率从高到底进行排序,若两个智能决策模型的测试胜率相同,则进一步的按照智能决策模型的测试胜率方差从大到小进行排序,再进行择优选择,最终确定待匹配任务对应的泛化智能决策模型。
本发明实施例的基于任务相似度的智能决策模型泛化方法和装置,通过构建包括至少一个智能决策模型和每一个智能决策模型对应的任务特征的智能决策模型库,然后获取待匹配任务的静态特征和动态特征,需要说明的是,动态特征是基于当前时刻待匹配任务的任务状态和预先训练的变分解码器得到的,接着计算每一个智能决策模型的任务特征与待匹配任务的任务相似度,任务相似度为静态特征相似度和动态特征相似度的加权和,由于加权考虑了静态相似度和动态相似度,不仅考虑了任务本身的静态属性,还考虑由于环境变化带来的动态特征的改变,最后基于任务相似度,在智能决策模型库中挑选与待匹配任务匹配度最高的智能决策模型,本发明的基于任务相似度的智能决策模型泛化方法实现了在智能决策模型库中确定与待匹配任务匹配度最高的智能决策模型。
可选的,根据本发明实施例提供的基于任务相似度的智能决策模型泛化方法,所述变分解码器基于以下步骤训练得到,图2是本发明提供的基于任务相似度的智能决策模型泛化方法的变分解码器训练示意图,如图2所示,变分解码器的训练步骤如下:
步骤201、获取样本库和仿真次数;所述样本库中包括初始样本任务;
具体地,在本步骤中,还需要先初始化变分解码器的初始网络,在此不做具体限定,接着初始化样本库D,设置仿真次数为C。
步骤202、在仿真环境中执行所述初始样本任务,并记录至少一个当前决策时刻点的任务状态和上一决策时刻点的执行效果值;
具体地,在本步骤中,在仿真环境中加载初始样本任务的配置,执行初始样本任务,并且记录在每个决策时刻点t,记录当前决策时刻点的任务状态。在进行到下一个决策时刻点t+1时,记录当前决策时刻点的任务状态/>和上一决策时刻点的执行效果值。将样本/>看做一个样本,并存入样本库D中。
步骤203、将各所述任务状态和执行效果值存储至所述样本库中,得到更新后的样本库;
步骤204、基于所述更新后的样本库和损失函数对所述变分解码器进行训练,得到用于表征所述初始样本任务动态特征的隐变量;训练次数为所述仿真次数。
具体地,在本步骤中,仿真一局结束。随机从经过上述步骤更新的样本库D中选取一定数量的样本对变分解码器进行训练。仿真次数达到指定的仿真次数C,结束训练并输出得到的任务动态特征向量,即隐变量Z。
图3是本发明提供的基于任务相似度的智能决策模型泛化方法的变分解码器的计算网络,如图3所示,变分解码器的计算网络的工作原理为:网络的输入是当前时刻任务状态,输出是预测的下一时刻任务状态/>和回报值/>。回报值用于评价任务在t时刻智能体执行动作的效果,例如兵力损失等。其计算方法一般内置在任务中。Z是隐变量,通过训练变分解码器将任务的状态转移压缩表示在隐变量中。
本发明实施例基于任务相似度的智能决策模型泛化方法和装置,基于样本库,在仿真环境中进行仿真,对初始化后的变分解码器网络,结合损失函数进行训练,在预设仿真次数结束后,通过训练变分解码器将任务的状态转移压缩表示在隐变量中,即得到了任务的动态特征向量,用于表示任务的动态特征。提升了动态特征获取的准确性,为后续的动态任务相似度的计算打下基础,确保了智能决策模型选择的准确性。
可选的,根据本发明实施例提供的基于任务相似度的智能决策模型泛化方法,采用公式(1)确定所述损失函数:
(1)
其中,B为选取样本的数量,为所述当前决策时刻的任务状态,/>为预测的下一决策时刻的任务状态,/>为上一决策时刻的执行效果值,/>为预测的下一决策时刻的执行效果值。基于上述损失函数和样本库D中的样本对变分解码器进行训练,得到用于表征所述初始样本任务动态特征的隐变量。
本发明实施例的提供了在变分解码器的训练过程中的损失函数,损失函数,从样本库D中选取数量为B的样本,记录当前决策时刻的任务状态,下一决策时刻的任务状态,以及上一决策时刻的执行效果值。
图4为本发明实施例的基于任务相似度的智能决策模型泛化方法的总体原理图,如图4所示,智能决策模型泛化方法的总体原理,其包含三个阶段:模型生产、模型管理和模型应用。模型生产表示模型训练与生成环节。智能决策模型有多种形式,例如神经网络、行为树、状态机等。根据不同任务通过不同训练生成方式产生不同类型模型,存储到模型库中。模型管理指的是将各类模型存储到模型库中,每个智能决策模型对应一个属性文件。模型属性文件给出了智能决策模型的特征要素,包括对应任务名称、模型测试胜率、模型测试胜率方差三个值。模型测试胜率和方差表示模型运行一定次数后对应统计值。在模型应用中,对于新任务,首先计算其特征,然后进行模型匹配选出合适的模型。
可选的,根据本发明实施例提供的基于任务相似度的智能决策模型泛化方法,所述静态特征包括任务兵力、任务时间和任务空间;所述方法还包括:
采用公式(2)确定所述静态特征相似度:
(2)
其中,为所述待匹配任务X和智能决策模型Y的静态任务相似度,/>为所述智能决策模型Y的任务兵力,/>为所述待匹配任务的任务兵力,/>为所述智能决策模型Y的任务时间,/>为所述待匹配任务的任务时间,/>为所述智能决策模型Y的任务空间,/>为所述待匹配任务的任务空间,α,β和γ是权重参数。
具体地,在本发明实施例中,任务的静态相似度包括任务兵力,任务时间和任务空间三个维度,通过上述公式(2)可以计算出,待匹配任务和经过任务类型匹配得到的第一智能决策模型库中每一个智能决策模型的静态特征相似度,作为后续任务相似度的计算基础。
本发明实施例提供的,基于任务相似度的智能决策模型泛化方法,通过上述公式(2)计算待匹配任务和智能决策模型库中的智能决策模型的静态任务相似度,从任务兵力、任务时间和任务空间三个维度进行联合计算,确保了智能决策模型匹配的全面性,一定上确保了智能决策模型和待匹配任务的匹配度。
可选的,根据本发明实施例提供的基于任务相似度的智能决策模型泛化方法,所述方法还包括:
采用公式(3)确定所述动态特征相似度:
(3)
其中,为所述待匹配任务X和智能决策模型Y的动态任务相似度,/>为所述智能决策模型Y的隐变量,/>为所述待匹配任务X的隐变量。
具体地,在本步骤中,通过上述公式(3)确定待匹配任务和经过任务类型匹配得到的第一智能决策模型库中每一个智能决策模型的动态特征相似度,公式中使用待匹配任务的隐变量和智能决策模型的隐变量作为计算基础,基于上述内容可知,基于经过训练的变分解码器,可以得到用于表征任务动态特征的隐变量,再基于隐变量计算待匹配任务和智能决策模型的动态任务特征相似度。
本发明实施例的基于任务相似度的智能决策模型泛化方法,通过上述公式(3)确定待匹配任务和智能决策模型库中的智能决策模型的动态任务相似度,本发明实施例的动态任务特征是以隐变量进行计算的,通过训练好的变分解码器将任务的状态转移压缩表示在隐变量中,用于表征任务的动态特征。
可选的,根据本发明实施例提供的基于任务相似度的智能决策模型泛化方法,所述方法还包括:
采用公式(4)确定所述任务相似度:
(4)
其中,和/>是权重参数,且/>大于/>
本发明实施例的基于任务相似度的智能决策模型泛化方法,通过上述公式(4)计算任务相似度,任务相似度是以静态任务相似度和动态任务相似度进行加权求和得到的,并且权重参数有一定的差别,动态任务相似度的权重参数是大于静态任务相似度的权重,即在任务相似度的计算过程中,更加重视环境等因素的改变带来的动态任务相似度的改变,一定程度上确保了智能决策模型的匹配度。
可选的,根据本发明实施例提供的基于任务相似度的智能决策模型泛化方法,所述计算每一个所述智能决策模型的任务特征与所述待匹配任务的任务相似度之前,包括:
在所述待匹配任务的任务类型和各所述智能决策模型的任务类型匹配的情况下,计算每一个所述智能决策模型的任务特征与所述待匹配任务的任务相似度。
具体地,此处需要说明的是,在进行待匹配任务和智能决策模型库中的模型计算任务相似度之前,需要进行一个预先筛选,在上述内容中也有论述,需要先基于待匹配任务的任务类型对智能决策模型库中的智能决策模型进行初步筛选,筛选出与待匹配任务的任务类型相同的智能决策模型,组成第一智能决策模型库,再基于第一智能决策模型库,进行后续的任务相似度的计算,即任务类型的匹配是进行后续任务相似度计算的先置条件。
本发明实施例提供的基于任务相似度的智能决策模型泛化方法,在进行任务相似度的计算之前,通过在智能决策模型库中筛选出与待匹配任务的任务类型相同的智能决策模型库,再进行后续的任务相似度的计算,在一定程度上缩小了匹配范围,避免了不必要的任务相似度的计算,提升了智能决策模型匹配的效率。
下面对本发明提供的基于任务相似度的智能决策模型泛化装置进行描述,下文描述的基于任务相似度的智能决策模型泛化装置与上文描述的基于任务相似度的智能决策模型泛化方法可相互对应参照。
图5是本发明提供的基于任务相似度的智能决策模型泛化装置的结构示意图,如图5所示,本发明实施例提供的基于任务相似度的智能决策模型泛化装置的结构如下;
构建模块501,用于构建智能决策模型库;所述智能决策模型库包括至少一个智能决策模型和每一个所述智能决策模型对应的任务特征;
具体地,在本模块中,首先需要构建智能决策模型库,事实上,需要将生成的智能决策模型存储在智能决策模型库中,在具体实施中,智能决策模型有多种形式,例如神经网络、行为树、状态机等。根据任务的不同,通过不同的训练方式会产生不同类型的智能决策模型,将这些模型存储在智能决策模型库中。还需要说明的是,每一个智能决策模型对应一个属性文件,模型的属性文件中包括了描述该智能决策模型的各个维度属性的信息。例如本发明实施例中要用到的任务特征,除此之外,属性文件中还会包括智能决策模型对应的任务名称、模型的测试胜率和模型测试胜率的方差值。模型测试胜率和模型测试胜率的方差值表示智能决策模型模型运行一定次数后的对应统计值。
获取模块502,用于获取待匹配任务的静态特征和动态特征;所述动态特征是基于当前时刻所述待匹配任务的任务状态和预先训练的变分解码器得到的;
具体地,在本模块,对于新的待匹配任务,待匹配是指与该任务匹配对应的智能决策模型,首先要获取待匹配任务的任务类型,先从智能决策模型库中筛选出,与待匹配任务的任务类型相同的智能决策模型,然后再进行后续的筛选。接着,获取待匹配任务的静态特征和动态特征,待匹配任务的静态特征主要是对任务的静态属性信息进行描述,包括任务兵力、任务目的、任务时间、任务空间。以星际争霸游戏中人族采矿任务为例,其任务类型采矿任务。任务兵力为一定数量的农民、采矿机器人等,任务时间为一个时间段,任务空间为地图上选定的一定区域。即,待匹配任务的静态特征是可以直接获取的。
进一步的,待匹配任务的动态特征是基于待匹配任务的任务状态和预先训练的变分解码器得到的。在本发明实施例中,待匹配任务的动态特征通过状态转移函数来表征。状态转移函数是马尔科夫过程的一个基础概念,表示任务从一个状态转移到下一个状态的概率。在马尔科夫过程中,一个任务表示为三元组。S表示任务的状态空间,A表示任务的动作空间,P表示任务的状态转移函数。状态转移函数能够较为准确的刻画任务运行过程中的特征。
计算模块503,用于计算每一个所述智能决策模型的任务特征与所述待匹配任务的任务相似度;所述任务相似度为静态特征相似度和动态特征相似度的加权和;
具体地,在本步骤中,在经过任务类型匹配后,从智能决策模型库中筛选出了的多个智能决策模型,分别计算待匹配任务和经过任务类型匹配筛选出的多个智能决策模型中每一个智能决策模型的静态特征相似度和动态特征相似度,然后计算静态特征相似度和动态特征相似度的加权和,作为待匹配任务和经过任务类型匹配筛选后的每一个智能决策模型的任务相似度,基于该任务相似度做后续的处理。
确定模块504,用于基于各所述任务相似度,确定所述待匹配任务对应的泛化智能决策模型。
本发明提供的基于任务相似度的智能决策模型泛化装置,通过各个模块之间的相互配合,构建包括至少一个智能决策模型和每一个智能决策模型对应的任务特征的智能决策模型库,然后获取待匹配任务的静态特征和动态特征,需要说明的是,动态特征是基于当前时刻待匹配任务的任务状态和预先训练的变分解码器得到的,接着计算每一个智能决策模型的任务特征与待匹配任务的任务相似度,任务相似度为静态特征相似度和动态特征相似度的加权和,由于加权考虑了静态相似度和动态相似度,不仅考虑了任务本身的静态属性,还考虑由于环境变化带来的动态特征的改变,最后基于任务相似度,在智能决策模型库中挑选与待匹配任务匹配度最高的智能决策模型,本发明的基于任务相似度的智能决策模型泛化装置,实现了在智能决策模型库中确定与待匹配任务匹配度最高的智能决策模型。
可选的,本发明实施例提供的基于任务相似度的智能决策模型泛化装置还包括训练模块,用于训练上述的变分解码器,训练模块的具体结构如下:
获取单元,用于获取样本库和仿真次数;所述样本库中包括初始样本任务;
具体地,需要先初始化变分解码器的初始网络,在此不做具体限定,接着初始化样本库D,设置仿真次数为C。
记录单元,用于在仿真环境中执行所述初始样本任务,并记录至少一个当前决策时刻点的任务状态和上一决策时刻点的执行效果值;
具体地,在仿真环境中加载初始样本任务的配置,执行初始样本任务,并且记录在每个决策时刻点t,记录当前决策时刻点的任务状态。在进行到下一个决策时刻点t+1时,记录当前决策时刻点的任务状态/>和上一决策时刻点的执行效果值/>。将样本看做一个样本,并存入样本库D中。
更新单元,用于将各所述任务状态和执行效果值存储至所述样本库中,得到更新后的样本库;
训练单元,用于基于所述更新后的样本库和损失函数对所述变分解码器进行训练,得到用于表征所述初始样本任务动态特征的隐变量;训练次数为所述仿真次数。
具体地,仿真一局结束。随机从经过上述步骤更新的样本库D中选取一定数量的样本对变分解码器进行训练。仿真次数达到指定的仿真次数C,结束训练并输出得到的任务动态特征向量,即隐变量Z。
图6是本发明提供的电子设备的结构示意图。图6示例了一种电子设备的实体结构示意图,如图6所示,该电子设备可以包括:处理器(processor)610、通信接口(Communications Interface)620、存储器(memory)630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。处理器610可以调用存储器630中的逻辑指令,以执行基于任务相似度的智能决策模型泛化方法,该方法包括:构建智能决策模型库;所述智能决策模型库包括至少一个智能决策模型和每一个所述智能决策模型对应的任务特征;获取待匹配任务的静态特征和动态特征;所述动态特征是基于当前时刻所述待匹配任务的任务状态和预先训练的变分解码器得到的;计算每一个所述智能决策模型的任务特征与所述待匹配任务的任务相似度;所述任务相似度为静态特征相似度和动态特征相似度的加权和;基于各所述任务相似度,确定所述待匹配任务对应的泛化智能决策模型。
此外,上述的存储器630中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的基于任务相似度的智能决策模型泛化方法,该方法包括:构建智能决策模型库;所述智能决策模型库包括至少一个智能决策模型和每一个所述智能决策模型对应的任务特征;获取待匹配任务的静态特征和动态特征;所述动态特征是基于当前时刻所述待匹配任务的任务状态和预先训练的变分解码器得到的;计算每一个所述智能决策模型的任务特征与所述待匹配任务的任务相似度;所述任务相似度为静态特征相似度和动态特征相似度的加权和;基于各所述任务相似度,确定所述待匹配任务对应的泛化智能决策模型。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的基于任务相似度的智能决策模型泛化方法,该方法包括:构建智能决策模型库;所述智能决策模型库包括至少一个智能决策模型和每一个所述智能决策模型对应的任务特征;获取待匹配任务的静态特征和动态特征;所述动态特征是基于当前时刻所述待匹配任务的任务状态和预先训练的变分解码器得到的;计算每一个所述智能决策模型的任务特征与所述待匹配任务的任务相似度;所述任务相似度为静态特征相似度和动态特征相似度的加权和;基于各所述任务相似度,确定所述待匹配任务对应的泛化智能决策模型。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于任务相似度的智能决策模型泛化方法,其特征在于,包括:
构建智能决策模型库;所述智能决策模型库包括至少一个智能决策模型和每一个所述智能决策模型对应的任务特征;
获取待匹配任务的静态特征和动态特征;所述动态特征是基于当前时刻所述待匹配任务的任务状态和预先训练的变分解码器得到的;
计算每一个所述智能决策模型的任务特征与所述待匹配任务的任务相似度;所述任务相似度为静态特征相似度和动态特征相似度的加权和;
基于各所述任务相似度,确定所述待匹配任务对应的泛化智能决策模型;
其中,所述变分解码器基于以下步骤训练得到:获取样本库和仿真次数;所述样本库中包括初始样本任务;在仿真环境中执行所述初始样本任务,并记录至少一个当前决策时刻点的任务状态和上一决策时刻点的执行效果值;将各所述任务状态和执行效果值存储至所述样本库中,得到更新后的样本库;基于所述更新后的样本库和损失函数对所述变分解码器进行训练,得到用于表征所述初始样本任务动态特征的隐变量;训练次数为所述仿真次数;
所述损失函数是采用公式(1)确定的,所述公式(1)如下:
(1)
其中,B为选取样本的数量,为所述当前决策时刻的任务状态,/>为预测的下一决策时刻的任务状态,/>为上一决策时刻的执行效果值,/>为预测的下一决策时刻的执行效果值。
2.根据权利要求1所述的基于任务相似度的智能决策模型泛化方法,其特征在于,所述静态特征包括任务兵力、任务时间和任务空间;所述方法还包括:
采用公式(2)确定所述静态特征相似度:
(2)
其中,为所述待匹配任务X和智能决策模型Y的静态任务相似度,/>为所述智能决策模型Y的任务兵力,/>为所述待匹配任务的任务兵力,/>为所述智能决策模型Y的任务时间,/>为所述待匹配任务的任务时间,/>为所述智能决策模型Y的任务空间,/>为所述待匹配任务的任务空间,α,β和γ是权重参数。
3.根据权利要求2所述的基于任务相似度的智能决策模型泛化方法,其特征在于,所述方法还包括:
采用公式(3)确定所述动态特征相似度:
(3)
其中,为所述待匹配任务X和智能决策模型Y的动态任务相似度,/>为所述智能决策模型Y的隐变量,/>为所述待匹配任务X的隐变量。
4.根据权利要求3所述的基于任务相似度的智能决策模型泛化方法,其特征在于,所述方法还包括:
采用公式(4)确定所述任务相似度:
(4)
其中,和/>是权重参数,且/>大于/>
5.根据权利要求1所述的基于任务相似度的智能决策模型泛化方法,其特征在于,所述计算每一个所述智能决策模型的任务特征与所述待匹配任务的任务相似度之前,包括:
在所述待匹配任务的任务类型和各所述智能决策模型的任务类型匹配的情况下,计算每一个所述智能决策模型的任务特征与所述待匹配任务的任务相似度。
6.一种基于任务相似度的智能决策模型泛化装置,其特征在于,包括:
构建模块,用于构建智能决策模型库;所述智能决策模型库包括至少一个智能决策模型和每一个所述智能决策模型对应的任务特征;
获取模块,用于获取待匹配任务的静态特征和动态特征;所述动态特征是基于当前时刻所述待匹配任务的任务状态和预先训练的变分解码器得到的;
计算模块,用于计算每一个所述智能决策模型的任务特征与所述待匹配任务的任务相似度;所述任务相似度为静态特征相似度和动态特征相似度的加权和;
确定模块,用于基于各所述任务相似度,确定所述待匹配任务对应的泛化智能决策模型;
其中,所述变分解码器基于以下步骤训练得到:获取样本库和仿真次数;所述样本库中包括初始样本任务;在仿真环境中执行所述初始样本任务,并记录至少一个当前决策时刻点的任务状态和上一决策时刻点的执行效果值;将各所述任务状态和执行效果值存储至所述样本库中,得到更新后的样本库;基于所述更新后的样本库和损失函数对所述变分解码器进行训练,得到用于表征所述初始样本任务动态特征的隐变量;训练次数为所述仿真次数;
所述损失函数是采用公式(1)确定的,所述公式(1)如下:
(1)
其中,B为选取样本的数量,为所述当前决策时刻的任务状态,/>为预测的下一决策时刻的任务状态,/>为上一决策时刻的执行效果值,/>为预测的下一决策时刻的执行效果值。
7.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至5任一项所述的基于任务相似度的智能决策模型泛化方法。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的基于任务相似度的智能决策模型泛化方法。
CN202410118074.9A 2024-01-29 2024-01-29 基于任务相似度的智能决策模型泛化方法和装置 Active CN117648585B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202410118074.9A CN117648585B (zh) 2024-01-29 2024-01-29 基于任务相似度的智能决策模型泛化方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202410118074.9A CN117648585B (zh) 2024-01-29 2024-01-29 基于任务相似度的智能决策模型泛化方法和装置

Publications (2)

Publication Number Publication Date
CN117648585A CN117648585A (zh) 2024-03-05
CN117648585B true CN117648585B (zh) 2024-05-10

Family

ID=90049864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202410118074.9A Active CN117648585B (zh) 2024-01-29 2024-01-29 基于任务相似度的智能决策模型泛化方法和装置

Country Status (1)

Country Link
CN (1) CN117648585B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472415A (zh) * 2018-12-13 2019-11-19 成都亚信网络安全产业技术研究院有限公司 一种恶意程序的确定方法及装置
CN111160525A (zh) * 2019-12-17 2020-05-15 天津大学 一种边缘计算环境下基于无人机群的任务卸载智能决策方法
CN113609363A (zh) * 2021-08-19 2021-11-05 北京爱奇艺科技有限公司 一种用户搜索方法及装置
CN114067160A (zh) * 2021-11-22 2022-02-18 重庆邮电大学 基于嵌入平滑图神经网络的小样本遥感图像场景分类方法
CN115310603A (zh) * 2022-06-30 2022-11-08 华南理工大学 一种基于联邦迁移学习的装配监测模型训练方法及系统
CN115827189A (zh) * 2022-11-15 2023-03-21 郑州大学 一种大规模智能集群任务调度优化方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110313933A1 (en) * 2010-03-16 2011-12-22 The University Of Washington Through Its Center For Commercialization Decision-Theoretic Control of Crowd-Sourced Workflows

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110472415A (zh) * 2018-12-13 2019-11-19 成都亚信网络安全产业技术研究院有限公司 一种恶意程序的确定方法及装置
CN111160525A (zh) * 2019-12-17 2020-05-15 天津大学 一种边缘计算环境下基于无人机群的任务卸载智能决策方法
CN113609363A (zh) * 2021-08-19 2021-11-05 北京爱奇艺科技有限公司 一种用户搜索方法及装置
CN114067160A (zh) * 2021-11-22 2022-02-18 重庆邮电大学 基于嵌入平滑图神经网络的小样本遥感图像场景分类方法
CN115310603A (zh) * 2022-06-30 2022-11-08 华南理工大学 一种基于联邦迁移学习的装配监测模型训练方法及系统
CN115827189A (zh) * 2022-11-15 2023-03-21 郑州大学 一种大规模智能集群任务调度优化方法

Also Published As

Publication number Publication date
CN117648585A (zh) 2024-03-05

Similar Documents

Publication Publication Date Title
JP7159458B2 (ja) 仮想環境における仮想対象のスケジューリング方法、装置、デバイス及びコンピュータプログラム
US20210365782A1 (en) Method and apparatus for generating neural network model, and computer-readable storage medium
CN111111220B (zh) 多人对战游戏的自对弈模型训练方法、装置和计算机设备
CN109847366B (zh) 用于游戏的数据处理方法和装置
CN111563192B (zh) 实体对齐方法、装置、电子设备及存储介质
CN113688977A (zh) 面向对抗任务的人机共生强化学习方法、装置、计算设备及存储介质
CN111026272A (zh) 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
CN111506514B (zh) 一种应用于消除类游戏的智能测试方法及系统
CN112434791A (zh) 多智能体强对抗仿真方法、装置及电子设备
Rao et al. Distributed deep reinforcement learning using tensorflow
CN115033878A (zh) 快速自博弈强化学习方法、装置、计算机设备和存储介质
CN113230650B (zh) 一种数据处理方法、装置及计算机可读存储介质
CN117648585B (zh) 基于任务相似度的智能决策模型泛化方法和装置
CN116510302A (zh) 虚拟对象异常行为的分析方法、装置及电子设备
CN116090549A (zh) 一种基于知识驱动的多智能体强化学习决策方法、系统及存储介质
CN112836805B (zh) Krfpv算法、执行装置、电子设备、存储介质以及神经网络
KR20050096791A (ko) 인공지능 학습을 통한 게이머의 게임 스타일 이식시스템및 그 이식방법
Ranjan et al. Recurrent deep q-learning for pac-man
Carlsson et al. Alphazero to alpha hero: A pre-study on additional tree sampling within self-play reinforcement learning
CN117670095B (zh) 多智能体自主对抗驱动的行动计划生成方法和装置
CN111178541B (zh) 游戏人工智能系统及其性能提升系统及方法
CN116527411B (zh) 数据安全智能防护模型构建方法、装置及协作平台
CN111160415B (zh) 逐层逆化识别模型的生成模型训练方法
JP7338858B2 (ja) 行動学習装置、行動学習方法、行動決定装置及び行動決定方法
CN116362349A (zh) 一种基于环境动态模型的强化学习方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant