CN114146420A - 一种资源分配方法、装置及设备 - Google Patents

一种资源分配方法、装置及设备 Download PDF

Info

Publication number
CN114146420A
CN114146420A CN202210126379.5A CN202210126379A CN114146420A CN 114146420 A CN114146420 A CN 114146420A CN 202210126379 A CN202210126379 A CN 202210126379A CN 114146420 A CN114146420 A CN 114146420A
Authority
CN
China
Prior art keywords
allocation
instruction
characteristic information
total
virtual objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210126379.5A
Other languages
English (en)
Other versions
CN114146420B (zh
Inventor
徐博
宋金泽
熊炫棠
王燕娜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202210126379.5A priority Critical patent/CN114146420B/zh
Publication of CN114146420A publication Critical patent/CN114146420A/zh
Application granted granted Critical
Publication of CN114146420B publication Critical patent/CN114146420B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/70Game security or game management aspects
    • A63F13/77Game security or game management aspects involving data related to game devices or game servers, e.g. configuration data, software version or amount of memory
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63FCARD, BOARD, OR ROULETTE GAMES; INDOOR GAMES USING SMALL MOVING PLAYING BODIES; VIDEO GAMES; GAMES NOT OTHERWISE PROVIDED FOR
    • A63F13/00Video games, i.e. games using an electronically generated display having two or more dimensions
    • A63F13/55Controlling game characters or game objects based on the game progress
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Computer Interaction (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种资源分配方法、装置及设备,其中,所述方法包括:获取至少两个虚拟对象对应的交互环境的至少两个特征信息;将所述至少两个特征信息映射成一个总虚拟对象对应的交互环境的总特征信息;根据所述总特征信息,获得第一分配指令;转换所述第一分配指令,获得包含第二分配动作的第二分配指令;根据所述第二分配指令,控制所述至少两个虚拟对象执行对应的第二分配动作。通过上述方式,本发明可以在多目标多资源的分配场景下,提高学习最优资源分配方法的效率。

Description

一种资源分配方法、装置及设备
技术领域
本发明涉及人工智能技术领域,具体涉及一种资源分配方法、装置及设备。
背景技术
在对抗型虚拟场景中,动态分配资源,以寻找最优的资源分配方法是必要的。由于资源动态分配的多目标性、高复杂性、长时延性等特点,需要进行强化学习以寻找最优资源分配方法,其中,多目标指需要向多个虚拟对象分配资源,高复杂性指场景复杂度高,需要考虑多种约束条件,长时延性指资源作用于目标的效果反馈时间长。
现有强化学习的原理在于,将资源和虚拟对象化归为有限个参量来进行学习,然而,实际实施场景中,即对应每个虚拟对象的每一时刻,既要决定是否执行动作,还需选择资源分配的目标与数量,且在多目标多资源动态分配的场景下,决策空间会随着目标数量与资源数量的增加呈指数增长,那么,将它们化归为有限个参量来学习最优资源分配方法的效率较低。
发明内容
为解决上述问题,提出了本发明实施例的资源分配方法、装置及设备。
根据本发明实施例的一个方面,提供了一种资源分配方法,包括:
获取至少两个虚拟对象对应的交互环境的至少两个特征信息,所述至少两个虚拟对象为同一组;
将所述至少两个特征信息映射成一个总虚拟对象对应的交互环境的总特征信息;
根据所述总特征信息,获得第一分配指令,所述第一分配指令包括所述至少两个虚拟对象对应的至少两个第一分配动作,其中,所述至少两个第一分配动作的数量小于或等于所述至少两个虚拟对象的数量;
转换所述第一分配指令,获得包含第二分配动作的第二分配指令,所述第二分配指令中包含的所述第二分配动作的数量与所述第一分配指令包括的至少两个第一分配动作的数量相同;
根据所述第二分配指令,控制所述至少两个虚拟对象执行对应的第二分配动作。
可选的,将所述至少两个特征信息映射成一个总虚拟对象对应的交互环境的特征信息,包括:
合成所述至少两个特征信息,获得所述总虚拟对象对应的交互环境的总特征信息,所述总特征信息至少从两个维度表征所述总虚拟对象对应的交互环境的特征。
可选的,根据所述总特征信息,获得第一分配指令,包括:
根据所述总特征信息,获得所述特征信息的均值与标准差;
根据所述均值与标准差,获得所述第一分配指令。
可选的,根据所述均值与标准差,获得所述第一分配指令,包括:
根据算法
Figure 840012DEST_PATH_IMAGE001
得到所述第一分配指令
Figure 532024DEST_PATH_IMAGE002
,其中,
Figure 737878DEST_PATH_IMAGE003
是指均值,
Figure 730104DEST_PATH_IMAGE004
是指标准差,
Figure 628790DEST_PATH_IMAGE005
是指白噪声,
Figure 73678DEST_PATH_IMAGE006
是指两个向量元素的乘积。
可选的,转换所述第一分配指令,获得包含第二分配动作的第二分配指令,包括:
按照预设规则修改所述第一分配指令,得到修改后的指令;
对所述修改后的指令进行上限约束,得到约束后的指令;
对所述约束后的指令进行取整,得到所述第二分配指令。
可选的,获取至少两个虚拟对象对应的交互环境的至少两个特征信息之后,还包括:
将所述至少两个虚拟对象对应的交互环境的至少两个特征信息输入到训练得到的神经网络中;
在转换所述第一分配指令,获得第二分配指令之后,还包括:
存储得到所述第二分配指令的过程所产生的运行数据。
可选的,所述神经网络通过以下方法训练得到:
将预存储的运行数据作为训练样本;
提取所述训练样本的特征信息;
将所述训练样本的特征信息,输入到待优化神经网络中,所述待优化神经网络输出第三分配指令;
转换所述第三分配指令,获得第四分配指令;
对所述第四分配指令进行奖励,得到所述第四分配指令的奖励值,所述奖励值用于表征相应第四分配指令的有效程度;
根据所述奖励值调整所述待优化神经网络的参数,得到所述神经网络。
根据本发明实施例的另一方面,提供了一种资源分配装置,包括:
获取模块,用于获取至少两个虚拟对象对应的交互环境的至少两个特征信息,所述至少两个虚拟对象为同一组;
处理模块,用于将所述至少两个特征信息映射成一个总虚拟对象对应的交互环境的总特征信息;根据所述总特征信息,获得第一分配指令,所述第一分配指令包括所述至少两个虚拟对象对应的至少两个第一分配动作,其中,所述至少两个第一分配动作的数量小于或等于所述至少两个虚拟对象的数量;转换所述第一分配指令,获得包含第二分配动作的第二分配指令,所述第二分配指令中包含的所述第二分配动作的数量与所述第一分配指令包括的至少两个第一分配动作的数量相同;
控制模块,用于根据所述第二分配指令,控制所述至少两个虚拟对象执行对应的第二分配动作。
根据本发明实施例的又一方面,提供了一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行上述资源分配方法对应的操作。
根据本发明实施例的再一方面,提供了一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如上述资源分配方法对应的操作。
根据本发明上述实施例提供的方案,通过获取至少两个虚拟对象对应的交互环境的至少两个特征信息,所述至少两个虚拟对象为同一组;将所述至少两个特征信息映射成一个总虚拟对象对应的交互环境的总特征信息;根据所述总特征信息,获得第一分配指令,所述第一分配指令包括所述至少两个虚拟对象对应的至少两个第一分配动作,其中,所述至少两个第一分配动作的数量小于或等于所述至少两个虚拟对象的数量;转换所述第一分配指令,获得包含第二分配动作的第二分配指令,所述第二分配指令中包含的所述第二分配动作的数量与所述第一分配指令包括的至少两个第一分配动作的数量相同;根据所述第二分配指令,控制所述至少两个虚拟对象执行对应的第二分配动作,可以在多目标多资源的分配场景下,提高学习最优资源分配方法的效率。
上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明实施例的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明实施例的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的资源分配方法流程图;
图2示出了本发明实施例提供的一种具体的多目标多资源动态分配的场景示意图;
图3示出了本发明实施例提供的具体的连续控制式的神经网络示意图;
图4示出了本发明实施例提供的神经网络训练方法的流程图;
图5示出了本发明实施例提供的另一种资源分配方法流程图;
图6示出了本发明实施例提供的资源分配装置的结构示意图;
图7示出了本发明实施例提供的计算设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
图1示出了本发明实施例提供的资源分配方法的流程图。如图1所示,该方法包括以下步骤:
步骤11,获取至少两个虚拟对象对应的交互环境的至少两个特征信息,所述至少两个虚拟对象为同一组;
步骤12,将所述至少两个特征信息映射成一个总虚拟对象对应的交互环境的总特征信息;
步骤13,根据所述总特征信息,获得第一分配指令,所述第一分配指令包括所述至少两个虚拟对象对应的至少两个第一分配动作,其中,所述至少两个第一分配动作的数量小于或等于所述至少两个虚拟对象的数量;
步骤14,转换所述第一分配指令,获得包含第二分配动作的第二分配指令,所述第二分配指令中包含的所述第二分配动作的数量与所述第一分配指令包括的至少两个第一分配动作的数量相同;
步骤15,根据所述第二分配指令,控制所述至少两个虚拟对象执行对应的第二分配动作。
该实施例中,通过获取至少两个虚拟对象对应的交互环境的至少两个特征信息,所述至少两个虚拟对象为同一组;将所述至少两个特征信息映射成一个总虚拟对象对应的交互环境的总特征信息;根据所述总特征信息,获得第一分配指令,所述第一分配指令包括所述至少两个虚拟对象对应的至少两个第一分配动作,其中,所述至少两个第一分配动作的数量小于或等于所述至少两个虚拟对象的数量;转换所述第一分配指令,获得包含第二分配动作的第二分配指令,所述第二分配指令中包含的所述第二分配动作的数量与所述第一分配指令包括的至少两个第一分配动作的数量相同;根据所述第二分配指令,控制所述至少两个虚拟对象执行对应的第二分配动作,可以在多目标多资源的分配场景下,提高学习最优资源分配方法的效率。
在本发明的实施例中,所述至少两个特征信息包括资源特征与目标特征,但不限于如上所述,其中资源特征又包括:剩余资源总数目特征、累计分配资源特征等,但不限于如上所述;目标特征又包括:目标已获取资源数量特征、目标位置特征、速度特征等,但不限于如上所述。
示例性的,图2示出了本发明实施例提供的一种具体的多目标多资源动态分配的场景示意图,图2中目标1、目标2、目标3、目标4例如均为虚拟对象,该场景有如下特点:1.环境资源有限,从起始时刻至结束时刻整个决策步数的数量级远大于资源数目,要求虚拟对象谨慎使用有限的资源;2.单步决策使用资源受限,场景限制虚拟对象每一决策时刻使用资源数小于资源阈值3.目标受限,场景限制每一决策时刻每一目标可用资源数小于目标阈值。以图2所示的资源动态分配场景为例,该场景的目的是在有限的资源内,进行最优的资源分配,但由于在该场景内,虚拟对象全程可以使用的资源有一定的约束,不能超过上限阈值。这就导致了虚拟对象虽然实时决策,但是由于具体问题约束,并不能允许每时每刻都进行有效动作决策的执行,因此,限制增加了决策复杂度。而本发明的实施例,通过虚拟对象在动作选择时利用非线性映射器,将离散问题转换为连续控制问题,并使用奖励塑形方法,减小了计算复杂度。
在本发明的一可选的实施例中,步骤12可以包括:
步骤121,合成所述至少两个特征信息,获得所述总虚拟对象对应的交互环境的总特征信息,所述总特征信息至少从两个维度表征所述总虚拟对象对应的交互环境的特征。
该实施例中,将所述至少两个特征信息进行合成,得到合成后的总特征信息s,所述总特征信息s至少从资源特征和目标特征表征所述总虚拟对象对应的交互环境的特征,但不仅限于资源特征和目标特征。
在本发明的又一可选的实施例中,步骤13可以包括:
步骤131,根据所述总特征信息,获得所述特征信息的均值与标准差;
步骤132,根据所述均值与标准差,获得所述第一分配指令。
如图3所示,该实施例中,设计结合对角高斯分布的神经网络结构,输入为状态特征,输出为服从对角高斯分布的连续动作,这样可以避免当资源数目与决策次数较多时,产生指数爆炸问题。且采用对角高斯连续分布结合的方法,还能够有效减小动作空间,避免探索空间过大。
在步骤131中,所述均值获得方法为:通过将特征输入神经网络,经过网络计算,输 出对角高斯分布的均值
Figure 348802DEST_PATH_IMAGE007
所述标准差获得方法为:将特征输入神经网络,经过网络计算,输出对角高斯分布 的对数标准差
Figure 195535DEST_PATH_IMAGE008
,然后利用指数公式
Figure 999543DEST_PATH_IMAGE009
将对数标准差
Figure 931727DEST_PATH_IMAGE008
转化 为标准差
Figure 744962DEST_PATH_IMAGE010
,其中,采用对数标准差而非标准差,由于标准差必须为非负数,而对数标准 差无约束,这样可以提高训练效率。
在本发明的又一可选的实施例中,步骤132可以包括;
步骤1321,根据算法
Figure 711781DEST_PATH_IMAGE011
得到所述第一分配指令
Figure 686690DEST_PATH_IMAGE002
,其中,
Figure 371749DEST_PATH_IMAGE003
是指均值,
Figure 723096DEST_PATH_IMAGE004
是指标准差,
Figure 299350DEST_PATH_IMAGE005
是指白噪声,
Figure 445161DEST_PATH_IMAGE006
是指两个向量元素的乘积,所述白噪声
Figure 351937DEST_PATH_IMAGE012
Figure 506975DEST_PATH_IMAGE013
是指标准对角高斯分布。
在本发明的又一可选的实施例中,步骤14可以包括:
步骤141,按照预设规则修改所述第一分配指令,得到修改后的指令;
步骤142,对所述修改后的指令进行上限约束,得到约束后的指令;
步骤143,对所述约束后的指令进行取整,得到所述第二分配指令。
该实施例中,设计连续控制的非线性映射器F,这样可以有效的解决离散决策空间 复杂度高的问题,在该实施例中,输入的第一分配指令为连续控制式的神经网络结构输出 的服从高斯分布的连续指令,通过连续控制的非线性映射器F将连续指令离散化,输出的是 决策需要选择虚拟对象以及选中虚拟对象分配资源的第二分配指令,这样可以输出有效动 作,屏蔽不合法动作,从而收集有效样本,提高训练效率,同时将约束条件转换为约束特征, 具有一定的可解释性。例如剩余资源数量不为0,策略网络输出合法动作,符合动作选择逻 辑,其中,连续控制的非线性映射器F可用公式
Figure 182807DEST_PATH_IMAGE014
,f1表示剪 枝,即按照预设规则修改所述第一分配指令,f2表示上限约束,f3表示向下取整。
在步骤141中,将连续指令的第一分配指令
Figure 765098DEST_PATH_IMAGE015
输入至公式
Figure 159170DEST_PATH_IMAGE016
中,输出修改后的指令
Figure 852320DEST_PATH_IMAGE017
,其中,k是指动作向量
Figure 648237DEST_PATH_IMAGE018
的维度,即应用场景中目标数,
Figure 667009DEST_PATH_IMAGE019
是指每一时刻第i个目标可接收资源数量的上限。由于采 用对角高斯分布,网络的输出是连续值,且不限定数值范围,而每一目标可接收资源数量是 有约束的,记作目标阈值
Figure 282798DEST_PATH_IMAGE019
,因此需要对网络输出进行剪枝处理。即当
Figure 779639DEST_PATH_IMAGE020
时,由于资源是 非负的,因此限制动作最小值为0;当
Figure 430063DEST_PATH_IMAGE021
时,
Figure 354156DEST_PATH_IMAGE022
为网络输出值
Figure 722821DEST_PATH_IMAGE023
;当
Figure 23352DEST_PATH_IMAGE024
时,限制 动作最大值为
Figure 528283DEST_PATH_IMAGE019
在步骤142中,将修改后的指令
Figure 620348DEST_PATH_IMAGE017
输入至公式
Figure 210729DEST_PATH_IMAGE025
中,输出为约束后的指令
Figure 49372DEST_PATH_IMAGE026
,其 中,
Figure 674389DEST_PATH_IMAGE027
每一时刻所有资源可用上限的总和,记作资源阈值,在应用场景中,每一次决策,不仅 对目标可接收资源数量有约束,所有资源的总和同样有上限阈值,当
Figure 205864DEST_PATH_IMAGE028
时,取
Figure 283542DEST_PATH_IMAGE029
为约束后的指令;当
Figure 660296DEST_PATH_IMAGE030
时,按比例重新分配资源。
在步骤143中,将约束后的指令
Figure 139819DEST_PATH_IMAGE029
输入至公式
Figure 576617DEST_PATH_IMAGE031
中,输出为所述第二分配指令
Figure 141590DEST_PATH_IMAGE032
,其中,
Figure 587615DEST_PATH_IMAGE033
为向下取整操作,将动作值映射为 整数,这样可以保证动作合法性。
在本发明的又一可选的实施例中,在步骤11之后,还包括:
步骤111,将所述至少两个虚拟对象对应的交互环境的至少两个特征信息输入到训练得到的神经网络中;
在步骤14之后,还包括:
步骤144,存储得到所述第二分配指令的过程所产生的运行数据。
该实施例中,将所述运行数据存储到数据缓存器buffer中,所述数据缓存器支持数据并行存储,支持并行环境的数据存储、计算和采样,以矩阵的方式存储加快计算速度,所述环境的数据包括:特征、动作和奖励等,但不限于如上所述。
图4示出了本发明实施例提供的神经网络训练方法的流程图。如图4所示,所述神经网络通过以下方法训练得到:
步骤41,将预存储的运行数据作为训练样本;
步骤42,提取所述训练样本的特征信息;
步骤43,将所述训练样本的特征信息,输入到待优化神经网络中,所述待优化神经网络输出第三分配指令;
步骤44,转换所述第三分配指令,获得第四分配指令;
步骤45,对所述第四分配指令进行奖励,得到所述第四分配指令的奖励值,所述奖励值用于表征相应第四分配指令的有效程度;
步骤46,根据所述奖励值调整所述待优化神经网络的参数,得到所述神经网络。
该实施例中,在训练神经网络中加入奖励塑形,即通过引入先验知识,设计合适的奖励规则,来引导强化学习的虚拟对象进行学习,提高训练效率。其中,奖励塑形可以包括以下三部分,但不仅限于以下三部分:
分配合理性:资源库已没有资源,模型却输出资源分配数目大于0时减0.5分,以此指导虚拟对象在有资源时才分配资源。
分配集中度:分配集中度指某一个决策时刻分配到某目标上的资源的数量,大于设定阈值时减0.5分,抑制虚拟对象向某一目标分配过多资源。
分配时效性:资源分配过于慢,即决策过程已快结束,但资源仍未分配,减0.5分,抑制资源分配过慢。
图5示出了本发明实施例提供的另一种资源分配方法流程图,如图5所示,以图2所示的多目标多资源动态分配场景为例进行建模,但不仅限于如上所述的多目标多资源动态分配的场景。
第一步,从交互的环境中进行状态特征提取。将资源数目、目标位置、累计分配资源等组成环境状态特征;
第二步,设计连续控制式的神经网络结构。设计结合对角高斯分布的神经网络结构,输入为状态特征,输出为服从对角高斯分布的连续动作;
第三步,设计连续控制的非线性映射器,可以有效的解决离散决策空间复杂度高的问题。输入为连续动作,输出为决策需要选择哪些目标,选中的目标分配多少资源。在网络输出后加入剪枝、取整与上限约束等操作,将连续动作离散化;
第四步,奖励塑形,由于目标场景是长时延、多目标动态决策的复杂环境,这造成强化学习探索空间过大以致难以收敛等问题,采用奖励值塑形的方法,对奖励值进行重分配;
第五步,将与环境交互产生的数据(状态、动作、奖励、下一时刻的状态,但不限于如上所述)存入数据缓存器buffer中;
第六步,采用深度强化学习中A2C算法从buffer中不断获取数据进行策略训练。
具体的,建立A2C算法框架模型,从buffer中不断获取数据进行策略训练。A2C的基本框架是AC框架,但它不再利用单个线程,而是利用多个线程。每个线程相当于一个虚拟对象在随机探索,多个虚拟对象共同探索,并行收集数据,维持一个总的更新量。基于目标场景的A2C算法应用中,Actor网络即第二步中连续控制式的神经网络结构负责学习智能资源分配策略,而Critic负责估计智能资源分配策略好坏。通过A2C算法训练框架不断学习探索智能资源分配策略,使其策略学习越来越好,估计策略越来越准,直到收敛或者达到预期的目标,以下以A2C算法为例,来说明训练具体流程,但不仅限于A2C算法:
第一步,初始化Policy网络
Figure 921645DEST_PATH_IMAGE034
和Critic网络
Figure 529343DEST_PATH_IMAGE035
,其中,π是指Policy网络,V是 指Critic网络,
Figure 316034DEST_PATH_IMAGE036
是指网络参数,s是指环境状态;
第二步,选取当前状态的动作
Figure 565750DEST_PATH_IMAGE037
,其中
Figure 19865DEST_PATH_IMAGE038
表示策略网络的输出,按 照概率分布选取动作,st为t时刻的环境状态;
第三步,执行动作获得对应的奖励值,奖励值由奖励塑形得到,并且将转换过程
Figure 798465DEST_PATH_IMAGE039
存入数据缓存器buffer,其中,st为t时刻的环境状态,at为t时刻的动 作,rt为t时刻的奖励塑形,即定义执行第二分配指令后可以从环境中获得的奖励,st+1为在 t后一时刻的环境状态;
第四步,当数据缓存器buffer的样本量达到一定数量后,进行模型的训练,开启多个并行环境,提升样本收集效率;;
第五步,依据公式
Figure 69522DEST_PATH_IMAGE040
,更新Critic网 络参数
Figure 857349DEST_PATH_IMAGE041
,其中,
Figure 165971DEST_PATH_IMAGE042
是指t时刻,即更新前的Critic网络参数,
Figure 115472DEST_PATH_IMAGE043
是指t+1时刻,即更新后的 Critic网络参数,
Figure 407913DEST_PATH_IMAGE044
是指学习率,R是指累计回报,γ是指折扣因子,
Figure 468273DEST_PATH_IMAGE045
是指环境状态st的 值,
Figure 896980DEST_PATH_IMAGE046
是指环境状态st的值的梯度;
第六步,依据公式
Figure 17383DEST_PATH_IMAGE047
,更新Actor 网络参数
Figure 265962DEST_PATH_IMAGE048
,其中,
Figure 395592DEST_PATH_IMAGE049
是指t时刻,即更新前的Actor网络参数,
Figure 678806DEST_PATH_IMAGE050
是指t+1时刻,即更新后 的Actor网络参数,
Figure 970110DEST_PATH_IMAGE051
是指状态
Figure 378089DEST_PATH_IMAGE052
的梯度;
基于上述第一步到第六步的流程,可以使策略不断迭代学习,最终实现多目标多资源动态分配场景下的资源分配指令优化。
以下以图2所示的多目标多资源动态分配场景为例,接合图5所示的另一种资源分配方法,来进一步说明该场景是如何进行资源分配指令优化的,其中,图2所示场景中有3种资源4个目标,资源用颜色深浅不同的圆圈表示,目标用目标1、目标2、目标3以及目标4对应的三角表示。
假设初始时环境总资源数为30,经过n步资源分配决策后,当前时刻剩余资源数目为20,累计已分配资源数目为10(30-20=10);目标1已获取资源为4、目前1当前时刻速度为10、经度位置为20.0、纬度位置为18.0等,目标2至目标4计算如目标1,目标2已分配数目为3,目标3已分配数目为2,目标4已分配数目为1。这里不再具体描述。拼接后特征向量表征为st=[20,10,4,10,20.0,18.0,...]。将当前时刻的状态特征st输入神经网络θ,再经过上述第二、三步,得到最终动作a。此时at=[2,0,1,2]表示应选择目标1、3、4,目标1分配2个资源,目标3分配1个资源,目标4分配2个资源,目标2未被选中,不分配资源。
在环境中执行动作at获得对应的奖励值rt,并将转换过程数据(st,at,rt,st+1)存入数据缓存器buffer。
当buffer的样本量达到一定数量后,进行模型的训练。开启多个并行环境,提升样本收集效率,并跟新Critic网络参数与Critic网络参数。
在本发明的上述实施例中,通过获取至少两个虚拟对象对应的交互环境的至少两个特征信息,所述至少两个虚拟对象为同一组;将所述至少两个特征信息映射成一个总虚拟对象对应的交互环境的总特征信息;根据所述总特征信息,获得第一分配指令,所述第一分配指令包括所述至少两个虚拟对象对应的至少两个第一分配动作,其中,所述至少两个第一分配动作的数量小于或等于所述至少两个虚拟对象的数量;转换所述第一分配指令,获得包含第二分配动作的第二分配指令,所述第二分配指令中包含的所述第二分配动作的数量与所述第一分配指令包括的至少两个第一分配动作的数量相同;根据所述第二分配指令,控制所述至少两个虚拟对象执行对应的第二分配动作,可以在多目标多资源的分配场景下,提高学习最优资源分配方法的效率。同时采用A2C算法与对角高斯连续分布结合的方法,能够有效减小动作空间,避免探索空间过大;设计非线性映射器对动作进行约束,输出有效动作,屏蔽不合法动作,从而收集有效样本,提高训练效率;将约束条件转换为约束特征,具有一定的可解释性。如果剩余资源数量不为0,策略网络输出合法动作,符合动作选择逻辑。
图6示出了本发明实施例提供的资源分配装置60的结构示意图。如图6所示,该装置包括:
获取模块61,用于获取至少两个虚拟对象对应的交互环境的至少两个特征信息,所述至少两个虚拟对象为同一组;
处理模块62,用于将所述至少两个特征信息映射成一个总虚拟对象对应的交互环境的总特征信息;根据所述总特征信息,获得第一分配指令,所述第一分配指令包括所述至少两个虚拟对象对应的至少两个第一分配动作,其中,所述至少两个第一分配动作的数量小于或等于所述至少两个虚拟对象的数量;转换所述第一分配指令,获得包含第二分配动作的第二分配指令,所述第二分配指令中包含的所述第二分配动作的数量与所述第一分配指令包括的至少两个第一分配动作的数量相同;
控制模块63,用于根据所述第二分配指令,控制所述至少两个虚拟对象执行对应的第二分配动作。
可选的,所述处理模块62还用于合成所述至少两个特征信息,获得所述总虚拟对象对应的交互环境的总特征信息,所述总特征信息至少从两个维度表征所述总虚拟对象对应的交互环境的特征。
可选的,所述处理模块62还用于根据所述总特征信息,获得所述特征信息的均值与标准差;
根据所述均值与标准差,获得所述第一分配指令。
可选的,所述处理模块62还用于根据算法
Figure 45830DEST_PATH_IMAGE053
得到所述 第一分配指令
Figure 449130DEST_PATH_IMAGE054
,其中,
Figure 908405DEST_PATH_IMAGE003
是指均值,
Figure 131576DEST_PATH_IMAGE055
是指标准差,
Figure 603009DEST_PATH_IMAGE005
是指白噪声,
Figure 595236DEST_PATH_IMAGE006
是指两个 向量元素的乘积。
可选的,所述处理模块62还用于按照预设规则修改所述第一分配指令,得到修改后的指令;
对所述修改后的指令进行上限约束,得到约束后的指令;
对所述约束后的指令进行取整,得到所述第二分配指令。
可选的,所述处理模块62还用于将所述至少两个虚拟对象对应的交互环境的至少两个特征信息输入到训练得到的神经网络中;
存储得到所述第二分配指令的过程所产生的运行数据。
可选的,所述神经网络通过以下方法训练得到:
将预存储的运行数据作为训练样本;
提取所述训练样本的特征信息;
将所述训练样本的特征信息,输入到待优化神经网络中,所述待优化神经网络输出第三分配指令;
转换所述第三分配指令,获得第四分配指令;
对所述第四分配指令进行奖励,得到所述第四分配指令的奖励值,所述奖励值用于表征相应第四分配指令的有效程度;
根据所述奖励值调整所述待优化神经网络的参数,得到所述神经网络。
需要说明的是,该实施例是与上述方法实施例对应的装置实施例,上述方法实施例中的所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
本发明实施例提供了一种非易失性计算机存储介质,所述计算机存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的资源分配方法。
图7示出了本发明实施例提供的计算设备的结构示意图,本发明具体实施例并不对计算设备的具体实现做限定。
如图7所示,该计算设备可以包括:处理器(processor)、通信接口(Communications Interface)、存储器(memory)、以及通信总线。
其中:处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口,用于与其它设备比如客户端或其它服务器等的网元通信。处理器,用于执行程序,具体可以执行上述用于计算设备的资源分配方法实施例中的相关步骤。
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
处理器可能是中央处理器CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器,用于存放程序。存储器可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序具体可以用于使得处理器执行上述任意方法实施例中的资源分配方法。程序中各步骤的具体实现可以参见上述资源分配方法实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明实施例也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明实施例的内容,并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明实施例并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明实施例的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。
此外,本领域的技术人员能够理解,尽管在此的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的一些或者全部部件的一些或者全部功能。本发明实施例还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明实施例的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明实施例进行说明而不是对本发明进行限制,位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明实施例可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。上述实施例中的步骤,除有特殊说明外,不应理解为对执行顺序的限定。

Claims (10)

1.一种资源分配方法,其特征在于,所述方法包括:
获取至少两个虚拟对象对应的交互环境的至少两个特征信息,所述至少两个虚拟对象为同一组;
将所述至少两个特征信息映射成一个总虚拟对象对应的交互环境的总特征信息;
根据所述总特征信息,获得第一分配指令,所述第一分配指令包括所述至少两个虚拟对象对应的至少两个第一分配动作,其中,所述至少两个第一分配动作的数量小于或等于所述至少两个虚拟对象的数量;
转换所述第一分配指令,获得包含第二分配动作的第二分配指令,所述第二分配指令中包含的所述第二分配动作的数量与所述第一分配指令包括的至少两个第一分配动作的数量相同;
根据所述第二分配指令,控制所述至少两个虚拟对象执行对应的第二分配动作。
2.根据权利要求1所述的资源分配方法,其特征在于,将所述至少两个特征信息映射成一个总虚拟对象对应的交互环境的特征信息,包括:
合成所述至少两个特征信息,获得所述总虚拟对象对应的交互环境的总特征信息,所述总特征信息至少从两个维度表征所述总虚拟对象对应的交互环境的特征。
3.根据权利要求1所述的资源分配方法,其特征在于,根据所述总特征信息,获得第一分配指令,包括:
根据所述总特征信息,获得所述特征信息的均值与标准差;
根据所述均值与标准差,获得所述第一分配指令。
4.根据权利要求3所述的资源分配方法,其特征在于,根据所述均值与标准差,获得所述第一分配指令,包括:
根据算法
Figure 451115DEST_PATH_IMAGE001
得到所述第一分配指令
Figure 468749DEST_PATH_IMAGE002
,其中,
Figure 291212DEST_PATH_IMAGE003
是指 均值,
Figure 27087DEST_PATH_IMAGE004
是指标准差,
Figure 429249DEST_PATH_IMAGE005
是指白噪声,
Figure 566970DEST_PATH_IMAGE006
是指两个向量元素的乘积。
5.根据权利要求1所述的资源分配方法,其特征在于,转换所述第一分配指令,获得包含第二分配动作的第二分配指令,包括:
按照预设规则修改所述第一分配指令,得到修改后的指令;
对所述修改后的指令进行上限约束,得到约束后的指令;
对所述约束后的指令进行取整,得到所述第二分配指令。
6.根据权利要求1所述的资源分配方法,其特征在于,获取至少两个虚拟对象对应的交互环境的至少两个特征信息之后,还包括:
将所述至少两个虚拟对象对应的交互环境的至少两个特征信息输入到训练得到的神经网络中;
在转换所述第一分配指令,获得第二分配指令之后,还包括:
存储得到所述第二分配指令的过程所产生的运行数据。
7.根据权利要求6所述的资源分配方法,其特征在于,所述神经网络通过以下方法训练得到:
将预存储的运行数据作为训练样本;
提取所述训练样本的特征信息;
将所述训练样本的特征信息,输入到待优化神经网络中,所述待优化神经网络输出第三分配指令;
转换所述第三分配指令,获得第四分配指令;
对所述第四分配指令进行奖励,得到所述第四分配指令的奖励值,所述奖励值用于表征相应第四分配指令的有效程度;
根据所述奖励值调整所述待优化神经网络的参数,得到所述神经网络。
8.一种资源分配装置,其特征在于,所述装置包括:
获取模块,用于获取至少两个虚拟对象对应的交互环境的至少两个特征信息,所述至少两个虚拟对象为同一组;
处理模块,用于将所述至少两个特征信息映射成一个总虚拟对象对应的交互环境的总特征信息;根据所述总特征信息,获得第一分配指令,所述第一分配指令包括所述至少两个虚拟对象对应的至少两个第一分配动作,其中,所述至少两个第一分配动作的数量小于或等于所述至少两个虚拟对象的数量;还用于转换所述第一分配指令,获得包含第二分配动作的第二分配指令,所述第二分配指令中包含的所述第二分配动作的数量与所述第一分配指令包括的至少两个第一分配动作的数量相同;
控制模块,用于根据所述第二分配指令,控制所述至少两个虚拟对象执行对应的第二分配动作。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存储至少一可执行指令,所述至少一可执行指令运行时使所述处理器执行如权利要求1-7中任一项所述的资源分配方法。
10.一种计算机存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令运行时使计算设备执行如权利要求1-7中任一项所述的资源分配方法。
CN202210126379.5A 2022-02-10 2022-02-10 一种资源分配方法、装置及设备 Active CN114146420B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210126379.5A CN114146420B (zh) 2022-02-10 2022-02-10 一种资源分配方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210126379.5A CN114146420B (zh) 2022-02-10 2022-02-10 一种资源分配方法、装置及设备

Publications (2)

Publication Number Publication Date
CN114146420A true CN114146420A (zh) 2022-03-08
CN114146420B CN114146420B (zh) 2022-04-22

Family

ID=80450382

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210126379.5A Active CN114146420B (zh) 2022-02-10 2022-02-10 一种资源分配方法、装置及设备

Country Status (1)

Country Link
CN (1) CN114146420B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114727407A (zh) * 2022-05-12 2022-07-08 中国科学院自动化研究所 一种资源分配方法、装置及设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110721470A (zh) * 2019-10-25 2020-01-24 网易(杭州)网络有限公司 虚拟对象移动行为的控制方法、装置及电子设备
CN111026272A (zh) * 2019-12-09 2020-04-17 网易(杭州)网络有限公司 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
CN111185013A (zh) * 2019-12-31 2020-05-22 网易(杭州)网络有限公司 基于虚拟赛道的游戏数据获取方法、处理器及电子装置
US20200250486A1 (en) * 2019-01-31 2020-08-06 StradVision, Inc. Learning method and learning device for supporting reinforcement learning by using human driving data as training data to thereby perform personalized path planning
CN111589166A (zh) * 2020-05-15 2020-08-28 深圳海普参数科技有限公司 交互式任务控制、智能决策模型训练方法、设备和介质
US20210200923A1 (en) * 2019-12-31 2021-07-01 Electronics And Telecommunications Research Institute Device and method for providing a simulation environment for training ai agent
CN113893539A (zh) * 2021-12-09 2022-01-07 中国电子科技集团公司第十五研究所 智能体的协同对战方法及装置
CN113926181A (zh) * 2021-10-21 2022-01-14 腾讯科技(深圳)有限公司 虚拟场景的对象控制方法、装置及电子设备
CN113952723A (zh) * 2021-10-29 2022-01-21 北京市商汤科技开发有限公司 一种游戏中的交互方法、装置、计算机设备及存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200250486A1 (en) * 2019-01-31 2020-08-06 StradVision, Inc. Learning method and learning device for supporting reinforcement learning by using human driving data as training data to thereby perform personalized path planning
CN110721470A (zh) * 2019-10-25 2020-01-24 网易(杭州)网络有限公司 虚拟对象移动行为的控制方法、装置及电子设备
CN111026272A (zh) * 2019-12-09 2020-04-17 网易(杭州)网络有限公司 虚拟对象行为策略的训练方法及装置、电子设备、存储介质
CN111185013A (zh) * 2019-12-31 2020-05-22 网易(杭州)网络有限公司 基于虚拟赛道的游戏数据获取方法、处理器及电子装置
US20210200923A1 (en) * 2019-12-31 2021-07-01 Electronics And Telecommunications Research Institute Device and method for providing a simulation environment for training ai agent
CN111589166A (zh) * 2020-05-15 2020-08-28 深圳海普参数科技有限公司 交互式任务控制、智能决策模型训练方法、设备和介质
CN113926181A (zh) * 2021-10-21 2022-01-14 腾讯科技(深圳)有限公司 虚拟场景的对象控制方法、装置及电子设备
CN113952723A (zh) * 2021-10-29 2022-01-21 北京市商汤科技开发有限公司 一种游戏中的交互方法、装置、计算机设备及存储介质
CN113893539A (zh) * 2021-12-09 2022-01-07 中国电子科技集团公司第十五研究所 智能体的协同对战方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114727407A (zh) * 2022-05-12 2022-07-08 中国科学院自动化研究所 一种资源分配方法、装置及设备
CN114727407B (zh) * 2022-05-12 2022-08-26 中国科学院自动化研究所 一种资源分配方法、装置及设备

Also Published As

Publication number Publication date
CN114146420B (zh) 2022-04-22

Similar Documents

Publication Publication Date Title
CN109863537B (zh) 风格化输入图像
CN107392973B (zh) 像素级手写体汉字自动生成方法、存储设备、处理装置
US11586473B2 (en) Methods and apparatus for allocating a workload to an accelerator using machine learning
US11861474B2 (en) Dynamic placement of computation sub-graphs
CN112199190B (zh) 内存分配方法、装置、存储介质及电子设备
KR20200031163A (ko) 신경 네트워크 구조의 생성 방법 및 장치, 전자 기기, 저장 매체
EP3639207B1 (en) Device and method for processing convolution operation using kernel
KR20170083419A (ko) 레이블링되지 않은 다수의 학습 데이터를 이용하여 딥 러닝의 모델을 트레이닝하는 방법 및 이를 수행하는 딥 러닝 시스템
JP2021532457A (ja) 知能客体強化学習方法、装置、デバイス、及び媒体
CN111797895A (zh) 一种分类器的训练方法、数据处理方法、系统以及设备
CN114387486A (zh) 基于持续学习的图像分类方法以及装置
CN114146420B (zh) 一种资源分配方法、装置及设备
CN114261400B (zh) 一种自动驾驶决策方法、装置、设备和存储介质
CN113391894A (zh) 一种基于rbp神经网络的最优超任务网优化方法
CN113128478A (zh) 模型训练方法、行人分析方法、装置、设备及存储介质
KR20210014561A (ko) 다수 컨벌루션 윈도우 중의 이미지 데이터를 추출하는 방법, 장치, 기기 및 컴퓨터 판독 가능한 저장매체
CN111476272A (zh) 一种基于结构约束对称低秩保留投影的降维方法
CN112907750A (zh) 一种基于卷积神经网络的室内场景布局估计方法及系统
CN108376283B (zh) 用于神经网络的池化装置和池化方法
KR20210115832A (ko) 시계열 데이터 예측 모델 학습 방법 및 장치, 그리고 이를 이용한 시계열 데이터 예측 장치
JP2020154925A (ja) 情報処理装置、情報処理方法、及びプログラム
KR102583943B1 (ko) 태스크 간의 상관관계 분석 알고리즘을 이용하여 연속학습을 수행하는 신경망 장치 및 신경망 학습 방법
CN116957045B (zh) 基于最优传输理论的神经网络量化方法、系统及电子设备
CN113723610B (zh) 一种推理框架动态更新方法、装置、设备及可读存储介质
KR102585925B1 (ko) 이미지 기반의 학습 데이터를 수집하기 위한 장치 및 이를 위한 방법

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant