CN115718865A

CN115718865A - 策略管理方法、设备及计算机可读存储介质

Info

Publication number: CN115718865A
Application number: CN202110969832.4A
Authority: CN
Inventors: 林志远; 林伟; 刘向凤; 芮华; 黄河
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2021-08-23
Filing date: 2021-08-23
Publication date: 2023-02-28
Also published as: WO2023024728A1

Abstract

本发明提供了一种策略管理方法、设备及计算机可读存储介质。策略管理方法包括：获取条件信息；从历史策略集合中选取与当前周期对应的候选策略集合；基于条件信息和候选策略集合得到最优策略；采集执行最优策略而得到的运行性能参数；根据运行性能参数更新候选策略集合。根据本发明实施例的方案，能够有效选取最优策略，并且还可以对当前周期的策略进行更新，便于后续最优策略选取。

Description

策略管理方法、设备及计算机可读存储介质

技术领域

本发明实施例涉及但不限于通信技术领域，尤其涉及一种策略管理方法、设备及计算机可读存储介质。

背景技术

随着通信技术的不断发展，从大量备选策略中选取最优策略已经成为人们所关注的焦点。目前通常使用粒子群算法进行最优策略选取，而粒子群算法选取策略会基于平均性能计算，但对于执行策略所产生的性能具有随机性、且无法准确计算的场合就无法准确寻找到最优策略，无法对策略进行准确更新，从而影响后续最优策略的选取。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种策略管理方法、设备及计算机可读存储介质，能够有效选取最优策略，并且还可以对当前周期的策略进行更新，便于后续最优策略选取。

第一方面，本发明实施例提供了一种策略管理方法，包括：

获取条件信息；

从历史策略集合中选取与当前周期对应的候选策略集合；

基于所述条件信息和所述候选策略集合得到最优策略；

采集执行所述最优策略而得到的运行性能参数；

根据所述运行性能参数更新所述候选策略集合。

第二方面，本发明实施例还提供了一种策略管理设备，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器执行时实现如上所述的策略管理方法。

第三方面，本发明实施例还提供了一种计算机可读存储介质，存储有计算机可执行指令，所述计算机可执行指令用于执行如上所述的策略管理方法。

本发明实施例包括：获取条件信息；从历史策略集合中选取与当前周期对应的候选策略集合；基于条件信息和候选策略集合得到最优策略；采集执行最优策略而得到的运行性能参数；根据运行性能参数更新候选策略集合。根据本发明实施例提供的方案，首先获取条件信息以及从历史策略集合中选取与当前周期对应的候选策略集合，接着根据条件信息和候选策略集合得到最优策略，然后执行最优策略并且采集执行最优策略而得到的运行性能参数，最后根据运行性能参数对候选策略集合进行更新，实现基于条件信息而进行最优策略选取，还可以根据运行性能参数而对候选策略集合进行更新处理，以便于后续最优策略选取。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明一个实施例提供的策略管理方法的流程图；

图2是本发明另一实施例提供的选取最优策略的具体流程图；

图3是本发明另一实施例提供的生成最优策略的具体流程图；

图4是本发明另一实施例提供的选取候选策略集合的具体流程图；

图5是本发明另一个实施例提供的更新候选策略集合的具体流程图；

图6是本发明另一个实施例提供的更新候选策略集合的具体流程图；

图7是本发明另一个实施例提供的更新候选策略集合的具体流程图；

图8是本发明另一个实施例提供的更新候选策略集合的具体流程图；

图9是本发明另一个实施例提供的更新候选策略集合的具体流程图；

图10是本发明另一个实施例提供的更新候选策略集合的具体流程图；

图11是本发明另一个实施例提供的策略管理方法的流程图；

图12是本发明另一实施例提供的策略管理设备的构造示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本发明提供了一种策略管理方法、设备及计算机可读存储介质，获取条件信息；从历史策略集合中选取与当前周期对应的候选策略集合；基于条件信息和候选策略集合得到最优策略；采集执行最优策略而得到的运行性能参数；根据运行性能参数更新候选策略集合。首先获取条件信息以及从历史策略集合中选取与当前周期对应的候选策略集合，接着根据条件信息和候选策略集合得到最优策略，然后执行最优策略并且采集执行最优策略而得到的运行性能参数，最后根据运行性能参数对候选策略集合进行更新，实现基于条件信息而进行最优策略选取，还可以根据运行性能参数而对候选策略集合进行更新处理，以便于后续最优策略选取。

下面结合附图，对本发明实施例作进一步阐述。

如图1所示，图1是本发明一个实施例提供的策略管理方法的流程图。该策略管理方法包括但不限于有步骤S100、步骤S200、步骤S300、步骤S400和步骤S500：

步骤S100，获取条件信息；

步骤S200，从历史策略集合中选取与当前周期对应的候选策略集合；

步骤S300，基于所述条件信息和所述候选策略集合得到最优策略；

步骤S400，采集执行所述最优策略而得到的运行性能参数；

步骤S500，根据所述运行性能参数更新所述候选策略集合。

需要说明的是，首先获取条件信息以及从历史策略集合中选取与当前周期对应的候选策略集合，接着根据条件信息和候选策略集合得到最优策略，然后执行最优策略并且采集执行最优策略而得到的运行性能参数，最后根据运行性能参数对候选策略集合进行更新，实现基于条件信息而进行最优策略选取，还可以根据执行最优策略而得到的运行性能参数来对候选策略集合进行更新处理，以便于后续最优策略选取。

需要说明的是，策略可以包括但不限于：多用户传输场景下的一种波束组合、单用户传输场景下给定波束的一种MCS参数配置、网络路由问题中的一条路由路径。

可以理解的是，条件信息即为完成某一操作而需要设定的约束条件。示例性地，对于面向多用户空分领域中的波束选择问题；而波束空分选择问题具体为：从给定的多个波束(例如64个)中，选择合适的若干个波束形成空分组合进行空分传输；在该问题中，一个策略就代表一种波束空分组合；波束空分组合的性能具有随机性，即使波束组合相同，但波束内用户或用户的信道可能会不同，导致空分组合的吞吐量或频谱效率不同；波束空分组合的平均性能无法提前精确计算而得到，因为无法预先获知所有可能的性能取值和对应的概率分布；而对于必须在本次调度中被调度的主用户，其条件信息就可以是该用户所在的波束一定要被包含在波束空分集合中。示例性地，对于路由规划的问题，路由规划的问题具体为：存在一个源节点，一个目的节点，以及多个中转节点，节点之间存在带有一定开销(例如时延)的路径，要求寻找一条从源节点到目的节点的路径，使得总开销最小；在该问题中，一个策略代表一条路径，该路径从源节点出发，可能经过多个中转节点，止于目的节点；策略的性能具有随机性，因为节点之间的开销同样具有随机性，例如节点之间的传输时延会随背景业务量而波动；策略的平均性能无法提前精确计算而得到，因为无法预先获知所有可能的性能取值和对应的概率分布；对于路由规划这一操作，其条件信息就可以是必须包含源节点、目的节点以及给定的中转节点范围。

需要说明的是，历史策略集合可以由历史上出现过的历史策略组合而成的一个集合；而对于本实施例，历史策略集合可以理解为是由若干个历史最优策略组合而成的一个集合；而历史最优策略是指在历史上出现的满足相同条件约束的大量策略中，长时统计性能最佳的策略。历史策略集合中可以存放着若干个候选策略集合，候选策略集合可以包括若干个历史最优策略，而历史策略集合中的候选策略集合可以按照周期进行排序；示例性地，按照小时进行周期排列，形成24个候选策略集合，当需要从历史策略集合中选取候选策略集合的时候，只需要根据当前时间就可以选取到相应周期的候选策略集合。

可以理解的是，最优策略即为基于当前条件信息所能够执行的性能指标相对较优的策略。

需要说明的是，对于采集执行最优策略的过程中所产生运行性能参数；示例性地，对于面向多用户空分领域中的波束选择问题，可以采集执行最优策略的过程中所产生的频谱效率；而对于路由规划的问题，可以采集执行最优策略的过程中所产生的网络时延。

另外，在一实施例中，如图2所示，上述步骤S300可以包括但不限于步骤S310和步骤S320。

步骤S310，在候选策略集合中查找与条件信息匹配的目标策略；

步骤S320，当候选策略集合中存在目标策略，将目标策略作为最优策略。

需要说明的是，在候选策略集合中查找与条件信息匹配的目标策略，如果候选策略集合中存在着目标策略，就会将目标策略作为最优策略；由于候选策略集合包括了若干个对应当前周期的候选策略，将获取得到的条件信息和候选策略进行对比匹配，当对比匹配成功的时候，就可以将对应的目标策略作为最优策略，然后执行最优策略，采集相关的运行性能参数。

值得注意的是，条件信息包含着若干要素，当候选策略中包含了条件信息中的全部要素，就可以认定为该候选策略与条件信息匹配成功；而匹配成功的候选策略中如果存在着多个，则将性能指标最优的候选策略作为目标策略。

另外，在一实施例中，如图3所示，上述步骤S300可以包括但不限于步骤S310和步骤S330。

步骤S330，当候选策略集合中不存在目标策略，根据条件信息生成最优策略。

需要说明的是，在候选策略集合中查找与条件信息匹配的目标策略，如果查找不到与条件信息匹配的目标策略，就会根据条件信息生成最优策略。

值得注意的是，根据条件信息生成最优策略即为根据条件信息而采用目前相关的通用的方式生成最优策略；示例性地，对于面向多用户空分领域中的波束选择问题，可以计算不同波束之间的相关性，选择相关性在给定门限下的并且包含主用户所在波束的波束空分集合；对于路由规划的问题，可以基于迪克斯特拉算法来生成最优策略。

另外，在一实施例中，如图4所示，上述步骤S200可以包括但不限于步骤S210、步骤S220和步骤S230。

步骤S210，构建策略统计空间；

步骤S220，从历史策略集合中确定与当前周期对应的候选策略集合；

步骤S230，将候选策略集合拷贝至策略统计空间，使得策略统计空间包括候选策略集合。

需要说明的是，首选构建策略统计空间，然后从历史策略集合中确定与当前周期对应的候选策略集合，最后将候选策略集合拷贝到策略统计空间中，使得策略统计空间中包括了候选策略集合。

值得注意的是，策略统计空间可以为表格形式或者矩阵形式，能够用于存储候选策略集合。根据当前时间周期而从历史策略集合中确定候选策略集合，示例性地，如果当前的时间为上午9点30分，就可以根据当前时间而从历史策略集合中确定时间周期为上午9点至10点所对应的候选策略集合。

需要说明的是，将候选策略集合拷贝到策略统计空间处，主要是为了实现策略的统计以及更新处理，对候选策略集合所包含的内容进行更新处理，为后续最优策略选取做好更新准备。

另外，在一实施例中，最优策略包括第一性能参数，如图5所示，上述步骤S500可以包括但不限于步骤S510。

步骤S510，当策略统计空间存在最优策略，根据运行性能参数更新第一性能参数从而更新候选策略集合。

需要说明的是，当策略统计空间中已经存在着最优策略，就会将执行最优策略所采集的运行性能参数对策略统计空间中已经存储的最优策略的第一性能参数进行更新处理，从而实现候选策略集合更新。

可以理解的是，最优策略可以包括策略内容和与策略内容对应的第一性能参数，第一性能参数即为对应策略内容的性能指标，而“第一”只是为了区分性能参数所对应的主体有所不同，以便于对实施例进行解释说明。可以理解的是，策略内容是指策略具体包含的执行内容，示例性地，对于路由选择问题，策略内容就可以指代某一条网络路径。

示例性地，对于面向多用户空分领域中的波束选择问题，采集的运行性能参数可以为频谱效率，而第一性能参数可以为平均频谱效率，当策略统计空间中存在着最优策略，就可以利用下述公式对第一性能参数进行更新处理：

其中，n为统计次数，An为第n次统计时的平均频谱效率，Xn为第n次频谱效率。

示例性地，对于路由规划的问题，采集的运行性能参数可以为时延，而第一性能参数可以为平均时延和时延方差，当策略统计空间中存在着最优策略，就可以利用下述公式对第一性能参数进行更新处理：

其中，n为统计次数，Yn为第n次时延，Dn为第n次统计时的平均时延，Vn为第n统计时的时延方差。

另外，在一实施例中，如图6所示，上述步骤S500中可以包括但不限于步骤S520和步骤S530。

步骤S520，当策略统计空间不存在最优策略，并且预设的策略缓冲空间不存在最优策略，将最优策略保存至策略缓冲空间；

步骤S530，当策略缓冲空间中的最优策略满足更新条件，将策略缓冲空间中的最优策略保存至策略统计空间，更新候选策略集合。

需要说明的是，当策略统计空间和预设的策略缓冲空间中都不存在最优策略，就会将最优策略保存到策略缓冲空间中，并且在策略缓冲空间中的最优策略满足更新条件的情况下，就会将策略缓冲空间中的最优策略保存到策略统计空间中，从而实现更新候选策略集合。

需要说明的是，策略缓冲空间可以为表格形式或者矩阵形式。设置策略缓冲空间能够很好地避免运行性能参数具有随机性的情况下而对策略统计空间中存储的候选策略集合造成更新不可靠的情况，更加有利于后续最优策略选取。

另外，在一实施例中，如图7所示，上述步骤S500中可以包括但不限于步骤S540和步骤S550。

步骤S540，当策略统计空间不存在最优策略，并且预设的策略缓冲空间存在最优策略，根据运行性能参数更新第一性能参数从而更新最优策略；

步骤S550，当策略缓冲空间中的更新后的最优策略满足更新条件，将策略缓冲空间中的更新后的最优策略保存至策略统计空间，更新候选策略集合。

需要说明的是，当策略统计空间中不存在最优策略，但是预设的策略缓冲空间中存在着最优策略，就会将执行最优策略所采集得到的运行性能参数来对已经存储在策略缓冲空间的最优策略的第一性能参数进行更新处理；并且更新后的最优策略满足更新条件，也会将策略缓冲空间中的更新后的最优策略保存至策略统计空间，实现更新候选策略集合。

值得注意的是，利用运行性能参数来对已经存储在策略缓冲空间的最优策略的第一性能参数进行更新处理的具体方法可以跟上述当策略统计空间中已经存在着最优策略，将执行最优策略所采集的运行性能参数对策略统计空间中已经存储的最优策略的第一性能参数进行更新处理的方法相同，此处不再赘述。

另外，在一实施例中，策略缓冲空间包括多个缓冲策略，缓冲策略包括第二性能参数；如图8所示，上述步骤S520中可以包括但不限于步骤S521。

步骤S521，当策略缓冲空间处于饱和状态，将最优策略替换策略缓冲空间中的第二性能参数最差的缓冲策略。

需要说明的是，当将最优策略保存到策略缓冲空间的时候，当策略缓冲空间处于饱和状态，就会将最优策略替换策略缓冲空间中第二性能参数最差的缓冲策略。

可以理解的是，策略缓冲空间处于饱和状态，即为策略缓冲空间中填满了元素，而元素可以为存储于策略缓冲空间中的数据或者图表；示例性地，对于表格形式的策略缓冲空间，策略缓冲空间处于饱和状态即为表格中填满了元素，不能够再添加另外的元素。第二性能参数是指存储在策略缓冲空间中的缓冲策略所对应的性能指标，“第二”只是为了区分性能参数所对应的主体，以便于进行实施例的解释说明。缓冲策略可以理解为已经被执行的存储在策略缓冲空间中的策略。

另外，在一实施例中，候选策略集合包括多个候选策略，候选策略包括第三性能参数；如图9所示，上述步骤S530中可以包括但不限于步骤S531。

步骤S531，当策略统计空间处于饱和状态，将策略缓冲空间中的最优策略替换候选策略集合中第三性能参数最差的候选策略。

需要说明的是，当将策略缓冲空间中的最优策略保存到策略统计空间中的时候，当策略统计空间处于饱和状态，就会将最优策略替换策略统计空间中第三性能参数最差的候选策略。

值得注意的是，在另外的一些实施例中，将最优策略的第一性能参数与策略统计空间中的候选策略的第三性能参数进行性能比较，得出最优策略是性能参数最差的策略，则会将最优策略进行删除，策略统计空间中的候选策略保持不变。

可以理解的是，策略统计空间处于饱和状态，即为策略统计空间中填满了元素；示例性地，对于表格形式的策略统计空间，策略统计空间处于饱和状态即为表格中填满了元素，不能够再添加另外的元素。第三性能参数是指存储在策略统计空间中的候选策略所对应的性能指标，“第三”只是为了区分性能参数所对应的主体，以便于进行实施例的解释说明。候选策略可以理解为已经存储在策略统计空间中的策略。

另外，在一实施例中，候选策略集合包括多个候选策略，候选策略包括第三性能参数；如图10所示，上述步骤S550中可以包括但不限于步骤S551。

步骤S551，当策略统计空间处于饱和状态，将策略缓冲空间中的更新后的最优策略替换候选策略集合中第三性能参数最差的候选策略。

需要说明的是，当将策略缓冲空间中的更新后的最优策略保存到策略统计空间中的时候，当策略统计空间处于饱和状态，就会将更新后的最优策略替换策略统计空间中第三性能参数最差的候选策略。

在本发明的一些具体实施例中，步骤S530和步骤S550中的更新条件具体为：第一计数器所记录的第一数值达到第一预设门限值，并且第一数值与第二计数器所记录的第二数值之比大于第二预设门限值；其中，第一计数器和第二计数器均根据最优策略而配置，第一计数器用于记录最优策略被采用的次数，第二计数器用于记录策略缓冲空间中的策略被采用的次数。

需要说明的是，第一计数器用于记录最优策略被采用的次数，第二计数器用于记录策略缓冲空间中的策略被采用的次数；当第一计数器所记录的第一数值达到第一预设门限值的情况下，就代表着最优策略被才采用的次数达到了第一预设门限值，接着就会计算第一计数器所记录的第一数值和第二计数器记录的第二数值之比是否大于第二预设门限值，如果大于，就会将策略缓冲空间中的最优策略保存至策略统计空间，更新候选策略集合。示例性地，设定第一预设门限值为20，第二预设门限值为0.5,当第一计数器所记录的第一数值为20的时候第二计数器所记录的第二数值为25，则第一数值与第二数值之比即为0.8,0.8大于第二预设门限值设定的0.5，就会认定最优策略被采用的次数较多，就会将策略缓冲空间中的最优策略保存至策略统计空间。其中，“第一数值”和“第二数值”只是为了区分执行计数的主体不同，不应该认定两者属于不同类型的数据。

值得注意的是，还可以设定当第二计数器所记录的第二数值达到第三预设门限，但第一数值与第二计数器所记录的第二数值之比不大于第二预设门限值，就将最优策略从策略缓冲空间中删除，很好地防止被采用次数相对较少的策略造成策略缓冲空间拥塞的情况，实现空间资源的充分利用。示例性地，设定第三预设门限为30，第二预设门限值为0.5，当第二数值达到30的情况下，第一计数器所记录的第一数值为3，则第一数值与第二数值之比即为0.1，0.1小于第三预设门限值设定的0.5，就会认定最优策略被采用的次数较少，进而将最优策略从策略缓冲空间中删除，很好地防止被采用次数较少的最优策略过多占用策略缓冲空间。

值得注意的是，步骤S530和步骤S550中的更新条件还可以为：第一计数器所记录的第一数值达到第一预设门限值；只需要第一计数器所记录的第一数值达到第一预设门限值，就会将策略缓冲空间中的最优策略保存至策略统计空间。另外，当第一计数器所记录的第一数值未达到第一预设门限值，而第二计数器所记录的第二数值达到第三预设门限，就会将最优策略从策略缓冲空间中删除。

另外，在一实施例中，如图11所示，执行完步骤S500之后，还可以包括但不限于步骤S600。

步骤S600，在当前周期的结束时间，根据策略统计空间中的候选策略集合更新历史策略集合。

需要说明的是，当前周期结束的时候，策略统计空间中的候选策略集合就会对历史策略集合中当前周期所对应的候选策略集合进行更新处理，以便于后续最优策略选取。示例性地，当前周期为上午9点至上午10点，而当前时间达到上午10点的时候，当前策略统计空间中的候选策略集合就会对历史策略集合中原来存储的对应上午9点至上午10点的候选策略集合进行覆盖更新，从而实现统计更新结果的快速收敛；而当到达后一天上午9点的时候，又可以从前一天覆盖更新的对应候选策略集合中选取最优策略，实现了后续最优策略的快速有效选取。之所以采取上述操作，是因为不同时段内的最优策略可能是不同的。

为了更加清楚地说明本发明实施例提供的策略管理方法的管理流程，下面以具体的示例进行说明。

示例一：

本实施例面向多用户空分领域中的波束选择问题。首先简单介绍波束空分选择问题：从给定的多个波束(例如64个)中，选择合适的若干个波束形成空分组合进行空分传输。在该问题中，一个策略就代表一种波束空分组合。波束空分组合的性能具有随机性，即使波束组合相同，但波束内用户或用户的信道可能会不同，导致空分组合的吞吐量或频谱效率不同。波束空分组合的平均性能无法提前精确计算而得到，因为无法预先获知所有可能的性能取值和对应的概率分布。

本实施例以一个周期为例，阐述本发明的实施流程：

一个周期开始时，从历史策略集合中挑选出对应的候选策略集合，用候选策略集合的内容覆盖策略统计空间的内容，完成赋初值的过程。候选策略集合和策略统计空间内的内容包括具体的候选策略(或候选策略的索引)，以及候选策略对应的第三性能参数。其中，具体候选策略的存储方式可以采用存储波束索引的方法；第三性能参数包括该波束空分策略的平均频谱效率。

在本周期内的某一次多用户调度中，波束空分条件为：对于必须在本次调度中被调度的主用户，该用户所在的波束一定要被包含在波束空分集合中。例如，可以采用现有的策略生成方法，即计算不同波束之间的相关性，选择相关性在给定门限之下的、包含主用户所在波束的波束空分集合；或者，对于给定的空分条件(即必须包含某一给定波束)，从策略统计空间中挑选出包含该波束的，且平均频谱效率最高的波束空分组合。如果没有这样的组合，采取现有的策略生成方法。

基于得到的波束空分策略(即为最优策略)进行空分传输，得到该空分策略的频谱效率。如果该最优策略已被策略统计空间存储，那么用新反馈的频谱效率更新被存储的该候选策略的平均频谱效率，公式如下：

其中，n为统计次数，An为第n次统计时的平均频谱效率，Xn为第n次频谱效率。相较于累和求平均，采用如上的递推公式有助于减小存储量。

如果该最优策略没有被策略统计空间存储，但被策略缓冲空间存储，那么用新反馈的频谱效率更新被缓存的缓存策略的平均频谱效率，利用上述公式进行更新。同时，该最优策略对应的第一计数器加1，所有策略缓冲空间内策略对应的第二计数器加1。

如果该策略没有被策略统计空间存储，且没有被策略缓冲空间缓存，那么将该最优策略加入策略缓冲空间当中。如果策略缓冲空间处于饱和状态，则替代第二性能参数最差的缓存策略，并给新缓存的最优策略配置初值为1的第一计数器和第二计数器。其中，第一计数器用于记录该最优策略加入策略缓冲空间后的被采用次数，第二计数器用于记录该最优策略加入策略缓冲空间后所有缓存策略的被采用次数。其中，上述策略缓冲空间内的策略替换方法有助于在策略缓冲空间内保留性能指标最好的若干个策略。

接着判断发生更新的缓存策略的第一计数器所记录的第一数值是否大于第一预设门限值。如果是，则将该缓存策略从策略缓冲空间删除并加入策略统计空间。如果策略统计空间满，则利用该缓存策略与候选策略进行比较，当缓存策略为性能参数最差的策略，则策略统计空间中的候选策略保持不变，否则缓存策略就会替换策略统计空间中第三性能参数最差的候选策略。此外，如果第二计数器所记录的第二数值达到第三预设门限值，则将缓存策略从策略缓冲空间中删除。上述策略统计空间内的策略替换方法有助于在策略统计空间内保留性能指标较好的若干个策略。

本周期结束时，策略统计空间内容被传输至历史策略集合，直接覆盖历史策略集合中对应的候选策略集合，完成历史策略集合更新的过程。

示例二：

本实施例面向网络路由问题。首先简单介绍网络路由问题：存在一个源节点，一个目的节点，以及多个中转节点，节点之间存在带有一定开销(例如时延)的路径，要求寻找一条从源节点到目的节点的路径，使得总开销最小。在这个问题中，一个策略代表一条路径，该路径从源节点出发，可能经过多个中转节点，止于目的节点。策略的性能具有随机性，因为节点之间的开销同样具有随机性，例如节点之间的传输时延会随背景业务量而波动。策略的平均性能无法提前精确计算而得到，因为无法预先获知所有可能的性能取值和对应的概率分布。

本实施例以一个周期为例，阐述具体的工作流程：

一个周期开始时，从历史策略集合中挑选出对应的候选策略集合，用候选策略集合的内容覆盖策略统计空间的内容，完成赋初值的过程。候选策略集合和策略统计空间内的内容包括具体的候选策略(或候选策略的索引)，以及候选策略对应的第三性能参数。其中，具体候选策略的存储方式可以采用顺序存储节点索引的方法；第三性能参数包括该路由策略的平均时延和时延方差。

在本周期内的某一次路由规划中，路由规划条件为：在本次规划中，必须包含源节点和目的节点，且预先给定备选中转节点集合。现有策略生成方法：例如可以采用经典的迪克斯特拉算法。对于给定的路由条件(即必须包含源节点和目的节点，且中转节点选择受限)，从策略统计空间中挑选出满足上述条件的，且时延方差小于一定门限的，且平均时延最小的路由策略。如果没有这样的策略，采取现有的策略生成方法。其中，增加对时延方差的判断，有利于提高选出策略的时延稳定性。

基于得到的最优策略进行网络信息传输，并得到该最优策略的时延。如果该最优策略已被策略统计空间存储，那么用新反馈的时延更新被存储的该候选策略的平均时延和时延方差，公式如下：

其中，n为统计次数，Yn为第n次时延，Dn为第n次统计时的平均时延，Vn为第n统计时的时延方差。采用如上的递推公式计算均值和方差有助于减小存储量。如果该最优策略没有被策略统计空间存储，但被策略缓冲空间存储，那么用新反馈的时延更新被策略缓冲空间存储的缓冲策略的平均时延和时延方差，利用上述公式进行更新。同时，最优策略对应的第一计数器加1，所有策略缓冲空间内策略对应的第二计数器加1。

如果该最优策略没有被策略统计空间存储，且没有被策略缓冲空间缓存，那么将该最优策略加入策略缓冲空间当中。如果策略缓冲空间处于饱和状态，则替代第二性能参数最差的缓存策略，并给新缓存的最优策略配置初值为1的第一计数器和第二计数器。

另外，如图12所示，本发明的一个实施例还提供了一种策略管理设备700，该策略管理设备700包括：存储器720、处理器710及存储在存储器720上并可在处理器710上运行的计算机程序。

处理器710和存储器720可以通过总线或者其他方式连接。

需要说明的是，本实施例中的策略管理设备700和上述实施例中的策略管理方法属于相同的发明构思，因此这些实施例具有相同的实现原理以及技术效果，此处不再详述。

实现上述实施例的策略管理方法所需的非暂态软件程序以及指令存储在存储器720中，当被处理器710执行时，执行上述实施例中的策略管理方法，例如，执行以上描述的图1中的方法步骤S100至S500、图2中的方法步骤S310至S320、图3中的方法步骤S310至S330、图4中的方法步骤S210至S230、图5中的方法步骤S510、图6中的方法步骤S520至S530、图7中的方法步骤S540至S550、图8中的方法步骤S521、图9中的方法步骤S531、图10中的方法步骤S551、图11中的方法步骤S600。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器710执行，例如，被上述策略管理设备700实施例中的一个处理器710执行，可使得上述处理器710执行上述实施例中的策略管理方法，例如，执行以上描述的图1中的方法步骤S100至S500、图2中的方法步骤S310至S320、图3中的方法步骤S310至S330、图4中的方法步骤S210至S230、图5中的方法步骤S510、图6中的方法步骤S520至S530、图7中的方法步骤S540至S550、图8中的方法步骤S521、图9中的方法步骤S531、图10中的方法步骤S551、图11中的方法步骤S600。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种策略管理方法，包括：

获取条件信息；

从历史策略集合中选取与当前周期对应的候选策略集合；

基于所述条件信息和所述候选策略集合得到最优策略；

采集执行所述最优策略而得到的运行性能参数；

根据所述运行性能参数更新所述候选策略集合。

2.根据权利要求1所述的策略管理方法，其特征在于，所述基于所述条件信息和所述候选策略集合得到最优策略，包括：

在所述候选策略集合中查找与所述条件信息匹配的目标策略；

当所述候选策略集合中存在所述目标策略，将所述目标策略作为所述最优策略；

当所述候选策略集合中不存在所述目标策略，根据所述条件信息生成所述最优策略。

3.根据权利要求2所述的策略管理方法，其特征在，所述从历史策略集合中选取与当前周期对应的候选策略集合，包括：

构建策略统计空间；

从历史策略集合中确定与当前周期对应的所述候选策略集合；

将所述候选策略集合拷贝至所述策略统计空间，使得所述策略统计空间包括所述候选策略集合。

4.根据权利要求3所述的策略管理方法，其特征在于，所述最优策略包括第一性能参数，所述根据所述运行性能参数更新所述候选策略集合，包括：

当所述策略统计空间存在所述最优策略，根据所述运行性能参数更新所述第一性能参数从而更新所述候选策略集合。

5.根据权利要求4所述的策略管理方法，其特征在于，所述根据所述运行性能参数更新所述候选策略集合，还包括：

当所述策略统计空间不存在所述最优策略，并且预设的策略缓冲空间不存在所述最优策略，将所述最优策略保存至所述策略缓冲空间；

当所述策略缓冲空间中的所述最优策略满足更新条件，将所述策略缓冲空间中的所述最优策略保存至所述策略统计空间，更新所述候选策略集合。

6.根据权利要求4所述的策略管理方法，其特征在于，所述根据所述运行性能参数更新所述候选策略集合，还包括：

当所述策略统计空间不存在所述最优策略，并且预设的策略缓冲空间存在所述最优策略，根据所述运行性能参数更新所述第一性能参数从而更新所述最优策略；

当所述策略缓冲空间中的更新后的所述最优策略满足更新条件，将所述策略缓冲空间中的更新后的所述最优策略保存至所述策略统计空间，更新所述候选策略集合。

7.根据权利要求5所述的策略管理方法，其特征在于，所述策略缓冲空间包括多个缓冲策略，所述缓冲策略包括第二性能参数；所述将所述最优策略保存至所述策略缓冲空间，包括：

当所述策略缓冲空间处于饱和状态，将所述最优策略替换所述策略缓冲空间中的第二性能参数最差的缓冲策略。

8.根据权利要求5所述的策略管理方法，其特征在于，所述候选策略集合包括多个候选策略，所述候选策略包括第三性能参数；所述将所述策略缓冲空间中的所述最优策略保存至所述策略统计空间，包括：

当所述策略统计空间处于饱和状态，将所述策略缓冲空间中的所述最优策略替换所述候选策略集合中第三性能参数最差的候选策略。

9.根据权利要求6所述的策略管理方法，其特征在于，所述候选策略集合包括多个候选策略，所述候选策略包括第三性能参数；所述将所述策略缓冲空间中的更新后的所述最优策略保存至所述策略统计空间，包括：

当所述策略统计空间处于饱和状态，将所述策略缓冲空间中的更新后的所述最优策略替换所述候选策略集合中第三性能参数最差的候选策略。

10.根据权利要求5或6所述的策略管理方法，其特征在于，所述更新条件具体为：

第一计数器所记录的第一数值达到第一预设门限值，并且所述第一数值与第二计数器所记录的第二数值之比大于第二预设门限值；其中，所述第一计数器和所述第二计数器均根据所述最优策略而配置，所述第一计数器用于记录所述最优策略被采用的次数，所述第二计数器用于记录所述策略缓冲空间中的策略被采用的次数。

11.根据权利要求3所述的策略管理方法，其特征在于，所述策略管理方法，还包括：

在当前周期的结束时间，根据所述策略统计空间中的所述候选策略集合更新所述历史策略集合。

12.一种策略管理设备，其特征在于，包括：

至少一个处理器；

至少一个存储器，用于存储至少一个程序；

当至少一个所述程序被至少一个所述处理器执行时实现如权利要求1至11任意一项所述的策略管理方法。

13.一种计算机可读存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令用于执行权利要求1至11任意一项所述的策略管理方法。