CN111612162B

CN111612162B - 一种强化学习方法、装置、电子设备及存储介质

Info

Publication number: CN111612162B
Application number: CN202010490880.0A
Authority: CN
Inventors: 刘东红; 李晟泽; 徐新海; 刘逊韵; 张峰; 张帅
Original assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Current assignee: National Defense Technology Innovation Institute PLA Academy of Military Science
Priority date: 2020-06-02
Filing date: 2020-06-02
Publication date: 2021-08-27
Anticipated expiration: 2040-06-02
Also published as: CN111612162A

Abstract

本发明实施例提供一种强化学习方法、装置、电子设备及存储介质，所述方法包括：确定智能体在执行完当前执行动作后的观测状态，作为下一观测状态；基于预先设定的观测状态与规则状态的映射关系，确定下一观测状态对应的下一规则状态；基于预先设定的智能体执行策略和下一规则状态，确定智能体的下一执行动作，并基于下一规则状态和下一执行动作确定下一行动效用值；基于下一行动效用值，更新智能体的当前行动效用值，直至满足预先设定的交互终止条件。本发明实施例提供的强化学习方法、装置、电子设备及存储介质，行动效用值的计算量大幅减少，缩减了计算维度，提升了强化学习效率。

Description

一种强化学习方法、装置、电子设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种强化学习方法、装置、电子设备及存储介质。

背景技术

强化学习主要研究数量不等的智能体根据自身及外界信息进行决策和行动。智能体通过与外界环境的交互，来感知周边环境，并通过执行某一动作或指令，获取环境对该动作的效用的评价，从而调整自身策略。随着问题的复杂，如多智能体、延迟回报、稀疏回报等，强化学习的训练过程往往较为耗时，且很难获得较为理想的行动策略。

现有的强化学习方法是基于深度神经网络对效用值进行拟合，而该方法使用较为方便，在解决具体问题时不需要较强的背景知识，但该方法显著缺点是可解释性较差，需要的样本数量较大，计算量较大，学习效率较低。

发明内容

本发明实施例提供一种强化学习方法、装置、电子设备及存储介质，用以解决现有的强化学习方法计算量较大及学习效率较低的技术问题。

第一方面，本发明实施例提供一种强化学习方法，包括：

确定智能体在执行完当前执行动作后的观测状态，作为下一观测状态；

基于预先设定的观测状态与规则状态的映射关系，确定所述下一观测状态对应的下一规则状态；

基于预先设定的智能体执行策略和所述下一规则状态，确定所述智能体的下一执行动作，并基于所述下一规则状态和所述下一执行动作确定下一行动效用值；

基于所述下一行动效用值，更新所述智能体的当前行动效用值，直至满足预先设定的交互终止条件。

可选地，所述基于所述下一行动效用值，更新所述智能体当前行动效用值，直至满足预先设定的交互终止条件，之后还包括：

当满足所述交互终止条件时，若更新前后的当前行动效用值不满足预先设定的收敛条件，则初始化强化学习环境，并确定初始化环境下智能体的当前观测状态；

基于所述观测状态与规则状态的映射关系，确定所述当前观测状态对应的当前规则状态；

基于所述智能体执行策略和所述当前规则状态，确定所述智能体当前执行动作，并基于所述当前规则状态和所述当前执行动作确定当前行动效用值。

可选地，所述基于所述下一规则状态和所述下一执行动作确定下一行动效用值，具体包括：

基于所述下一规则状态中的任一规则特征和所述下一执行动作，确定所述任一规则特征的效用值；

基于所述下一规则状态中每一规则特征的效用值，确定所述下一行动效用值。

可选地，所述下一规则状态包括一个主要规则特征和若干个细节规则特征；

不同的规则状态共享所述细节规则特征的效能值。

可选地，所述基于所述下一规则状态中每一规则特征的效用值，确定所述下一行动效用值，具体包括：

式中，

为所述下一规则状态，

为所述下一行动效用值，

为所述下一规则状态中的主要规则特征

的效用值，

为所述下一规则状态中的第k个细节规则特征

的效用值，a_t+1为所述下一执行动作。

可选地，所述基于所述下一行动效用值，更新所述智能体的当前行动效用值，具体包括：

基于所述下一行动效用值和所述当前行动效用值，以及迹函数，更新所述智能体的当前行动效用值。

可选地，所述基于所述下一行动效用值和所述当前行动效用值，以及迹函数，更新所述智能体的当前行动效用值，具体包括：

式中，

为更新后的当前行动效用值，

为所述当前行动效用值，r_t+1为下一即时回报值，

为所述下一行动效用值，α为学习率，γ为衰减系数，

为所述迹函数，

为所述当前规则状态，

为所述下一规则状态，a_t为所述当前执行动作，a_t+1为所述下一执行动作。

第二方面，本发明实施例提供一种强化学习装置，包括：

下一观测状态确定模块，用于确定智能体在执行完当前执行动作后的观测状态，作为下一观测状态；

下一规则状态确定模块，用于基于预先设定的观测状态与规则状态的映射关系，确定所述下一观测状态对应的下一规则状态；

下一行动效用值确定模块，用于基于预先设定的智能体执行策略和所述下一规则状态，确定所述智能体的下一执行动作，并基于所述下一规则状态和所述下一执行动作确定下一行动效用值；

当前行动效用值更新模块，基于所述下一行动效用值，更新所述智能体的当前行动效用值，直至满足预先设定的交互终止条件。

第三方面，本发明实施例提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所述的强化学习方法。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所述的强化学习方法。

本发明实施例提供的强化学习方法、装置、电子设备及存储介质，通过基于预先设定的观测状态与规则状态的映射关系，将观测状态映射为规则状态，并基于规则状态特征确定当前行动效用值，行动效用值的计算量大幅减少。由于每一规则状态包含若干个观测状态，每一规则状态所对应的效用值表征的观测状态数量大幅提升，缩减了计算维度，提升了强化学习效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的强化学习方法的流程示意图；

图2为本发明实施例提供的强化学习基本原理示意图；

图3为本发明另一实施例提供的强化学习方法的流程示意图；

图4为本发明实施例提供的强化学习装置的结构示意图；

图5为本发明实施例提供的电子设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的强化学习方法的流程示意图，如图1所示，本发明实施例提供的强化学习方法包括：

步骤110，确定智能体在执行完当前执行动作后的观测状态，作为下一观测状态；

步骤120，基于预先设定的观测状态与规则状态的映射关系，确定下一观测状态对应的下一规则状态；

步骤130，基于预先设定的智能体执行策略和下一规则状态，确定智能体的下一执行动作，并基于下一规则状态和下一执行动作确定下一行动效用值；

步骤140，基于下一行动效用值，更新智能体的当前行动效用值，直至满足预先设定的交互终止条件。

具体地，强化学习是一种智能体与进行环境交互通过学习策略以达成回报最大化的机器学习方法，图2为本发明实施例提供的强化学习基本原理示意图，如图2所示，智能体通过策略π：s→a与环境进行交互，其中，s和a分别为状态和动作。在时刻t时，智能体获取自身及周边环境状态s_t，此时智能体执行某一动作a_t，而环境给出该动作的实际效用或当前时刻的即时回报值r_t。通过不断与环境进行上述交互过程，智能体不断改善策略π，以实现预期回报值R_t最大。

在此基础上，定义效用值Q(s，a)为时刻t，智能体获得状态信息s_t后，根据策略π执行动作a_t所产生的预期回报值，即：

对于时刻t的预期回报值R_t，由于受到未来状态的影响，其具体计算公式如下：

式中，T为终止时刻，γ为衰减系数，r_t′为未来时刻t′的即时回报值。

在执行步骤110之前，预先设定上述强化学习环境的规则，本发明实施例以及后续实施例均以自动驾驶场景进行说明，在汽车自动驾驶场景中，行驶规则可以为：

Rule1：if(v＞100km/h)then(brake)

规则Rule1为如果车速大于100km/h，则执行刹车动作。

行驶规则也可以为：

Rule2：if(v＜40km/h)then(speed up)

规则Rule2为如果车速小于40km/h，则执行加速动作。

其中，if为规则判定条件，then为该规则的推荐执行动作。根据上述定义，将每条规则以二元组形式进行规范化表示，则有Rule＝(s^r，a^r)，其中s^r为该条规则对应的规则状态，a^r为该条规则所推荐的动作。

需要说明的是，本发明实施例以及后续实施例中，r作为变量时(例如r_t)表示即时回报值，r作为上标时(例如s^r)表示对应的规则。

基于上述规则，建立观测状态与规则状态的映射关系，其中，观测状态为智能体感知自身和环境获取的状态，规则状态为规则判定条件对应的状态。例如规则状态可以为

对于观测状态s¹：v＝120km/h，s²：v＝115km/h，s³：v＝38km/h，s⁴：v＝25km/h，则存在以下映射关系：s¹，

s³，

基于上述强化学习环境，智能体获取环境的当前观测状态s_t，并根据预先设定的智能体执行策略，确定当前执行动作a_t并执行，智能体执行当前执行动作之后，环境随之发生变化，将智能体在执行完当前执行动作后的观测状态，作为下一观测状态s_t+1。

在得到下一观测状态之后，基于预先设定的观测状态与规则状态的映射关系，确定下一观测状态对应的下一规则状态

基于预先设定的智能体执行策略和下一规则状态，确定智能体的下一执行动作a_t+1，并基于下一规则状态和下一执行动作确定下一行动效用值

由于规则状态数远小于观测状态数，经过观测状态与规则状态之间的映射，行动效用值的计算量大幅减少。每一规则状态包含若干个观测状态，每一规则状态所对应的效用值表征的观测状态数量大幅提升，缩减了计算维度，提升了强化学习效率。

在得到下一行动效用值之后，基于下一行动效用值更新当前行动效用值，更新后的当前行动效用值包含了智能体执行当前执行动作之后的未来回报值信息，智能体依据更新后的当前行动效用值执行动作，能够实现未来预期回报最大化。重复上述步骤，直至满足预先设定的交互终止条件。其中，预先设定的交互终止条件可以为时刻t已到达终止时刻。

本发明实施例提供的强化学习方法，通过基于预先设定的观测状态与规则状态的映射关系，将观测状态映射为规则状态，并基于规则状态特征确定当前行动效用值，行动效用值的计算量大幅减少。由于每一规则状态包含若干个观测状态，每一规则状态所对应的效用值表征的观测状态数量大幅提升，缩减了计算维度，提升了强化学习效率。

基于上述实施例，该强化学习方法中，步骤140之后还包括：

当满足交互终止条件时，若更新前后的当前行动效用值不满足预先设定的收敛条件，则初始化强化学习环境，并确定初始化环境下智能体的当前观测状态；

基于观测状态与规则状态的映射关系，确定当前观测状态对应的当前规则状态；

基于智能体执行策略和当前规则状态，确定智能体当前执行动作，并基于当前规则状态和当前执行动作确定当前行动效用值。

具体地，当满足交互终止条件时，终止对当前行动效用值的更新并输出更新后的当前行动效用值，随后判断更新前后的当前行动效用值是否满足预先设定的收敛条件，若满足预先设定的收敛条件，则输出当前行动效用值；若不满足预先设定的收敛条件，则初始化强化学习环境并继续对当前行动效用值进行更新。其中，预先设定的收敛条件为更新前后的当前行动效用值之差小于预设阈值。

初始化强化学习环境包括初始化每一规则对应的效用值，具体公式如下：

式中，Q₀(s^r，a^r)为规则(s^r，a^r)的初始效用值，

为正态函数，μ，σ为该正态函数的形状控制参数。

在对强化学习环境进行初始化之后，确定初始化环境下智能体的当前观测状态，基于观测状态与规则状态的映射关系，确定当前观测状态对应的当前规则状态。基于智能体执行策略和当前规则状态，确定智能体当前执行动作，并基于当前规则状态和当前执行动作确定当前行动效用值。上述步骤的具体执行过程可参考上一实施例，此处不再赘述。

图3为本发明实施例提供的强化学习方法的流程示意图，如图3所示，该强化学习方法中包含两个嵌套的循环结构，内层循环的终止条件为预先设定的交互终止条件，外层循环的终止条件为预先设定的收敛条件。

在此基础上，假设外层循环的预定循环次数为P，在当前外层循环次数为p时，智能体执行策略可以为：

其中，random_sample为随机采样函数，argmax为索引最大值函数，

为所有可执行动作构成的集合。

基于上述任一实施例，该强化学习方法中，步骤130具体包括：

基于下一规则状态中的任一规则特征和下一执行动作，确定任一规则特征的效用值；

基于下一规则状态中每一规则特征的效用值，确定下一行动效用值。

具体地，下一规则状态可以包含多个规则特征，下一规则状态中任一规则特征的效用值是基于任一规则特征和下一执行动作确定的，下一规则状态的效用值可以为下一规则状态包含的每一规则特征的效用值之和。在汽车自动驾驶场景中，不同规则特征用于从不同维度说明车辆的行驶情况，例如，汽车车速、行驶方向、行驶路况等。

基于上述任一实施例，该强化学习方法中，下一规则状态包括一个主要规则特征和若干个细节规则特征；不同的规则状态共享细节规则特征的效能值。

具体地，下一规则状态包括一个主要规则特征和若干个细节规则特征，在汽车自动驾驶场景中，主要规则特征用于表征规则状态的显著特性，例如汽车车速，若干个细节规则特征用于表征规则状态的典型细节，例如行驶路况，包括前方出现行人，前方红灯等。

不同的规则状态的主要规则特征是不同的，不同的规则状态可以共享细节规则特征的效能值，即在执行动作相同时，同一细节规则特征对应的效能值在不同规则状态中是相同的。假设细节规则特征为：前方出现行人，规则状态

和规则状态

均包含该细节规则特征，规则状态

为一个主要规则特征

和一个细节规则特征

前方出现行人，规则状态

为一个主要规则特征

v＜40km/h和一个细节规则特征

前方出现行人，对于相同的执行动作

(如调整方向)，则细节规则特征

和细节规则特征

所对应的效能值

与

在规则状态

和

中是相同的。

通过将下一规则状态划分为一个主要规则特征和若干个细节规则特征，既可以利用主要规则特征表征不同规则状态的显著差异，又可以利用细节规则特征表征不同规则状态的细微差异。由于不同的规则状态共享细节规则特征的效能值，进而可以对主要规则特征和细节规则特征进行组合，以构建多种不同的规则，提升了规则构建的灵活性，同时不会增加规则状态的效能值的计算量，进一步提升了强化学习的效率。

本发明实施例提供的强化学习方法，通过将下一规则状态划分为一个主要规则特征和若干个细节规则特征，不同的规则状态共享细节规则特征的效能值，提升了规则构建的灵活性，进一步提升了强化学习的效率。

基于上述任一实施例，该强化学习方法中，基于下一规则状态中每一规则特征的效用值，确定下一行动效用值，具体包括：

式中，

为下一规则状态，

为下一行动效用值，

为下一规则状态中的主要规则特征

的效用值，

为下一规则状态中的第k个细节规则特征

的效用值，a_t+1为下一执行动作。

基于上述任一实施例，该强化学习方法中，步骤140具体包括：

基于下一行动效用值和当前行动效用值，以及迹函数，更新智能体的当前行动效用值。

具体地，由于智能体当前行动效用值的更新是基于预期回报值最大化，但是并不是每一状态均存在预期回报值，有时只有终止状态才存在预期回报值，例如围棋比赛中，只有比赛结束才存在预期回报值，中间过程中每一步棋并不存在预期回报值，因此，强化学习方法在实际应用中可能出现稀疏回报或延迟回报的问题。为解决上述问题，本发明实施例提供的强化学习方法引入迹函数对当前行动效用值进行更新，即基于下一行动效用值和当前行动效用值，以及迹函数，更新智能体的当前行动效用值。

式中，

为更新后的当前行动效用值，

为当前行动效用值，r_t+1为下一即时回报值，

为下一行动效用值，α为学习率，γ为衰减系数，

为迹函数，

为当前规则状态，

为下一规则状态，a_t为当前执行动作，a_t+1为下一执行动作。

其中，迹函数

的具体公式如下：

式中，E(s_t，a_t)为时刻t的迹函数，E(s_t-1，a_t-1)时刻t-1的迹函数，λ为迹函数的折减系数。

本发明实施例提供的强化学习方法，通过引入迹函数对当前行动效用值进行更新，在处理可能出现延迟回报或稀疏回报的强化学习问题中将具有更好的学习能力。

基于上述任一实施例，本发明实施例以汽车自动驾驶场景为例对本发明实施例提供的强化学习方法进行说明。在该场景中，智能体可以为自动驾驶汽车，智能体获取当前观测状态为s_t：v＝38km/h，将当前观测状态映射为当前规则状态

v＜40km/h，依据预先设定的智能体执行策略，获取当前执行动作a_t：speed up，并基于当前规则状态

和当前执行动作a_t，确定当前行动效用值

将智能体执行当前执行动作之后的观测状态，作为下一观测状态s_t+1：v＝65km/h，将下一观测状态映射为下一规则状态

60km/h≤v＜100km/h，依据预先设定的智能体执行策略，获取下一执行动作a_t+1：keep(匀速前进)，并基于下一规则状态

和下一执行动作a_t+1，确定下一行动效用值

并基于下一行动效用值

更新当前行动效用值

重复上述步骤，直至时刻t为终止时刻T。

当时刻t已达到终止时刻T，判断更新前后的当前行动效用值是否满足预先设定的收敛条件，若满足，则输出更新后的当前行动效用值，若不满足，则初始化强化学习环境并继续对当前行动效用值进行更新。

基于上述任一实施例，图4为本发明实施例提供的强化学习装置的结构示意图，如图4所示，本发明实施例提供的强化学习装置包括：

下一观测状态确定模块410，用于确定智能体在执行完当前执行动作后的观测状态，作为下一观测状态；

下一规则状态确定模块420，用于基于预先设定的观测状态与规则状态的映射关系，确定所述下一观测状态对应的下一规则状态；

下一行动效用值确定模块430，用于基于预先设定的智能体执行策略和所述下一规则状态，确定所述智能体的下一执行动作，并基于所述下一规则状态和所述下一执行动作确定下一行动效用值；

当前行动效用值更新模块440，基于所述下一行动效用值，更新所述智能体的当前行动效用值，直至满足预先设定的交互终止条件。

本发明实施例提供的强化学习装置，通过基于预先设定的观测状态与规则状态的映射关系，将观测状态映射为规则状态，并基于规则状态特征确定当前行动效用值，行动效用值的计算量大幅减少。由于每一规则状态包含若干个观测状态，每一规则所对应的效用值表征的观测状态数量大幅提升，缩减了计算维度，提升了强化学习效率。

基于上述任一实施例，该强化学习装置还包括：

条件判断模块，用于当满足所述交互终止条件时，若更新前后的当前行动效用值不满足预先设定的收敛条件，则初始化强化学习环境，并确定初始化环境下智能体的当前观测状态；

当前规则状态确定模块，用于基于所述观测状态与规则状态的映射关系，确定所述当前观测状态对应的当前规则状态；

当前行动效用值确定模块，用于基于所述智能体执行策略和所述当前规则状态，确定所述智能体当前执行动作，并基于所述当前规则状态和所述当前执行动作确定当前行动效用值。

基于上述任一实施例，所述下一行动效用值确定模块具体包括：

规则特征效用值确定子模块，用于基于所述下一规则状态中的任一规则特征和所述下一执行动作，确定所述任一规则特征的效用值；

下一行动效用值确定子模块，用于基于所述下一规则状态中每一规则特征的效用值，确定所述下一行动效用值。

基于上述任一实施例，该强化学习装置中，所述下一规则状态包括一个主要规则特征和若干个细节规则特征；

不同的规则状态共享所述细节规则特征的效能值。

本发明实施例提供的强化学习装置，通过将下一规则状态划分为一个主要规则特征和若干个细节规则特征，不同的规则状态共享细节规则特征的效能值，提升了规则构建的灵活性，进一步提升了强化学习的效率。

基于上述任一实施例，所述下一行动效用值确定子模块具体用于基于以下公式确定下一行动效用值：

式中，

为所述下一规则状态，

为所述下一行动效用值，

为所述下一规则状态中的主要规则特征

的效用值，

为所述下一规则状态中的第k个细节规则特征

的效用值，a_t+1为所述下一执行动作。

基于上述任一实施例，所述当前行动效用值更新模块，具体用于：

基于上述任一实施例，所述当前行动效用值更新模块具体用于基于以下公式更新智能体的当前行动效用值：

式中，

为更新后的当前行动效用值，

为所述当前行动效用值，r_t+1为下一即时回报值，

为所述下一行动效用值，α为学习率，γ为衰减系数，

为所述迹函数，

为所述当前规则状态，

本发明实施例提供的强化学习装置，通过引入迹函数对当前行动效用值进行更新，在处理可能出现延迟回报或稀疏回报的强化学习问题中将具有更好的学习能力。

图5为本发明实施例提供的电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器501、通信接口502、存储器503和通信总线504，其中，处理器501，通信接口502，存储器503通过通信总线504完成相互间的通信。处理器501可以调用存储器503中的逻辑指令，以执行如下方法：确定智能体在执行完当前执行动作后的观测状态，作为下一观测状态；基于预先设定的观测状态与规则状态的映射关系，确定下一观测状态对应的下一规则状态；基于预先设定的智能体执行策略和下一规则状态，确定智能体的下一执行动作，并基于下一规则状态和下一执行动作确定下一行动效用值；基于下一行动效用值，更新智能体的当前行动效用值，直至满足预先设定的交互终止条件。

此外，上述的存储器503中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：确定智能体在执行完当前执行动作后的观测状态，作为下一观测状态；基于预先设定的观测状态与规则状态的映射关系，确定下一观测状态对应的下一规则状态；基于预先设定的智能体执行策略和下一规则状态，确定智能体的下一执行动作，并基于下一规则状态和下一执行动作确定下一行动效用值；基于下一行动效用值，更新智能体的当前行动效用值，直至满足预先设定的交互终止条件。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。