CN113561986A

CN113561986A - 自动驾驶汽车决策方法及装置

Info

Publication number: CN113561986A
Application number: CN202110946405.4A
Authority: CN
Inventors: 裴晓飞; 杨哲
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2021-10-29
Anticipated expiration: 2041-08-18
Also published as: CN113561986B

Abstract

本发明实施例提供一种自动驾驶汽车决策方法及装置，所述方法包括：获取不同驾驶场景下的标准驾驶演示数据，根据标准驾驶演示数据进行模仿学习，得到不同驾驶场景下的最优奖励函数；基于最优奖励函数对对应的驾驶动作进行强化学习训练，得到下层驾驶动作决策模型；根据驾驶场景获取对应的交通状态，基于强化学习确定与下层驾驶动作决策模型对应的上层驾驶场景决策模型；检测到汽车处于自动驾驶模式中，通过上层驾驶场景决策模型，输出匹配的实时驾驶场景，然后确定对应的下层驾驶动作决策模型，输出对应的驾驶动作并执行。采用本方法能够更精确地对驾驶数据等进行规划，增加驾驶行为与人类驾驶行为的匹配度。

Description

自动驾驶汽车决策方法及装置

技术领域

本发明涉及自动驾驶技术领域，尤其涉及一种自动驾驶汽车决策方法及装置。

背景技术

当自动驾驶决策控制包括环境预测、行为决策、动作及路径规划等模块，环境预测的主要作用是对感知层识别到的物体进行行为预测并生成时间和空间维度上的轨迹传递给后续模块。行为决策在自动驾驶系统中扮演着“副驾驶”的角色，它汇集了周边车辆的重要信息，决定自动驾驶汽车的行驶策略和动作。动作规划是在决策层传递来的瞬时动作进行规划，例如转弯、避障等。路径规划会对较长时间内车辆行驶路径的规划，给定起始点和目标点，按照性能指标规划出一条无碰撞、能安全到达的有效路径。

但是，在现实环境中的复杂驾驶环境中，为了提高驾驶效率和驾驶安全性，人类驾驶员在一段距离内可能历经了多种驾驶场景，如跟车、换道、超车以及弯道行驶等，这些场景中每一个都包含了许多关键状态需要重点学习，如果只用强化学习的方法很难考虑到不同场景下的所有关键状态，同时也会导致学习效率低下。另外，相较于人类驾驶员，强化学习在学习更细节的人类驾驶方面比较困难。

发明内容

针对现有技术中存在的问题，本发明实施例提供一种自动驾驶汽车决策方法及装置。

本发明实施例提供一种自动驾驶汽车决策方法，包括：

获取不同驾驶场景下的标准驾驶演示数据，根据标准驾驶演示数据进行模仿学习，得到不同驾驶场景下的最优奖励函数；

基于所述最优奖励函数对对应的驾驶动作进行强化学习训练，得到下层驾驶动作决策模型；

根据所述驾驶场景获取对应的交通状态，通过所述交通状态基于强化学习确定与所述下层驾驶动作决策模型对应的上层驾驶场景决策模型；

检测到汽车处于自动驾驶模式中，获取所述自动驾驶模式的实时交通状态，根据所述实时交通状态，输入所述上层驾驶场景决策模型，输出匹配的实时驾驶场景，根据所述实时驾驶场景确定对应的下层驾驶动作决策模型，并确定实时车辆数据输入至所述下层驾驶动作决策模型，得到所述下层驾驶动作决策模型输出的驾驶动作并执行。

在其中一个实施例中，所述方法还包括：

步骤1.1：获取所述不同驾驶场景下的标准驾驶演示数据，计算所述标准驾驶演示数据的特征统计期望；

步骤1.2：初始化状态特征权重

；

步骤1.3：更新奖励函数

；

步骤1.4：采用最大熵逆强化学习的方法，利用正向强化学习的方法寻找多组最/次优的轨迹，用概率较大的多组轨迹估计当前奖励函数下的轨迹的期望特征统计量；

步骤1.5：构建拉格朗日函数最大化专家轨迹的出现概率，利用最大似然法对

求解梯度，利用梯度下降法更新

；

步骤1.6：重复上述步骤1.3至步骤1.5，直至梯度值到达收敛阈值，

收敛至最优权重

；

步骤1.7：得到该驾驶场景下的最优奖励函数。

在其中一个实施例中，所述方法还包括：

步骤2.1：在所述更新奖励函数下进行正向强化学习训练，将训练时的n组次优轨迹及奖励保存至轨迹库；

步骤2.2：用训练好的模型测试，生成m组测试轨迹及其奖励并加入轨迹库；

步骤2.3：在轨迹库中选取奖励最大的前h组数据作为当前奖励函数下的最/次优轨迹输出，对这些轨迹运用最大熵逆强化学习的原理求解每一个轨迹的概率，然后估计轨迹的期望特征统计量。

在其中一个实施例中，所述方法还包括：

步骤3.1：选择一种驾驶场景下训练得到的最优奖励函数

；

步骤3.2：初始化网络模型参数；

步骤3.3：初始化环境、车辆状态；

步骤3.4：基于车辆当前的状态s，利用贪婪策略在网络模型估计出的最优动作和随机动作之间随机选取动作；

步骤3.5：在当前状态s采取动作

后得到新的状态s’，对s’进行特征统计；

步骤3.6：利用特征统计得到的特征向量与模仿学习训练出的特征权重

相乘，即奖励函数表达式

，可以得到该状态采取该动作后的奖励r；

步骤3.7：将初始状态s、动作

、奖励值r以及更新状态s’作为样本(s，

，r，s’)保存至经验回放池；

步骤3.8：智能体在经验回放池中通过批次采样训练驾驶动作决策模型，计算损失函数，通过梯度下降的方法优化决策模型参数；

步骤3.9：重复上述步骤3.4至步骤3.8，发生碰撞或到达终止时间即终止，终止后从步骤3.3开始新回合训练直至模型收敛，训练回合结束；

步骤3.10：输出该驾驶场景下的下层驾驶动作决策模型。

在其中一个实施例中，所述方法还包括：

所述上层驾驶场景决策模型的决策时间的时间间隔为所述下层驾驶动作决策模型的决策时间的时间间隔的3倍。

在其中一个实施例中，所述交通状态，包括：

自车速度、自车横纵向位置、自车与周围车辆的相对位置。

在其中一个实施例中，所述特征统计量，包括：

速度特征、加速度特征、加加速度特征、跟车距离特征、碰撞时间特征。

本发明实施例提供一种自动驾驶汽车决策装置，包括：

获取模块，用于获取不同驾驶场景下的标准驾驶演示数据，根据标准驾驶演示数据进行模仿学习，得到不同驾驶场景下的最优奖励函数；

第一训练模块，用于基于所述最优奖励函数对对应的驾驶动作进行强化学习训练，得到下层驾驶动作决策模型；

第二获取模块，用于根据所述驾驶场景获取对应的交通状态，通过所述交通状态基于强化学习确定与所述下层驾驶动作决策模型对应的上层驾驶场景决策模型；

自动驾驶模块，用于检测到汽车处于自动驾驶模式中，获取所述自动驾驶模式的实时交通状态，根据所述实时交通状态，输入所述上层驾驶场景决策模型，输出匹配的实时驾驶场景，根据所述实时驾驶场景确定对应的下层驾驶动作决策模型，并确定实时车辆数据输入至所述下层驾驶动作决策模型，得到所述下层驾驶动作决策模型输出的驾驶动作并执行。

本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述自动驾驶汽车决策方法的步骤。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述自动驾驶汽车决策方法的步骤。

本发明实施例提供的自动驾驶汽车决策方法及装置，获取不同驾驶场景下的标准驾驶演示数据，根据标准驾驶演示数据进行模仿学习，得到不同驾驶场景下的最优奖励函数；基于最优奖励函数对对应的驾驶动作进行强化学习训练，得到下层驾驶动作决策模型；根据驾驶场景获取对应的交通状态，通过交通状态确定与下层驾驶动作决策模型对应的上层驾驶场景决策模型；检测到汽车处于自动驾驶模式中，获取自动驾驶模式的实时交通状态，根据实时交通状态，输入上层驾驶场景决策模型，输出匹配的实时驾驶场景，根据实时驾驶场景确定对应的下层驾驶动作决策模型，并确定实时车辆数据输入至下层驾驶动作决策模型，得到下层驾驶动作决策模型输出的驾驶动作并执行。这样能够在上层通过构建驾驶场景选择模型，下层通过模仿学习驾驶行为，设计出更标准的奖励函数，进一步地构建驾驶动作决策模型，可以更精确地对驾驶数据等进行规划，增加驾驶行为与人类驾驶行为的匹配度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例中自动驾驶汽车决策方法的流程图；

图2为本发明实施例中自动驾驶汽车决策装置的结构图；

图3为本发明实施例中电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的自动驾驶汽车决策方法的流程示意图，如图1所示，本发明实施例提供了一种自动驾驶汽车决策方法，包括：

步骤S101，获取不同驾驶场景下的标准驾驶演示数据，根据标准驾驶演示数据进行模仿学习，得到不同驾驶场景下的最优奖励函数。

具体地，获取不同驾驶场景下的标准驾驶演示数据，其中，驾驶场景可以包括跟车行驶、换道行驶、弯道行驶以及超越前车等场景，标准驾驶演示数据为专家驾驶时的数据，数据特征统计包括速度特征、加速度特征、加加速度特征、跟车距离特征、碰撞时间特征。然后根据标准驾驶演示数据进行模仿学习，得到不同驾驶场景下的自主学习的最优奖励函数。

另外，模仿学习的具体步骤可以包括：

步骤1.1：给定具体驾驶场景的专家轨迹，计算专家轨迹的特征统计期望，其中专家轨迹；

，包括期望速度特征，期望加速度特征，期望加加速度特征，期望碰撞时间特征等等；

步骤1.2：初始化状态特征权重

；

步骤1.3：更新奖励函数

；

步骤1.4：采用最大熵逆强化学习的方法，轨迹出现的概率与轨迹的奖励值的幂次方成正比，

，其中

表示在特征权重

下轨迹

的出现概率；

是配分函数；

表示状态

的特征量；

步骤1.5：基于正向强化学习采样保存多组最/次优的轨迹

，用概率较大的多组轨迹估计当前奖励函数下的轨迹的期望特征统计量

；

步骤1.6：构建拉格朗日函数

，最大化专家轨迹的出现概率，利用最大似然法对

求解梯度

，其中

表示专家轨迹，

表示专家轨迹集合；

步骤1.7：利用梯度下降法更新

，

（其中lr表示学习率）；

步骤1.8：重复上述步骤1.3~步骤1.7，直至梯度值到达收敛阈值，特征权重

收敛至

；

步骤1.9：得到该驾驶场景下的最优奖励函数

。

步骤S102，基于所述最优奖励函数对对应的驾驶动作进行强化学习训练，得到下层驾驶动作决策模型。

具体地，使用训练出的最优奖励函数，基于强化学习对该奖励函数下的动作决策进行训练，构建出不同驾驶场景下的驾驶动作决策模型，具体步骤包括

步骤3.1：选择一种驾驶场景下训练得到的最优奖励函数

；

步骤3.2：初始化网络模型参数；

步骤3.3：初始化环境、车辆状态；

步骤3.4：基于车辆当前的状态s，利用贪婪策略在网络模型估计出的最优动作

和随机动作

之间随机选取动作

；

步骤3.5：在当前状态s采取动作

后得到新的状态s’，对s’进行特征统计；

步骤3.6：利用特征统计得到的特征向量

与模仿学习训练出的特征权重

相乘，即奖励函数表达式

，可以得到该状态采取该动作后的奖励r；

步骤3.7：将初始状态s、动作

、奖励值r以及更新状态s’作为样本(s，

，r，s’)保存至经验回放池；

步骤3.10：输出该驾驶场景下的下层驾驶动作决策模型。

步骤S103，根据所述驾驶场景获取对应的交通状态，通过所述交通状态基于强化学习确定与所述下层驾驶动作决策模型对应的上层驾驶场景决策模型

具体地，根据驾驶场景可以获取当前的交通状态，其中，车辆的交通状态可以包括自车速度、自车横纵向位置、自车与周围车辆的相对位置等数据，根据交通状态可以确定下层驾驶动作决策模型对应的上层驾驶场景决策模型，上层场景决策模型是获取交通状态后基于模仿学习训练出来的决策模型，上层是场景决策的模仿学习，下层是动作决策的模仿学习，其中，上层驾驶场景决策可以包括跟车行驶、换道行驶、弯道行驶以及超越前车等决策。

具体的上层驾驶场景决策模建立步骤包括：

步骤4.1：初始化环境、车辆状态；

步骤4.2：通过自车传感器获取车辆当前的交通状态s并输入到上层驾驶场景选择模型中；

步骤4.4：上层决策模型根据车辆当前状态s从上层动作空间选择一个上层动作ah（每一个动作映射到一个驾驶场景）并输出给下层动作决策层；

步骤4.4：根据上层动作映射的驾驶场景，调用下层当前驾驶场景下的驾驶动作决策模型；

步骤4.5：下层动作决策模型根据车辆当前的状态s输出相应的驾驶动作a，比如加速度或变道指令等；

步骤4.6：在下层动作执行完毕之后，通过传感器获取车辆更新后的状态s’；

步骤4.7：在上层模块中，根据车辆更新后的状态，评估该状态下的速度、跟车距离、碰撞时间（TTC）以及是否发生碰撞设定奖励函数，给定本次驾驶场景选择的奖励值r；

步骤4.8：将上层两个时刻的初始状态s、驾驶动作a_h、奖励值r以及更新状态s’作为样本(s，a_h，r，s’)保存至经验回放池；

步骤4.9：上层智能体在经验回放池中通过批次采样训练决策模型，计算损失函数，通过梯度下降的方法优化决策模型参数；

步骤4.10：重复上述4.2~4.9步骤，发生碰撞或到达终止时间即终止，终止后从4.1开始新回合训练直至模型收敛，训练回合结束。

步骤4.11：输出自动驾驶汽车的上层驾驶场景决策模型。

另外，在通过上层驾驶场景决策模型和下层驾驶动作决策模型决定自动驾驶动作时，上层驾驶场景决策模型的决策时间的时间间隔为下层驾驶动作决策模型的决策时间的时间间隔的3倍。比如本实施例中上层驾驶场景决策模型中上层动作决策的时间间隔为0.3s，下层驾驶动作决策模型中驾驶动作指令决策的时间间隔为0.1s。

步骤S104，检测到汽车处于自动驾驶模式中，获取所述自动驾驶模式的实时交通状态，根据所述实时交通状态，输入所述上层驾驶场景决策模型，输出匹配的实时驾驶场景，根据所述实时驾驶场景确定对应的下层驾驶动作决策模型，并确定实时车辆数据输入至所述下层驾驶动作决策模型，其中，标准驾驶演示数据为当前的实际交通状态，得到所述下层驾驶动作决策模型输出的驾驶动作并执行。

具体地，检测到汽车处于自动驾驶过程中时，获取自动驾驶模式的实时交通状态，然后结合上层驾驶场景决策模型根据自车当前状态输出匹配的实时驾驶场景，并根据实时驾驶场景调用相应的有针对性的下层决策模型进行驾驶动作决策，具体为确定实时车辆数据输入至下层驾驶动作决策模型，得到下层驾驶动作决策模型输出的驾驶动作并执行。

本发明实施例提供的一种自动驾驶汽车决策方法，获取不同驾驶场景下的标准驾驶演示数据，根据标准驾驶演示数据进行模仿学习，得到不同驾驶场景下的最优奖励函数；基于最优奖励函数对对应的驾驶动作进行强化学习训练，得到下层驾驶动作决策模型；根据驾驶场景获取对应的交通状态，通过交通状态确定与下层驾驶动作决策模型对应的上层驾驶场景决策模型；检测到汽车处于自动驾驶模式中，获取自动驾驶模式的实时交通状态，根据实时交通状态，输入上层驾驶场景决策模型，输出匹配的实时驾驶场景，根据实时驾驶场景确定对应的下层驾驶动作决策模型，并确定实时车辆数据输入至下层驾驶动作决策模型，得到下层驾驶动作决策模型输出的驾驶动作并执行。这样能够在上层通过构建驾驶场景选择模型，下层通过模仿学习驾驶行为，设计出更标准的奖励函数，进一步地构建驾驶动作决策模型，可以更精确地对驾驶数据等进行规划，增加驾驶行为与人类驾驶行为的匹配度。

在上述实施例的基础上，所述自动驾驶汽车决策方法，还包括：

步骤2.3：在轨迹库中选取奖励最大的前h组数据作为当前奖励函数下的最/次优轨迹输出，对这些轨迹运用最大熵逆强化学习的原理求解每一个轨迹的概率，然后估计轨迹的期望特征统计量

。

本发明实施例中，

基于最优的奖励函数，并通过强化学习对该奖励函数下的动作决策进行训练，在训练和测试过程中可以得到该奖励函数下的多组最/次优轨迹，用概率较大的多组轨迹估计当前奖励函数下的轨迹的期望特征统计量，具体的详细步骤包括：

步骤2.1.1：选择更新后的奖励函数

；

步骤2.1.2：初始化网络模型参数；

步骤2.1.3：初始化环境、车辆状态；

步骤2.1.4：基于车辆当前的状态s，利用贪婪策略在网络模型估计出的最优动作

和随机动作

之间随机选取动作

；

步骤2.1.5：在当前状态s采取动作后得到新的状态s’，对s’进行特征统计；

步骤2.1.6：利用特征统计得到的特征向量

与模仿学习训练出的特征权重

相乘，即奖励函数表达式

，可以得到该状态采取该动作后的奖励r；

步骤2.1.7：将初始状态s、动作

、奖励值r以及更新状态s’作为样本(s，

，r，s’)保存至经验回放池；

步骤2.1.8：智能体在经验回放池中通过批次采样训练驾驶动作决策模型，计算损失函数，通过梯度下降的方法优化决策模型参数；

步骤2.1.9：重复上述步骤2.1.4至步骤2.1.8，发生碰撞或到达终止时间即终止，终止后从步骤2.1.3开始新回合训练直至模型收敛，将训练时的100组次优轨迹及奖励保存至轨迹库，训练回合结束；

步骤2.1.10：用训练好的模型测试，生成测试轨迹及其奖励并加入轨迹库；

步骤2.1.11：在轨迹库中选取奖励最大的前50组数据作为当前奖励函数下的最/次优轨迹输出，对50组轨迹运用最大熵逆强化学习的原理求解每一个轨迹的概率，然后估计轨迹的期望特征统计量

。

本发明实施例通过用概率较大的多组轨迹估计当前奖励函数下的轨迹的期望特征统计量，进一步保证了期望特征统计的准确性。

图2为本发明实施例提供的一种自动驾驶汽车决策装置，包括：第一获取模块S201、训练模块S202、第二获取模块S203、自动驾驶模块S204，其中：

获取模块S201，用于获取不同驾驶场景下的标准驾驶演示数据，根据标准驾驶演示数据进行模仿学习，得到不同驾驶场景下的最优奖励函数。

第一训练模块S202，用于基于所述最优奖励函数对对应的驾驶动作进行强化学习训练，得到下层驾驶动作决策模型。

第二训练模块S203，用于根据所述驾驶场景获取对应的交通状态，通过所述交通状态基于强化学习确定与所述下层驾驶动作决策模型对应的上层驾驶场景决策模型。

自动驾驶模块S204，用于检测到汽车处于自动驾驶模式中，获取所述自动驾驶模式的实时交通状态，根据所述实时交通状态，输入所述上层驾驶场景决策模型，输出匹配的实时驾驶场景，根据所述实时驾驶场景确定对应的下层驾驶动作决策模型，并确定实时车辆数据输入至所述下层驾驶动作决策模型，得到所述下层驾驶动作决策模型输出的驾驶动作并执行。

关于自动驾驶汽车决策装置的具体限定可以参见上文中对于自动驾驶汽车决策方法的限定，在此不再赘述。上述自动驾驶汽车决策装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)301、存储器(memory)302、通信接口(Communications Interface)303和通信总线304，其中，处理器301，存储器302，通信接口303通过通信总线304完成相互间的通信。处理器301可以调用存储器302中的逻辑指令，以执行如下方法：获取不同驾驶场景下的标准驾驶演示数据，根据标准驾驶演示数据进行模仿学习，得到不同驾驶场景下的最优奖励函数；基于最优奖励函数对对应的驾驶动作进行强化学习训练，得到下层驾驶动作决策模型；根据驾驶场景获取对应的交通状态，通过交通状态确定与下层驾驶动作决策模型对应的上层驾驶场景决策模型；检测到汽车处于自动驾驶模式中，获取自动驾驶模式的实时交通状态，根据实时交通状态，输入上层驾驶场景决策模型，输出匹配的实时驾驶场景，根据实时驾驶场景确定对应的下层驾驶动作决策模型，并确定实时车辆数据输入至下层驾驶动作决策模型，得到下层驾驶动作决策模型输出的驾驶动作并执行。

此外，上述的存储器302中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的传输方法，例如包括：获取不同驾驶场景下的标准驾驶演示数据，根据标准驾驶演示数据进行模仿学习，得到不同驾驶场景下的最优奖励函数；基于最优奖励函数对对应的驾驶动作进行强化学习训练，得到下层驾驶动作决策模型；根据驾驶场景获取对应的交通状态，通过交通状态确定与下层驾驶动作决策模型对应的上层驾驶场景决策模型；检测到汽车处于自动驾驶模式中，获取自动驾驶模式的实时交通状态，根据实时交通状态，输入上层驾驶场景决策模型，输出匹配的实时驾驶场景，根据实时驾驶场景确定对应的下层驾驶动作决策模型，并确定实时车辆数据输入至下层驾驶动作决策模型，得到下层驾驶动作决策模型输出的驾驶动作并执行。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。