CN115903820A

CN115903820A - 多无人艇追逃博弈控制方法

Info

Publication number: CN115903820A
Application number: CN202211507056.7A
Authority: CN
Inventors: 柳春; 刘阳阳; 王曰英; 任肖强; 汪小帆; 孟亦真; 刘晗笑; 史悦; 夏志伟; 王星科
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2022-11-29
Filing date: 2022-11-29
Publication date: 2023-04-04

Abstract

本发明提供了一种多无人艇追逃博弈控制方法，包括：无人艇追逃时，在追击方的控制算法中引入序贯决策，进行“自我博弈”；观测器根据控制器给出的最优控制，解算观测器的最优响应，以逼近追击方群体中的外部干扰及系统不确定性；以及控制器接收观测器的最优响应，根据所述最优响应重新解算追击方的最优控制，如此交替进行，形成序贯决策；在该序贯决策基础之上，设计一种新型奖励函数形式并应用强化学习控制算法，完成多无人艇围捕任务。

Description

多无人艇追逃博弈控制方法

技术领域

本发明涉及无人艇技术领域，特别涉及一种多无人艇追逃博弈控制方法。

背景技术

近年来，随着陆地燃料资源的枯竭，占据地球面积约71％的海洋战略地位随之不断提高。为充分勘探和开采海洋资源，海洋装备技术的发展不可或缺。以无人艇(包括水下航行体、水下机器人、水面无人船等)为代表的海洋智能装备是现阶段海上作业的主要载体。

集群无人舰艇是指一组编队的多个无人舰艇。近年来，集群无人舰艇的应用日益增长，目前，集群无人艇已经在诸如围捕、驱离、扫雷、反潜之类的军事领域以及诸如物资补给、地形测绘、海面营救、无人搜索之类的民事领域发挥重要作用。

但对于无人艇集群的追逃博弈控制，目前还未有比较有效的算法能够进入到实际应用。

发明内容

本发明的目的在于提供一种多无人艇追逃博弈控制方法，以解决现有的算法无法满足无人艇集群的追逃博弈控制需求的问题。

为解决上述技术问题，本发明提供一种多无人艇追逃博弈控制方法，包括：

无人艇追逃时，在追击方的控制算法中引入序贯决策，进行自我博弈；

观测器根据控制器给出的最优控制，解算观测器的最优响应，以逼近追击方群体中的外部干扰及系统不确定性；以及

控制器接收观测器的最优响应，并根据所述最优响应重新解算追击方的最优控制，其中执行一次或多次所述重新解算以形成序贯决策。

可选的，在所述的多无人艇追逃博弈控制方法中，还包括：

协同观测器和强化学习的博弈，使得观测器作为跟随者以处理不确定性，所述不确定性包括外部干扰和建模误差；

以强化学习为控制器，形成领导者；

通过观测器与控制器的序贯博弈，使得强化学习算法能够应对外部干扰和建模误差，并达到Nash均衡，实现博弈协同围捕。

可选的，在所述的多无人艇追逃博弈控制方法中，还包括：

根据避障、追踪、环绕、控制量消耗设置奖励函数；

使用互惠速度障碍法设置避障奖励，同时处理其它静态、动态障碍物的避障问题；

使用势能函数设置追踪奖励和环绕奖励，势能函数在阈值距离内，避障需求时停止势能增长。

可选的，在所述的多无人艇追逃博弈控制方法中，还包括：

在多无人艇追逃博弈中，将每一个追击者设定为一个子系统；

以该子系统的观测器作为跟随者处理外部干扰和建模误差等在内的不确定性；

基于强化学习设计该子系统的控制器，形成领导者；

通过观测器增强基于强化学习设计的领导者与环境的交互，提高控制性能，反之利用控制性能的提升提高观测器的观测性能；

根据该过程，建立领导者与跟随者之间的序贯博弈图；

逃逸无人艇策略采用固有模型与策略。

可选的，在所述的多无人艇追逃博弈控制方法中，还包括：

步骤一：根据常规无人艇摇摆、偏航、滚转运动方程：

其中v_i(t),r_i(t),ψ_i(t),p_i(t),φ_i(t),u_i(t)且f_ψi(t),f_φi(t)分别表示为第i个跟随无人艇的摇摆速度、偏航速度、偏航角、滚转速度、滚转角、方向舵偏角以及未知不确定性，ζ,ω_n表示为阻尼比和自然频率，T_v,T_r表示为时间常数，K_dv,K_dr,K_vr,K_dp,K_vp表示为无人艇系统增益；

步骤二：根据步骤中i个跟随无人艇的摇摆、偏航、滚转运动方程，定义跟随无人艇动态方程的系统状态x_i(t)，角度传感器测输出y_i(t)、波浪，风扰等其他因素引起的未知不确定性f_i(t)分别为x_i(t)＝[v_i(t)r_i(t)ψ_i(t)p_i(t)φ_i(t)]^T,y_i(t)＝[ψ_i(t)φ_i(t)]^T,f_i(t)＝[f_ψi(t)f_φi(t)]^T，得无人艇跟随动态方程表示如下：

将各无人艇子系统的动态方程简写为：

步骤三：设计无人艇子系统i的观测器，具体为：

其中L为观测器参数矩阵；

系统误差

可选的，在所述的多无人艇追逃博弈控制方法中，还包括：

步骤四：为形成完整的序贯博弈过程，引入一个辅助控制律vi，使得观测器与控制器形成非协作博弈，设计如下观测器以改进步骤三中观测器的设计：

引入如下的性能指标函数来优化观测器性能:

其中u_i ^TGv_i一项代表子系统i对子观测器i的影响，且Q,R,G是对称正定矩阵，用于调节性能指标函数中各约束的之间的权重比。

可选的，在所述的多无人艇追逃博弈控制方法中，还包括：

步骤五：在追击者的序贯博弈决策中，需要首先考虑追击者i子观测器的最优响应，假定子系统i的控制律u_i在博弈开始时首先初始化为容许控制，并引入如下的子观测器哈密顿函数：

其中

是性能指标对

的偏导数；

最优的性能指标

的值满足哈密顿-雅可比(HJ)等式：

求解等式(10)的必要条件是

理想情况下

此时

使用自适应动态规划求解，得最优的辅助控制律为：

将式(12)代入到式(10)所示的哈密顿-雅可比(HJ)等式中：

可选的，在所述的多无人艇追逃博弈控制方法中，还包括：

步骤六：在第五步的基础上，引入如下追击者子系统i基于强化学习的控制领导者优化目标函数：

设计控制律

使得下式成立：

其中

一项减小控制量的消耗，

一项引入辅助控制律，以形成完整的序贯非协作博弈；δ_i是奖励函数，由三部分组成：分别为起局部避障作用的

起追踪逃逸者作用的追踪势能

以及起环航包围作用的环绕势能

L、I是对称正定矩阵，k₀、k₁、k₂为正的超参数，考虑到在追上逃逸者之后再进行围捕，k₁应当略大于k₂；

式(17)中，v_t表示当前速度，通过判断v_t是否属于互惠速度障碍法区域，从而奖励不同；

a,b,c,d,e,f是调节策略性能的恒定值，diff_v表示当前无人艇的速度和期望速度的差值，ξ为当前速度下，与障碍物发生碰撞的预期最短时间；

对于式(18)和式(19)，d_ie,d_e0分别是当前追逐者与逃逸者之间的实际距离与期望距离，ε为可调的超参数；如果d_ij<α，则视为智能体之间发生了碰撞，α是一个小的正常数；所以不会出现d_ij＝0的情况，同理不会出现d_ie＝0的情况；b_ij是指示函数，如式(20)所示，其中d_range表示环航势能的作用距离，且d_range<d_e0/m，m>1为常数；意味着：以当前追捕者为圆心，d_range为半径的区域，当前追捕者仅与此区域内的其他追捕者发生环航围绕的势能作用；

可选的，在所述的多无人艇追逃博弈控制方法中，还包括：

将不等长的环境状态序列转化为等长的状态序列，使用BiGRU双向循环门控单元处理不等长环境状态序列，其中

表示追击者探测范围内探测到的第i个障碍物的状态信息，且o_self表示当前无人艇自身的状态信息，h∈R^mx1表示经由BiGRU提取的第i个追击者探测范围内的环境状态信息；

则可将当前追击者的环境状态信息表示为：

可选的，在所述的多无人艇追逃博弈控制方法中，还包括：

步骤八：使用强化学习设计控制器，强化学习算法框架采用近似策略优化算法，根据式(14)的损失函数，定义如下的动作价值函数：

在时间间隔(t,t+h]的局部动作奖励函数可定义为：

h为每次采样的时间间隔，设

当h→0时，近似有式(24)成立：

因此定义即时奖励函数如式(24)所示，则折扣回报G_t如式(25)所示，其中γ是折扣系数：

G_t＝R_t+γR_t+1+γ²R_t+2+γ³R_t+3+… (50)

记当前无人艇的状态为

动作为u，策略为π。动作价值函数Q-value和状态价值函数V-value为：

Q^π(s_t,u_t)＝E_π(G_t|S_t＝s_t,U_t＝u_t) (51)

V^π(s_t)＝E_π(G_t|S_t＝s_t) (52)

已知系统状态方程、即时奖励函数，以及状态s_t和动作u_t信息，根据强化学习中的近似策略优化算法，对价值函数和策略函数进行拟合，并通过策略网络给出最优控制u_t；

步骤九：基于步骤八中产生的子系统的最优控制律

在步骤五中引入

并最小化性能指标得到最优的辅助控制律

并重复此序贯博弈过程，从而完成对逃逸者的追击围捕。

本发明的发明人通过研究发现，当前使用强化学习算法完成无人艇的追逃任务时，多未考虑环境不确定性，如风扰、浪扰，以及建模不确定性带来的误差，使得设计的算法难以落地应用。

其次，在使用模型依赖的纯粹控制算法处理追逃任务时，经常遇到欠驱动、非线性等困难，最优控制律往往难以求解。

另外，现有的强化学习控制技术，往往以控制目标(效果)为导向，很少考虑控制能量的消耗问题，在实际应用中，耗能最少的控制策略设计及求解仍待进一步研究。

最后，当前在追逃问题中奖励函数的设计多基于无人艇的绝对位置，未考虑相对速度、加速度等带来的碰撞风险，制约了控制效果的进一步提升，同时还需要大量的离线与在线训练。

基于以上洞察，本发明提供了一种多无人艇追逃博弈控制方法，通过在追击方的控制算法中引入序贯决策，进行“自我博弈”：面对外部干扰及系统不确定性等的未知因素，观测器是一类有效解决问题的方法，引入观测器来解决该未知因素，而后，辅助控制器提高控制效果，解决了使用强化学习算法进行追逃博弈时，由强化学习的“试错-纠正”特性带来的不确定性难以处理、算法策略难以实际应用的问题。

附图说明

图1是本发明一实施例的领导者与跟随者之间的序贯博弈示意图；

图2是本发明一实施例的基于强化学习的追击者控制算法流程图示意图；

图3是本发明一实施例的式(18)势能函数图像示意图；

图4是本发明一实施例的无人艇对障碍物的探测示意图；

图5是本发明一实施例的提取环境特征示意图；

图6是本发明一实施例的利用PPO算法输出动作u_t示意图；

图7是本发明一实施例的序贯决策工作流程示意图。

具体实施方式

下面结合具体实施方式参考附图进一步阐述本发明。

应当指出，各附图中的各组件可能为了图解说明而被夸大地示出，而不一定是比例正确的。在各附图中，给相同或功能相同的组件配备了相同的附图标记。

在本发明中，除非特别指出，“布置在…上”、“布置在…上方”以及“布置在…之上”并未排除二者之间存在中间物的情况。此外，“布置在…上或上方”仅仅表示两个部件之间的相对位置关系，而在一定情况下、如在颠倒产品方向后，也可以转换为“布置在…下或下方”，反之亦然。

在本发明中，各实施例仅仅旨在说明本发明的方案，而不应被理解为限制性的。

在本发明中，除非特别指出，量词“一个”、“一”并未排除多个元素的场景。

在此还应当指出，在本发明的实施例中，为清楚、简单起见，可能示出了仅仅一部分部件或组件，但是本领域的普通技术人员能够理解，在本发明的教导下，可根据具体场景需要添加所需的部件或组件。另外，除非另行说明，本发明的不同实施例中的特征可以相互组合。例如，可以用第二实施例中的某特征替换第一实施例中相对应或功能相同或相似的特征，所得到的实施例同样落入本申请的公开范围或记载范围。

在此还应当指出，在本发明的范围内，“相同”、“相等”、“等于”等措辞并不意味着二者数值绝对相等，而是允许一定的合理误差，也就是说，所述措辞也涵盖了“基本上相同”、“基本上相等”、“基本上等于”。以此类推，在本发明中，表方向的术语“垂直于”、“平行于”等等同样涵盖了“基本上垂直于”、“基本上平行于”的含义。

另外，本发明的各方法的步骤的编号并未限定所述方法步骤的执行顺序。除非特别指出，各方法步骤可以以不同顺序执行。

以下结合附图和具体实施例对本发明提出的多无人艇追逃博弈控制方法作进一步详细说明。根据下面说明，本发明的优点和特征将更清楚。需说明的是，附图均采用非常简化的形式且均使用非精准的比例，仅用以方便、明晰地辅助说明本发明实施例的目的。

为实现上述目的，本发明提供了一种多无人艇追逃博弈控制方法，包括：无人艇追逃时，在追击方的控制算法中引入序贯决策，进行“自我博弈”；观测器根据控制器给出的最优控制，解算观测器的最优响应，以逼近追击方群体中的外部干扰及系统不确定性；以及控制器接收观测器的最优响应，根据所述最优响应重新解算追击方的最优控制，如此交替进行，形成序贯决策。

图1～7提供了本发明的实施例，本发明解决了使用强化学习算法进行追逃博弈时，由强化学习的“试错-纠正”特性带来的不确定性难以处理、算法策略难以实际应用的问题。

无人艇追逃任务中，在追击方的控制算法中引入序贯决策，进行“自我博弈”：面对外部干扰及系统不确定性等的未知因素，观测器是一类有效解决问题的方法。在本专利中，引入观测器来解决该未知因素，而后，辅助控制器提高控制效果。观测器方首先根据控制器给出的最优控制，解算出观测器方的最优响应，用以逼近追击方群体中存在的不确定性。之后，控制器接收到观测器的最优响应信息，并在此基础上重新解算追击方的最优控制，如此交替进行，形成序贯决策。在执行追逃任务时，序贯博弈方式的引入能够提高追击方的群体协作能力，从而增加追捕的成功率，减小追捕包围所需要的时间，且追捕过程更加平稳，具有更优的性能。

观测器和强化学习的博弈协同设计：综合利用观测器和强化学习控制的优点，以观测器作为跟随者处理环境不确定性；以强化学习为控制器，形成领导者。通过观测器与控制器的序贯博弈，使得设计的算法能够应对外部干扰、建模误差等不确定性因素，并达到Nash均衡，实现博弈协同围捕的目标。

更优的强化学习算法性能：由于观测器的引入，使得智能体能够不完全依赖于实际环境的观测数据，并能够产生基于模型的数据，在获得足够训练数据的同时，避免了与实际环境直接交互带来的危险性，从而保障强化学习算法的训练以及性能。

奖励函数的设计综合考虑避障、追踪、环绕、控制量消耗：使用互惠速度障碍法(Reciprocal Velocity Obstacle)RVO设计避障奖励。基于RVO的特性，设计的避障算法比传统的势能避障方法具有更优的性能，且不仅能避免和其它无人艇发生碰撞，而且可以同时处理其它静态、动态障碍物的避障问题；使用势能函数设计追踪和环绕的奖励，设计的势能函数能在较近距离，避障需求时停止势能增长。从而使得三部分奖励合理分配作用区域；由于在奖励函数的设计中考虑了控制量的消耗问题，使得设计的算法能兼顾资源节约。

在多无人艇追逃博弈中，将每一个追击者设定为一个子系统。以该子系统的观测器作为跟随者处理环境不确定性；同时，基于强化学习来设计该子系统的控制器，形成领导者。通过观测器这一跟随者增强基于强化学习设计的控制领导者与环境的交互，提高控制性能，反之，控制性能的提升能够提高观测器跟随者的观测性能。根据该过程，建立如下的领导者(子系统)与跟随者(子观测器)之间的序贯博弈图(如图1所示)。图2为设计的基于强化学习的追击者控制算法流程图，同时，逃逸无人艇策略采用固有模型与策略。

步骤一：根据常规无人艇摇摆、偏航、滚转运动方程：

其中v_i(t),r_i(t),ψ_i(t),p_i(t),φ_i(t),u_i(t)且f_ψi(t),f_φi(t)分别表示为第i个跟随无人艇的摇摆速度、偏航速度、偏航角、滚转速度、滚转角、方向舵偏角以及未知不确定性，ζ,ω_n表示为阻尼比和自然频率，T_v,T_r表示为时间常数，K_dv,K_dr,K_vr,K_dp,K_vp表示为无人艇系统增益。

步骤二：根据步骤中i个跟随无人艇的摇摆、偏航、滚转运动方程，定义跟随无人艇动态方程的系统状态x_i(t)，角度传感器可测输出y_i(t)、波浪，风扰等其他因素引起的未知不确定性f_i(t)分别为x_i(t)＝[v_i(t)r_i(t)ψ_i(t)p_i(t)φ_i(t)]^T,y_i(t)＝[ψ_i(t)φ_i(t)]^T,f_i(t)＝[f_ψi(t)f_φi(t)]^T，可得无人艇跟随动态方程表示如下：

为了便于后续的阐述，本发明将各无人艇子系统的动态方程简写为：

步骤三：设计无人艇子系统i的观测器，具体为：

其中L为观测器参数矩阵；

系统误差

步骤四：为形成完整的序贯博弈过程，引入一个辅助控制律v_i，使得观测器与控制器形成非协作博弈，进而，设计如下观测器以改进步骤三中观测器的设计：

同时，引入如下的性能指标函数来优化观测器性能:

其中u_i ^TGv_i一项代表子系统i对子观测器i的影响,且Q,R,G是对称正定矩阵，用于调节性能指标函数中各约束的之间的权重比。

步骤五：在追击者的序贯博弈决策中，需要首先考虑追击者i子观测器的最优响应(辅助控制律)，假定子系统i的控制律u_i在博弈开始时首先初始化为容许控制，并引入如下的子观测器哈密顿函数：

其中

是性能指标对

的偏导数。

最优的性能指标

的值满足哈密顿-雅可比(HJ)等式：

求解等式(10)的必要条件是

理想情况下

此时

使用ADP(自适应动态规划，一种根据性能指标求解最优控制律的方法)求解，可得最优的辅助控制律为：

将式(12)代入到式(10)所示的哈密顿-雅可比(HJ)等式中：

设计控制律

使得下式成立：

其中

一项是为了减小控制量的消耗，

一项引入了辅助控制律，以形成完整的序贯非协作博弈。δ_i是奖励函数(定义为越小越好)，由三部分组成：分别为起局部避障作用的

起追踪逃逸者作用的追踪势能

以及起环航包围作用的环绕势能

(即让追捕者在逃逸者周围围成一圈)，L、I是对称正定矩阵，k₀、k₁、k₂为正的超参数，考虑到在追上逃逸者之后再进行围捕，k₁应当略大于k₂。

式(17)中，v_t表示当前速度，通过判断v_t是否属于RVO区域(速度域)，从而奖励有所不同，RVO(互惠速度障碍法)是一种避障算法，它能同时考虑当前智能体的位置和相对速度，因此在避障算法中具有良好的表现，本发明根据RVO设计避障部分的奖励函数。a,b,c,d,e,f是可以调节策略性能的恒定值，diff_v表示当前无人艇的速度和期望速度的差值，ξ为当前速度下，与障碍物发生碰撞的预期最短时间。对于式(18)和式(19)，d_ie,d_e0分别是当前追逐者(子系统)与逃逸者之间的实际距离与期望距离，ε为可调的超参数。如果d_ij<α，则视为智能体之间发生了碰撞，α是一个小的正常数。所以不会出现d_ij＝0的情况，同理不会出现d_ie＝0的情况。b_ij是指示函数，如式(20)所示，其中d_range表示环航势能的作用距离，且d_range<d_e0/m，m>1为常数。意味着：以当前追捕者为圆心，d_range为半径的区域，当前追捕者仅与此区域内的其他追捕者发生环航围绕的势能作用。

接下来具体解释奖励函数的三个部分：

起避障作用的RVO奖励函数

RVO放弃危险速度的设定可以很大程度上保证智能体之间不会发生碰撞，且该部分会与另外两个势能交叉起作用，能进一步约束较近距离的避障问题，随着智能体之间的距离变远，RVO的作用越来越小，此时主要是另外两个势能函数在起作用。

起追踪逃逸者作用的追踪势能

它的作用是拉近当前追捕者和逃逸者之间距离，直到保持在一个期望距离d_e0(此时势能为0)。式(18)的函数图像如图3所示(取d_e0＝5)：在大于5的部分：势能几乎是沿着y＝x线性增长的，这样即可以避免归一化，也可以避免因势能过大导致训练困难。因为在两个智能体较远时，比如初始化时刻，追捕者与逃逸者有比较大的距离，此时势能较大，归一化后，这部分差距会变得很小，若此时追捕者和逃逸者缩短距离，得到的奖励比上一时刻增长的很小或者几乎不增加，再加上3部分的奖励函数互相交叠的作用，其实就可以视奖励为不增长，那么就不会鼓励逃逸者靠近追捕者。在小于5的部分：在(ε,5)区间由本部分的势能函数和RVO奖励共同约束，使得两个智能体距离不至于太近。但若两个智能体的距离接近到了一定程度，即(0,ε)区间，则在原势能停止增长，使用RVO奖励单独约束，避免两部分奖励的过度交叠。(在近距离的时候，多个奖励函数一起作用、相互交叠，且此时的势能增长还比较迅速，会带来未知的因素和训练困难。因此人为指定一个作用距离ε，当两个智能体之间的距离缩小到ε时，势能不再增长，而保持一个恒值，此时由RVO单独起作用。)

起包围作用的环航势能

大体和第2点的追踪势能一致，区别在于引入了指示函数：约束当前追捕者只需要与左右邻居进行协同，完成围绕功能。

步骤七：考虑到起避障作用的RVO奖励一项：每个追击者周围的障碍物(其他无人艇)数量不固定，如图4所示：左侧为情况1，探测范围内两个障碍物，右侧为情况2，探测范围内三个障碍物。强化学习算法中的神经网络框架无法处理不等长的环境状态序列(每次送入同一神经网络的序列，且长度不一致)，需要先将不等长的环境状态序列转化为等长的状态序列。本算法使用BiGRU双向循环门控单元处理不等长环境状态序列，如图5所示。其中

表示追击者探测范围内探测到的第i个障碍物(其他无人艇，不包括自己)的状态信息(速度信息(v_x,v_y)，位置信息(p_x,p_y))，且o_self表示当前无人艇自身的状态信息(不包括其他无人艇)，h∈R^mx1表示经由BiGRU提取的第i个追击者探测范围内的环境状态信息(即，当前无人艇一定范围内的障碍物总体特征)。

则可将当前追击者的环境状态信息表示为：

步骤八：使用强化学习设计控制器，强化学习算法框架采用PPO(近似策略优化算法，一种强化学习算法，具有优良性能的同时兼具很好的平稳性。通过一段时间的训练，可使得算法采用的神经网络具备以下功能：根据输入的状态信息，输出在该状态下能使得被控对象达到预期目标的最佳动作)，根据式(14)的损失函数，定义如下的动作价值函数：

在时间间隔(t,t+h]的局部动作奖励函数可定义为：

h为每次采样的时间间隔，设

当h→0时，可近似有式(24)成立：

因此可定义即时奖励函数如式(24)所示，则折扣回报G_t如式(25)所示，其中γ是折扣系数：

G_t＝R_t+γR_t+1+γ²R_t+2+γ³R_t+3+… (77)

记当前无人艇的状态为

Q^π(s_t,u_t)＝E_π(G_t|S_t＝s_t,U_t＝u_t) (78)

V^π(s_t)＝E_π(G_t|S_t＝s_t) (79)

如图6所示，已知系统状态方程(环境)、即时奖励函数，以及状态s_t和动作u_t信息，可根据强化学习中的PPO算法，对价值函数和策略函数进行拟合，并通过策略网络给出最优控制u_t。

步骤九：如图7所示，基于步骤八中产生的子系统的最优控制律

在步骤五中引入

并最小化性能指标得到最优的辅助控制律

并重复此序贯博弈过程，从而完成对逃逸者的追击围捕。

综上，上述实施例对多无人艇追逃博弈控制方法的不同构型进行了详细说明，当然，本发明包括但不局限于上述实施中所列举的构型，任何在上述实施例提供的构型基础上进行变换的内容，均属于本发明所保护的范围。本领域技术人员可以根据上述实施例的内容举一反三。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

上述描述仅是对本发明较佳实施例的描述，并非对本发明范围的任何限定，本发明领域的普通技术人员根据上述揭示内容做的任何变更、修饰，均属于权利要求书的保护范围。