CN112671865A

CN112671865A - 一种基于sdn的物联网微服务自动编排方法

Info

Publication number: CN112671865A
Application number: CN202011482133.9A
Authority: CN
Inventors: 吴玉芹; 李顺斌; 吴春明
Original assignee: Zhejiang Lab; Ningde Normal University
Current assignee: Zhejiang Lab; Ningde Normal University
Priority date: 2020-12-16
Filing date: 2020-12-16
Publication date: 2021-04-16

Abstract

本发明公开了一种基于SDN的物联网微服务自动编排方法，首次将物联网的微服务自动编排问题与SDN和强化学习结合，提出基于SDN控制器模块实施强化学习，并采用AC框架的PPO算法生成最优动作策略，物联网上的每一个节点都可以看成微服务里的一个模块，实现网络业务的智能调度。强化学习通过不断学习环境的动态变化特征，逐渐探索以最优化为完成目的的策略方式。

Description

一种基于SDN的物联网微服务自动编排方法

技术领域

本发明涉及物联网技术领域，尤其是涉及一种基于SDN的物联网微服务自动编排方法。

背景技术

传统物联网平台体系架构存在性能瓶颈、单点故障、紧耦合性。传统服务发现在服务匹配过程中存在二义性问题，即不同词汇表达相同的意思。物联网微服务框架下业务流程柔性多变。由于物联网设备资源受限，节点设备的不稳定性以及网络环境的动态变化将导致事先绑定好的服务不可用。面对物联网行业的迅猛发展，感知层接入的数量日渐增多，种类丰富多样，方式灵活多变；由于底层服务激增，传输层达到性能瓶颈，单个的数据中心已无法支撑起整个架构；应用层单个服务提供域无法满足用户差异化需求，且仅开放服务接口的服务提供方式无法真正帮助用户缩短开发周期，降低开发成本。在异构物联网设置中，不同的用户定义服务可能在给定的共享空间中同时运行，它们通常共享相同的感知/网络资源，在可靠性(丢包)、延迟、抖动和带宽方面的质量要求不同。考虑到物联网服务的随机性，这些应用程序的开发、部署和触发往往不协调。迫切需要对垂直服务可以横向交叉的服务，这就要求物联网能够对微服务进行自动编排。

现有的微服务架构通过将一个块状服务程序拆分成一系列的微服务，微服务间通过API的方式进行通信，虽然在服务的开发和后期维护管理上降低了总体的运营成本，但其对于整体服务会产生性能影响；虽然微服务为程序开发提供了极强的灵活性和移植性，但其引入的开销也是不容忽视的。而微服务中频繁的升级变动也会为服务引入兼容性、一致性等问题。特别是微服务的部署，在传统的方法中是由反复实验和试错来进行权衡的，缺少系统的方法，定制差异化服务能力也不足，难以体现业务综合性特点。在物联网微服务架构场景中，技术业务流程驱动服务组合方法将不再适用。随着物联网节点的增多，服务也随之增多，编排成了一项挑战。

发明内容

为解决现有技术的不足，实现服务的可靠性与稳定性的自动编排目的，本发明采用如下的技术方案：

一种基于SDN的物联网微服务自动编排方法，包括如下步骤：

S1，智能调度体通过SDN控制器与环境接口、调度接口连接，获取对环境的向量表征并对网络进行智能调度，环境接口的定义是通过环境接口采集网络特征向量，调度接口的定义包括reward设定、动作设定和策略算法设定；数据采集组件从物联网多网环境中采集网络设备信息并存储到数据库中，SDN控制器的任务资源匹配组件将任务请求映射到多项网络中的现有资源，采用微服务分层方法，任务资源匹配组件进一步细化每个资源解决方案，将大数据集划分为子数据集，一个子数据集对应一类任务，即微服务，通过SDN控制器上的策略来决定采用的解决方案及其进一步的优化，任务通过单个服务或一个服务工作流来实现，较低层的流和网络层的决策通过通信和控制层发送到相应的设备，采用微服务分层方法，可以弥合抽象物联网任务描述和低层网络设备规范之间的语义鸿沟，使用语义技术(本体和规则)来描述网络和设备资源以及服务的特征和能力，物联网任务作为分层语义任务描述，其中通过序列或低级别任务的替代来细化高级别任务，这种分层视图隐藏了较低层网络和设备的细节，可以更灵活的方式完成任务；此外，独立的抽象级别允许将专用算法指定到特定的层，以提高性能，使SDN控制器作为物联网的编排器完成物联网的自动编排服务成为可能；而SDN作为网络架构，消除了传统网络中存在的刚性，使网络具有更强的适应性和灵活性，它的集中设计可以从网络中收集重要信息，用于动态地改进和调整他们的策略；虽然SDN控制器在逻辑上是集中的，但通过在不同的位置以微服务方式多次实例化，提高了SDN控制器的可伸缩性。

S2，actor根据初始policy向物联网环境实施动作，采用基于AC框架的PPO算法的目标函数表示为：

其中，J(θ)′表示优化强化学习参数的目标函数，θ表示强化学习参数，E_{a～π(θ)′}表示在下一个网络状态分布条件下的执行动作收获的期望值，π(θ)表示当前策略分布，π(θ)′表示下一个时刻的策略分布，A_π(θ)′表示下一个时刻的策略分布对应的动作函数，s_t表示t时刻的网络状态，a_t表示t时刻的动作，t表示当前时刻，β表示目标函数参数，KL表示KL散度，

表征了新策略与上一次的旧策略之间的分布差异，从而保证了新策略尽可能不会与旧策略发生较大的变动，同时增加了约束项，约束项通过在函数中设置π(θ)，π(θ)′分布之间的KL散度，将尽可能减小新旧策略之间的差异；

S3，根据环境变化继续实施动作，critic根据每次动作导致的网络变化计算reward，直到一条trajectory完成后，根据最优目标函数更新critic神经网络和actor神经网络的参数；更新的参数将有利于actor在下次实施动作的时候更有利于完成目标任务；

S4，参数更新后，actor由物联网环境特征输出动作的函数得到更新，critic根据动作、物联网环境特征计算reward的函数也将得到更新，将新旧策略的比值记为r_t(θ)，于是目标函数表示为：

1-ε≤clip(r_t(θ),1-ε,1+ε)≤1+ε

相较J(θ)′，J(θ)在实际操作中，更便于实现，clip(r_t(θ),1-ε,1+ε)表示新旧策略的比值大于1+ε时，会把值限定在1+ε，小于1-ε时会限定在1-ε，ε表示超参数；

S5，此后，actor、critic交替优化，直至目标函数优化完成。

进一步的，采用基于AC框架的TD3算法。通过实验对比，TD3算法的收敛性最优，在均达到收敛后，TD3的reward值最高，即TD3在稳定状态下的性能最好，因此，基于TD3的强化学习更适用于物联网环境下的只能业务编排。

进一步的，将TD3算法中的DQN改成DDQN，用于解决过高估计真实的最大Q值，导致次优的策略更新和发散行为的问题，在DDPG的基础上做优化，一共设有6个网络，分别是value network1、value network2、policy network、target value network1、targetvalue network2以及target policy network，对于计算策略神经网络参数更新时，只通过value network1进行估计计算，为TD3学习2个Q网络，计算Q Target时直接使用2个网络中更小的那个，如果Q过估计，Target Q’会给出一个合理的值，如果Q’过估计，那对应的action不会被Q选中，从而防止Q过估计。

进一步的，所述TD3算法采用延迟策略更新：每两次Q网络更新，更新一次Policy神经网络，delayed的更新：

θ′←τθ+(1-τ)θ′

θ表示当前网络的参数，θ′表示更新后的目标网络参数，τ表示当前参数值占的比例，1-τ表示目标网络参数值占的比例。Target Network更新也是采用软更新，而且TD3更新Policy神经网络(和target神经网络)的频率低于Q网络，因此延迟更新效果反而更好。

进一步的，所述TD3算法采用目标策略平滑：在Target policy上增加randomnoise，用于实现相似的action有相似的Q value，从而得到更加平滑的效果，也是为了提升其exploration的能力。

进一步的，所述SDN控制器还包括Admin/Analyst API，使控制过程不仅由控制器本身控制，而且由人或外部程序控制。

进一步的，所述步骤S2中，actor神经网络和critic神经网络都使用多层MLP，优化器使用adam，每一层之间使用tanh作为激活函数。

进一步的，所述步骤S2中，通过用截断项代替KL散度，以减小计算开销，同时获得较好的收敛效果。

进一步的，所述步骤S4中，所述ε取0.2。

本发明的优势和有益效果在于：

本发明针对服务开放能力不足，无法满足服务请求者多元差异化的定制需求的特征，将物联网SDN控制器整合并支持命令，以区分服务级、多跳和异构的自组织路径上的流调度，利用强化学习对异构物联网的微服务差异化动态管理提供优化，保证服务提供的可靠性与稳定性。用户快速匹配高质量的精准服务并组合成复合服务满足用户定制化需求，缩短用户开发周期、降低运营成本。

附图说明

图1是本发明中物联网微服务自动编排框架图。

图1a是本发明中具体的自动编排框架图。

图2是本发明中与调度模块交互的网络环境定义图。

图3a是本发明中Actor网络的交互关系图。

图3b是本发明中critic网络的交互关系图。

图4是本发明的与调度模块交互的网络环境示意图。

图5a是本发明中三种强化学习算法在流量智能调度上的性能对比图。

图5b是本发明中强化学习算法与非强化学习算法在流量智能调度上的性能对比图。

图5c是本发明中TD3算法对于网络负载的影响时序变化图。

图6是本发明中三种强化学习算法与非强化学习算法在流量智能调度上的性能对比图。

具体实施方式

以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是，此处所描述的具体实施方式仅用于说明和解释本发明，并不用于限制本发明。

传统的物联网架构支持有限以及固定的网络计算，这些约束限制了灵活而简装的物联网节点通信。此外，由于处理的限制，通信节点的能耗很高。为了解决这些问题，提出的主动网络框架将主动系统与最新技术SDN(Software-Defined Network，软件定义网络)进行了全新的集成。最新的技术与系统的结合将促进灵活的物联网节点通信，并降低能源消耗。此外，系统还将具有安全性、灵活性、可用性、成本低等多方面的设计优势。它可以扩展到其他网络，如移动、卫星和车辆网络。

物联网自动编排框架，如图1所示，物联网底层设备比较复杂，包括手机、电脑、手环、无线传感器等。数据采集组件从物联网多网环境中采集网络设备信息并存储到数据库中。然后，左侧的分层组件将利用这些信息。控制器还公开了Admin/Analyst API，它使控制过程不仅由控制器本身控制，而且由人或外部程序控制。虽然控制器在逻辑上是集中的，但为了提高可伸缩性，可以在不同的位置以微服务方式多次实例化它。任务是定义需求的物联网多网络中最高层次的抽象；这样就可以选择应该利用哪些应用程序、设备和通信网络来完成所需的任务，任务可以通过单个服务或一个服务工作流来实现。任务映射模块指定应该使用哪些设备和应用程序来完成任务。较低层的流和网络层决定应该将哪些网络用于应用程序流，以及应该如何在网络上路由应用程序流。这些决策将通过通信和控制层发送到相应的设备，这种分层视图有很多好处，因为它隐藏了较低层网络和设备的细节，因此可以更灵活的方式完成任务。此外，独立的抽象级别允许将专用算法指定到特定的层，以提高性能。

控制器的服务(任务)资源匹配组件将服务(任务)请求映射到多项网络中的现有资源。物联网微服务自动编排控制器，关于资源的各种功能及其提供的服务的信息存储在设备和服务数据库中。服务(任务)资源匹配组件然后进一步细化每个资源解决方案，这里我们把大的数据集划分开子数据集，一个子数据集对应一类任务，也就是微服务，如图1a所示，这些任务的资源解决方案(或者简称为解决方案)，可以通过控制器上的自动化策略或通过循环中的人工来解决和优化，即这将决定控制器将采用哪种解决方案并进一步优化它。SDN控制器可以作为物联网的编排器完成物联网的自动编排服务。

SDN是一种网络架构，它消除了传统网络中存在的刚性，使网络具有更强的适应性和灵活性。此外，它的集中设计可以从网络中收集重要信息，用于动态地改进和调整他们的策略。通过调用SDN控制器和Kubernetes相关容错接口来验证微服务部署是否异常，通过自定义定时任务，编写任务脚本，来检验微服务功能是否正常。从而实现服务故障发现、异常和错误检测等功能。在较低的设备级别，使用SDN技术来支持管理无线传感器网络、有线网络等物联网的策略。采用微服务分层方法，可以弥合抽象物联网任务描述和低层网络设备规范之间的语义鸿沟。使用语义技术(本体和规则)来描述网络和设备资源以及服务的特征和能力；物联网任务作为分层语义任务描述，其中通过序列或低级别任务的替代来细化高级别任务。

微服务是具有单一职责的小型应用程序，可以独立地部署、扩展和测试。微服务体系结构是设计软件编排和编排这些独立可部署服务的一种特殊方式。这种结构的共同优点是分散控制和数据管理、自动化部署和演化设计。它的智能断电和转储管道方法使应用程序高度解耦和内聚，专注于它们自己的域逻辑，并充当过滤器，接收请求、应用域逻辑并生成响应。

物联网框架将其大部分功能作为服务提供，以开发具有服务体系结构所有优点的物联网应用和服务。首先，物理设备，如传感器、执行器和计算节点，将其功能作为微服务提供。其次，微服务对物联网框架提供的不同功能进行抽象，如设备发现。最后，用户可以可视化地编写自己特定领域的微服务和声明式查询，以避免设备和应用程序之间的耦合。

将微服务体系结构用于物联网场景，它的进化谁促进了微服务的替换和升级，适合解决物联网环境中物理变化所需的适应性，分散的治理又是允许为每个微服务使用不同的技术和编程语言，支持物联网应用程序中现有的异构性。它的故障设计考虑到任何微服务都可能由于供应商的不可用而失效，就像在分布式物联网系统中发生的那样，为应用程序提供了更大的弹性。最后，智能断电和转储管道方法允许终端用户使用编排和编排工具创建应用程序。因为最终用户知道智能端点的逻辑，所以他们可以使用可视化抽象来为特定的目的编排现有的微服务。

对于物联网来说，物联网上的每一个节点都可以看成服务里的一个模块，由于物联网节点处理能力有限，每个服务模块在物联网这个大系统里都只承担一个简单的服务，节点与节点之间像多个微服务一样，通过标准的网络协议通信，听过微服务架构设计，可以将海量的物联网节点管理起来，并将整个物联网的功能以服务的形式分散到每个节点上。

基于SDN的物联网微服务自动编排方法包括以下步骤：

(1)智能调度体通过SDN控制器与网络交互(调度)接口、环境接口获取对环境的向量表征，如图2所示。

环境接口定义：智能调度体通过环境接口获取对环境的向量表征。例如，对边缘交换机采集网络特征，包括边缘交换机端口上的收发数据包大小，收发字节大小，以及通过交换机流的条数，流上数据包之和，字节数之和。网络特征向量表示为30维度的向量，具体地：S1每个端口收到的数据包个数，S1每个端口发出的数据包个数，S1每个端口收到的字节数，S1每个端口发出的字节数，通过S1流的条数，流上数据包之和，字节数之和；S2每个端口收到的数据包个数，S2每个端口发出的数据包个数，S2每个端口收到的字节数，S2每个端口发出的字节数，通过S1流的条数，流上数据包之和，字节数之和。

调度接口定义：

reward设定：-[(s1h1时延*s1h1可用带宽)+(s1h2时延*s1h2可用带宽)+(s1h3时延*s1h3可用带宽)+(s1h4时延*s1h4可用带宽)]/4；

动作设定：动态调整s1和s2的带宽分配；

策略算法：基于AC(Actor-Critic)框架的算法实施强化学习，生成最优动作策略，实现网络业务的智能调度。

(2)actor根据初始policy向物联网环境实施动作，具体为：

(2.1)在value-based体系中，强化学习即通过学习值函数(value function)或者动作值函数(action-value function)来得到policy。

(2.2)在policy-based体系中，直接对policy进行建模和学习，因此也称为policyoptimization。

(2.3)在AC框架中，actor负责policy gradient学习策略，利用policy-based方法更新策略，输出最优动作；而critic负责策略评估，利用value-based方法估计valuefunction(即Q(s，a)，Q是价值函数的固定表示形式，表示Q是在s状态下，做动作a的价值函数)。一方面actor学习策略，而策略更新依赖critic估计的value function；另一方面critic估计value function，而value function又是策略的函数。plicy和value function互为依赖，相互影响，因此需要在训练过程中给迭代优化，如图3a、3b所示。

(2.4)采用基于AC框架的PPO算法的目标函数表示为：

表征了新策略与上一次的旧策略之间的分布差异，从而保证了新策略尽可能不会与旧策略发生较大的变动，同时增加了约束项。约束项通过在函数中设置π(θ)，π(θ)′分布之间的KL散度，将尽可能减小新旧策略之间的差异。在实际实现中，通过用截断项代替KL散度以减小计算开销，同时获得较好的收敛效果。目标函数从s1 s2等交换机处收集的网络状态，包括数据包个数等作为输入，输出对环境的动作a，即动作设定部分，策略算法即整个强化学习算法。

(3)根据环境变化继续实施动作，critic根据每次动作导致的网络变化计算reward，直到一条trajectory完成后，根据最优目标函数更新critic神经网络和actor神经网络的参数。更新的参数将有利于actor在下次实施动作的时候更有利于完成目标任务。

(4)参数更新后，actor由物联网环境特征输出动作的函数得到更新，critic根据动作、物联网环境特征计算reward的函数也将得到更新。将新旧策略的比值记为r_t(θ)，于是目标函数表示为：

1-ε≤clip(r_t(θ),1-ε,1+ε)≤1+ε

相较J(θ)′，J(θ)在实际操作中，更便于实现，clip(r_t(θ),1-ε,1+ε)表示新旧策略的比值大于1+ε时，会把值限定在1+ε，小于1-ε时会限定在1-ε，ε表示超参数，取0.2。

(5)此后，actor、critic交替优化，直至目标函数优化完成。

进一步的，采用基于AC框架的TD3算法，其中overestimation是有离散动作空间的强化学习，传统的算法如DQN，但值函数会被过高的估计，因为我们对于Q函数的估计会有误差，高于真实的最大Q值，积累的错误会导致任意坏状态被估计为高值，从而导致次优的策略更新和发散行为，为了解决上述问题，将DQN改成DDQN。

在DDPG的基础上做优化，一共设有6个网络，分别是value network1、valuenetwork2、policy network、target value network1、target value network2以及targetpolicy network。对于计算策略神经网络参数更新时，只通过value network1进行估计计算。

(1)为TD3学习2个Q网络，计算Q Target时直接使用2个网络中更小的那个，如果Q过估计，Target Q’会给出一个合理的值，如果Q’过估计，那对应的action不会被Q选中，从而防止Q过估计；

(2)延迟策略更新：Target Network更新也是采用软更新，而且TD3更新Policy神经网络(和target神经网络)的频率低于Q网络，因此建议每两次Q网络更新，更新一次Policy神经网络，所以有delayed的更新：

θ′←τθ+(1-τ)θ′

θ表示当前网络的参数，θ′表示更新后的目标网络参数，τ表示当前参数值占的比例，1-τ表示目标网络参数值占的比例；

(3)目标策略平滑：为了实现相似的action有相似的Q value这一点，在Targetpolicy上增加random noise(实质上是一种正则化，万一有一个不正确的Q尖峰，可以通过action的noise平滑掉)，从而得到更加平滑的效果，也是为了提升其exploration的能力。

实施例一：

强化学习通过不断学习环境的动态变化特征，逐渐探索以最优化完成目的的策略方式，适用于物联网环境下的智能服务编排，系统的网络环境定义如下：

当前假定的网络环境：h1为视频客户端，h2为语音服务器端，h3为视频服务器端，h4为语音客户端，在300s内，h1持续向h3发送大小为B1的流量，在开始时间100s后，h4向h2发送大小为B2的流量，SDN控制器根据工作流描述，实时与网络环境交互，感知网络环境变化，如图4所示。

将初始化链路上的流量随机分配50％到任意可选择的路径上这一策略作为基线(Baseline)方法，与PPO2强化算法进行对比，在Baseline中，对比一种非机器学习的算法，总是将一定比例的流量分给备选路径，从而避免网络过载，这里设定比例为50％。

基于AC框架的PPO2算法实施强化学习，生成最优动作策略，实现网络业务的智能调度。AC框架包括actor表演家网络和critic评论家网络，表演家网络和评论家网络都使用两层隐藏单元个数为64的MLP，优化器使用adam，每一层之间使用tanh作为激活函数，具体参数设置如下：

参数名称	取值	含义
			timesteps_per_actorbatch	256	每个参与者每次更新的时间步长
clip_param	0.2	剪切参数ε
			entcoeff	0.01	熵损失权重
optim_epochs	4	优化器的轮数
			optim_stepsize	0.001	优化器的步长
optim_batchsize	64	优化程序的批量大小
			Gamma	0.99	折扣系数
lam	0.95	优势估计
			adam_epsilon	1e-05	adam优化器的ε值
schedule	‘linear’	时间表类型

通过计算强化学习算法以及一种非强化学习算法，计算训练稳定后的100steps的reward均值，PPO2的0.653优于Baseline的0.346。

实施例二：

基于实施例一的实验环境，增加TD3、DDPG算法，比较各算法在流量智能调度上的性能。

基于AC的TD3算法的表演家网络和评论家网络都使用两层隐藏单元个数为64的MLP，优化器使用adam，每一层之间使用tanh作为激活函数，具体参数设置如下：

基于AC的DDPG算法的飙演技啊网络和评论家网络都使用两层隐藏单元个数为64的MLP，优化器使用adam，每一层之间使用tanh作为激活函数，具体参数设置如下：

参数名称	取值	含义
			batch_size	128	学习策略的批大小
actor_lr	0.0001	表演家网络的学习率
			critic_lr	0.001	评论家网络的学习率
Gamma	0.99	折扣系数

如图5a所示，TD3算法在100轮左右达到收敛，PPO2算法在200轮左右达到收敛，DDPG算法在400轮左右达到收敛，TD3算法收敛性最优。

三种算法都达到稳定收敛后，TD3算法的reward值最高，即整个网络中过载的链路比例最低，这意味着TD3能够更高效地调整流量传输路径，为物联网服务提供保障。

通过计算训练稳定后100setps的reward均值，TD3算法的reward达到0.832，大于PPO2的0.653，DDPG的0.695，及Baseline的0.346，表面采用TD3的方法在稳定状态下的性能表现最好。

如图5b所示，TD3算法的reward值大小与收敛性均优于基线算法，整个网络中过载的链路比例最低，相较基线策略，使用TD3算法能够更高效地调整流量传输路径。

如图5c所示，TD3算法对流量进行分配时，算法达到稳定收敛后，网络拓扑中过载的路径比例在20％以下。

在未开启强化学习智能体时，网络拓扑中共有23条链路，11条路径存在大于链路负载的初始流量，过载的链路占47.8％，如图6所示，当训练到第1000episode时，reward的值为0.817，过载的链路占17.8％，表明基于TD3的强化学习智能体能够学习到调整业务的调用路径以及对应的业务流量比例，适用于物联网环境下的只能业务编排。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。

Claims

1.一种基于SDN的物联网微服务自动编排方法，其特征在于包括如下步骤：

S1，智能调度体通过SDN控制器与环境接口、调度接口连接，获取对环境的向量表征并对网络进行智能调度，环境接口的定义是通过环境接口采集网络特征向量，调度接口的定义包括reward设定、动作设定和策略算法设定；数据采集组件从物联网多网环境中采集网络设备信息并存储到数据库中，SDN控制器的任务资源匹配组件将任务请求映射到多项网络中的现有资源，采用微服务分层方法，任务资源匹配组件进一步细化每个资源解决方案，将大数据集划分为子数据集，一个子数据集对应一类任务，即微服务，通过SDN控制器上的策略来决定采用的解决方案及其进一步的优化，任务通过单个服务或一个服务工作流来实现，较低层的流和网络层的决策通过通信和控制层发送到相应的设备；

表征了新策略与上一次的旧策略之间的分布差异，约束项通过在函数中设置π(θ)，π(θ)′分布之间的KL散度，将尽可能减小新旧策略之间的差异；

S3，根据环境变化继续实施动作，critic根据每次动作导致的网络变化计算reward，直到一条trajectory完成后，根据最优目标函数更新critic神经网络和actor神经网络的参数；

1-ε≤clip(r_t(θ),1-ε,1+ε)≤1+ε

clip(r_t(θ),1-ε,1+ε)表示新旧策略的比值大于1+ε时，会把值限定在1+ε，小于1-ε时会限定在1-ε，ε表示超参数；

S5，此后，actor、critic交替优化，直至目标函数优化完成。

2.如权利要求1所述的一种基于SDN的物联网微服务自动编排方法，其特征在于采用基于AC框架的TD3算法。

3.如权利要求2所述的一种基于SDN的物联网微服务自动编排方法，其特征在于将TD3算法中的DQN改成DDQN，并在DDPG的基础上做优化，一共设有6个网络，分别是valuenetwork1、value network2、policy network、target value network1、target valuenetwork2以及target policy network，对于计算策略神经网络参数更新时，只通过valuenetwork1进行估计计算，为TD3学习2个Q网络，计算Q Target时直接使用2个网络中更小的那个，如果Q过估计，Target Q’会给出一个合理的值，如果Q’过估计，那对应的action不会被Q选中，从而防止Q过估计。

4.如权利要求3所述的一种基于SDN的物联网微服务自动编排方法，其特征在于所述TD3算法采用延迟策略更新：每两次Q网络更新，更新一次Policy神经网络，delayed的更新：

θ′←τθ+(1-τ)θ′

θ表示当前网络的参数，θ′表示更新后的目标网络参数，τ表示当前参数值占的比例，1-τ表示目标网络参数值占的比例。

5.如权利要求2所述的一种基于SDN的物联网微服务自动编排方法，其特征在于所述TD3算法采用目标策略平滑：在Target policy上增加random noise，用于实现相似的action有相似的Q value。

6.如权利要求1或2所述的一种基于SDN的物联网微服务自动编排方法，其特征在于所述SDN控制器还包括Admin/Analyst API。

7.如权利要求1或2所述的一种基于SDN的物联网微服务自动编排方法，其特征在于所述步骤S2中，actor神经网络和critic神经网络都使用多层MLP，优化器使用adam，每一层之间使用tanh作为激活函数。

8.如权利要求1所述的一种基于SDN的物联网微服务自动编排方法，其特征在于所述步骤S2中，通过用截断项代替KL散度。

9.如权利要求1所述的一种基于SDN的物联网微服务自动编排方法，其特征在于所述步骤S4中，所述ε取0.2。