CN113313209A - 一种高样本效率的多智能体强化学习训练方法 - Google Patents

一种高样本效率的多智能体强化学习训练方法 Download PDF

Info

Publication number
CN113313209A
CN113313209A CN202110718305.6A CN202110718305A CN113313209A CN 113313209 A CN113313209 A CN 113313209A CN 202110718305 A CN202110718305 A CN 202110718305A CN 113313209 A CN113313209 A CN 113313209A
Authority
CN
China
Prior art keywords
training
agent
reinforcement learning
network
function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110718305.6A
Other languages
English (en)
Inventor
吴健
宋广华
姜晓红
叶振辉
陈弈宁
王珂
应豪超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110718305.6A priority Critical patent/CN113313209A/zh
Publication of CN113313209A publication Critical patent/CN113313209A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种高样本效率的多智能体强化学习训练方法,包括以下步骤:(1)构建多智能体系统,多智能体系统由多智能体强化学习模型控制;(2)收集多个训练样本并存储到容器中;(3)抽取训练样本,对抽取的训练样本进行数据预处理;(4)采用策略延迟更新的方式训练模型,在更新模型的执行者网络、评价者网络和目标网络时,先更新评价者网络n×d次,再更新执行者网络n次,最后更新目标网络n次;(5)使用最大动作熵和函数平滑的目标函数来训练模型中的策略函数和评价函数;(6)训练完毕后,使用多智能体系统进行应用。利用本发明,可以解决现有多智能体强化学习算法在现实任务中面临的低样本效率、高训练成本的问题。

Description

一种高样本效率的多智能体强化学习训练方法
技术领域
本发明属于多智能体强化学习技术领域,尤其是涉及一种高样本效率的多智能体强化学习训练方法。
背景技术
面对现实世界中日益复杂、规模庞大的群体控制任务,集成的单智能体解决方案越来越面临着资源和条件的限制。多智能体系统是在同一个环境中由多个较为简单的交互智能体组成的系统,该系统常用于解决独立智能体以及单层系统难以解决的复杂问题,相比独立智能体或单层系统,多智能体系统有效地提高了整个系统的鲁棒性、可靠性和可扩展性。随着互联网、智能设备等新兴技术的发展,越来越多新的任务场景可以被建模成多智能体系统,如城市交通调度、分布式传感网络、无人机集群协同、通信路由等。然而,这些场景多存在智能体规模大、数据类型复杂、环境部分可观测等困难,对传统多智能体系统算法提出了巨大挑战。设计满足上述要求的高效多智能体算法,训练具有群体智能的多智能体系统,是解决此类问题的关键所在。
深度强化学习是将强化学习和深度学习理论应用于智能体决策问题的技术,强化学习使得智能体可以从与环境的交互中学习到有效的策略,深度学习技术的引入则使智能体能够处理更加动态、更加高维的数据,从而可以应用在更复杂的现实场景中。然而,目前较少有多智能体强化学习算法在现实场景中的应用,这很大部分是因为目前多智能体强化学习算法的样本效率较低,算法收敛所需要的数据量很高,在现实场景中收集这些数据的经济成本和时间成本十分高昂。因此,目前学界广泛作为基准的DIAL、MADDPG、QMIX、MAAC等多智能体强化学习算法无法很好地应对现实任务中的这些难点。为此,已有很多专家和学者立足于“在实际场景中应用强化学习”这一目标展开了研究。还有的致力于提升强化学习算法的样本效率,分别侧重于考虑改进采样方式(如优先级经验回放)、并行化收集样本(异步环境)、利用数据增强产生额外数据等。下面我们对学界中提升训练效率和样本效率的研究进行总结。
提升算法的训练效率是一个很宽泛的概念,但却是强化学习领域一个长久的研究热点。与监督学习有一个明确的训练目标不同,由于强化学习需要从试错中学习,低样本效率导致的高经济成本和低训练速度导致的高时间成本一直是限制其在复杂现实任务中得到应用的最大制约因素。最早的提升强化学习算法的训练效率的尝试应该是DQN引入的经验回放(experience replay)机制,该机制将当前策略在过去与环境交互获得的训练样本储存起来进行多次使用,大大提升了强化学习算法的样本效率,并在此后的大部分强化学习算法中得到沿用。此后有大量工作通过改善选取训练样本的策略达到了提升算法训练效率的效果。Prioritized Experience Replay提出优先级经验回放,根据各训练样本的训练价值(时序差分误差大小)进行优先级采样,提升了算法的训练速度。Combined ExperienceReplay提出在进行经验回放的同时将智能体当前采集的样本结合一起用来训练,在部分场景中实现了更快的训练速度。<Reinforcement Learning with Augmented Data>将在计算机视觉中常用的数据增强方法应用在强化学习中,提升了算法的收敛性能和鲁棒性。Message-Dropout通过将dropout机制迁移到智能体间通信流程中,实现了更快的训练速度和更优的性能。此外还有很多工作从分布式训练的角度对算法的训练策略进行了优化,如A3C算法首次提出同时执行多个平行仿真环境来提高样本的收集速度,起到了加速探索、提升样本效率的效果;Distributed Prioritized Experience Replay在执行平行环境的基础上引入了优先级经验回放,进一步提升了算法的训练效率。
最后,由于强化学习模型需要从探索试错中学习,当模型对环境的探索不足时会导致模型的泛化能力差、鲁棒性差的问题。为解决此,学界开创了Soft learning的研究领域。提出了Soft Q-learning、Soft-Actor-Critic、TD3等一系列高泛化能力的强化学习算法。
综上所述,虽然目前针对提升强化学习算法的训练效率的研究已经进行得十分彻底,但其彼此之间的联系尚不清楚,同时针对多智能体任务的技巧研究还十分稀缺。
发明内容
本发明提供了一种高样本效率的多智能体强化学习训练方法,可以解决现有多智能体强化学习算法在现实任务中面临的低样本效率、高训练成本的问题。
一种高样本效率的多智能体强化学习训练方法,包括以下步骤:
(1)构建多智能体系统,所述的多智能体系统由多智能体强化学习模型控制,多智能体系统包括多个同构智能体;
(2)收集多个训练样本并存储到容器中;所述的训练样本为多智能体系统与环境进行一次互动产生的四元组e=(s,a.r,s′),其中s表示所有智能体当前时刻的状态,a表示所有智能体的动作,r表示所有智能体做出上述动作后从环境得到的回报值,s′表示所有智能体下一时刻的状态。
上述状态、动作、回报值由实际训练的任务所具体定义。例如,如图2所示的简单任务中,多智能体系统(本实例中是两个智能体)的任务是尽可能多地占领灰色的目标点,因此每个智能体的回报值被设计为该智能体做出动作后占领的目标点数量;智能体的状态被设计为一个包含了自身位置、自身速度、其他智能体位置、其他智能体速度,以及所有目标点位置的向量;智能体的动作被设计为一个二维向量,该向量用于控制智能体的纵向和横向的加速度,进而控制智能体的运动状态。
(3)在训练模型时,从存储的容器中抽取训练样本,使用经验增强方法对抽取的训练样本进行数据预处理,得到扩增数据;
(4)采用策略延迟更新的方式训练模型,在更新模型的执行者网络、评价者网络和目标网络时,先更新评价者网络n×d次,再更新执行者网络n次,最后更新目标网络n次;
(5)使用最大动作熵和函数平滑的目标函数来训练模型中的策略函数和评价函数;
(6)训练完毕后,可以将训练得到的执行者网络作为策略模型,该策略模型可以根据智能体当前状态s进行动作a的决策。将其部署到多智能体系统当中,由策略模型来自主控制多智能体系统中每个智能体完成策略模型训练场景中定义的任务。
步骤(2)中,通过平行执行多个环境来加速数据搜集;每个平行环境中包含一个由相同多智能体强化学习模型控制的多智能体系统,在每一时刻,每个平行环境中该多智能体系统通过与环境的交互产生一个训练数据
Figure BDA0003135890430000041
平行执行多个环境的手段包括但不限于多线程、多进程和多计算机异步执行方式。
步骤(3)中,进行数据预处理的具体过程为:
(3-1)获取需要训练的智能体的序号i和一个小批量的训练数据
Figure BDA0003135890430000042
(3-2)根据对多智能体系统的先验知识,找到可置换的智能体;
(3-3)根据步骤(2-2)找到的所有可置换智能体,建立置换矩阵集P;
(3-4)从置换矩阵集P中任意选取一个置换矩阵Pk,左乘训练数据
Figure BDA0003135890430000051
得到新的训练数据
Figure BDA0003135890430000052
(3-5)返回训练i号智能体所需的数据,即
Figure BDA0003135890430000053
步骤(3-2)中,可置换的智能体之间需要满足以下条件:
可置换的智能体之间需要同构,具有相同的物理属性、奖励函数、状态空间s和动作空间a;可置换智能体的状态空间s不能包含智能体的特定序号。
步骤(4)中,更新评价者网络和执行者网络采用梯度下降法更新;目标网络更新时可以采用硬更新(直接复制前两种网络参数)的方式,或者采用软更新(移动平均逼近前两种网络参数)的方式。
步骤(5)中,训练策略函数时,原始策略函数的目标函数为J(x),在该目标的基础上添加了最大化动作熵的目标项;将目标函数变为J’(x)=J(x)+a*H(p),其中,a是一个预设的温度系数,p是策略函数输出的动作的概率分布,H(p)是由该概率分布计算得到的信息熵。
训练评价函数时,原始评价函数的损失函数为g(x),在该目标的基础上添加了包括Lp正则化、目标平滑的目标项;具体的,对于Lp正则化,损失函数变为g’(x)=g(x)+||W||p,其中||W||p为模型参数的p阶范数;对于目标平滑,损失函数变为g’(x)=g(x+N),其中N为一个细小的随机噪声。
与现有技术相比,本发明具有以下有益效果:
1、本发明在数据采集、数据预处理、数据利用等阶段分别使用平行环境、经验增强、策略延迟更新等技巧,实现了降低时间成本和经济成本、提升模型性能等效果。
附图说明
图1为本发明实施例的流程框图;
图2为本发明实施例中数据预处理得到扩增数据的示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
本发明方法针对现有多智能体强化学习模型样本效率低、训练成本高昂的问题,通过改良经验回放方法,具体地,本发明在经验回放方法的数据采集、数据预处理、数据利用等阶段分别使用平行环境、经验增强、策略延迟更新技巧,实现了降低时间成本和经济成本、提升模型性能等效果。如图1所示,为本发明一种高样本效率的多智能体强化学习训练方法的整体流程图。
下面以一个简单的多智能体任务作为示例,对本发明的具体实施方式进行介绍。为方便起见,采用目前广泛采用的“集中训练-分布执行”的多智能体强化学习算法,考虑一个由两个同构智能体组成的多智能体系统,每个智能体i由一个单独的执行者网络πi(si)控制,该执行者网络由一个配套的评价者网络
Figure BDA0003135890430000061
提供训练目标。在该环境中存在若干可以被观测到的目标点,每个智能体i的奖励由覆盖的目标点的数量得到,如图2中左图所示,智能体1覆盖了4个目标点,其获得奖励值为4;智能体2覆盖了3个目标点,其获得奖励值为3。
步骤1.数据获取:在每一时间步,每个智能体i的执行者网络πi(si)根据当前状态si,作出动作ai,获得奖励ri,并可以观测得到进行动作后的状态s′i。对于整个多智能体系统,每与环境做一次交互可以得到一个
Figure BDA0003135890430000071
每个该元组是用于训练多智能体强化学习模型的最小数据单元,我们称之为一个训练样本。显然对于每个环境每一时刻只能产生一个训练样本。本发明通过平行环境技巧,即通过包括多线程、多进程、多计算机异步执行在内的手段,平行执行多个环境,从而数倍地加速了训练样本的获取。
步骤2.数据预处理:在完成了训练样本的获取、储存和采样后,传统多智能体强化学习方法不会对训练样本进行任何预处理。本发明使用包括首次提出的经验增强及其他添加噪声等常见数据增强方法在内的手段,对训练数据进行预处理。其中,在本实例中应用经验增强方法进行数据扩增的具体过程为:首先,考虑环境中的两个智能体,发现其同构且状态空间s无智能体序号信息,因此这两个智能体是可置换的;随后,根据可置换智能体建立置换矩阵集,在本场景中较为简单,只有两个置换矩阵:一个是交换智能体1和智能体2,还有一个是不进行交换,由于后者不对数据进行修改,所以我们选择前一个交换智能体1和智能体2的置换矩阵;接着,使用上一步选择的置换矩阵对初始数据
Figure BDA0003135890430000072
进行左乘,即交换元组中所有向量里智能体1和智能体2的位置,得到扩增数据
Figure BDA0003135890430000073
步骤3.数据利用阶段:在步骤2中,通过交换智能体1和智能体2的位置,对每一个训练数据都可以得到一个新的扩增数据。面对规模得到倍增的数据集,我们需要对原始训练策略进行改进,以充分利用这些扩增的训练样本。本发明设计的模型训练策略为:设定一个固定的训练间隔T=100和训练次数n=4,并额外设计一个参数d=2。每间隔T个环境时间步,本发明方法会重复执行步骤1-2共n×d次,将得到的n×d个小批量训练样本
Figure BDA0003135890430000081
依次用于各个智能体的评价者网络
Figure BDA0003135890430000082
随后,本发明再从这些样本中随机抽取$n$个小批量的样本依次用于训练执行者网络πi(si)。这一做法是因为我们考虑到现有数据量较大,可以提升模型的训练频率。由于提升执行者网络的训练频率可能导致策略过拟合,我们仅对评价者网络增加了训练频率,使其能够给执行者网络提供更加准确的训练目标。最后,我们使用软更新或硬更新对目标网络进行n次更新。
重复步骤1-3,本发明实现了更加高样本效率、高时间效率、低经济成本低方式训练多智能体强化学习模型。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。

Claims (8)

1.一种高样本效率的多智能体强化学习训练方法,其特征在于,包括以下步骤:
(1)构建多智能体系统,所述的多智能体系统由多智能体强化学习模型控制,多智能体系统包括多个同构智能体;
(2)收集多个训练样本并存储到容器中;所述的训练样本为多智能体系统与环境进行一次互动产生的四元组e=(s,a.r,s′),其中s表示所有智能体当前时刻的状态,a表示所有智能体的动作,r表示所有智能体做出上述动作后从环境得到的回报值,s′表示所有智能体下一时刻的状态;
(3)在训练模型时,从存储的容器中抽取训练样本,使用经验增强方法对抽取的训练样本进行数据预处理,得到扩增数据;
(4)采用策略延迟更新的方式训练模型,在更新模型的执行者网络、评价者网络和目标网络时,先更新评价者网络n×d次,再更新执行者网络n次,最后更新目标网络n次;
(5)使用最大动作熵和函数平滑的目标函数来训练模型中的策略函数和评价函数;
(6)训练完毕后,将训练得到的执行者网络作为策略模型;将部署到多智能体系统当中,由策略模型来自主控制多智能体系统中每个智能体完成策略模型训练场景中定义的任务。
2.根据权利要求1所述的高样本效率的多智能体强化学习系统训练方法,其特征在于,步骤(2)中,通过平行执行多个环境来加速数据搜集;每个平行环境中包含一个由相同多智能体强化学习模型控制的多智能体系统,在每一时刻,每个平行环境中该多智能体系统通过与环境的交互产生一个训练数据
Figure FDA0003135890420000011
3.根据权利要求2所述的高样本效率的多智能体强化学习系统训练方法,其特征在于,平行执行多个环境的手段包括但不限于多线程、多进程和多计算机异步执行方式。
4.根据权利要求1所述的高样本效率的多智能体强化学习系统训练方法,其特征在于,步骤(3)中,进行数据预处理的具体过程为:
(3-1)获取需要训练的智能体的序号i和一个小批量的训练数据
Figure FDA0003135890420000021
(3-2)根据对多智能体系统的先验知识,找到可置换的智能体;
(3-3)根据步骤(2-2)找到的所有可置换智能体,建立置换矩阵集P;
(3-4)从置换矩阵集P中任意选取一个置换矩阵Pk,左乘训练数据
Figure FDA0003135890420000022
得到新的训练数据
Figure FDA0003135890420000023
(3-5)返回训练i号智能体所需的数据,即
Figure FDA0003135890420000024
5.根据权利要求4所述的高样本效率的多智能体强化学习系统训练方法,其特征在于,步骤(3-2)中,可置换的智能体之间需要满足以下条件:
可置换的智能体之间需要同构,具有相同的物理属性、奖励函数、状态空间s和动作空间a;可置换智能体的状态空间s不能包含智能体的特定序号。
6.根据权利要求1所述的高样本效率的多智能体强化学习训练方法,其特征在于,步骤(4)中,更新评价者网络和执行者网络采用梯度下降法更新;目标网络更新时直接复制前两种网络参数的方式,或者采用移动平均逼近前两种网络参数的方式。
7.根据权利要求1所述的高样本效率的多智能体强化学习训练方法,其特征在于,步骤(5)中,训练策略函数时,原始策略函数的目标函数为J(x),在该目标的基础上添加了最大化动作熵的目标项;将目标函数变为J’(x)=J(x)+a*H(p),其中,a是一个预设的温度系数,p是策略函数输出的动作的概率分布,H(p)是由该概率分布计算得到的信息熵。
8.根据权利要求1所述的高样本效率的多智能体强化学习训练方法,其特征在于,步骤(5)中,训练评价函数时,原始评价函数的损失函数为g(x),在该目标的基础上添加了包括Lp正则化、目标平滑的目标项;具体的,对于Lp正则化,损失函数变为g’(x)=g(x)+||W||p,其中||W||p为模型参数的p阶范数;对于目标平滑,损失函数变为g’(x)=g(x+N),其中N为一个细小的随机噪声。
CN202110718305.6A 2021-06-28 2021-06-28 一种高样本效率的多智能体强化学习训练方法 Pending CN113313209A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110718305.6A CN113313209A (zh) 2021-06-28 2021-06-28 一种高样本效率的多智能体强化学习训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110718305.6A CN113313209A (zh) 2021-06-28 2021-06-28 一种高样本效率的多智能体强化学习训练方法

Publications (1)

Publication Number Publication Date
CN113313209A true CN113313209A (zh) 2021-08-27

Family

ID=77380583

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110718305.6A Pending CN113313209A (zh) 2021-06-28 2021-06-28 一种高样本效率的多智能体强化学习训练方法

Country Status (1)

Country Link
CN (1) CN113313209A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226662A (zh) * 2023-01-05 2023-06-06 哈尔滨工业大学(深圳) 一种多智能体协同强化学习方法、终端及存储介质
CN117369286A (zh) * 2023-12-04 2024-01-09 中国海洋大学 一种海洋平台动力定位控制方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116226662A (zh) * 2023-01-05 2023-06-06 哈尔滨工业大学(深圳) 一种多智能体协同强化学习方法、终端及存储介质
CN116226662B (zh) * 2023-01-05 2024-02-09 哈尔滨工业大学(深圳) 一种多智能体协同强化学习方法、终端及存储介质
CN117369286A (zh) * 2023-12-04 2024-01-09 中国海洋大学 一种海洋平台动力定位控制方法
CN117369286B (zh) * 2023-12-04 2024-02-09 中国海洋大学 一种海洋平台动力定位控制方法

Similar Documents

Publication Publication Date Title
Zhong et al. Blockqnn: Efficient block-wise neural network architecture generation
Mousavi et al. Traffic light control using deep policy‐gradient and value‐function‐based reinforcement learning
Seo et al. Reinforcement learning with action-free pre-training from videos
Lin et al. An efficient deep reinforcement learning model for urban traffic control
CN110852448A (zh) 一种基于多智能体强化学习的合作型智能体的学习方法
CN110794842A (zh) 基于势场的强化学习路径规划算法
CN109829541A (zh) 基于学习自动机的深度神经网络增量式训练方法及系统
Yu From information networking to intelligence networking: Motivations, scenarios, and challenges
CN113313209A (zh) 一种高样本效率的多智能体强化学习训练方法
CN110014428B (zh) 一种基于强化学习的时序逻辑任务规划方法
CN113919485B (zh) 基于动态层级通信网络的多智能体强化学习方法及系统
CN111798002A (zh) 一种局部模型占比可控的联邦学习全局模型聚合方法
CN110135584A (zh) 基于自适应并行遗传算法的大规模符号回归方法及系统
CN111191728A (zh) 基于异步或同步的深度强化学习分布式训练方法及系统
CN112732436B (zh) 一种多核处理器-单图形处理器的深度强化学习加速方法
CN111950722A (zh) 一种基于环境预测模型的强化学习方法
CN111401557A (zh) 智能体决策制定方法、ai模型训练方法、服务器及介质
CN114510012A (zh) 一种基于元动作序列强化学习的无人集群演进系统及方法
Xu et al. Living with artificial intelligence: A paradigm shift toward future network traffic control
CN116841317A (zh) 一种基于图注意力强化学习的无人机集群协同对抗方法
CN108470212A (zh) 一种能利用事件持续时间的高效lstm设计方法
Li et al. Research on multi-UAV task decision-making based on improved MADDPG algorithm and transfer learning
CN111783983A (zh) 用于实现导航的可迁移的元学习的无监督dqn强化学习
CN114053712B (zh) 一种虚拟对象的动作生成方法、装置及设备
CN111950691A (zh) 一种基于潜在动作表示空间的强化学习策略学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Song Guanghua

Inventor after: Ye Zhenhui

Inventor after: Chen Yining

Inventor after: Wang Ke

Inventor after: Ying Haochao

Inventor after: Wu Jian

Inventor after: Jiang Xiaohong

Inventor before: Wu Jian

Inventor before: Song Guanghua

Inventor before: Jiang Xiaohong

Inventor before: Ye Zhenhui

Inventor before: Chen Yining

Inventor before: Wang Ke

Inventor before: Ying Haochao