CN111348034B

CN111348034B - 基于生成对抗模仿学习的自动泊车方法及系统

Info

Publication number: CN111348034B
Application number: CN202010260031.6A
Authority: CN
Inventors: 朱佳成; 章宗长
Original assignee: Nanqi Xiance Nanjing Technology Co ltd
Current assignee: NANQI XIANCE (NANJING) TECHNOLOGY Co.,Ltd.
Priority date: 2020-04-03
Filing date: 2020-04-03
Publication date: 2021-08-24
Anticipated expiration: 2040-04-03
Also published as: CN111348034A

Abstract

本发明涉及一种基于生成对抗模仿学习的自动泊车方法及系统,利用泊车轨迹的原始图像数据，基于生成对抗模仿学习生成相应的泊车策略，且生成的泊车策略在实际泊车过程中产生的泊车轨迹应该与成功的泊车轨迹相似。本申请由于是一种在线学习算法，在学习的同时会进行很多次实验，并且在成功学习到优秀的泊车策略前会经历很多次失败，但是可以将这些失败的泊车轨迹数据存储下用于进一步的学习，这样能够加快学习速度并提高样本利用率。本发明由于学得的智能泊车策略不是基于规则的，而是一种较为智能的策略，因此使其能够胜任不同场景下的自动泊车。

Description

基于生成对抗模仿学习的自动泊车方法及系统

技术领域

本发明涉及自动驾驶中的智能泊车的技术领域，尤其是指一种基于生成对抗模仿学习的自动泊车方法及系统。

背景技术

车辆依据车位线进行规范停车，有利于城市资源空间的合理利用，有利于车辆启停的安全性，有利于市容的规划。由于现代汽车数量的庞大以及实际环境的千差万别，停车问题往往耗费人们的时间与精力，甚至造成车辆间的摩擦、碰撞等安全事故，自动泊车系统因此拥有了其存在与发展的空间。

目前来说，自动泊车领域中大部分的泊车方法都是在大量硬件支持下以基于规则的方式实现的。在人工智能领域内，如强化学习能够很好的解决一些序列决策问题，并且在很多应用中也表现出了它的良好性能。但是强化学习需要有一个良好定义的环境奖赏函数R才能学到一个较好的策略。在很多问题中，人工定义这样一个奖赏函数是很困难的，比如自动驾驶领域中，需要考虑安全、效率以及舒适程度，但是影响这些的因素有很多，因此很难从中定义这样一个奖赏函数。

而模仿学习是一种能够从专家示范中模仿专家行为从而学习到一个良好策略的学习方法，它将获取成本较大的环境奖赏函数转化为获取成本较小的专家示范轨迹，很好的解决了强化学习对于奖赏函数的依赖问题。模仿学习方法通常被分为两类：一类是行为克隆(Behavioral Cloning)，利用专家轨迹信息中的状态动作对直接进行监督学习，获取一个简单的状态到动作的映射策略。但是这种方法容易产生级联误差，即在其中某一步出现微小的误差后，会一直对后续的轨迹造成影响并逐渐放大；另一种是逆强化学习方法(Inverse Reinforcement Learning)，逆强化学习方法首先假设专家示范是基于一个未知奖赏函数下的最优策略产生的。逆强化学习先求出这个奖赏函数，再利用这个奖赏函数通过强化学习过程求得最优策略。这种方法由于在学习的内循环中包含了强化学习过程，使得计算量非常庞大。

发明内容

为此，本发明所要解决的技术问题在于克服现有计算复杂，且泊车不够灵活的问题，从而提供一种计算简单，且泊车灵活的基于生成对抗模仿学习的自动泊车方法及系统。

为解决上述技术问题，本发明的一种基于生成对抗模仿学习的自动泊车方法，包括：获取成功泊车的专家样本数据以及泊车失败的第一轮样本数据；使用策略学习单元中的生成器与环境进行交互，并采集学习过程中的第一轮样本数据，对所述第一轮样本数据进行采样并处理提取出第一轮样本特征数据，同时，将所述专家样本数据进行采样并处理提取出成功样本特征数据以及对失败的第一轮样本数据进行采样并处理提取出第一轮失败样本特征数据；将第一轮样本特征数据、成功样本特征数据、第一轮失败样本特征数据分别输入判别器中进行判断，得到第一轮样本判别概率、第一轮专家样本判别概率以及第一轮失败样本判别概率，并依据对生成样本判别的结果给与所述生成器奖赏；同时，第一次更新所述判别器；所述生成器根据所述判别器给与的奖赏，完成第一次更新，再与环境交互产生第二轮样本数据，并将产生的泊车失败数据反馈至泊车失败的第一轮样本数据中，形成泊车失败的第二轮样本数据；对所述第二轮样本数据进行采样并处理提取出第二轮样本特征数据，对失败的第二轮样本数据进行采样并处理提取出第二轮失败样本特征数据，将第二轮样本特征数据、成功样本特征数据、第二轮失败样本特征数据分别输入第一次更新后的判别器中进行判断，得到第二轮样本判别概率、第二轮专家样本判别概率以及第二轮失败样本判别概率，并依据对生成样本判别的结果给与所述生成器奖赏；同时，第二次更新所述判别器；所述生成器根据所述判别器给与的奖赏，完成下一次更新，再与环境交互产生下一个样本数据，对下一个样本数据进行处理，并对应更新所述判别器，直到所述生成器生成的数据使得所述判别器不能准确判断为止。

在本发明的一个实施例中，所述专家样本数据存储在专家样本中，且从专家样本中采样得到。

在本发明的一个实施例中，所述专家样本数据包括泊车成功的状态数据和动作数据，且所述泊车成功的状态数据是以一系列的图像进行存储。

在本发明的一个实施例中，所述泊车失败的第一轮样本数据包括专家演示过程中产生的泊车失败的样本数据，泊车失败的样本数据包括泊车失败的状态数据和动作数据，且所述泊车失败的状态数据是以一系列的图像进行存储。

在本发明的一个实施例中，所述生成器是多层神经网络，包括输入层、卷积层、池化层、全连接层以及输出层。

在本发明的一个实施例中，所述判别器是二分类网络，包括输入层、卷积层、池化层、全连接层以及输出层。

在本发明的一个实施例中，更新所述判别器的方法为：根据判别器对第N轮样本特征数据、成功样本特征数据、第N轮失败样本特征数据的判断，通过监督学习的方法更新所述判别器。

在本发明的一个实施例中，所述生成器进行更新的方法为：所述生成器根据所述判别器给与的奖赏，通过优化网络参数完成更新。

在本发明的一个实施例中，所述步骤S6完成后，存储最后学习到的策略。

本发明还公开了一种基于生成对抗模仿学习的自动泊车系统，包括：存储单元，所述存储单元包括专家样本存储单元以及失败样本存储单元，其中使用策略学习单元中的生成器与环境进行交互，并采集学习过程中的第一轮样本数据，对所述第一轮样本数据进行采样并处理提取出第一轮样本特征数据，同时，将所述专家样本数据进行采样并处理提取出成功样本特征数据以及对失败的第一轮样本数据进行采样并处理提取出第一轮失败样本特征数据；将第一轮样本特征数据、成功样本特征数据、第一轮失败样本特征数据分别输入判别器中进行判断，得到第一轮样本判别概率、第一轮专家样本判别概率以及第一轮失败样本判别概率，并依据对生成样本判别的结果给与所述生成器奖赏；同时，第一次更新所述判别器；所述生成器根据所述判别器给与的奖赏，完成第一次更新，再与环境交互产生第二轮样本数据，并将产生的泊车失败数据反馈至泊车失败的第一轮样本数据中，形成泊车失败的第二轮样本数据；对所述第二轮样本数据进行采样并处理提取出第二轮样本特征数据，同时，将所述专家样本数据进行采样并处理提取出成功样本特征数据以及对失败的第二轮样本数据进行采样并处理提取出第二轮失败样本特征数据，分别将第二轮样本特征数据、成功样本特征数据、第二轮失败样本特征数据分别输入第一次更新后的判别器中进行判断，得到第二轮样本判别概率、第二轮专家样本判别概率以及第二轮失败样本判别概率，并依据对生成样本判别的结果给与所述生成器奖赏；同时，第二次更新所述判别器；所述生成器根据所述判别器给与的奖赏，完成下一次更新，再与环境交互产生下一个样本数据，对下一个样本数据进行处理，并对应更新所述判别器，直到所述生成器生成的数据使得所述判别器不能准确判断为止。

本发明的上述技术方案相比现有技术具有以下优点：

本发明所述的基于生成对抗模仿学习的自动泊车方法及系统，具有如下优点：

很好的解决了自动泊车问题，比起传统的基于规则的自动泊车，此系统学得的策略能够更灵活更人性化的进行自动泊车。

利用了策略学习过程中产生的失败样本，提高了样本的利用率。

对于失败样本的惩罚，使生成器产生失败样本后能够快速的跳出失败，加快了训练速度，并在一定程度上提升了最后的性能。

附图说明

为了使本发明的内容更容易被清楚的理解，下面根据本发明的具体实施例并结合附图，对本发明作进一步详细的说明，其中

图1是本发明基于生成对抗模仿学习的自动泊车方法流程图。

具体实施方式

本实施例引用了生成对抗模仿学习(Generative Adversarial ImitationLearning)，其是一种非常先进的模仿学习方法，它略去了逆强化学习中求奖赏函数的过程，通过直接对比专家样本与生成策略产生的样本中状态动作对的占有率进行学习。生成对抗模仿学习由两个部分组成：一个是生成器(Generator，又称为策略网络)，用于与环境交互产生样本；另一个是判别器(Discriminator)，用于区分专家样本和生成策略下产生的样本(又称生成样本)。并且本实施例在生成对抗模仿学习的基础上，很好的利用了训练过程中产生的失败样本，能够加快训练速度和提高样本利用率。

实施例一

如图1所示，本实施例提供了一种基于生成对抗模仿学习的自动泊车方法，包括，步骤S1：获取成功泊车的专家样本数据以及泊车失败的第一轮样本数据；步骤S2：使用策略学习单元中的生成器与环境进行交互，并采集学习过程中的第一轮样本数据，对所述第一轮样本数据进行采样并处理提取出第一轮样本特征数据，同时，将所述专家样本数据进行采样并处理提取出成功样本特征数据以及对失败的第一轮样本数据进行采样并处理提取出提取第一轮失败样本特征数据；步骤S3：将第一轮样本特征数据、成功样本特征数据、第一轮失败样本特征数据分别输入判别器中进行判断，得到第一轮样本判别概率、第一轮专家样本判别概率以及第一轮失败样本判别概率，并依据对生成样本判别的结果给与所述生成器奖赏；同时，第一次更新所述判别器；步骤S4：所述生成器根据所述判别器给与的奖赏，完成第一次更新，再与环境交互产生第二轮样本数据，并将产生的泊车失败数据反馈至泊车失败的第一轮样本数据中，形成泊车失败的第二轮样本数据；步骤S5：对所述第二轮样本数据进行采样并处理提取出第二轮样本特征数据，同时，将所述专家样本数据进行采样并处理提取出成功样本特征数据以及对失败的第二轮样本数据进行采样并处理提取出第二轮失败样本特征数据，将第二轮样本特征数据、成功样本特征数据、第二轮失败样本特征数据分别输入第一次更新后的判别器中进行判断，得到第二轮样本判别概率、第二轮专家样本判别概率以及第二轮失败样本判别概率，并依据对生成样本判别的结果给与所述生成器奖赏；同时，第二次更新所述判别器；步骤S6：所述生成器根据所述判别器给与的奖赏，完成下一次更新，再与环境交互产生下一个样本数据，对下一个样本数据进行处理，并对应更新所述判别器，直到所述生成器生成的数据使得所述判别器不能准确判断为止。

本实施例所述基于生成对抗模仿学习的自动泊车方法，所述步骤S1中，获取成功泊车的专家样本数据以及泊车失败的第一轮样本数据，由于引入了失败的经验，因此学得的智能泊车策略不是基于规则的，而是一种较为智能的策略，使其能够胜任不同场景下的自动泊车；

所述步骤S2中，使用策略学习单元中的生成器与环境进行交互，并采集学习过程中的第一轮样本数据，对所述第一轮样本数据进行处理提取第一轮样本特征数据，同时，将所述专家样本数据进行处理提取成功样本特征数据以及对失败的第一轮样本数据进行处理提取第一轮失败样本特征数据，通过对所述数据的处理有利于进行判别；

所述步骤S3中，将第一轮样本特征数据、成功样本特征数据、第一轮失败样本特征数据分别输入判别器中进行判断，判别器会输出各个输入样本来源于专家样本的概率，得到第一轮样本判别概率、第一轮专家样本判别概率以及第一轮失败样本判别概率，并依据对生成样本判别的结果给与所述生成器奖赏；同时，第一次更新所述判别器，从而有利于对数据进行下一轮的筛选；

所述步骤S4中，所述生成器根据所述判别器给与的奖赏，完成第一次更新，再与环境交互产生第二轮样本数据，并将产生的泊车失败数据反馈至泊车失败的第一轮样本数据中，形成泊车失败的第二轮样本数据，有利于加快学习过程；

所述步骤S5中，对所述第二轮样本数据进行采样并处理提取出第二轮样本特征数据，同时，将所述专家样本数据进行采样并处理提取出成功样本特征数据以及对失败的第二轮样本数据进行采样并处理提取出第二轮失败样本特征数据，将第二轮样本特征数据、成功样本特征数据、第二轮失败样本特征数据分别输入第一次更新后的判别器中进行判断，得到第二轮样本判别概率、第二轮专家样本判别概率以及第二轮失败样本判别概率，并依据对生成样本判别的结果给与所述生成器奖赏；同时，第二次更新所述判别器，从而有利于对数据进行筛选，使其不断接近专家样本；

所述步骤S6中，所述生成器根据所述判别器给与的奖赏，完成下一次更新，再与环境交互产生下一个样本数据，对下一个样本数据进行处理，并对应更新所述判别器，直到所述生成器生成的样本达到以假乱真的水平，使得所述判别器难以区分，即无论是生成器生成的样本还是专家样本，判别器判断其来源于专家样本的概率都接近0.5，而这个值是判别器对样本来源随机猜测的一个期望值。由于本发明根据判别器对生成样本判断的结果更新生成器，从而有利于使生成器作用下产生的轨迹样本达到与专家样本接近的水平，具体地，生成器不断产生与专家样本相似的样本使判别器不能区分，判别器也通过监督学习的方式不断改进自身。并且在训练过程中使用生成器产生的失败样本对判别器进行进一步训练，不仅能够加快训练速度，还能够提高样本利用率。通过这个不断迭代的对抗训练使生成器生成的样本与专家样本更加相似，最终得到一个性能良好的策略，不但算法简单，而且能够适应不同情形下的自动泊车任务，更加智能的进行泊车。

本发明中，所述专家样本数据存储在专家样本中，且从专家样本中采样得到。具体地，获取成功泊车的专家样本数据，并将专家样本数据存储到专家样本存储单元中。所述成功泊车的专家样本数据是由专家进行泊车演示产生的，所述专家样本数据包括泊车成功的状态数据和动作数据，且所述泊车成功的状态数据是以一系列的图像进行存储。

另外，获取专家样本数据的同时不可避免的会产生泊车失败的第一轮样本数据，将泊车失败的第一轮样本数据存储到失败样本存储单元中。具体地，所述泊车失败的第一轮样本数据包括专家演示过程中产生的泊车失败的样本数据，泊车失败的样本数据包括泊车失败的状态数据和动作数据，所述泊车失败的状态数据是以一系列的图像进行存储。

使用策略学习单元中的生成器与环境进行交互，并采集学习过程中的交互数据。所述策略学习单元中包含的生成器的本质是多层神经网络，生成器用于与环境交互，产生生成样本数据，经图像处理单元提取特征后，与专家样本的特征数据一同输入到判别器中。具体地，所述生成器是多层神经网络，包括输入层、卷积层、池化层、全连接层以及输出层，从而有利于根据车辆的状态输出对应的动作。在所述生成器与环境交互过程中，也会产生很多泊车失败的数据，将这些泊车失败的轨迹数据存储于失败样本存储单元中，用于进一步的加快学习过程。

所述图像处理单元用于对原始的高维图像数据进行处理，从中提取特征数据，为了减小训练的计算量，可以将预先训练好的图像处理单元的网络参数迁移到图像处理单元中。

所述策略学习单元中包含的判别器的本质也是多层神经网络。具体地，所述判别器是二分类网络，包括输入层、卷积层、池化层、全连接层以及输出层。所述判别器用于判断输入的样本特征数据来自专家样本的概率，并依据判别的结果给与生成器奖赏。同时也会依据判别结果以监督学习的方式优化所述判别器。具体地，更新所述判别器的方法为：根据判别器对第N轮样本特征数据、成功样本特征数据、第N轮失败样本特征数据的判断，通过监督学习的方法更新所述判别器。

所述生成器进行更新的方法为：所述生成器根据所述判别器给与的奖赏，通过优化网络参数完成更新。具体地，所述生成器根据判别器给的奖赏，用信赖域策略优化(TrustRegion Policy Optimization，简称：TRPO)算法优化网络参数，并不断产生与专家样本相似的数据。所述判别器也不断的判断输入样本并根据交叉熵损失使用Adam(Adaptivemoment estimation简称：Adam)优化算法优化参数，两个过程不断交替执行，直到所述生成器生成的样本达到以假乱真的水平，使得所述判别器难以区分，即达到学习目标。

所述步骤S6完成后，存储最后学习到的策略。本发明通过模仿专家行为的方式学习一个与专家行为策略相似的策略，而不只是简单的进行状态动作的映射。在训练过程中，所述判别器与所述生成器进行博弈，并且保持平衡前进，即所述生成器与判别器都在训练过程中不断改进自身。所述生成器在这个迭代过程中，泊车的策略逐渐的与专家相似，从而很大程度上增加了自动泊车的灵活性。

下面详细说明所述基于生成对抗模仿学习的自动泊车方法的具体步骤：

所述步骤S1中，收集成功的泊车轨迹数据，在对应场景下，首先通过人工进行泊车操作，收集人类专家泊车过程中泊车轨迹的图像和相应操作的动作。其中，泊车轨迹图像是车辆当前条件下与停车位之间的位置关系。在上述过程中，或多或少会有一些不理想或是失败的泊车轨迹数据，将成功的泊车轨迹数据存储在专家样本存储单元中，将其余的不那么理想的数据存于失败样本存储单元中。具体地，采集专家样本，得到批量表现好的泊车轨迹样本{τ₁,τ₂,τ₃,......}，其中泊车示范轨迹τ_i是由一系列的状态动作对(s,a)组成，状态s是车辆相对停车位的实时位置图像，动作a是在该状态下采取的行动，将这些专家示范泊车轨迹存储到专家样本存储单元中。

所述步骤S2中，初始化生成器网络G_θ(s)＝g_n(g_n-1(...(g(s,θ₁)),...,θ_n-1),θ_n)，其中生成器的输入为状态s，所述状态是当前时刻车辆的位置图像信息，输出是对应状态s下应该采取的动作a。

所述步骤S3中，初始化判别器网络D_ω(f,a)＝d_n(d_n-1(...(d((f,a),ω₁)),...,ω_n-1),ω_n)，其中所述判别器网络的输入是状态s经图像处理单元提取出的有效特征f和相应动作a的组合数据(f,a)，输出是所述输入数据来自专家样本的概率P。

另外，生成对抗模仿学习构建了如下一个MinMax的博弈问题：

上式中(f,a)～π_θ表示该数据(f,a)来源于生成器，(f,a)～π_E表示该数据(f,a)来源于专家样本。所述判别器D_ω的目标是为了尽可能使L(θ,ω)变大，其含义为尽可能使得所述判别器对输入判别器中的样本来源判断的更加准确；所述生成器G_θ的目标是为了尽可能使L(θ,ω)变小，其含义为尽可能使生成器生成的样本与专家样本相似，使判别器不能区分。通过这个对抗机制，从而可以引导生成器生成的自动泊车策略与专家的泊车策略相仿。

所述步骤S4中，为了进一步加快系统的学习速度，以及对于学习过程中产生的数据的利用，本申请选择性的将一些失败的泊车轨迹图像和动作数据加入到失败样本存储单元β_F中。

所述步骤S5中，所述失败样本数据用于进一步的训练判别器。在每一轮的训练过程中，会从失败样本存储单元中采样一批数据用于训练判别器，目的是使判别器对失败样本更加敏感，当生成器产生类似失败样本时，得到的奖赏会进一步的减少。基于此，会得到一个新的约束条件：

上式中(f,a)～β_F表示该数据(f,a)来源于失败样本，上述约束条件目的是使判别器对失败样本的判断尽可能的准确，所述生成器获得的奖赏为-ln(1-D_ω(f,a))，因此上式可以理解为当生成器产生失败样本时，对生成器的惩罚。变量Z_F用于控制惩罚力度。

所述步骤S6中，所述判别器D_ω的梯度更新可以利用ADAM等动量梯度或者一般梯度的更新方法，而所述生成器G_θ可以利用强化学习中TRPO等稳定的递增策略梯度更新方法。

另外，为了加快训练速度以及提高资源利用率，可以先在仿真条件下进行初期的训练，等相对稳定后，再迁移到真实场景中进行训练。

在循环迭代多轮以后，最终判别器不能对输入样本进行准确判断，而生成器也不能够根据判别器反馈的结果更新自身，从而达到一个平衡。存储最终训练好的策略，并导入自动泊车系统中，由于本申请智能泊车策略不是基于规则的，而是一种较为智能的策略，因此能够胜任不同场景下的自动泊车。

实施例二

基于同一发明构思，本实施例提供了一种基于生成对抗模仿学习的自动泊车系统，其解决问题的原理与所述基于生成对抗模仿学习的自动泊车方法类似，重复之处不再赘述。

本实施例提供一种基于生成对抗模仿学习的自动泊车系统，包括：

存储单元，所述存储单元包括专家样本存储单元以及失败样本存储单元，其中所述专家样本存储单元用于存储成功泊车的专家样本数据，所述失败样本存储单元用于存储泊车失败的样本数据；

图像处理单元，用于对高维图像数据进行处理,并从泊车轨迹图像中提取特征；

策略学习单元，基于生成对抗模仿学习方法学习与专家泊车行为相似的泊车策略；

其中使用策略学习单元中的生成器与环境进行交互，并采集学习过程中的第一轮样本数据，对所述第一轮样本数据进行采样并处理提取出第一轮样本特征数据，同时，将所述专家样本数据进行采样并处理提取出成功样本特征数据以及对失败的第一轮样本数据进行采样并处理提取出第一轮失败样本特征数据；将第一轮样本特征数据、成功样本特征数据、第一轮失败样本特征数据分别输入判别器中进行判断，得到第一轮样本判别概率、第一轮专家样本判别概率以及第一轮失败样本判别概率，并依据对生成样本判别的结果给与所述生成器奖赏；同时，第一次更新所述判别器；所述生成器根据所述判别器给与的奖赏，完成第一次更新，再与环境交互产生第二轮样本数据，并将产生的泊车失败数据反馈至泊车失败的第一轮样本数据中，形成泊车失败的第二轮样本数据；对所述第二轮样本数据进行采样并处理提取出第二轮样本特征数据，同时，将所述专家样本数据进行采样并处理提取出成功样本特征数据以及对失败的第二轮样本数据进行采样并处理提取出第二轮失败样本特征数据，将第二轮样本特征数据、成功样本特征数据、第二轮失败样本特征数据分别输入第一次更新后的判别器中进行判断，得到第二轮样本判别概率、第二轮专家样本判别概率以及第二轮失败样本判别概率，并依据对生成样本判别的结果给与所述生成器奖赏；同时，第二次更新所述判别器；所述生成器根据所述判别器给与的奖赏，完成下一次更新，产生下一个样本数据，对下一个样本数据进行处理，并对应更新所述判别器，直到所述生成器生成的数据使得所述判别器不能准确判断为止。

其中所述专家样本存储单元中以状态动作对(s,a)的形式存储着批量专家样本，其中状态s是高维的车辆相对于停车位位置图像。动作a是对应状态下所采取的行为。在每轮训练过程中，会从专家样本存储单元中以随机采样的方式采样一批大小与此轮训练中生成器生成数据量相同的样本用于训练。

所述失败样本存储单元中以状态动作对(s,a)的形式存储着批量失败样本，同样的，s是高维的车辆相对于停车位位置图像，动作a是对应状态下所采取的行为。在每轮训练过程中，会将生成器生成的失败的泊车轨迹数据存入失败样本存储单元中，并以先进先出的方式更新失败样本存储单元中的样本数据。每轮训练过程中，会从失败样本存储单元中以随机采样的方式采样一批大小与此轮训练中生成器生成数据量相同的样本用于训练。

所述图像处理单元的输入是样本中的原始轨迹状态图像，经过卷积、池化等操作后，输出从图像中提取到的特征数据。

所述策略学习单元中包含与环境交互的生成器，以及判断样本性质的判别器。生成器的输入是车辆相对停车位位置信息的原始图像数据，经过生成器网络后，输出在此状态下应该采取的动作a，即如何控制方向盘、油门及刹车。经过多次迭代后得到生成样本轨迹{(s₀,a₀),(s₁,a₁),......,(s_t,a_t)},在经过图像处理单元处理后，进一步将处理后的轨迹输入到判别器中。判别器的输入是各类样本数据(即专家样本或是生成样本或是失败样本)经图像处理单元提取后的特征数据，所述判别器输出该样本来自专家样本的概率。

还包括策略存储单元，所述策略存储单元用于存储最终学习到的泊车策略，即生成器的网络参数。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，上述实施例仅仅是为清楚地说明所作的举例，并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

Claims

1.一种基于生成对抗模仿学习的自动泊车方法，其特征在于，包括如下步骤：

步骤S1：获取成功泊车的专家样本数据以及泊车失败的第一轮样本数据；

步骤S2：使用策略学习单元中的生成器与环境进行交互，并采集学习过程中的第一轮样本数据，对所述学习过程中的第一轮样本数据进行采样并处理提取出第一轮样本特征数据，同时，将所述专家样本数据进行采样并处理提取出成功样本特征数据以及对失败的第一轮样本数据进行采样并处理提取出第一轮失败样本特征数据；

步骤S3：将第一轮样本特征数据、成功样本特征数据、第一轮失败样本特征数据分别输入判别器中进行判断，得到第一轮样本判别概率、第一轮专家样本判别概率以及第一轮失败样本判别概率，并依据对生成样本判别的结果给与所述生成器奖赏；同时，第一次更新所述判别器；

步骤S4：所述生成器根据所述判别器给与的奖赏，完成第一次更新，再与环境交互产生第二轮样本数据，并将产生的泊车失败数据反馈至泊车失败的第一轮样本数据中，形成泊车失败的第二轮样本数据；

步骤S5：对所述与环境交互产生的第二轮样本数据进行采样并处理提取出第二轮样本特征数据，对失败的第二轮样本数据进行采样并处理提取出第二轮失败样本特征数据，将第二轮样本特征数据、成功样本特征数据、第二轮失败样本特征数据分别输入第一次更新后的判别器中进行判断，得到第二轮样本判别概率、第二轮专家样本判别概率以及第二轮失败样本判别概率，并依据对生成样本判别的结果给与所述生成器奖赏；同时，第二次更新所述判别器；

步骤S6：所述生成器根据所述判别器给与的奖赏，完成下一次更新，再与环境交互产生下一个样本数据，对下一个样本数据进行处理，并对应更新所述判别器，直到所述生成器生成的数据使得所述判别器不能准确判断为止。

2.根据权利要求1所述的基于生成对抗模仿学习的自动泊车方法，其特征在于：所述专家样本数据存储在专家样本中，且从专家样本中采样得到。

3.根据权利要求1或2所述的基于生成对抗模仿学习的自动泊车方法，其特征在于：所述专家样本数据包括泊车成功的状态数据和动作数据，且所述泊车成功的状态数据是以一系列的图像进行存储。

4.根据权利要求1所述的基于生成对抗模仿学习的自动泊车方法，其特征在于：所述泊车失败的第一轮样本数据包括专家演示过程中产生的泊车失败的样本数据，泊车失败的样本数据包括泊车失败的状态数据和动作数据，且所述泊车失败的状态数据是以一系列的图像进行存储。

5.根据权利要求1所述的基于生成对抗模仿学习的自动泊车方法，其特征在于：所述生成器是多层神经网络，包括输入层、卷积层、池化层、全连接层以及输出层。

6.根据权利要求1所述的基于生成对抗模仿学习的自动泊车方法，其特征在于：所述判别器是二分类网络，包括输入层、卷积层、池化层、全连接层以及输出层。

7.根据权利要求1或6所述的基于生成对抗模仿学习的自动泊车方法，其特征在于：更新所述判别器的方法为：根据判别器对第N轮样本特征数据、成功样本特征数据、第N轮失败样本特征数据的判断，通过监督学习的方法更新所述判别器。

8.根据权利要求1所述的基于生成对抗模仿学习的自动泊车方法，其特征在于：所述生成器进行更新的方法为：所述生成器根据所述判别器给与的奖赏，通过优化网络参数完成更新。

9.根据权利要求1所述的基于生成对抗模仿学习的自动泊车方法，其特征在于：所述步骤S6完成后，存储最后学习到的策略。

10.一种基于生成对抗模仿学习的自动泊车系统，其特征在于，包括：

策略学习单元，基于生成对抗模仿学习方法学习与专家泊车行为相似的泊车策略，

其中使用策略学习单元中的生成器与环境进行交互，并采集学习过程中的第一轮样本数据，对所述第一轮样本数据进行采样并处理提取出第一轮样本特征数据，同时，将所述专家样本数据进行采样并处理提取出成功样本特征数据以及对失败的第一轮样本数据进行采样并处理提取出第一轮失败样本特征数据；将第一轮样本特征数据、成功样本特征数据、第一轮失败样本特征数据分别输入判别器中进行判断，得到第一轮样本判别概率、第一轮专家样本判别概率以及第一轮失败样本判别概率，并依据对生成样本判别的结果给与所述生成器奖赏；同时，第一次更新所述判别器；所述生成器根据所述判别器给与的奖赏，完成第一次更新，再与环境交互产生第二轮样本数据，并将产生的泊车失败数据反馈至泊车失败的第一轮样本数据中，形成泊车失败的第二轮样本数据；对所述与环境交互产生的第二轮样本数据进行采样并处理提取出第二轮样本特征数据，对失败的第二轮样本数据进行采样并处理提取出第二轮失败样本特征数据，将第二轮样本特征数据、成功样本特征数据、第二轮失败样本特征数据分别输入第一次更新后的判别器中进行判断，得到第二轮样本判别概率、第二轮专家样本判别概率以及第二轮失败样本判别概率，并依据对生成样本判别的结果给与所述生成器奖赏；同时，第二次更新所述判别器；所述生成器根据所述判别器给与的奖赏，完成下一次更新，再与环境交互产生下一个样本数据，对下一个样本数据进行处理，并对应更新所述判别器，直到所述生成器生成的数据使得所述判别器不能准确判断为止。