CN111126598A

CN111126598A - 自动泊车方法、装置、计算机设备和存储介质

Info

Publication number: CN111126598A
Application number: CN201911317486.0A
Authority: CN
Inventors: 莫松文; 任仲超; 凌云志; 张业楚
Original assignee: Shenzhen Southern Dare Automotive Electronic Co Ltd
Current assignee: Shenzhen Southern Dare Automotive Electronic Co Ltd
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-05-08
Anticipated expiration: 2039-12-19
Also published as: CN111126598B

Abstract

本发明公开了本发明提供了一种自动泊车方法、装置、计算机设备和存储介质，方法包括以下步骤：获取用户所需泊车车位坐标和车辆当前所在空间坐标，以得到用户需求信息数据；将用户需求信息数据带入预先根据duel_dqn强化学习算法训练的模型得到最佳泊车线路模型；根据最佳泊车线路模型，输出对应的车辆方向盘角度和油门值。与现有技术相比，本发明的实施例提供了一种自动泊车方法、装置、计算机设备和存储介质，其采用强化学习duel_dqn算法实现自动泊车，从而无需中间路径规划，减少了工作量，解决了问题诊断的难题。

Description

自动泊车方法、装置、计算机设备和存储介质

技术领域

本发明涉及自动泊车算法技术领域，尤其涉及一种基于强化学习算法的自动泊车方法、装置、计算机设备和存储介质。

背景技术

目前市面的泊车系统都是基于传感器获取的障碍物数据和车位数据，然后送往下游规划控制模块，具体流程如下描述：

通过camera或者lidar(激光雷达)获取障碍物的位置(obstacle_position)和车位(parking_position)的位置，映射到一张全局地图，然后标记处自己车身的位置(ego_position)；通过航迹推算的方式获取车的实时位态(localization)；基于ego_position和parking_position进行路径规划(planning)输出path；获取path设计控制器(controller)进行follow；输出方向盘的转向角和油门值。

发明内容

本发明的实施例提供了一种自动泊车方法、装置、计算机设备和存储介质，旨在解决现有自动泊车方法效率低、耗时间、故障诊断困难的问题。

为达到上述目的，本发明所提出的技术方案为：

第一方面，本发明提供了一种自动泊车方法，其包括以下步骤：

获取用户所需泊车车位坐标和车辆当前所在空间坐标，以得到用户需求信息数据；

将用户需求信息数据带入预先根据duel_dqn强化学习算法训练的模型得到最佳泊车线路模型；

根据最佳泊车线路模型，输出对应的车辆方向盘角度和油门值。

其中，所述步骤“将用户需求信息数据带入预先根据duel_dqn强化学习算法训练的模型得到最佳泊车线路模型”包括：

设定泊车终点位置信息、车辆当前所在位置信息，以及泊车所需经过的全部障碍位置信息；

将不同的方向盘角度和油门值输入至值函数网络，以得到loss函数；

根据loss函数，调整值函数网络的参数，以得到最佳值函数网络；

根据最佳值函数网络，搭建两层神经连接层拟合得到最佳泊车线路模型。

其中，所述步骤“将不同的方向盘角度和油门值输入至值函数网络，以得到loss函数”中获取loss函数采用TD_error算法。

其中，所述步骤“将用户需求信息数据带入预先根据duel_dqn强化学习算法训练的模型得到最佳泊车线路模型”中，duel_dqn强化学习算法的reward值设定为：若车辆发生碰撞则reward值为-2，若车辆到达指定目的地则reward值为1，其他reward值为0。

第二方面，本发明提供了一种自动泊车装置，其包括：

信息获取单元，用于获取用户所需泊车车位坐标和车辆当前所在空间坐标，以得到用户需求信息数据；

模型训练单元，将用户需求信息数据带入预先根据duel_dqn强化学习算法训练的模型得到最佳泊车线路模型；

信息输出单元，根据最佳泊车线路模型，输出对应的车辆方向盘角度和油门值。

其中，所述模型训练单元包括：

信息设定单元，设定泊车终点位置信息、车辆当前所在位置信息，以及泊车所需经过的全部障碍位置信息；

loss函数计算单元，将不同的方向盘角度和油门值输入至值函数网络，以得到loss函数；

duel_dqn运算单元，用于根据loss函数，调整值函数网络的参数，以得到最佳值函数网络；

拟合单元，用于根据最佳值函数网络，搭建两层神经连接层拟合得到最佳泊车线路模型。

其中，所述“loss函数计算单元”中执行运算TD_error算法。

第三方面，本发明还提供了一种计算机设备，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如上任一项所述的方法。

第四方面，本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现如上任一项所述的方法。

与现有技术相比，本发明的实施例提供了一种自动泊车方法、装置、计算机设备和存储介质，其采用强化学习duel_dqn算法实现自动泊车，从而无需中间路径规划，减少了工作量，解决了问题诊断的难题。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的自动泊车方法的主流程图；

图2为本发明实施例提供的自动泊车方法的子流程图；

图3为本发明实施例提供的自动泊车装置的示意性简图；以及

图4为本发明实施例提供的计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

请参阅附图1，第一方面，本发明提供了一种自动泊车方法，其包括以下步骤：

步骤S100、获取用户所需泊车车位坐标和车辆当前所在空间坐标，以得到用户需求信息数据；也即在一次具体自动泊车执行控制过程中，首先需要获得用户的需求信息，其中，用户所需泊车车位信息和车辆当前所在空间位置信息是必不可少的，也即需要确定车辆实际所在位置和目标位置，上述用户信息数据可以基于GPS精准定位的数据。

步骤S200、将用户需求信息数据带入预先根据duel_dqn强化学习算法训练的模型得到最佳泊车线路模型；强化学习是一个反复迭代的过程，每一次迭代要解决两个问题：给定一个策略求值函数，和根据值函数来更新策略。DQN使用神经网络来近似值函数，即神经网络的输入是state s,输出是Q(s,a),

通过神经网络计算出值函数后，DQN使用∈-greedy策略来输出action。值函数网络与∈-greedy策略之间的联系是这样的：首先环境会给出一个obs，智能体根据值函数网络得到关于这个obs的所有Q(s,a)，然后利用∈-greedy选择action并做出决策，环境接收到此action后会给出一个奖励Rew及下一个obs。这是一个step。此时我们根据Rew去更新值函数网络的参数。接着进入下一个step。如此循环下去，直到我们训练出了一个好的值函数网络。

步骤S300、根据最佳泊车线路模型，输出对应的车辆方向盘角度和油门值。

其中，所述步骤S200“将用户需求信息数据带入预先根据duel_dqn强化学习算法训练的模型得到最佳泊车线路模型”包括：

步骤S201、设定泊车终点位置信息、车辆当前所在位置信息，以及泊车所需经过的全部障碍位置信息。也即输入duel_dqn强化学习算法训练的模型的学习数据，其模型训练的基础数据包括设定的泊车终点位置信息，车辆当前位置信息以及所经过路线的可能障碍位置信息。

步骤S202、将不同的方向盘角度和油门值输入至值函数网络，以得到loss函数；当设定车辆当前位置信息，泊车车位信息以及路障位置信息后，需要根据不同action，也即方向盘角度和油门值，去训练模型，也得到了模型输出结果，根据模型结果寻找最佳路径。

步骤S203、根据loss函数，调整值函数网络的参数，以得到最佳值函数网络；loss函数采用TD_error算法，其为更新目标值函数与当前状态值函数之间的差值，用于调整模型参数用。

步骤S204、根据最佳值函数网络，搭建两层神经连接层拟合得到最佳泊车线路模型。根据duel_dqn强化学习算法训练的模型以及loss函数的两侧拟合，获取最终的最佳泊车路径。

具体的，所述步骤S202“将不同的方向盘角度和油门值输入至值函数网络，以得到loss函数”中获取loss函数采用td_error算法。

其中，所述步骤S200“将用户需求信息数据带入预先根据duel_dqn强化学习算法训练的模型得到最佳泊车线路模型”中，duel_dqn强化学习算法的reward值设定为：若车辆发生碰撞则reward值为-2，若车辆到达指定目的地则reward值为1，其他reward值为0。

具体而言，该自动泊车算法为：车在状态空间的表达可以设定为s，车在状态空间采取的行动设定为action，车到达下一个状态获取的奖励(reward)，车采取action后所到达的状态s_。

把车的坐标(x，y)用s来表示，action代表方向盘的转角和油门值，当车采用action后到达s_这个过程中会获取reward，如果碰撞reward是-2，如果到达目的地reward是1，其他位置是0。

把状态值作为输入，输出值是action的概率，搭建两层神全连接层来拟合他们之间的关系，loss函数用td_error，不断地完善参数。

经过数十次的训练模型拟合成功存成model，在实际泊车时把状态值作为输入就会直接输出action的概率值，从而辅助选取正确的action，也就是方向盘转角和油门值。

请再次参阅图3，图3为本实施例的自动泊车装置的示意性结构简图，该自动泊车装置100，其包括：

信息获取单元001，用于获取用户所需泊车车位坐标和车辆当前所在空间坐标，以得到用户需求信息数据；

模型训练单元002，将用户需求信息数据带入预先根据duel_dqn强化学习算法训练的模型得到最佳泊车线路模型；

信息输出单元003，根据最佳泊车线路模型，输出对应的车辆方向盘角度和油门值。

其中，所述模型训练单元002包括：

信息设定单元021，设定泊车终点位置信息、车辆当前所在位置信息，以及泊车所需经过的全部障碍位置信息；

loss函数计算单元022，将不同的方向盘角度和油门值输入至值函数网络，以得到loss函数；

duel_dqn运算单元023，用于根据loss函数，调整值函数网络的参数，以得到最佳值函数网络；

拟合单元024，用于根据最佳值函数网络，搭建两层神经连接层拟合得到最佳泊车线路模型。

其中，所述“loss函数计算单元022”中执行运算TD_error算法。

请参阅图4，本实施例还提供了一种计算机设备，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032包括程序指令，该程序指令被执行时，可使得处理器502执行一种自动泊车方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行以下步骤：

本发明还提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现如下自动泊车方法：步骤S100、获取用户所需泊车车位坐标和车辆当前所在空间坐标，以得到用户需求信息数据；步骤S200、将用户需求信息数据带入预先根据duel_dqn强化学习算法训练的模型得到最佳泊车线路模型；步骤S300、根据最佳泊车线路模型，输出对应的车辆方向盘角度和油门值。

所述存储介质可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的计算机可读存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

上述内容，仅为本发明的较佳实施例，并非用于限制本发明的实施方案，本领域普通技术人员根据本发明的主要构思和精神，可以十分方便地进行相应的变通或修改，故本发明的保护范围应以权利要求书所要求的保护范围为准。

Claims

1.一种自动泊车方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的自动泊车方法，其特征在于，所述步骤“将用户需求信息数据带入预先根据duel_dqn强化学习算法训练的模型得到最佳泊车线路模型”包括：

3.根据权利要求2所述的自动泊车方法，其特征在于，所述步骤“将不同的方向盘角度和油门值输入至值函数网络，以得到loss函数”中获取loss函数采用td_eroor算法。

4.根据权利要求1所述的自动泊车方法，其特征在于，所述步骤“将用户需求信息数据带入预先根据duel_dqn强化学习算法训练的模型得到最佳泊车线路模型”中，duel_dqn强化学习算法的reward值设定为：若车辆发生碰撞则reward值为-2，若车辆到达指定目的地则reward值为1，其他reward值为0。

5.一种自动泊车装置，其特征在于，包括：

6.根据权利要求5所述的自动泊车装置，其特征在于，所述模型训练单元包括：

7.根据权利要求6所述的自动泊车装置，其特征在于，所述“loss函数计算单元”中执行运算td_error算法。

8.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-4中任一项所述的方法。

9.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时可实现如权利要求1-4中任一项所述的方法。