CN116749953A

CN116749953A - 自动泊车的学习方法、装置、云服务器及存储介质

Info

Publication number: CN116749953A
Application number: CN202310668170.6A
Authority: CN
Inventors: 黄秋生
Original assignee: Chery Intelligent Automotive Technology Hefei Co ltd
Current assignee: Chery Intelligent Automotive Technology Hefei Co ltd
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-09-15

Abstract

本申请涉及一种自动泊车的学习方法、装置、云服务器及存储介质，包括：计算评价者网络模型和执行者网络模型，分别得到第一初始权重参数和第二初始权重参数，控制至少一个待训练车辆分别根据第一和第二初始权重参数进行训练，生成泊车输出动作；接收评价者网络模型的第一模型权重参数、执行者网络模型的第二模型权重参数和泊车评价数据，确定第一模型权重参数的第一权重和第二模型权重参数的第二权重，对第一和第二模型权重参数加权计算，以更新第一和第二初始权重参数，利用训练完成的评价者和执行者网络模型控制至少一个待训练车辆执行泊车动作。由此，解决了训练后的网络模型易陷入局部最优解、易导致数据隐私泄露以及训练过程冗长等问题。

Description

自动泊车的学习方法、装置、云服务器及存储介质

技术领域

本申请涉及自动驾驶技术领域，特别涉及一种自动泊车的学习方法、装置、云服务器及存储介质。

背景技术

随着车辆技术的快速发展，用户对于车辆的需求越来越大，停车位紧张的现象也逐渐加剧，因此易引发较多的泊车事故，为避免这一现象发生，需要对自动泊车技术进行不断优化。

相关技术中，大多将强化学习策略应用于自动驾驶算法当中，通过强化学习策略训练网络模型以指导自动泊车系统完成泊车动作。

然而，通过强化学习策略指导自动泊车系统完成泊车动作过程中，存在以下问题：(1)强化学习策略需要积累大量数据训练深度神经网络模型，而这些数据完全由车辆通过自身进行探索，从而会导致训练过程冗长；(2)若车辆在训练过程中尝试新的动作，以期望获得更高的奖励完成对动作的优化，为保证在深度强化学习过程中的收敛速度，训练出来的深度神经网络可能会陷入局部最优解；(3)通过云计算中心完成对车辆感知数据的训练，易导致数据隐私的泄露，亟需解决。

发明内容

本申请提供一种自动泊车的学习方法、装置、云服务器及存储介质，以解决相关技术中训练后的网络模型易陷入局部最优解、易导致数据隐私泄露以及训练过程冗长等问题。

本申请第一方面实施例提供一种自动泊车的学习方法，包括以下步骤：

基于云计算中心生成评价者网络模型和执行者网络模型；

利用所述云计算中心分别训练所述评价者网络模型和所述执行者网络模型得到所述评价者网络模型的第一初始权重参数和所述执行者网络模型的第二初始权重参数，将所述第一初始权重参数和所述第二初始权重参数发送至至少一个待训练车辆，并控制所述至少一个待训练车辆分别根据所述第一初始权重参数和所述第二初始权重参数进行训练，生成所述至少一个待训练车辆的泊车输出动作；以及

接收所述至少一个待训练车辆发送的所述评价者网络模型的第一模型权重参数、所述执行者网络模型的第二模型权重参数和泊车评价数据，并基于所述泊车评价数据确定所述第一模型权重参数的第一权重和所述第二模型权重参数的第二权重，且基于所述第一权重和所述第二权重，对所述第一模型权重参数和所述第二模型权重参数加权计算，并根据加权计算结果更新所述第一初始权重参数和所述第二初始权重参数，直至所述评价者网络模型和所述执行者网络模型满足预设结束训练条件，以利用训练完成的所述评价者网络模型和所述执行者网络模型控制所述至少一个待训练车辆执行泊车动作。

根据本申请的一个实施例，所述将所述第一初始权重参数和所述第二初始权重参数发送至至少一个待训练车辆，并控制所述至少一个待训练车辆分别根据所述第一初始权重参数和所述第二初始权重参数进行训练，包括：

获取所述至少一个待训练车辆的泊车场景；

根据所述泊车场景以及所述第一初始权重参数和所述第二初始权重参数训练所述至少一个待训练车辆的自动泊车算法，生成所述至少一个待训练车辆的评价者网络模型的第一初始权重参数和执行者网络模型的第二初始权重参数。

根据本申请的一个实施例，所述接收所述至少一个待训练车辆发送的所述评价者网络模型的第一模型权重参数、所述执行者网络模型的第二模型权重参数和泊车评价数据之前，还包括：

基于所述至少一个待训练车辆的泊车输出动作，生成所述至少一个待训练车辆的泊车评价数据。

根据本申请的一个实施例，所述基于所述至少一个待训练车辆的泊车输出动作，生成所述至少一个待训练车辆的泊车评价数据，包括：

获取所述执行者网络模型的泊车输入信息，并根据所述执行者网络模型的泊车输入信息计算所述至少一个待训练车辆的泊车输出动作，并控制所述至少一个待训练车辆执行所述泊车输出动作；

基于所述执行者网络模型的泊车输出动作，生成所述至少一个待训练车辆的当前泊车状态，并计算所述至少一个待训练车辆在当前泊车状态下的评价者网络模型的奖励函数，生成所述至少一个待训练车辆的泊车评价数据。

根据本申请的一个实施例，基于所述执行者网络模型的泊车输出动作，生成所述至少一个待训练车辆的当前泊车状态，包括：

获取至少一个待训练车辆的泊车探索区域，基于执行者网络模型的泊车输出动作，确定评价者网络模型的奖励函数，以调整至少一个待训练车辆的泊车状态。

根据本申请的一个实施例，所述至少一个待训练车辆的泊车评价数据包括所述至少一个待训练车辆的中心位置与所述泊车探索区域中心位置的重合程度，以及所述至少一个待训练车辆的航向角与所述泊车探索区域方向的平行程度中的至少一种。

根据本申请的一个实施例，所述更新所述第一初始权重参数和所述第二初始权重参数的优化算法为梯度下降算法。

根据本申请实施例的自动泊车的学方法，通过计算基于云计算中心生成的评价者网络模型和执行者网络模型，分别得到第一初始权重参数和第二初始权重参数，将参数发送至至少一个待训练车辆，并控制至少一个待训练车辆分别根据第一和第二初始权重参数进行训练，生成泊车输出动作；接收评价者网络模型的第一模型权重参数、执行者网络模型的第二模型权重参数和泊车评价数据，确定第一模型权重参数的第一权重和第二模型权重参数的第二权重，对第一和第二模型权重参数加权计算，以更新第一和第二初始权重参数，利用训练完成的评价者网络模型和执行者网络模型控制至少一个待训练车辆执行泊车动作。由此，解决了训练的网络模型易陷入局部最优解、易导致数据隐私泄露以及训练过程冗长等问题，通过联邦学习和深度强化学习的结合，基于分布式系统完成深度强化学习训练过程，以提高网络模型的训练速度和训练结果的全面性，同时降低了数据泄露的风险。

本申请第二方面实施例提供一种自动泊车的学习装置，包括：

生成模块，用于基于云计算中心生成评价者网络模型和执行者网络模型；

控制模块，用于利用所述云计算中心分别训练所述评价者网络模型和所述执行者网络模型得到所述评价者网络模型的第一初始权重参数和所述执行者网络模型的第二初始权重参数，将所述第一初始权重参数和所述第二初始权重参数发送至至少一个待训练车辆，并控制所述至少一个待训练车辆分别根据所述第一初始权重参数和所述第二初始权重参数进行训练，生成所述至少一个待训练车辆的泊车输出动作；以及

计算模块，用于接收所述至少一个待训练车辆发送的所述评价者网络模型的第一模型权重参数、所述执行者网络模型的第二模型权重参数和泊车评价数据，并基于所述泊车评价数据确定所述第一模型权重参数的第一权重和所述第二模型权重参数的第二权重，且基于所述第一权重和所述第二权重，对所述第一模型权重参数和所述第二模型权重参数加权计算，并根据加权计算结果更新所述第一初始权重参数和所述第二初始权重参数，直至所述评价者网络模型和所述执行者网络模型满足预设结束训练条件，以利用训练完成的所述评价者网络模型和所述执行者网络模型控制所述至少一个待训练车辆执行泊车动作。

根据本申请的一个实施例，所述控制模块，具体用于：

获取所述至少一个待训练车辆的泊车场景；

根据所述泊车场景以及所述第一初始权重参数和所述第二初始权重参数训练所述至少一个待训练车辆的自动泊车算法，生成所述至少一个待训练车辆的评价者网络模型的第一初始权重参数和执行者网络模型的第二初始权重参。

根据本申请的一个实施例，所述接收所述至少一个待训练车辆发送的所述评价者网络模型的第一模型权重参数、所述执行者网络模型的第二模型权重参数和泊车评价数据之前，所述计算模块，还用于：

根据本申请的一个实施例，所述计算模块，具体用于：

根据本申请实施例的自动泊车的学装置，通过计算基于云计算中心生成的评价者网络模型和执行者网络模型，分别得到第一初始权重参数和第二初始权重参数，将参数发送至至少一个待训练车辆，并控制至少一个待训练车辆分别根据第一和第二初始权重参数进行训练，生成泊车输出动作；接收评价者网络模型的第一模型权重参数、执行者网络模型的第二模型权重参数和泊车评价数据，确定第一模型权重参数的第一权重和第二模型权重参数的第二权重，对第一和第二模型权重参数加权计算，以更新第一和第二初始权重参数，利用训练完成的评价者网络模型和执行者网络模型控制至少一个待训练车辆执行泊车动作。由此，解决了训练的网络模型易陷入局部最优解、易导致数据隐私泄露以及训练过程冗长等问题，通过联邦学习和深度强化学习的结合，基于分布式系统完成深度强化学习训练过程，以提高网络模型的训练速度和训练结果的全面性，同时降低了数据泄露的风险。

本申请第三方面实施例提供一种云服务器，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的自动泊车的学方法。

本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如上述实施例所述的自动泊车的学方法。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种自动泊车的学习方法的流程图；

图2为根据本申请一个实施例的联邦深度强化学习的框架示意图；

图3为根据本申请实施例的自动泊车的学习装置的示例图；

图4为根据本申请实施例的云服务器的结构示意图。

具体实施方式

下面详细描述本申请的实施例，实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的自动泊车的学习方法、装置、电子设备及存储介质。针对上述背景技术中提到的相关技术中训练后的网络模型易陷入局部最优解、易导致数据隐私泄露以及训练过程冗长的问题，本申请提供了一种自动泊车的学习方法，在该方法中，通过计算基于云计算中心生成的评价者网络模型和执行者网络模型，分别得到第一初始权重参数和第二初始权重参数，将参数发送至至少一个待训练车辆，并控制至少一个待训练车辆分别根据第一和第二初始权重参数进行训练，生成泊车输出动作；接收评价者网络模型的第一模型权重参数、执行者网络模型的第二模型权重参数和泊车评价数据，确定第一模型权重参数的第一权重和第二模型权重参数的第二权重，对第一和第二模型权重参数加权计算，以更新第一和第二初始权重参数，利用训练完成的评价者网络模型和执行者网络模型控制至少一个待训练车辆执行泊车动作。由此，解决了训练的网络模型易陷入局部最优解、易导致数据隐私泄露以及训练过程冗长等问题，通过联邦学习和深度强化学习的结合，基于分布式系统完成深度强化学习训练过程，以提高网络模型的训练速度和训练结果的全面性，同时降低了数据泄露的风险。

具体而言，图1为本申请实施例所提供的一种自动泊车的学习方法的流程示意图。

如图1所示，该自动泊车的学习方法包括以下步骤：

在步骤S101中，基于云计算中心生成评价者网络模型和执行者网络模型。

具体地，本申请实施例为提升网络模型的强化学习效率，将联邦学习和深度强化学习结合，以基于云计算中心对评价者网络模型和执行者网络模型进行训练，从而借助用户的驾驶经验不断优化评价者网络模型和执行者网络模型。

在步骤S102中，利用云计算中心分别训练评价者网络模型和执行者网络模型得到评价者网络模型的第一初始权重参数和执行者网络模型的第二初始权重参数，将第一初始权重参数和第二初始权重参数发送至至少一个待训练车辆，并控制至少一个待训练车辆分别根据第一初始权重参数和第二初始权重参数进行训练，生成至少一个待训练车辆的泊车输出动作。

进一步地，在一些实施例中，将第一初始权重参数和第二初始权重参数发送至至少一个待训练车辆，并控制至少一个待训练车辆分别根据第一初始权重参数和第二初始权重参数进行训练，包括：获取至少一个待训练车辆的泊车场景；根据泊车场景以及第一初始权重参数和第二初始权重参数训练至少一个待训练车辆的自动泊车算法，生成至少一个待训练车辆的评价者网络模型的第一初始权重参数和执行者网络模型的第二初始权重参数。

具体地，如图2所示，在本申请实施例中，首先利用云计算中心分别训练评价者网络模型和执行者网络模型，得到评价者网络模型的第一初始权重参数θ_C和执行者网络模型的第二初始权重参数θ_E，并将第一初始权重参数θ_C和第二初始权重参数θ_E发送至至少一个待训练车辆，例如，将第一初始权重参数θ_C和第二初始权重参数θ_E发送至待训练车辆A、待训练车辆B、待训练车辆C以及其他待训练车辆；其次，获取至少一个待训练车辆的泊车场景，控制至少一个待训练车辆根据各自的泊车场景以及第一初始权重参数θ_C和第二初始权重参数θ_E训练自动泊车算法，从而根据训练出的每个待训练车辆的自动泊车算法生成评价者网络模型的第一模型权重参数以及执行者网络模型的第二模型权重参数/>以提高网络模型的泛化能力，其中，i是至少一个待训练车辆的序号。

其中，本申请实施例获取到的至少一个待训练车辆的泊车场景可以为垂直车位泊车场景、平行车位泊车场景、斜停车位泊车场景或者其他泊车场景，在此不做具体限定。

举例而言，在本申请实施例中，若待训练车辆A处于垂直车位泊车场景，则控制待训练车辆A在垂直车位上训练对应的自动泊车算法；若待训练车辆B处于平行车位泊车场景，则控制待训练车辆B在平行车位上训练对应的自动泊车算法；若待训练车辆C处于斜停车位泊车场景，则控制待训练车辆C在斜停车位上训练对应的自动泊车算法，从而得到待训练车辆A、待训练车辆B以及待训练车辆C的各自的评价者网络模型的第一模型权重参数以及执行者网络模型的第二模型权重参数/>

在步骤S103中，接收至少一个待训练车辆发送的评价者网络模型的第一模型权重参数、执行者网络模型的第二模型权重参数和泊车评价数据，并基于泊车评价数据确定第一模型权重参数的第一权重和第二模型权重参数的第二权重，且基于第一权重和第二权重，对第一模型权重参数和第二模型权重参数加权计算，并根据加权计算结果更新第一初始权重参数和第二初始权重参数，直至评价者网络模型和执行者网络模型满足预设结束训练条件，以利用训练完成的评价者网络模型和执行者网络模型控制至少一个待训练车辆执行泊车动作。

进一步地，在一些实施例中，接收至少一个待训练车辆发送的评价者网络模型的第一模型权重参数、执行者网络模型的第二模型权重参数和泊车评价数据之前，还包括：基于至少一个待训练车辆的泊车输出动作，生成至少一个待训练车辆的泊车评价数据。

其中，预设结束训练条件可以为本领域技术人员根据实际训练需求设定的训练条件，在此不做具体限定。

具体地，本申请实施例根据获取到的至少一个待训练车辆的第一模型权重参数和第二模型权重参数，生成至少一个待训练车辆的泊车输出动作，以控制至少一个待训练车辆根据对应的泊车输出动作完成泊车，同时基于所完成的泊车结果生成至少一个待训练车辆的泊车评价数据，并将泊车评价数据和至少一个待训练车辆发送的评价者网络模型的第一模型权重参数、执行者网络模型的第二模型权重参数上传至云计算中心，其中，泊车评价数据包括至少一个待训练车辆的中心位置与泊车探索区域中心位置的重合程度，以及至少一个待训练车辆的航向角与泊车探索区域方向的平行程度，以评价至少一个待训练车辆泊车完成的效果。

进一步地，在一些实施例中，基于至少一个待训练车辆的泊车输出动作，生成至少一个待训练车辆的泊车评价数据，包括：获取执行者网络模型的泊车输入信息，并根据执行者网络模型的泊车输入信息计算至少一个待训练车辆的泊车输出动作，并控制至少一个待训练车辆执行泊车输出动作；基于执行者网络模型的泊车输出动作，生成至少一个待训练车辆的当前泊车状态，并计算至少一个待训练车辆在当前泊车状态下的评价者网络模型的奖励函数，生成至少一个待训练车辆的泊车评价数据。

进一步地，在一些实施例中，基于执行者网络模型的泊车输出动作，生成至少一个待训练车辆的当前泊车状态，包括：获取至少一个待训练车辆的泊车探索区域，基于执行者网络模型的泊车输出动作，确定评价者网络模型的奖励函数，以调整至少一个待训练车辆的泊车状态。

具体地，在本申请实施例中，在评价至少一个待训练车辆的泊车效果之前，首先需要采集至少一个待训练车辆的周围环境信息，例如，可以通过摄像头采集至少一个待训练车辆周围的可泊车环境；其次，根据采集到的可泊车环境训练相应的自动泊车算法，从而根据得到的第一模型权重参数和第二模型权重参数控制至少一个待训练车辆执行泊车输出动作A，从而确定至少一个待训练车辆的泊车探索区域，并基于执行者网络模型的泊车输出动作，确定评价者网络模型的奖励函数，以调整至少一个待训练车辆的泊车状态S，其中，对于至少一个待训练车辆的泊车状态，可以基于至少一个待训练车辆执行泊车输出动作A的基础上，添加一定的噪声，通过执行至少一个待训练车辆执行泊车输出动作A，观察至少一个待训练车辆的泊车状态S，即S→S′的变化，从而计算S′状态下的奖励函数R。

进一步地，在本申请实施例中，奖励函数可以由下式所示，

其中，X_e，Y_e分别为至少一个待训练车辆的形心与目标泊车位的形心的X方向、Y方向的偏差；θe为至少一个待训练车辆的航向角与目标泊车位朝向的偏差；δ为方向盘转角；ft为0或1，代表至少一个待训练车辆是否已经泊入车位；g_t为0或者1，代表至少一个待训练车辆是否发生了碰撞。

最后，在确定至少一个待训练车辆在当前泊车状态下的奖励函数R后，将S、A、R以及S′存储至缓存区域，以获得大量的缓存样本。

具体而言，在该缓存区域中，可以提取M条缓存记录，计算y值，其中，y值为修正后的奖励值，其值等于当前状态下的奖励值加上采用一个最佳探索动作产生的奖励值，以对评价者网络模型进行优化，同时，还需要通过y值与评价者网络模型输出值的均方根差作为损失函数，对评价者网络进行优化。其中，y值可由下式表示：

其中，i＝(1，2，...M)，如果S′i为泊入车位的终点，则y＝Ri，否则按照上式计算；π_t(S_i′；θ_t)为执行者网络对S′i计算的输出，是一个执行动作；θ_t为执行者网络的权重参数；ε为探索区域，即在既定的动作下，允许在一定范围内采取小幅度的改变，例如可以为针对执行者网络计算输出的方向盘转角加上小幅度的偏移量；；φ_tk为评价者网络权重参数；Q_tk(S_i′，clip(π_t(S_i′；θ_t)+ε)φ_tk)为探索新动作后评价者网络计算输出的奖励值，智能体需要在ε探索区域内找到最优奖励值(可以是最小值，也可以为最大值，具体根据实际问题定义)的动作；γ为衰减因子，用来平衡探索新动作的奖励值和至少一个待训练车辆在当前泊车状态的奖励值之间的权重。

进一步地，在本申请实施例中，基于上述获取的泊车评价数据通过云计算中心根据至少一个待训练车辆的泊车评价数据分别为评价者网络模型和执行者网络模型分配第一模型权重参数和第二模型权重参数/>的权重k_i，并且基于权重k_i，对第一模型权重参数和第二模型权重参数加权计算，并根据加权计算结果通过梯度下降算法更新第一初始权重参数θ_C和第二初始权重参数θ_E。

需要说明的是，云计算中心和至少一个待训练车辆采用相同的模型结构训练，因此其第一模型权重参数和第二模型权重参数具有相同的数据结构，在对评价者网络模型和执行者网络模型每一层每一个节点的参数经过加权求和后，即完成整个神经网络参数的更新。

进一步地，云计算中心将更新后的第一初始权重参数θ′_C和第二初始权重参数θ′_E分发给至少一个待训练车辆，以控制至少一个待训练车辆按照新的模型权重参数继续训练，直至评价者网络模型和执行者网络模型满足预设结束训练条件，以利用训练完成的评价者网络模型和执行者网络模型控制至少一个待训练车辆执行泊车动作。

需要说明的是，在本申请实施例的数据链路中，至少一个待训练车辆和云计算中心传输的都是模型的权重参数，不涉及到单个待训练车辆的感知数据，因此，可以有效保护感知数据中的个人隐私。

其次参照附图描述根据本申请实施例提出的自动泊车的学习装置。

图3是本申请实施例的自动泊车的学习装置的方框示意图。

如图3所示，该自动泊车的学习装置10包括：生成模块100、控制模块200和计算模块300。

其中，生成模块100，用于基于云计算中心生成评价者网络模型和执行者网络模型；

控制模块200，用于利用云计算中心分别训练评价者网络模型和执行者网络模型得到评价者网络模型的第一初始权重参数和执行者网络模型的第二初始权重参数，将第一初始权重参数和第二初始权重参数发送至至少一个待训练车辆，并控制至少一个待训练车辆分别根据第一初始权重参数和第二初始权重参数进行训练，生成至少一个待训练车辆的泊车输出动作；以及

计算模块300，用于接收至少一个待训练车辆发送的评价者网络模型的第一模型权重参数、执行者网络模型的第二模型权重参数和泊车评价数据，并基于泊车评价数据确定第一模型权重参数的第一权重和第二模型权重参数的第二权重，且基于第一权重和第二权重，对第一模型权重参数和第二模型权重参数加权计算，并根据加权计算结果更新第一初始权重参数和第二初始权重参数，直至评价者网络模型和执行者网络模型满足预设结束训练条件，以利用训练完成的评价者网络模型和执行者网络模型控制至少一个待训练车辆执行泊车动作。

进一步地，在一些实施例中，控制模块200，具体用于：

获取至少一个待训练车辆的泊车场景；

根据泊车场景以及第一初始权重参数和第二初始权重参数训练至少一个待训练车辆的自动泊车算法，生成至少一个待训练车辆的评价者网络模型的第一初始权重参数和执行者网络模型的第二初始权重参数。

进一步地，在一些实施例中，接收至少一个待训练车辆发送的评价者网络模型的第一模型权重参数、执行者网络模型的第二模型权重参数和泊车评价数据之前，计算模块300，还用于：

基于至少一个待训练车辆的泊车输出动作，生成至少一个待训练车辆的泊车评价数据。

进一步地，在一些实施例中，计算模块300，具体用于：

获取执行者网络模型的泊车输入信息，并根据执行者网络模型的泊车输入信息计算至少一个待训练车辆的泊车输出动作，并控制至少一个待训练车辆执行泊车输出动作；

基于执行者网络模型的泊车输出动作，生成至少一个待训练车辆的当前泊车状态，并计算至少一个待训练车辆在当前泊车状态下的评价者网络模型的奖励函数，生成至少一个待训练车辆的泊车评价数据。

进一步地，在一些实施例中，计算模块300，具体用于：

进一步地，在一些实施例中，至少一个待训练车辆的泊车评价数据包括至少一个待训练车辆的中心位置与泊车探索区域中心位置的重合程度，以及至少一个待训练车辆的航向角与泊车探索区域方向的平行程度中的至少一种。

进一步地，在一些实施例中，更新第一初始权重参数和第二初始权重参数的优化算法为梯度下降算法。

图4为本申请实施例提供的云服务器的结构示意图。该云服务器可以包括：

存储器401、处理器402及存储在存储器401上并可在处理器402上运行的计算机程序。

处理器402执行程序时实现上述实施例中提供的自动泊车的学方法。

进一步地，云服务器还包括：

通信接口403，用于存储器401和处理器402之间的通信。

存储器401，用于存放可在处理器402上运行的计算机程序。

存储器401可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器401、处理器402和通信接口403独立实现，则通信接口403、存储器401和处理器402可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图4中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器401、处理器402及通信接口403，集成在一块芯片上实现，则存储器401、处理器402及通信接口403可以通过内部接口完成相互间的通信。

处理器402可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的自动泊车的学方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或N个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种自动泊车的学习方法，其特征在于，包括以下步骤：

基于云计算中心生成评价者网络模型和执行者网络模型；

2.根据权利要求1所述的方法，其特征在于，所述将所述第一初始权重参数和所述第二初始权重参数发送至至少一个待训练车辆，并控制所述至少一个待训练车辆分别根据所述第一初始权重参数和所述第二初始权重参数进行训练，包括：

获取所述至少一个待训练车辆的泊车场景；

3.根据权利要求1所述的方法，其特征在于，所述接收所述至少一个待训练车辆发送的所述评价者网络模型的第一模型权重参数、所述执行者网络模型的第二模型权重参数和泊车评价数据之前，还包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述至少一个待训练车辆的泊车输出动作，生成所述至少一个待训练车辆的泊车评价数据，包括：

5.根据权利要求4所述的方法，其特征在于，基于所述执行者网络模型的泊车输出动作，生成所述至少一个待训练车辆的当前泊车状态，包括：

获取至少一个待训练车辆的泊车探索区域，基于所述执行者网络模型的泊车输出动作，确定评价者网络模型的奖励函数，以调整所述至少一个待训练车辆的泊车状态。

6.根据权利要求3所述的方法，其特征在于，所述至少一个待训练车辆的泊车评价数据包括所述至少一个待训练车辆的中心位置与所述泊车探索区域中心位置的重合程度，以及所述至少一个待训练车辆的航向角与所述泊车探索区域方向的平行程度中的至少一种。

7.根据权利要求1所述的方法，其特征在于，所述更新所述第一初始权重参数和所述第二初始权重参数的优化算法为梯度下降算法。

8.一种自动泊车的学习装置，其特征在于，包括：

9.一种云服务器，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-7任一项所述的自动泊车的学习方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-7任一项所述的自动泊车的学习方法。