CN114117944B

CN114117944B - 一种模型更新方法、装置、设备及可读存储介质

Info

Publication number: CN114117944B
Application number: CN202210089883.2A
Authority: CN
Inventors: 李茹杨; 邓琪; 张亚强; 李雪雷; 魏辉
Original assignee: Suzhou Inspur Intelligent Technology Co Ltd
Current assignee: Suzhou Inspur Intelligent Technology Co Ltd
Priority date: 2022-01-26
Filing date: 2022-01-26
Publication date: 2022-04-22
Anticipated expiration: 2042-01-26
Also published as: CN114117944A

Abstract

本申请公开了一种模型更新方法、装置、设备及可读存储介质。本申请将源场景中的源模型迁移至目的场景使用时，可以循序渐进地递进式训练源模型，且相邻训练环节相互影响，实现了同一模型在不同场景内的稳定迁移，能够降低训练成本，保障同一模型在不同场景内迁移的性能和稳定性，最终由目的数据集训练完成的模型就是与目的场景匹配且性能较好的新模型。相应地，本申请提供的一种模型更新装置、设备及可读存储介质，也同样具有上述技术效果。

Description

一种模型更新方法、装置、设备及可读存储介质

技术领域

本申请涉及机器学习技术领域，特别涉及一种模型更新方法、装置、设备及可读存储介质。

背景技术

深度强化学习（DRL，Deep Reinforcement Learning）是近年来快速发展的一类机器学习方法，通过智能体-环境之间的交互作用进行序列决策，智能体基于获得的奖励持续优化决策策略。随着深度学习和强化学习技术的进步，具备强大表征能力、决策能力的深度强化学习方法被逐渐应用于探索自动驾驶技术。

深度强化学习用于自动驾驶时，可以基于一个驾驶场景训练相应的驾驶模型，使用该驾驶模型就能够有相应的自动驾驶策略。然而，在一个区域内训练得到的自动驾驶策略，不适用在与该区域差异较大的其他区域内直接应用。如：在空旷环境下训练得到的自动驾驶策略，在拥堵环境中难以避免碰撞问题。如果直接在拥堵环境对空旷环境下的自动驾驶策略进行更新，那么最终模型的稳定性较差。如果直接在拥堵环境训练一个新模型，训练成本会比较高。

因此，如何在训练场景变化后，快速得到与新场景匹配且性能较好的模型，是本领域技术人员需要解决的问题。

发明内容

有鉴于此，本申请的目的在于提供一种模型更新方法、装置、设备及可读存储介质，以在训练场景变化后，快速得到与新场景匹配且性能较好的模型。其具体方案如下：

第一方面，本申请提供了一种模型更新方法，包括：

获取目的场景中的目的数据集、源场景中的源数据集及利用所述源数据集训练完成的源模型；

在所述源数据集和所述目的数据集之间确定至少一个中间数据集；

将所述至少一个中间数据集按差异梯度大小排列在所述源数据集和所述目的数据集之间，得到数据集序列；

针对排列在所述数据集序列首位置之后的每个数据集，将前一数据集训练完成的模型作为当前数据集的待训练模型，利用当前数据集训练所述待训练模型得到当前数据集训练完成的模型；

获取并存储所述目的数据集训练完成的模型。

可选地，所述在所述源数据集和所述目的数据集之间确定至少一个中间数据集，包括：

确定所述源数据集和所述目的数据集中的差异化数据，并将所述差异化数据分类为N个训练维度；

针对每个训练维度的差异化数据，在当前训练维度的差异化数据中确定至少一个差异程度，根据所述至少一个差异程度确定至少一个数据组，并将所述至少一个数据组分别填充至所述源数据集，得到当前训练维度对应的至少一个中间数据集；

相应地，所述将所述至少一个中间数据集按差异梯度大小排列在所述源数据集和所述目的数据集之间，得到数据集序列，包括：

按差异梯度大小分别排列N个训练维度对应的各中间数据集，得到N个子序列；

基于所述N个子序列、所述源数据集和所述目的数据集，得到所述数据集序列。

可选地，所述基于所述N个子序列、所述源数据集和所述目的数据集，得到所述数据集序列，包括：

根据N个训练维度的优先级顺序拼接N个子序列，并将所述源数据集置于拼接得到的序列的首位置，将所述目的数据集置于拼接得到的序列的尾位置，得到所述数据集序列；

或

将N个子序列中的中间数据集对位进行合并，将合并得到的数据集按差异梯度大小排列在所述源数据集和所述目的数据集之间，得到所述数据集序列。

可选地，若所述源模型用于控制车辆或机器人自动移动，则所述N个训练维度包括：移动场景中同类型的车辆或机器人的稀疏程度和/或移动场景中是否有非同类型的随机障碍物。

可选地，所述利用当前数据集训练所述待训练模型得到当前数据集训练完成的模型，包括：

确定当前数据集对应的奖惩函数；

从当前数据集中获取一个训练数据输入所述待训练模型，得到训练结果；

利用所述奖惩函数计算奖惩分数，并确定所述奖惩分数与初始训练目标之和，将所述和与所述训练结果之间的差异作为损失；所述初始训练目标为：目标模型处理所述训练数据的结果；所述目标模型与所述待训练模型相同；

基于所述损失更新所述待训练模型；

若更新后的待训练模型收敛，则将更新后的待训练模型作为当前数据集训练完成的模型；

若更新后的待训练模型未收敛，则从当前数据集中获取另一训练数据对更新后的待训练模型进行迭代训练，直至更新后的待训练模型收敛。

可选地，所述奖惩函数的表达式为：

其中，r _i为当前数据集对应的奖惩函数，r _i-1为所述数据集序列中排列在当前数据集前一位置的数据集对应的奖惩函数，f _i为当前数据集对应的奖惩分数计算公式。

可选地，所述基于所述损失更新所述待训练模型之后，还包括：

若达到训练目标更新条件，则将更新后的待训练模型的模型参数赋值给所述目标模型；或基于更新后的待训练模型的模型参数计算参数更新值，并将所述参数更新值赋值给所述目标模型；

若未达到训练目标更新条件，则保留所述目标模型。

第二方面，本申请提供了一种模型更新装置，包括：

获取模块，用于获取目的场景中的目的数据集、源场景中的源数据集及利用所述源数据集训练完成的源模型；

确定模块，用于在所述源数据集和所述目的数据集之间确定至少一个中间数据集；

排列模块，用于将所述至少一个中间数据集按差异梯度大小排列在所述源数据集和所述目的数据集之间，得到数据集序列；

训练模块，用于针对排列在所述数据集序列首位置之后的每个数据集，将前一数据集训练完成的模型作为当前数据集的待训练模型，利用当前数据集训练所述待训练模型得到当前数据集训练完成的模型；

输出模块，用于获取并存储所述目的数据集训练完成的模型。

第三方面，本申请提供了一种电子设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现前述公开的模型更新方法。

第四方面，本申请提供了一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述公开的模型更新方法。

通过以上方案可知，本申请提供了一种模型更新方法，包括：获取目的场景中的目的数据集、源场景中的源数据集及利用所述源数据集训练完成的源模型；在所述源数据集和所述目的数据集之间确定至少一个中间数据集；将所述至少一个中间数据集按差异梯度大小排列在所述源数据集和所述目的数据集之间，得到数据集序列；针对排列在所述数据集序列首位置之后的每个数据集，将前一数据集训练完成的模型作为当前数据集的待训练模型，利用当前数据集训练所述待训练模型得到当前数据集训练完成的模型；获取并存储所述目的数据集训练完成的模型。

可见，本申请利用源场景下的源数据集训练得到源模型后，若想要将该源模型迁移至目的场景使用，则首先获取目的场景下的目的数据集及源模型，然后在源数据集和目的数据集之间确定至少一个中间数据集；将至少一个中间数据集按差异梯度大小排列在源数据集和目的数据集之间，得到数据集序列；针对排列在数据集序列首位置之后的每个数据集，将前一数据集训练完成的模型作为当前数据集的待训练模型，利用当前数据集训练待训练模型得到当前数据集训练完成的模型；如此一来，源模型就可以得到循序渐进地递进式训练，且相邻训练环节相互影响，实现了同一模型在不同场景内的稳定迁移，能够降低训练成本，保障同一模型在不同场景内迁移的性能和稳定性，最终由目的数据集训练完成的模型就是与目的场景匹配且性能较好的新模型。

相应地，本申请提供的一种模型更新装置、设备及可读存储介质，也同样具有上述技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请公开的一种模型更新方法流程图；

图2为本申请公开的一种中间数据集确定示意图；

图3为本申请公开的一种自动驾驶策略迁移示意图；

图4为本申请公开的一种自动驾驶模型的数据处理示意图；

图5为本申请公开的一种模型更新装置示意图；

图6为本申请公开的一种电子设备示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

深度强化学习用于自动驾驶时，无需积累大量具有标签的专家数据，能够指导车辆从头开始不断“试错”学会自动驾驶。然而，当面对新任务、新场景，如高速公路、乡间小路、城市道路场景转换，天气、光照条件变化，机动车、非机动车、行人密度等转变时，已经训练得到的最优驾驶策略也会失效。一些研究工作中，通过微调（fine-tune）、直接策略迁移等方式，将已有模型在目标任务中继续训练，以此来适应新的自动驾驶问题。但是，这种方式通常只能用于处理差异较小的自动驾驶任务，当较多的环境状态信息发生变化时，迁移效果较差，并且需要的迁移和适应时间也较长，限制了深度强化学习在自动驾驶领域的实际应用。因此，驾驶策略在新任务中的快速适应是车辆自动驾驶决策过程中急需解决的问题。

可见，在一个区域内训练得到的自动驾驶策略，不适用在与该区域差异较大的其他区域内直接应用。如：在空旷环境下训练得到的自动驾驶策略，在拥堵环境中难以避免碰撞问题。如果直接在拥堵环境对空旷环境下的自动驾驶策略进行更新，那么最终模型的稳定性较差。如果直接在拥堵环境训练一个新模型，训练成本会比较高。为此，本申请提供了一种模型更新方案，能够在训练场景变化后，快速得到与新场景匹配且性能较好的模型。

参见图1所示，本申请实施例公开了一种模型更新方法，包括：

S101、获取目的场景中的目的数据集、源场景中的源数据集及利用源数据集训练完成的源模型。

其中，源数据集和目的数据集为源模型在源场景和目的场景内训练所用的数据集。

需要说明的是，目的场景中的目的数据集、源场景中的源数据集并非是固定不变的数据集，而是深度强化学习下实时变化的数据集。例如：在自动驾驶训练方案中，源场景为小区A，那么小区A中的源数据集既包括：小区A范围内固定不变的道路、建筑等的地图数据，又包括自动驾驶车辆/自移动机器人行驶到某一位置时，该自动驾驶车辆/自移动机器人周围随机出现的障碍物，如：其他自动驾驶车辆/其他自移动机器人、行人、垃圾等。这些障碍物的随机性导致了源数据集的动态变化。相应地，目的数据集与此类似。

在本实施例中，源模型用于控制车辆或机器人（即自移动目标）自动移动。也即：源模型可以为：自动驾驶模型、机器人自移动模型等。在自动驾驶或机器人自移动训练方案中，自动驾驶车辆/自移动机器人行驶到某一位置时，该位置周围的随机障碍物、该位置周围的环境等，即为：自动驾驶模型的输入数据。所以，本实施例中的各数据集为：某一场景中的环境数据的集合，包括：固定不变的地图数据、随机出现的障碍物等。

S102、在源数据集和目的数据集之间确定至少一个中间数据集。

为了将源模型循序渐进地迁移至目的场景中使用，本实施例比现有技术多了至少一个中间训练环节。

在现有技术中，若想要将场景CJ-X下可以正常使用的模型S迁移至场景CJ-Y中使用，那么直接使用场景CJ-Y中的数据集Y对模型S进行训练，直至模型S收敛。但此方式会导致在场景CJ-Y中收敛的模型S的稳定性较差。

为此，本实施例可以设置至少一个中间训练环节。例如：在场景CJ-X中的数据集X和场景CJ-Y中的数据集Y之间找一个中间数据集V，先使用中间数据集V对模型S进行训练，直至模型S收敛；之后，使用数据集Y对前一步收敛的模型S继续进行训练，从而得到最终与场景CJ-Y匹配的新模型S。如此一来，就不至于因为不同场景内的环境数据差异较大导致被迁移模型的性能和稳定性受损。其中，数据集X、数据集V、数据集Y之间差异可以参照下述示例：数据集X对应：平时道路上的车辆密度为10的行政区域，数据集V对应：平时道路上的车辆密度为40的行政区域，数据集Y对应：平时道路上的车辆密度为70的行政区域。

当然，如果目的场景和源场景差异非常大、且不止有车辆密度这一训练维度的差异，那么就可以设置更多的中间训练环节。必要时可以针对任一训练维度设置至少一个中间训练环节。训练维度可以是：行人密度、车辆密度、自行车等非机动车密度。

由于不同中间训练环节是因为训练所用的数据集的不同而不同，故本申请基于不同的中间数据集设定各个中间训练环节，即：在源数据集和目的数据集之间确定至少一个中间数据集。

S103、将至少一个中间数据集按差异梯度大小排列在源数据集和目的数据集之间，得到数据集序列。

在一种具体实施方式中，在源数据集和目的数据集之间确定至少一个中间数据集，包括：确定源数据集和目的数据集中的差异化数据，并将差异化数据分类为N个训练维度；针对每个训练维度的差异化数据，在当前训练维度的差异化数据中确定至少一个差异程度，根据至少一个差异程度确定至少一个数据组，并将至少一个数据组分别填充至源数据集，得到当前训练维度对应的至少一个中间数据集；相应地，将至少一个中间数据集按差异梯度大小排列在源数据集和目的数据集之间，得到数据集序列，包括：按差异梯度大小分别排列N个训练维度对应的各中间数据集，得到N个子序列；基于N个子序列、源数据集和目的数据集，得到数据集序列。

参照上述示例，假设源数据集X对应：平时道路上的车辆密度为10的行政区域，目的数据集Y对应：平时道路上的车辆密度为70的行政区域。那么，在设定一个中间数据集V的情况下，数据集序列为：[源数据X、数据集V、目的数据集Y]。

如果以车辆密度作为一个训练维度来设定中间数据集，那么针对上述源数据X至目的数据集Y而言，其中的差异化数据即为：车辆密度这一训练维度的差异化数据，具体为70-10=60。假设在密度差额为60的差异化数据中确定2个差异程度：30和50（如图2线段上的端点30和50），那么可得2个数据组：10~30的数据差额、10~50的数据差额（如图2线段上不同端点间的数据差额）。其中，由于“10~70的数据差额”这一数据组填充至源数据X，对应的是目的数据集Y，不是中间数据集，因此该数据组暂不考虑。之后将“10~30的数据差额、10~50的数据差额”这2个数据组分别填充至源数据X，可得到车辆密度这一训练维度的中间数据集：数据集V1（车辆密度为30）、数据集V2（车辆密度为50）。

如果在源数据X中，平时道路上的行人密度为2；在目的数据集Y中，平时道路上的车辆密度为10。那么针对上述源数据X至目的数据集Y而言，行为密度这一训练维度的差异化数据，具体为10-2=8。假设在密度差额为8的差异化数据中确定3个差异程度：4、6、8（如图2线段上的端点4、6、8），那么可得3个数据组：2~4的数据差额、2~6的数据差额、2~8的数据差额（如图2线段上不同端点间的数据差额）。其中，由于“2~10的数据差额”这一数据组填充至源数据X，对应的是目的数据集Y，不是中间数据集，因此该数据组暂不考虑。之后将“2~4的数据差额、2~6的数据差额、2~8的数据差额”这3个数据组分别填充至源数据X，可得到行人密度这一训练维度的中间数据集：数据集P1（行人密度为4）、数据集P2（行人密度为6）、数据集P3（行人密度为8）。

如此一来，车辆密度训练维度对应有中间数据集：数据集V1、数据集V2。行人密度训练维度对应有中间数据集：数据集P1、数据集P2、数据集P3。那么车辆密度训练维度的子序列1为：[数据集V1、数据集V2]，行人密度训练维度的子序列2为：[数据集P1、数据集P2、数据集P3]。在不考虑这两个训练维度优先级的情况下，可拼接子序列1和子序列2，得到[数据集V1、数据集V2、数据集P1、数据集P2、数据集P3]，然后，将源数据集X填充在拼接结果的首位置，将目的数据集Y填充在拼接结果的尾位置，那么得到的数据集序列为：[源数据集X、数据集V1、数据集V2、数据集P1、数据集P2、数据集P3、目的数据集Y]。当然，也可将子序列2置于子序列1之前，得到数据集序列：[源数据集X、数据集P1、数据集P2、数据集P3、数据集V1、数据集V2、目的数据集Y]。针对此方式的确定的数据集序列进行模型训练，可在一个中间训练环节从一个训练维度训练模型。当然，若行人密度训练维度和车辆密度训练维度设有优先级顺序，那么按照优先级顺序来拼接子序列1和子序列2。

在一种实施方式中，也可以先合并不同训练维度的中间数据集，再确定数据集序列。例如：将子序列1和子序列2对位合并，那么可得：[数据集V1+数据集P1、数据集V2+数据集P2、数据集P3]，之后将源数据集X填充在合并结果的首位置，将目的数据集Y填充在拼接结果的尾位置，那么得到的数据集序列为：[源数据集X、数据集V1+数据集P1、数据集V2+数据集P2、数据集P3、目的数据集Y]。针对此方式的确定的数据集序列进行模型训练，可在同一中间训练环节从两个训练维度训练模型。当然也可以在同一中间训练环节从更多个训练维度训练模型。

在一种具体实施方式中，基于N个子序列、源数据集和目的数据集，得到数据集序列，包括：根据N个训练维度的优先级顺序拼接N个子序列，并将源数据集置于拼接得到的序列的首位置，将目的数据集置于拼接得到的序列的尾位置，得到数据集序列；或将N个子序列中的中间数据集对位进行合并，将合并得到的数据集按差异梯度大小排列在源数据集和目的数据集之间，得到数据集序列。

S104、针对排列在数据集序列首位置之后的每个数据集，将前一数据集训练完成的模型作为当前数据集的待训练模型，利用当前数据集训练待训练模型得到当前数据集训练完成的模型。

S105、获取并存储目的数据集训练完成的模型。

若数据集序列为：[源数据X、数据集V、目的数据集Y]。源模型为S，那么训练过程包括：

A、将S作为数据集V的待训练模型，使用数据集V训练S直至收敛，得到S1；

B、将S1作为目的数据集Y的待训练模型，使用目的数据集Y训练S1直至收敛，得到S2；

C、S2即为目的数据集Y训练完成的模型，也就是与目的场景CJ-Y匹配的模型。

其中，每一个训练环节得到的收敛模型（如S1、S2）都可以入库存储，以便后续有需要时直接调用。上述A、B、C训练环节可基于深度强化学习实现。

可见，本实施例利用源场景下的源数据集训练得到源模型后，若想要将该源模型迁移至目的场景使用，则首先获取目的场景下的目的数据集及源模型，然后在源数据集和目的数据集之间确定至少一个中间数据集；将至少一个中间数据集按差异梯度大小排列在源数据集和目的数据集之间，得到数据集序列；针对排列在数据集序列首位置之后的每个数据集，将前一数据集训练完成的模型作为当前数据集的待训练模型，利用当前数据集训练待训练模型得到当前数据集训练完成的模型；如此一来，源模型就可以得到循序渐进地递进式训练，且相邻训练环节相互影响，实现了同一模型在不同场景内的稳定迁移，能够降低训练成本，保障同一模型在不同场景内迁移的性能和稳定性，最终由目的数据集训练完成的模型就是与目的场景匹配且性能较好的新模型。

基于上述实施例，需要说明的是，在一种具体实施方式中，若源模型用于控制车辆或机器人自动移动，则N个训练维度包括：移动场景中同类型的车辆或机器人的稀疏程度和/或移动场景中是否有非同类型的随机障碍物。其中，机器人可以是自动送餐机器人，自动送快递机器人，车间环境中的自移动机器人，银行、商场等区域内的自动寻访机器人。可见，本申请不仅可用于自动驾驶策略的分阶段迁移，还可以用于自移动机器人的自移动策略的分阶段迁移。也即：本申请可用于自移动目标的自移动策略的分阶段迁移。自移动策略即：控制相应目标自动移动的模型。

基于上述实施例，需要说明的是，任一个训练环节的训练过程可参照现有深度强化学习的相关技术进行，也可以按照本申请提供的如下深度强化学习训练步骤进行。

在一种具体实施方式中，利用当前数据集训练待训练模型得到当前数据集训练完成的模型，包括：确定当前数据集对应的奖惩函数；从当前数据集中获取一个训练数据输入待训练模型，得到训练结果；利用奖惩函数计算奖惩分数，并确定奖惩分数与初始训练目标之和，将和与训练结果之间的差异作为损失；初始训练目标为：目标模型处理训练数据的结果；目标模型与待训练模型相同；基于损失更新待训练模型；若更新后的待训练模型收敛，则将更新后的待训练模型作为当前数据集训练完成的模型；若更新后的待训练模型未收敛，则从当前数据集中获取另一训练数据对更新后的待训练模型进行迭代训练，直至更新后的待训练模型收敛。

若所述奖惩分数为预设最大惩罚值，则重新利用当前数据集训练所述待训练模型。因此计算得到奖惩分数后，先判断奖惩分数是否为预设最大惩罚值，若不是，再计算损失。

其中，不同训练环节所用的奖惩函数可以相同，也可以不同。在奖惩函数不同时，可以使当前训练环节的奖惩函数叠加前一训练环节的奖惩函数。因此在一种具体实施方式中，任一训练环节的奖惩函数的表达式为：

其中，r _i为当前数据集对应的奖惩函数，r _i-1为数据集序列中排列在当前数据集前一位置的数据集对应的奖惩函数的表达式，f _i为当前数据集对应的奖惩分数计算公式。

在一种具体实施方式中，任一训练环节的f _i的表达式可以为：f _{i=Cv_dist}×[∑_l |X _ego - X _l |]- _Cv[|V _t -V _t-1 |/Δt]。也可以为：f _{i=Cv_dist}×[min|X _ego -X _h |]/|V _ego -V _h |。当然，不同训练环节的f _i可以相同，也可以不相同。在不同训练环节的f _i不相同时，其根据当前训练环节所用的训练数据集特性及相应环境特性（如：是否拥堵、行人是否过多等）进行设计。

例如：f _{i=Cv_dist}×[∑_l |X _ego -X _l |]- _Cv[|V _t -V _t-1 |/Δt]可以是自动驾驶模型的某一中间训练环境所用的f _i的表达式，该表达式适用在稠密车流环境下。其中，_{Cv_dist}、_Cv分别是针对安全车距检测和急加速度的奖惩系数，均为[0,1]的常数；X _ego表示自动驾驶车辆的位置，X _l是周围第l辆车的位置，∑_l |X _ego -X _l |反映自动驾驶车辆与监测范围内所有机动车的位置关系；V _t、V _t-1表示自动驾驶车辆连续两个时刻的行驶速度，Δt为时间间隔，|V _t -V _t-1 |/Δt反映自动驾驶车辆的加速度。

再如：f _{i=Cv_dist}×[min|X _ego -X _h |]/|V _ego -V _h |可以是自动驾驶模型的目的训练环境所用的f _i的表达式，该表达式适用在行人多或非机动车多的环境下。其中，_{Cv_dist}是减速避让行人与非机动车的奖惩系数，为[0,1]的常数；X _ego表示自动驾驶车辆的位置，X _h为自动驾驶车辆周围行人或非机动车的位置，min|X _ego -X _h |反映自动驾驶车辆与监测范围内所有行人或非机动车的最小距离；V _ego表示自动驾驶车辆的速度；V _h表示距离自动驾驶车辆最近的行人或非机动车的运动速度。

在一种具体实施方式中，基于损失更新待训练模型之后，还包括：若达到训练目标更新条件，则将更新后的待训练模型的模型参数赋值给目标模型；或基于更新后的待训练模型的模型参数计算参数更新值，并将参数更新值赋值给目标模型；若未达到训练目标更新条件，则保留目标模型。

其中，训练目标更新条件可以为：待训练模型迭代N次，N=1、2…N，N不大于一个训练环节内的模型最大迭代次数。

其中，基于更新后的待训练模型的模型参数计算参数更新值，包括：用一个预设系数乘以更新后的待训练模型的模型参数，再以所得乘积作为目标模型的模型参数的增量，对目标模型的模型参数进行更新。假设更新后的待训练模型的模型参数为θ₁，当前目标模型的模型参数为θ，预设系数取0.01，那么更新后的目标模型的模型参数为：θ+0.01×θ₁。

下述实施例以车辆自动驾驶领域内的模型迁移为例，对本申请进行详细介绍。

本实施例进行传递式深度强化学习自动驾驶策略的迁移，以稀疏车流下（仅机动车）的驾驶策略向稠密车流场景（含行人、非机动车）迁移为例。

请参见图3，在源任务（稀疏车流下进行自动驾驶策略训练的任务）与目标任务（稠密车流下进行自动驾驶策略训练的任务）间建立不同相似度的中间任务，降低前后两个任务间的差异，提升深度强化学习驾驶策略的传递式迁移的可行性，解除目标任务与源任务的差异度限制。

其次，在每次迁移过程中，通过奖惩函数塑型对驾驶策略进行连续调整，最终实现源任务决策策略对目标任务的快速迁移和适应。

其中，可以选择DQN（Deep-Q-Network，深度Q网络）、PPO（Proximal PolicyOptimization，近端策略优化）、DDPG（Deep Deterministic Policy Gradient，深度确定策略梯度）、SAC（Soft Actor-Critic，松弛Actor-Critic）等深度强化学习算法进行驾驶策略的训练。考虑到自动驾驶问题的速度、转向动作空间的连续性，本实施例选用经典的DDPG算法进行说明。

具体的，本实施例可以分为以下4个实施步骤：

（1）建立源任务D₀与目标任务D₁的中间任务D_i；

（2）根据中间任务与目标任务特征，进行奖惩函数塑型，得到r_i与r₁；

（3）基于深度强化学习将驾驶策略依次进行阶段迁移，更新相应的网络模型参数；

（4）在目标任务中应用最终得到的深度强化学习驾驶策略。

下面分别针对上述步骤进行详细说明。

步骤一：建立源任务D₀与目标任务D₁的中间任务D_i。

针对源任务D₀与目标任务D₁的交通环境状态，从动态场景、静态场景角度分析任务差异性。动态场景包括机动车、非机动车、行人等交通参与者的位置及运动信息，静态场景则包括道路拓扑结构、交通信号灯、指示牌、天气条件等信息。每个细分方面都可作为对比交通场景差异度的维度，即前文所述的训练维度。

本实施例关注稀疏车流场景与稠密车流场景的车流、行人的差异度。车流密度提升后，自动驾驶车辆需要识别的目标增多，行为决策和动作规划的限制条件增多；行人、非机动车具有高度的随机性，进一步提升目标任务的复杂度。

基于此，从车流密度这个维度出发，将源任务与目标任务之间的迁移分割为2段，即设置1个中间任务D_i，即较稠密车流场景下（仅机动车）的中间任务D_i。当然，还可以从是否有行人/非机动车的维度出发，进行中间任务的设置。更进一步地，可以综合车流密度和是否有行人/非机动车这两个维度进行中间任务的设置，如前文所述的“将N个子序列中的中间数据集对位进行合并”。当然，每一维度下可以进行更细致地划分，以设置更多的中间任务。

步骤二：根据中间任务与目标任务特征，进行奖惩函数塑型，得到r_i与r₁。

（1）针对步骤一设置的中间任务D_i，根据中间任务D_i所对应交通状态信息和任务特征，在源任务奖惩函数r₀的基础上，对中间任务D_i的奖惩函数r_i进行塑型。

对于较稠密车流场景下的中间任务D_i，需要更好地控制自动驾驶车辆与周围车辆的距离、减少急加速/急刹以及避免碰撞，那么可以在源任务奖惩函数r₀的基础上增加这些方面的奖励/惩罚，那么中间任务的奖惩函数r_i表达式可以为：

其中，_{Cv_dist}、_Cv分别是针对安全车距检测和急加速度的奖惩系数，均为[0,1]的常数；x _ego表示自动驾驶车辆的位置，x _l是周围第l辆车的位置，∑_l |x _ego -x _l |反映自动驾驶车辆与监测范围内所有机动车的位置关系；v _t、v _t-1表示自动驾驶车辆连续两个时刻的行驶速度，Δt为时间间隔，|v _t -v _t-1 |/Δt反映自动驾驶车辆的加速度。-200为预设最大惩罚值。

基于该奖惩函数r_i，可以在不发生碰撞的情况下，自动驾驶车辆与周围机动车保持安全车距时给予正向奖励，而出现急加速/急刹状况时进行负向惩罚。当自动驾驶车辆与周围车辆发生碰撞时，给予一个非常大的惩罚-200，以此来指导自动驾驶车辆尽量避免碰撞。

（2）针对目标任务D₁，根据D₁所对应交通状态信息和任务特征，在中间任务的奖惩函数r_i的基础上，对目标任务D₁的奖惩函数r₁进行塑型。

对于有行人、非机动车参与的目标任务D₁，需要自动驾驶车辆与其保持安全距离的同时，还要减速慢行、礼让行人及非机动车，因此在中间任务的奖惩函数r_i的基础上增加这些方面的奖励/惩罚，那么目标任务D₁的奖惩函数r₁表达式可以为：

其中，_{Cv_dist}是减速避让行人与非机动车的奖惩系数，为[0,1]的常数；x _ego表示自动驾驶车辆的位置，x _h为自动驾驶车辆周围行人或非机动车的位置，min|x _ego -x _h |反映自动驾驶车辆与监测范围内所有行人或非机动车的最小距离；v _ego表示自动驾驶车辆的速度；v _h表示距离自动驾驶车辆最近的行人或非机动车的运动速度。

基于该奖惩函数r₁，在不发生碰撞的情况下，自动驾驶车辆与周围交通参与者保持安全车距、避免较大加速度，并在与行人或非机动车距离较近时减速避让。自动驾驶车辆碰撞机动车、非机动车或行人的行为，同样给予一个非常大的惩罚-200。

其中，奖惩函数r₁、奖惩函数r_i中各项参数参与计算时需要进行归一化处理。

步骤三：基于深度强化学习将驾驶策略依次进行阶段迁移，更新网络模型参数。

DDPG算法框架下的在线模型包括1个策略网络（Actor_Net）和1个评价网络（Critic_Net），目标模型也包括1个策略网络（Actor_Net）和1个评价网络（Critic_Net）。为区别此二者，将在线模型中的策略网络记为

，将在线模型中的评价网络记为

。将目标模型中的策略网络记为

，将目标模型中的评价网络记为

。其中，策略网络用于基于环境选取车辆驾驶动作，评价网络基于环境对驾驶动作进行评估，指导驾驶动作持续优化。

在中间任务中D_i，自动驾驶车辆与交通环境S_i发生交互，并以此训练用于输出驾驶策略的在线模型，直至模型收敛。

在中间任务中D₁，自动驾驶车辆与交通环境S₁发生交互，并以此训练用于输出驾驶策略的在线模型，直至模型收敛。

训练在线模型的过程如图4所示，车辆与其所处交通环境不断交互、以“试错”方式学习自动驾驶。自动驾驶车辆在t时刻观测到所处交通环境状态为S_t，利用当前在线模型选取与S_t对应的车辆动作a_t，并对车辆动作a_t进行评估，得到一个奖惩分数r_t，然后据此并奖惩分数r_t使车辆移动到新的状态S_t+1。其中，自动驾驶车辆根据获得的奖惩分数r_t进行决策策略调整，指导车辆继续加强该动作或避免该动作，并结合新的交通环境状态S_t+1进入下一个决策过程。通过与交通环境交互作用做出序列决策，自动驾驶车辆学习到最优的驾驶策略。

（1）源任务D₀向中间任务D_i迁移。

从源任务训练得到的在线模型中继承全部的模型参数θ、θ'、ω、ω'作为中间任务D_i需要训练的在线模型的初始模型参数，也即：源任务训练得到的在线模型是中间任务D_i需要训练的在线模型。

在中间任务中，自动驾驶车辆与交通环境S_i发生交互，采用源任务训练得到的在线模型中的策略网络

选取并执行车速、转向动作a_i，车辆获得环境给予的奖励r_i。然后基于环境状态和车辆动作信息计算评价网络

，使用时间差分方法对评价网络进行更新，并指导策略网络进行优化，获得适配中间任务D_i的在线的策略网络

评价网络

。

在符合目标网络更新条件的情况下，基于当前在线模型，通过“软更新”的方式更新当前用于输出真实值的模型中的策略网络

和评价网络

。

当累计奖励收敛到较高水平，反映决策策略已经良好适配中间任务，该阶段的训练结束，获得中间任务场景的最优驾驶策略，即训练得到的收敛模型。

具体的模型更新过程包括：

1）t时刻，策略网络基于环境状态S_t选取动作a_t。策略网络使用4层网络结构：输入层读入环境状态信息；中间2个隐藏层分别由100个神经元组成，使用ReLU函数作为激活函数；输出层不使用激活函数，直接计算得到动作a_t。执行动作a_t，针对该动作计算得到r _t。同时，环境进入新的状态S_t+1。

评价网络使用5层网络结构：输入层读入环境状态信息；第1个隐藏层由100个神经元组成，使用ReLU函数作为激活函数，同时该层将步骤三中获得的动作 QUOTE

一并作为输出；第2个隐藏层将第1个隐藏层的输出与动作 QUOTE

进行融合，获得逐点相加的结果；第3个隐藏层与第1个隐藏层类似，由100个神经元组成，使用ReLU函数作为激活函数；输出层不使用激活函数，直接计算得到表示基于环境状态St和动作a_t的价值。

2）更新在的评价网络参数ω。

通过最小化损失函数来更新评价网络参数，损失函数定义为：

式中，

是使用在线评价网络计算得到的价值，

是目标评价网络计算得到的价值，

为折扣因子，通常取值为0-1之间的常数，N _data为数据条数。

3）更新在线学习的策略网络参数。

通过如下策略梯度，更新策略网络参数：

式中，

为策略梯度方法的目标函数，通常表示为关于奖励r_t的函数。最大化目标函数得到策略梯度

，通过

对策略网络参数θ进行更新，其中

为固定的时间步参数。

4）更新用于输出真实值的目标评价网络和目标策略网络。

通过如下“软更新”的方式更新目标评价网络和策略网络：

式中，

（即前文所述的预设系数），能够使目标网络缓慢地跟随在线网络进行变更，极大提升训练的稳定性。

应该理解，当设置多个中间任务时，各中间任务据此依次处理。

（2）中间任务D_i向目标任务D₁迁移。

此过程与“源任务D₀向中间任务D_i迁移”类似，以中间任务D_i训练得到的在线模型作为目标任务D₁需要训练的在线模型，并对此进行训练，直至得到目标任务场景的最优驾驶策略，即训练得到的收敛模型。

在任一训练环节，当自动驾驶车辆与周围交通参与者（包括机动车、非机动车、行人等）发生碰撞时，除了通过奖惩函数给予车辆一个很大的惩罚，还会立刻终止当前训练回合。然后，重置交通环境状态重新进行当前环节的训练，直至训练得到能够适配当前任务的驾驶策略。

步骤四：目标任务中应用深度强化学习驾驶策略。

基于目标任务场景的最优驾驶策略，在目标任务场景中控制车辆进行自动驾驶。

可见，本实施例通过分析源任务与目标任务的差异维度，可以建立递进式的中间任务来降低相邻任务间的差异度，提升自动驾驶策略迁移的可行性。同时，针对各中间任务及目标任务特征，通过奖惩函数塑型约束模型，实现深度强化学习驾驶策略向目标任务的快速适应。这种传递式的策略迁移方法，可以降低训练成本，实现模型的渐进式训练和迁移，使得最终得到的模型与相应场景的适配度更好。

当然，按照本实施例还可以进行机器人控制策略的迁移。同样针对源任务和目标任务场景进行差异度分析，并引入中间任务和相应迁移阶段，通过连续训练来实现已有机器人控制策略的有效复用和迁移，也可提升控制策略的泛化性能。

下面对本申请实施例提供的一种模型更新装置进行介绍，下文描述的一种模型更新装置与上文描述的一种模型更新方法可以相互参照。

参见图5所示，本申请实施例公开了一种模型更新装置，包括：

获取模块501，用于获取目的场景中的目的数据集、源场景中的源数据集及利用源数据集训练完成的源模型；源数据集和目的数据集为源模型在源场景和目的场景内训练所用的数据集；

确定模块502，用于在源数据集和目的数据集之间确定至少一个中间数据集；

排列模块503，用于将至少一个中间数据集按差异梯度大小排列在源数据集和目的数据集之间，得到数据集序列；

训练模块504，用于针对排列在数据集序列首位置之后的每个数据集，将前一数据集训练完成的模型作为当前数据集的待训练模型，利用当前数据集训练待训练模型得到当前数据集训练完成的模型；

输出模块505，用于获取并存储目的数据集训练完成的模型。

在一种具体实施方式中，确定模块包括：

分类单元，用于确定源数据集和目的数据集中的差异化数据，并将差异化数据分类为N个训练维度；

确定单元，用于针对每个训练维度的差异化数据，在当前训练维度的差异化数据中确定至少一个差异程度，根据至少一个差异程度确定至少一个数据组，并将至少一个数据组分别填充至源数据集，得到当前训练维度对应的至少一个中间数据集；

相应地，排列模块包括：

排列单元，用于按差异梯度大小分别排列N个训练维度对应的各中间数据集，得到N个子序列；

执行单元，用于基于N个子序列、源数据集和目的数据集，得到数据集序列。

在一种具体实施方式中，执行单元具体用于：

根据N个训练维度的优先级顺序拼接N个子序列，并将源数据集置于拼接得到的序列的首位置，将目的数据集置于拼接得到的序列的尾位置，得到数据集序列；

或

将N个子序列中的中间数据集对位进行合并，将合并得到的数据集按差异梯度大小排列在源数据集和目的数据集之间，得到数据集序列。

在一种具体实施方式中，若源模型用于控制车辆或机器人自动移动，则N个训练维度包括：移动场景中同类型的车辆或机器人的稀疏程度和/或移动场景中是否有非同类型的随机障碍物。

在一种具体实施方式中，训练模块包括：

奖惩函数确定单元，用于确定当前数据集对应的奖惩函数；

输入单元，用于从当前数据集中获取一个训练数据输入待训练模型，得到训练结果；

损失计算单元，用于利用奖惩函数计算奖惩分数，并确定奖惩分数与初始训练目标之和，将和与训练结果之间的差异作为损失；初始训练目标为：目标模型处理训练数据的结果；目标模型与待训练模型相同；

更新单元，用于基于损失更新待训练模型；

输出单元，用于若更新后的待训练模型收敛，则将更新后的待训练模型作为当前数据集训练完成的模型；

迭代单元，用于若更新后的待训练模型未收敛，则从当前数据集中获取另一训练数据对更新后的待训练模型进行迭代训练，直至更新后的待训练模型收敛。

在一种具体实施方式中，奖惩函数的表达式为：

其中，r _i为当前数据集对应的奖惩函数，r _i-1为数据集序列中排列在当前数据集前一位置的数据集对应的奖惩函数，f _i为当前数据集对应的奖惩分数计算公式。

在一种具体实施方式中，训练模块还包括：

目标模型更新单元，用于若达到训练目标更新条件，则将更新后的待训练模型的模型参数赋值给目标模型；或基于更新后的待训练模型的模型参数计算参数更新值，并将参数更新值赋值给目标模型；若未达到训练目标更新条件，则保留目标模型。

在一种具体实施方式中，训练模块还包括：

重置单元，用于若所述奖惩分数为预设最大惩罚值，则重新利用当前数据集训练所述待训练模型。

其中，关于本实施例中各个模块、单元更加具体的工作过程可以参考前述实施例中公开的相应内容，在此不再进行赘述。

可见，本实施例提供了一种模型更新装置，能够在训练场景变化后，快速得到与新场景匹配且性能较好的模型。

下面对本申请实施例提供的一种电子设备进行介绍，下文描述的一种电子设备与上文描述的一种模型更新方法及装置可以相互参照。

参见图6所示，本申请实施例公开了一种电子设备，包括：

存储器601，用于保存计算机程序；

处理器602，用于执行所述计算机程序，以实现上述任意实施例公开的方法。

下面对本申请实施例提供的一种可读存储介质进行介绍，下文描述的一种可读存储介质与上文描述的一种模型更新方法、装置及设备可以相互参照。

一种可读存储介质，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现前述实施例公开的模型更新方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容，在此不再进行赘述。

本申请涉及的“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法或设备固有的其它步骤或单元。

需要说明的是，在本申请中涉及“第一”、“第二”等的描述仅用于描述目的，而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外，各个实施例之间的技术方案可以相互结合，但是必须是以本领域普通技术人员能够实现为基础，当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在，也不在本申请要求的保护范围之内。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器（RAM）、内存、只读存储器（ROM）、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的可读存储介质中。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种模型更新方法，其特征在于，包括：

获取并存储所述目的数据集训练完成的模型；

其中，所述在所述源数据集和所述目的数据集之间确定至少一个中间数据集，包括：

针对每个训练维度的差异化数据，在当前训练维度的差异化数据中确定至少一个差异程度，根据所述至少一个差异程度确定至少一个数据组，并将所述至少一个数据组分别填充至所述源数据集，得到当前训练维度对应的至少一个中间数据集。

2.根据权利要求1所述的方法，其特征在于，所述将所述至少一个中间数据集按差异梯度大小排列在所述源数据集和所述目的数据集之间，得到数据集序列，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述N个子序列、所述源数据集和所述目的数据集，得到所述数据集序列，包括：

或

4.根据权利要求2所述的方法，其特征在于，若所述源模型用于控制车辆或机器人自动移动，则所述N个训练维度包括：移动场景中同类型的车辆或机器人的稀疏程度和/或移动场景中是否有非同类型的随机障碍物。

5.根据权利要求1至4任一项所述的方法，其特征在于，所述利用当前数据集训练所述待训练模型得到当前数据集训练完成的模型，包括：

确定当前数据集对应的奖惩函数；

基于所述损失更新所述待训练模型；

6.根据权利要求5所述的方法，其特征在于，所述奖惩函数的表达式为：

7.根据权利要求5所述的方法，其特征在于，所述基于所述损失更新所述待训练模型之后，还包括：

若未达到训练目标更新条件，则保留所述目标模型。

8.一种模型更新装置，其特征在于，包括：

输出模块，用于获取并存储所述目的数据集训练完成的模型；

其中，所述确定模块具体用于：

确定所述源数据集和所述目的数据集中的差异化数据，并将所述差异化数据分类为N个训练维度；针对每个训练维度的差异化数据，在当前训练维度的差异化数据中确定至少一个差异程度，根据所述至少一个差异程度确定至少一个数据组，并将所述至少一个数据组分别填充至所述源数据集，得到当前训练维度对应的至少一个中间数据集。

9.一种电子设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的方法。

10.一种可读存储介质，其特征在于，用于保存计算机程序，其中，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的方法。