CN115423093A - 任务迁移方法、电子设备及计算机存储介质 - Google Patents
任务迁移方法、电子设备及计算机存储介质 Download PDFInfo
- Publication number
- CN115423093A CN115423093A CN202211178023.2A CN202211178023A CN115423093A CN 115423093 A CN115423093 A CN 115423093A CN 202211178023 A CN202211178023 A CN 202211178023A CN 115423093 A CN115423093 A CN 115423093A
- Authority
- CN
- China
- Prior art keywords
- training
- task
- model
- trained
- different
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 88
- 238000013508 migration Methods 0.000 title claims abstract description 23
- 230000005012 migration Effects 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 298
- 230000008569 process Effects 0.000 claims abstract description 31
- 238000004891 communication Methods 0.000 claims description 28
- 230000002452 interceptive effect Effects 0.000 claims description 20
- 238000012216 screening Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 5
- 230000008014 freezing Effects 0.000 claims 1
- 238000007710 freezing Methods 0.000 claims 1
- 230000002829 reductive effect Effects 0.000 abstract description 10
- 230000006870 function Effects 0.000 description 27
- 238000010586 diagram Methods 0.000 description 10
- 230000000694 effects Effects 0.000 description 8
- 238000002372 labelling Methods 0.000 description 5
- 230000003993 interaction Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 230000001133 acceleration Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 230000036961 partial effect Effects 0.000 description 2
- 238000010845 search algorithm Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000003891 environmental analysis Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 101150109974 mturn gene Proteins 0.000 description 1
- 238000011022 operating instruction Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请实施例提供了一种任务迁移方法、电子设备及计算机存储介质,其中,任务迁移方法包括:获得以轨迹预测任务作为预训练任务而训练完成的预训练模型,以及,获得多个不同的自动驾驶决策规划任务对应的多个初始任务子模型,和对所述多个初始任务子模型进行训练的训练样本;基于所述训练样本,对所述训练完成的预训练模型和多个初始任务子模型进行多任务联合训练,以获得不同自动驾驶决策规划任务对应的任务模型;并且,在不同轮次的训练过程中,从多个初始任务子模型中选择不同的子模型与所述预训练模型进行联合训练。通过本申请实施例,可以有效降低下游自动驾驶决策规划任务的模型训练的成本,提高其训练效率。
Description
技术领域
本申请实施例涉及自动驾驶技术领域,尤其涉及一种任务迁移方法、电子设备及计算机存储介质。
背景技术
在自动驾驶领域中,充分理解并提取驾驶环境中的有效信息对于自动驾驶决策规划系统在不同场景中的应用有着重要的意义。
因不同的场景对应着不同的任务,而各个任务又具有不同的任务特性,每个任务都需要使用与任务相适配的训练样本对完成任务的机器学习模型进行训练。然而,很多任务如意图预测任务、驾驶决策任务等,使用的训练样本需高度依赖人工标注,从而使得训练样本获取成本较高。进而,使得对该任务的机器学习模型的训练成本也较高,并且,训练成果不佳,导致完成任务的效果也不能满足实际需求。
因此,如何有效降低不同的自动驾驶场景下、用于完成相应任务的机器学习模型的训练成本,提高其训练效率,成为亟待解决的问题。
发明内容
有鉴于此,本申请实施例提供一种任务迁移方案,以至少部分解决上述问题。
根据本申请实施例的第一方面,提供了一种任务迁移方法,包括:获得以轨迹预测任务作为预训练任务而训练完成的预训练模型,以及,获得多个不同的自动驾驶决策规划任务对应的多个初始任务子模型,和对所述多个初始任务子模型进行训练的训练样本;基于所述训练样本,对所述训练完成的预训练模型和多个初始任务子模型进行多任务联合训练,以获得不同自动驾驶决策规划任务对应的任务模型;并且,在不同轮次的训练过程中,从多个初始任务子模型中选择不同的子模型与所述预训练模型进行联合训练。
根据本申请实施例的第二方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如第一方面所述方法对应的操作。
根据本申请实施例的第三方面,提供了一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的方法。
根据本申请实施例的第四方面,提供了一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如第一方面所述方法对应的操作。
根据本申请实施例提供的任务迁移方案,一方面,与传统的预训练任务不同,本申请实施例的方案中,将轨迹预测任务作为预训练任务,从而训练生成预训练模型。因对于轨迹预测任务来说,其可通过感知设备方便地获取具有自动驾驶功能的设备的轨迹数据,在进行模型训练时,可基于某一时段的轨迹数据预测下一时段的轨迹,并可将真实采集的下一时段的轨迹作为真值,与预测的轨迹进行比较,以根据比较结果进行模型训练。可见,轨迹预测任务的训练样本获取与标注的成本和难度都较低,将其作为预训练任务可以大大降低训练成本。此外,因大部分的自动驾驶决策规划任务都需要以轨迹预测为基础,因此,将轨迹预测任务作为预训练任务,在自动驾驶决策规划方面具有较高的通用性。基于此,在获得较为通用的预训练模型后,再将其迁移至训练样本较少或训练样本获取成本较高的下游自动驾驶决策规划任务的模型训练中,可以有效降低下游自动驾驶决策规划任务的模型训练的成本,提高其训练效率。
另一方面,使用多任务联合训练的方式训练下游自动驾驶决策规划任务的多个初始任务子模型,并且,在每轮次的训练过程中,仅对其中的部分子模型进行训练,可以有效避免多个任务对应的多个子模型同时训练带来的模型调整冲突,进一步提高了模型训练效果,提升了模型训练效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请实施例中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为适用本申请实施例的任务迁移方法的示例性系统的示意图;
图2A为根据本申请实施例一的一种任务迁移方法的步骤流程图;
图2B为图2A所示实施例中的一种多个初始任务子模型的训练示意图;
图2C为图2A所示实施例中的一种场景搜索任务的执行示意图;
图3A为根据本申请实施例二的一种任务迁移方法的步骤流程图;
图3B为图3A所示实施例中的一种预训练任务的示意图;
图3C为图3A所示实施例中的一种形状编码器的示意图;
图3D为图3A所示实施例中的一种交互编码器的示意图;
图4为根据本申请实施例三的一种电子设备的结构示意图。
具体实施方式
为了使本领域的人员更好地理解本申请实施例中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请实施例一部分实施例,而不是全部的实施例。基于本申请实施例中的实施例,本领域普通技术人员所获得的所有其他实施例,都应当属于本申请实施例保护的范围。
下面结合本申请实施例附图进一步说明本申请实施例具体实现。
图1示出了一种适用本申请实施例方案的示例性系统。如图1所示,该系统100可以包括云服务端102、通信网络104和/或一个或多个具有自动驾驶功能的设备106,图1中示例为多个具有自动驾驶功能的设备。
云服务端102可以是用于存储信息、数据、程序和/或任何其他合适类型的内容的任何适当的设备,包括但不限于分布式存储系统设备、服务器集群、计算云服务端集群等。在一些实施例中,云服务端102可以执行任何适当的功能。例如,在一些实施例中,云服务端102可以用于进行自动驾驶决策规划任务的任务迁移。作为可选的示例,在一些实施例中,云服务端102中可以设置有多个不同的自动驾驶决策规划任务对应的多个初始任务子模型,其在进行任务迁移时,可以获取以轨迹预测任务作为预训练任务而训练完成的预训练模型,以及对多个初始任务子模型进行训练的训练样本,基于训练样本和预训练模型,进行任务迁移。作为另一示例,在一些实施例中,云服务端102可以基于获取的训练样本,对训练完成的预训练模型和多个初始任务子模型进行多任务联合训练,以获得不同自动驾驶决策规划任务对应的任务模型;并且,在不同轮次的训练过程中,从多个初始任务子模型中选择不同的子模型与所述预训练模型进行联合训练。
在一些实施例中,通信网络104可以是一个或多个有线和/或无线网络的任何适当的组合。例如,通信网络104能够包括以下各项中的任何一种或多种:互联网、内联网、广域网(WAN)、局域网(LAN)、无线网络、数字订户线路(DSL)网络、帧中继网络、异步转移模式(ATM)网络、虚拟专用网(VPN)和/或任何其它合适的通信网络。具有自动驾驶功能的设备106能够通过一个或多个通信链路(例如,通信链路112)连接到通信网络104,该通信网络104能够经由一个或多个通信链路(例如,通信链路114)被链接到云服务端102。通信链路可以是适合于在具有自动驾驶功能的设备106和云服务端102之间传送数据的任何通信链路,诸如网络链路、拨号链路、无线链路、硬连线链路、任何其它合适的通信链路或此类链路的任何合适的组合。
具有自动驾驶功能的设备106可以包括任何具有完全自主驾驶功能的设备,或者,将自主驾驶功能作为辅助功能的设备。如,车辆、飞行器、机器人等。在一些实施例中,具有自动驾驶功能的设备106可以接收云服务端102训练完成的任务模型,以在本地执行自动驾驶决策规划任务。
基于上述系统,以下通过多个实施例对本申请的任务迁移方案进行说明。
实施例一
参照图2A,示出了根据本申请实施例一的一种任务迁移方法的步骤流程图。
本实施例的任务迁移方法包括以下步骤:
步骤S202:获得以轨迹预测任务作为预训练任务而训练完成的预训练模型,以及,获得多个不同的自动驾驶决策规划任务对应的多个初始任务子模型,和对多个初始任务子模型进行训练的训练样本。
对于具有自动驾驶功能的设备来说,其都具有感知设备如激光雷达、摄像机等以采集环境数据,用于进行环境分析和感知。根据采集的这些环境数据即可形成轨迹数据,以作为训练样本对用于轨迹预测的机器学习模型进行训练。在此基础上,进行模型训练时,可基于某一时段的轨迹数据预测下一时段的轨迹,并可将真实采集的下一时段的轨迹作为真值,与预测的轨迹进行比较,以根据比较结果进行模型训练。可见,轨迹预测任务的训练样本获取与标注的成本和难度都较低。但同时,大部分的自动驾驶决策规划任务又都需要以轨迹预测为基础。因此,本申请实施例中,与传统的预训练方式不同,采用轨迹预测任务作为预训练任务,来获得预训练模型。从而,可以大大降低训练成本,并可较为通用地适用在各种下游自动驾驶决策规划任务中。
该预训练模型可以通过训练获得,也可以直接从第三方获得。较优地,可以自行训练获得,该具体获得方式将在下文详述,在本步骤中对其具体获得方式不作限制。
下游自动驾驶决策规划任务根据具体需求的不同多种多样,通常可以分为:涉及周围交通参与者的任务,包括但不限于:其他设备切入的预测任务、Mturn(具有自动驾驶功能的设备的多点掉头)预测任务、静止/动态设备的推断任务等;涉及具有自动驾驶功能的设备自身的任务,包括但不限于:具有自动驾驶功能的设备自身的决策控制任务、交通灯预测任务等;涉及交通情况整体的任务,包括但不限于场景搜索任务等。
不同的任务对应不同的任务子模型,当然,也可能有部分任务仅需基于主干模型进行进一步的后续处理,不再需要任务子模型。其中,本申请实施例中,任务子模型意指在主干模型的基础上,为了完成具体的任务而与主干模型连接的模型,本申请实施例中,该主干模型通过训练完成的预训练模型实现。示例性地,对于具有自动驾驶功能的设备自身的决策控制任务,其包括主干模型和任务子模型,其中,主干模型通过预训练模型实现,任务子模型通过决策规划模型实现。
而对于下游自动驾驶决策规划任务对应的任务子模型来说,其训练样本的获取一方面是可采集的数据量较小,样本数量少;另一方面是,需要人工对训练样本进行标注,成本较高。因此,若单独对其训练,需花费较高的成本收集训练样本,但仍有可能不能达到海量训练样本的程度,导致除训练成本高外,训练效果也不佳。而本申请实施例则通过在训练好的预训练模型的基础上,再对任务子模型训练的方式,使用较少的训练样本即可实现与使用大数据量的训练样本同样的训练效果,且训练成本也能够有效降低。
基于此,本步骤中,还会获取多个不同的下游自动驾驶决策规划任务对应的多个初始任务子模型及用于对这些子模型进行训练的训练样本。
并且,与传统的单任务单训练不同,本申请实施例中,采用了对多个任务对应的多个初始任务子模型一起训练的多任务训练方式,以优化模型训练效果,提高训练效率,具体如步骤S204所述。
步骤S204:基于训练样本,对训练完成的预训练模型和多个初始任务子模型进行多任务联合训练,以获得不同自动驾驶决策规划任务对应的任务模型;并且,在不同轮次的训练过程中,从多个初始任务子模型中选择不同的子模型与预训练模型进行联合训练。
首先,如前所述,本申请实施例中,采用了多任务联合训练的方式。此种方式下,一个主干模型同时连接多个初始任务子模型,对每一个初始任务子模型的训练都会影响到主干模型的调整,通过这种方式,可以使得多任务联合训练后的主干模型具有更好的泛化性。但为了避免可能存在冲突的部分任务对主干模型调整的影响,本申请实施例中,在不同轮次的训练中,仅对其中的部分初始任务子模型与主干模型即预训练模型一起进行训练。在一种可行的方式中,可以一个轮次仅对一个初始任务子模型和预训练模型一起训练,以简化训练实现,降低训练成本。但不限于此,也可以根据任务类型对初始任务子模型进行类型标记,可兼容的类型对应的初始任务子模型可以在一个轮次中,与预训练模型一起进行训练。
本申请实施例中,一个轮次意指使用某任务对应的训练样本数据集对该任务对应的初始任务子模型及预训练模型的一个完整训练过程。示例性地,假设有任务A和B,任务A的训练样本数据集1中包含有10000条训练样本,任务B的训练数据集1中包含有15000条训练样本。则,第一个轮次的训练过程意指使用10000条训练样本完成对任务A对应的初始任务子模型的训练;第二个轮次的训练过程意指使用15000条训练样本完成对任务B对应的初始任务子模型的训练。
在一种可行方式中,在不同轮次的训练过程中,从多个初始任务子模型中选择不同的子模型与所述预训练模型进行联合训练,包括:在不同轮次的训练过程中,按照预设的筛选规则,从多个初始任务子模型中选择出与前一轮次训练的子模型不同的子模型,对选择出的子模型与预训练模型进行联合训练,以避免可能存在冲突的任务对主干模型调整的影响。例如,在不同轮次的训练过程中,可以按照轮询规则,从多个初始任务子模型中轮询选择出子模型,对选择出的子模型与预训练模型进行联合训练;或者,在不同轮次的训练过程中,按照随机筛选规则,从多个初始任务子模型中随机选择出子模型,对选择出的子模型与预训练模型进行联合训练。通过轮询方式,可以一次选择一个初始任务子模型,使得多个初始任务子模型间可以交替进行训练,达到均衡训练的效果。而通过随机方式,可以简化初始任务子模型的选择实现,并且,随机方式从总体上也能起到均衡训练的效果。但不限于此,其它选择方式也同样可适用于本申请实施例的方案。
但如前所述,某些下游自动驾驶决策规划任务可能仅需要主干模型即预训练模型即可,此种情况下,当采用前述统一的多任务联合训练的方式时,还可以在选择初始任务子模型之前,根据多个不同的自动驾驶决策规划任务的任务类型,确定对应的多个初始任务子模型的训练类型,其中,训练类型包括需继续训练的类型和不需继续训练的类型;在此情况下,对不需继续训练的类型的初始任务子模型进行训练冻结,即固定该初始任务子模型,在当前轮次的训练中先暂时不对其进行训练。其中,需继续训练的类型和不需继续训练的类型可由本领域技术人员根据实际需求适当设定,例如,可将涉及交通情况整体的任务对应的初始任务子模型确定为不需继续训练的类型等等。在此基础上,对初始任务子模型的选择可以实现为:在不同轮次的训练过程中,按照预设的筛选规则,从未被训练冻结的初始任务子模型中选择出与前一轮次训练的子模型不同的子模型。通过这种方式,对初始任务子模型进行统一处理和管理,简化了对初始任务子模型训练的管理和实现。
但不限于此,在另一种可行方式中,可以在获取初始任务子模型时即进行区分,也即,可将获得多个不同的自动驾驶决策规划任务对应的多个初始任务子模型,和对多个初始任务子模型进行训练的训练样本实现为:根据预设的不同自动驾驶决策规划任务的信息,确定针对各个自动驾驶决策规则任务的训练类型,该训练类型包括需继续训练的类型和不需继续训练的类型;获得需继续训练的类型对应的多个自动驾驶决策规划任务所对应的多个初始子任务模型,和对多个初始子模型进行训练的训练样本。则,后续对多个初始子模型的训练也将仅涉及需继续训练的那些子模型。由此,减少了数据处理量,同样可降低模型的训练成本,提升模型的训练效率和速度。
但在此种情况下,还需要针对这种不需继续训练的类型对应的任务进行进一步处理,以使其能够有效完成相应的任务。示例性地,可以判断不需继续训练的类型对应的自动驾驶决策规划任务是否为预设的任务,例如是否为驾驶场景搜索任务;若为驾驶场景搜索任务,则可直接将预训练模型作为用于驾驶场景搜索任务的任务模型。
则,在后续推理阶段,示例性地,对于驾驶场景搜索任务,可以获取待搜索的驾驶场景的信息,以及,预先设置的多个不同驾驶场景的信息;使用驾驶场景搜索任务的任务模型(即预训练模型),获取待搜索的驾驶场景的信息对应的第一场景特征,和,多个不同驾驶场景的信息对应的多个第二场景特征;计算第一场景特征和多个第二场景特征之间的相似度;根据该相似度,确定与第一场景特征匹配的第二场景特征,并根据匹配的第二场景特征,确定待搜索的驾驶场景的信息对应的驾驶场景。
而对于需继续训练的任务,则在完成该任务对应的初始任务子模型的训练后,即可获得相应的任务模型。该任务模型包括主干模型和任务子模型,即经过多任务联合训练后的预训练模型和初始任务子模型。在推理阶段,不同任务将使用不同的任务模型实现其对应的功能。
以下,结合图2B和图2C,分别对上述需继续训练的任务和不需继续训练的任务的实现进行说明。
其中,图2B示出一种需继续训练的任务实现的示意图,如图2B中所示,主干模型之上连接有多个初始任务子模型,图中分别示意为子模型1、子模型2、……子模型N。本示例中,采用轮询选择子模型的方式,每次从多个初始任务子模型中选择出一个子模型,与主干模型一起进行训练。此时,其它的初始任务子模型处于冻结状态,冻结状态的子模型的参数在该轮次训练中固定,不会随着训练而调整。但对于主干模型来说,不管与哪个子模型一起训练,其模型参数均会参与调整。例如,当主干模型先与子模型1一起训练时,子模型2至子模型N冻结,主干模型与子模型1的模型参数均会随着训练过程而调整。当主干模型再与子模型2一起训练时,除子模型2之外的其它子模型冻结,此时的主干模型使用的是已经过前次子模型1训练时调整后的参数,但在该轮次训练中,这些已调整后的参数将会随着与子模型2的训练再次被调整。依次类推,直至所有的子模型都训练完成,对于每个子模型来说,其可能训练一轮,也可能训练多轮,可由本领域技术人员根据实际情况设定训练轮次。需要说明的是,本申请实施例中,若无特殊说明,“多轮”、“多种”、“多个”等与“多”有关的数量均意指两个及两个以上。
需要说明的是,图2B所示的训练中,一种可行方式下,所有下游自动驾驶决策规划任务都可使用子模型方式实现,有可能所有的子模型都需要与主干模型一起联合训练,但也有可能部分子模型不需要继续训练,则此种情况下,可以将这些不需要继续训练的子模型默认设置为冻结状态,或者,为其设置不需继续训练的标记,这样,在每次选择子模型与主干模型一起进行联合训练时,就不会被选出。
在另一种可行方式下,主干模型连接的所有子模型都是已经过筛选的子模型,即,这些与主干模型连接的子模型均是需要继续训练的子模型,此种情况下,每轮次训练从中选择出一个子模型即可。其中,对子模型的筛选可如前所述,根据任务的信息来判断,只将需继续训练任务对应的子模型筛选出来,与主干模型连接。
通过上述方式,周而复始地进行多任务对应的多个子模型的训练,既达到了训练完成的模型具有良好的泛化性,且可以有效避免因多个子模型同时训练时,共同更新主干模型所带来的任务冲突问题。
而针对上述另一种可行方式中预先筛选出的不需要继续训练的任务,以场景搜索任务为示例,如图2C所示,可以为其预先设置相应的任务实现算法。本示例中示出了一种基于余弦相似度的场景搜索算法。
基于该场景搜索算法,可以首先将待搜索的驾驶场景的信息、与整个搜索集场景(包括多个不同驾驶场景的信息)采用预训练模型获得对应的场景特征;接着计算待搜索的驾驶场景信息对应的场景特征与搜索集场景中的场景信息对应的场景特征之间的余弦相似度,并进行降序排列,从而可以得到待搜索的场景与搜索集场景之间的量化相似度指标。由此,即可确定待搜索的驾驶场景究竟为何种具体的场景,如将相似度最高的搜索集中的场景确定为待搜索的驾驶场景的信息所对应的场景。
需要说明的是,上述场景搜索任务的具体实现仅为示例性说明,对于其它不需继续训练的任务,本领域技术人员可根据实际情况,基于训练完成的预训练模型(即主干模型)实现相应的任务功能。
此外,还需要说明的是,本申请实施例中,对预训练模型和多个初始任务子模型的具体模型实现均不作限制,可以为任意适当的模型结构的模型。
可见,通过本实施例,一方面,与传统的预训练任务不同,本申请实施例的方案中,将轨迹预测任务作为预训练任务,从而训练生成预训练模型。因对于轨迹预测任务来说,其可通过感知设备方便地获取具有自动驾驶功能的设备的轨迹数据,在进行模型训练时,可基于某一时段的轨迹数据预测下一时段的轨迹,并可将真实采集的下一时段的轨迹作为真值,与预测的轨迹进行比较,以根据比较结果进行模型训练。可见,轨迹预测任务的训练样本获取与标注的成本和难度都较低,将其作为预训练任务可以大大降低训练成本。此外,因大部分的自动驾驶决策规划任务都需要以轨迹预测为基础,因此,将轨迹预测任务作为预训练任务,在自动驾驶决策规划方面具有较高的通用性。基于此,在获得较为通用的预训练模型后,再将其迁移至训练样本较少或训练样本获取成本较高的下游自动驾驶决策规划任务的模型训练中,可以有效降低下游自动驾驶决策规划任务的模型训练的成本,提高其训练效率。
另一方面,使用多任务联合训练的方式训练下游自动驾驶决策规划任务的多个初始任务子模型,并且,在每轮次的训练过程中,仅对其中的部分子模型进行训练,可以有效避免多个任务对应的多个子模型同时训练带来的模型调整冲突,进一步提高了模型训练效果,提升了模型训练效率。
实施例二
本实施例着重对预训练模型的预训练过程进行说明,为便于理解,首先对该预训练模型的模型架构进行说明,如图3B所示。
由图3B可见,该预训练模型包括形状编码器、交互编码器和解码器。其中,形状编码器用于生成预训练样本中的交通参与者轨迹和车道片段的形状特征;交互编码器用于生成预训练样本中的交通参与者和车道片段间的交互关系特征;解码器用于根据形状特征和交互关系特征,对目标交通工具进行驾驶轨迹预测。
以下,基于图3B中所示的预训练模型对本申请实施例的任务迁移方法进行说明。
参照图3A,其示出了根据本申请实施例的一种任务迁移方法的步骤流程图,该任务迁移方法包括以下步骤:
步骤S302:获取用于对预训练模型进行轨迹预测任务训练的预训练样本。
为与实施例一中对初始任务子模型进行训练的训练样本相区别,本实施例中,将用于对预训练模型进行训练的训练样本称为预训练样本。
本申请实施例中,预训练样本包括车道片段(将车道划分为多个片段后获得)和交通参与者(包括行人、车辆等)的信息,其中,车道片段的信息包括车道片段的起点位置、终点位置、车道片段的类型(如中心线、边线等)等信息;交通参与者的信息包括交通参与者的形状、速度、加速度、类型(如汽车、自动车、摩托车、行人等)等信息。
步骤S304:对预训练样本进行向量化,获得向量化的训练样本。
本申请实施例中,采用向量化的输入形式输入预训练模型。这种向量化输入方式无精度损失,能够直接输入原始数据,并且易于提取每个具有自动驾驶功能的设备的信息。
其中,车道片段和交通参与者的所有信息被编码成一个固定长度的特征向量,定义描述车道片段和交通参与者的向量化折线段为P,每个向量化折线段包含p个n维向量点{v1,v2,...,vP}。其中,每个向量点描述特征信息,包含车道片段的起点位置,终点位置,车道片段或者交通参与者的类型信息,交通参与者的形状、速度、加速度等。
步骤S306:使用向量化的训练样本对预训练模型进行轨迹预测任务训练。
包括:通过形状编码器构建交通参与者轨迹和车道片段的形状特征;通过交互编码器构建交通参与者和车道片段间的交互关系特征;通过解码器根据形状特征和交互关系特征,对目标交通工具进行驾驶轨迹预测。
驾驶场景中,大量的车道片段和交通参与者的历史轨迹可以被看作是一种描述局部场景信息的特征子图。本实施例中,使用完全连通的图神经网络编码每个特征子图的形状特征,以聚合局部场景信息。在一种可行方式中,形状编码器可图神经网络模型结构实现。示例性地,一种形状编码器的结构如图3C所示。由图中可见,该图神经网络模型具有多个分支,每个分支包括多个图卷积算子,图中示意为图卷积算子1、2、……n。对于每个图卷积算子来说,其先通过输入层接受输入的特征子图;;然后通过全连接算子进行特征提取;该提取的特征经最大池化算子池化后生成相应的池化特征;将该池化特征与之前提取的特征进行拼接后,获得该层图卷积算子的输出。需要说明的是,车道片段对应的特征子图和交通参与者对应的特征子图是分别输入形状编码器,形状编码器分别对不同的特征子图进行处理。如图3C中所示,特征子图-1和特征子图-2可能为车道片段的特征子图,特征子图-3和特征子图-4可能为交通参与者的特征子图,等等。
其中,形状编码器的每一层定义如下:
其中,是形状编码器的第l层的输入,vj是在折线段中与vi相连的向量点,本实施例中假设特征子图是全连接的。是特征连接算子,genc是多层感知机模块,是最大池化算子。形状编码器的输出特征是p个n维向量点{v1,v2,...,vP}对应的形状特征
通过形状编码器后,每个车道片段和交通参与者都会对应一个特征向量。
进一步地,本实施例中使用多层注意力机制来捕捉交通参与者间及其与车道片段间的交互关系,构建交互编码器。在一种可行方式中,交互编码器可采用Transformer结构的编码器实现。假设任意特征矩阵O,U,及其线性投影OQ,OK,OV和UQ,UK,UV,则自注意力关系SelfAttn(O)和交叉注意力关系CrossAttn(O,U)可以被定义为:
其中,是对应特征向量的维度。因此,对于交互编码器的每一层l,交互关系可以通过selfAttn算子与CrossAttn算子对交通参与者的每一层特征向量A(l)和车道片段的每一层特征向量C(l)进行融合:
A(l+1)=SelfAttn(A(l))+CrossAttn(C(l),A(l))
C(l+1)=SelfAttn(C(l))+CrossAttn(A(l),C(l))
一种示例性的交互编码器如图3D所示,由图可见,形状编码器输出的车道片段的形状特征子图和交通参与者的形状特征将分别被输入交互编码器,通过多头注意力机制对这些特征进行处理。其中,对车道片段的特征进行多头注意力处理会结合交通参与者的特征;类似地,对交通参与者的特征进行多头注意力处理会结合车道片段的特征。最终,输出融合有交通参与者特征的车道片段的特征,和融合有车道片段特征的交通参与者的特征。
基于上述形状编码器和交互编码器架构,即可进行预训练任务。
如前所述,预训练任务需要选择拥有较多自标注数据的任务进行。同时,任务的解决需要较全面地理解全局信息,并与下游任务有相同或相似的环境观测。因此,本实施例中,选择轨迹预测任务作为预训练模型的初始任务。轨迹预测任务的目标是对特定具有自动驾驶功能的设备未来可能的行驶轨迹进行预测。进一步地,轨迹预测任务存在交互关系难建模、预测过程多模态和预测结果难解释的问题。因此,本实施例中使用了一种基于车道片级锚点的轨迹预测器作为预训练模型的解码器,其包含分类模块与回归模块。进一步地,本实施例中,将细粒度切分的车道片段作为一种具有解释性的可共享型锚点,通过基于方差的非极大值抑制策略选择具有代表性的预测轨迹作为输出。其中,分类模块输出预测轨迹在给定切分车道片段上的概率值,回归模块则生成对应的预测轨迹。
在进行训练时,轨迹预测任务的解码器的损失函数包含三部分:分类损失函数、回归损失函数和多模损失函数。
对于M个车道片段的分类概率p0,p1,...,pM,分类损失函数定义为:
其中,如果车道片段为真值车道片段,则yi=1,否则为0。σ为sigmoid函数。
对于回归的预测轨迹τ1,τ2,...,τN,回归损失函数定义为:
其中,τgt是真值轨迹。
进一步地,为了保证输出的多模性,多模损失函数定义为:
其中,为具有最高分类概率的六个车道片段。
最终的损失函数为以上三个损失函数的权重加和:
Loss=λ1Lclf+λ2Lreg+λ3Ldiv
其中,λ1,λ2,λ3为设计权重。
每一个训练样本向量依次经过上述形状编码器、交互编码器和解码器处理,生成相应的轨迹预测向量,该轨迹预测向量与轨迹真值,基于上述损失函数计算损失值,进而基于该损失值进行模型调整。该过程循环迭代,直至达到训练终止条件,如,达到预设的训练次数,或者损失值满足预设阈值等。
在完成训练后,将获得一个具有轨迹预测功能的预训练模型。
进而,以该预训练模型为基础,根据下游不同的自动驾驶决策规划任务需求接入不同的下游初始任务子模型。在不同场景任务生成的训练数据集上,对下游初始任务子模型进行结合预训练模型的联合再训练,以实现任务迁移。
步骤S308:获得训练完成的预训练模型,以及,获得的多个不同的自动驾驶决策规划任务对应的多个初始任务子模型,和对多个初始任务子模型进行训练的训练样本。
步骤S310:基于训练样本,对训练完成的预训练模型和多个初始任务子模型进行多任务联合训练,以获得不同自动驾驶决策规划任务对应的任务模型;并且,在不同轮次的训练过程中,从多个初始任务子模型中选择不同的子模型与所述预训练模型进行联合训练。
上述步骤S308-S310的具体实现可参照前述实施例一中的相关描述,在此不再赘述。
通过本实施例,利用以图神经网络为主的形状编码器和采用Transformer结构的交互编码器,构建预训练模型,分别建模地图和周围目标的形状特征与交互关系,使用轨迹预测任务对预训练模型进行初始化训练。在此基础上,根据下游自动驾驶决策规划任务的需求,在不同场景任务的训练数据集中对下游初始任务子模型进行与预训练模型的多任务联合再训练,以实现预训练模型在不同任务中的迁移,并提升模型在低数据量和高标注难度任务中的性能表现。
实施例三
参照图4,示出了根据本申请实施例三的一种电子设备的结构示意图,本申请具体实施例并不对电子设备的具体实现做限定。
如图4所示,该电子设备可以包括:处理器(processor)402、通信接口(Communications Interface)404、存储器(memory)406、以及通信总线408。
其中:
处理器402、通信接口404、以及存储器406通过通信总线408完成相互间的通信。
通信接口404,用于与其它电子设备或服务器进行通信。
处理器402,用于执行程序410,具体可以执行上述方法实施例中的相关步骤。
具体地,程序410可以包括程序代码,该程序代码包括计算机操作指令。
处理器402可能是CPU,或者是特定集成电路ASIC(Application SpecificIntegrated Circuit),或者是被配置成实施本申请实施例的一个或多个集成电路。智能设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器406,用于存放程序410。存储器406可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序410具体可以用于使得处理器402执行前述多个方法实施例中任一实施例所描述的方法对应的操作。
程序410中各步骤的具体实现可以参见上述方法实施例中的相应步骤和单元中对应的描述,并具有相应的有益效果,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
本申请实施例还提供了一种计算机程序产品,包括计算机指令,该计算机指令指示计算设备执行上述多个方法实施例中的任一方法对应的操作。
需要指出,根据实施的需要,可将本申请实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本申请实施例的目的。
上述根据本申请实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现通过网络下载的原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的方法。此外,当通用计算机访问用于实现在此示出的方法的代码时,代码的执行将通用计算机转换为用于执行在此示出的方法的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请实施例的范围。
以上实施方式仅用于说明本申请实施例,而并非对本申请实施例的限制,有关技术领域的普通技术人员,在不脱离本申请实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本申请实施例的范畴,本申请实施例的专利保护范围应由权利要求限定。
Claims (12)
1.一种任务迁移方法,包括:
获得以轨迹预测任务作为预训练任务而训练完成的预训练模型,以及,获得多个不同的自动驾驶决策规划任务对应的多个初始任务子模型,和对所述多个初始任务子模型进行训练的训练样本;
基于所述训练样本,对所述训练完成的预训练模型和多个初始任务子模型进行多任务联合训练,以获得不同自动驾驶决策规划任务对应的任务模型;并且,在不同轮次的训练过程中,从多个初始任务子模型中选择不同的子模型与所述预训练模型进行联合训练。
2.根据权利要求1所述的方法,其中,所述在不同轮次的训练过程中,从多个初始任务子模型中选择不同的子模型与所述预训练模型进行联合训练,包括:
在不同轮次的训练过程中,按照预设的筛选规则,从多个初始任务子模型中选择出与前一轮次训练的子模型不同的子模型,对选择出的子模型与所述预训练模型进行联合训练。
3.根据权利要求2所述的方法,其中,所述在不同轮次的训练过程中,按照预设的筛选规则,从多个初始任务子模型中选择出与前一轮次训练的子模型不同的子模型,包括:
在不同轮次的训练过程中,按照轮询规则,从多个初始任务子模型中轮询选择出子模型;
或者,
在不同轮次的训练过程中,按照随机筛选规则,从多个初始任务子模型中随机选择出子模型。
4.根据权利要求2或3所述的方法,其中,
在所述在不同轮次的训练过程中,按照预设的筛选规则,从多个初始任务子模型中选择出与前一轮次训练的子模型不同的子模型之前,所述方法还包括:根据所述多个不同的自动驾驶决策规划任务的任务类型,确定对应的所述多个初始任务子模型的训练类型,其中,所述训练类型包括需继续训练的类型和不需继续训练的类型;对不需继续训练的类型的初始任务子模型进行训练冻结;
所述在不同轮次的训练过程中,按照预设的筛选规则,从多个初始任务子模型中选择出与前一轮次训练的子模型不同的子模型,包括:在不同轮次的训练过程中,按照预设的筛选规则,从未被训练冻结的初始任务子模型中选择出与前一轮次训练的子模型不同的子模型。
5.根据权利要求1-3任一项所述的方法,其中,所述获得多个不同的自动驾驶决策规划任务对应的多个初始任务子模型,和对所述多个初始任务子模型进行训练的训练样本,包括:
根据预设的不同自动驾驶决策规划任务的信息,确定针对各个自动驾驶决策规则任务的训练类型,所述训练类型包括需继续训练的类型和不需继续训练的类型;
获得需继续训练的类型对应的多个自动驾驶决策规划任务所对应的多个初始子任务模型,和对所述多个初始子模型进行训练的训练样本。
6.根据权利要求5所述的方法,其中,所述方法还包括:
判断不需继续训练的类型对应的自动驾驶决策规划任务是否为驾驶场景搜索任务;
若为驾驶场景搜索任务,则将所述预训练模型作为用于所述驾驶场景搜索任务的任务模型。
7.根据权利要求6所述的方法,其中,所述方法还包括:
在推理阶段,获取待搜索的驾驶场景的信息,以及,预先设置的多个不同驾驶场景的信息;
使用所述驾驶场景搜索任务的任务模型,获取所述待搜索的驾驶场景的信息对应的第一场景特征,和,所述多个不同驾驶场景的信息对应的多个第二场景特征;
计算所述第一场景特征和所述多个第二场景特征之间的相似度;
根据所述相似度,确定与所述第一场景特征匹配的第二场景特征,并根据匹配的所述第二场景特征,确定所述待搜索的驾驶场景的信息对应的驾驶场景。
8.根据权利要求1-3任一项所述的方法,其中,在所述获得以轨迹预测任务作为预训练任务而训练完成的预训练模型之前,所述方法还包括:
获取用于对所述预训练模型进行轨迹预测任务训练的预训练样本;
对所述预训练样本进行向量化,获得向量化的预训练样本;
使用向量化的预训练样本对所述预训练模型进行轨迹预测任务训练。
9.根据权利要求8所述的方法,其中,所述预训练模型包括形状编码器、交互编码器和解码器,其中,所述形状编码器用于生成所述预训练样本中的交通参与者轨迹和车道片段的形状特征;所述交互编码器用于生成所述预训练样本中的交通参与者和车道片段间的交互关系特征;所述解码器用于根据所述形状特征和所述交互关系特征,对目标交通工具进行驾驶轨迹预测。
10.一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-9中任一项所述的方法对应的操作。
11.一种计算机存储介质,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-9中任一所述的方法。
12.一种计算机程序产品,包括计算机指令,所述计算机指令指示计算设备执行如权利要求1-9中任一所述方法对应的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211178023.2A CN115423093A (zh) | 2022-09-23 | 2022-09-23 | 任务迁移方法、电子设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211178023.2A CN115423093A (zh) | 2022-09-23 | 2022-09-23 | 任务迁移方法、电子设备及计算机存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115423093A true CN115423093A (zh) | 2022-12-02 |
Family
ID=84205789
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211178023.2A Pending CN115423093A (zh) | 2022-09-23 | 2022-09-23 | 任务迁移方法、电子设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115423093A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116777046A (zh) * | 2023-05-11 | 2023-09-19 | 中国科学院自动化研究所 | 交通预训练模型构建和交通预测方法、装置及电子设备 |
-
2022
- 2022-09-23 CN CN202211178023.2A patent/CN115423093A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116777046A (zh) * | 2023-05-11 | 2023-09-19 | 中国科学院自动化研究所 | 交通预训练模型构建和交通预测方法、装置及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Ding et al. | Predicting vehicle behaviors over an extended horizon using behavior interaction network | |
Li et al. | Infogail: Interpretable imitation learning from visual demonstrations | |
Akan et al. | Stretchbev: Stretching future instance prediction spatially and temporally | |
Roh et al. | Multimodal trajectory prediction via topological invariance for navigation at uncontrolled intersections | |
CN112241783A (zh) | 具有条件标准化流的机器可学习系统 | |
CN110998663A (zh) | 一种仿真场景的图像生成方法、电子设备和存储介质 | |
Zhao et al. | Cadre: A cascade deep reinforcement learning framework for vision-based autonomous urban driving | |
CN114792148A (zh) | 一种运动轨迹的预测方法及装置 | |
CN115423093A (zh) | 任务迁移方法、电子设备及计算机存储介质 | |
CN114724021B (zh) | 一种数据的识别方法、装置、存储介质及电子装置 | |
CN111242176B (zh) | 计算机视觉任务的处理方法、装置及电子系统 | |
CN113159115A (zh) | 基于神经架构搜索的车辆细粒度识别方法、系统和装置 | |
Kawasaki et al. | Multimodal trajectory predictions for autonomous driving without a detailed prior map | |
CN111340004A (zh) | 一种车辆图像识别的方法和相关装置 | |
Lei et al. | Digital twin‐based multi‐objective autonomous vehicle navigation approach as applied in infrastructure construction | |
Arbabi et al. | Planning for autonomous driving via interaction-aware probabilistic action policies | |
Liu et al. | Intention-aware denoising diffusion model for trajectory prediction | |
Shi et al. | Motion planning for unmanned vehicle based on hybrid deep learning | |
CN114104005B (zh) | 自动驾驶设备的决策方法、装置、设备及可读存储介质 | |
CN113253684B (zh) | 基于图卷积神经网络的多agv调度方法及装置、电子设备 | |
Lamm et al. | Vehicle trajectory prediction by transfer learning of semi-supervised models | |
Yao et al. | A graph-based scene encoder for vehicle trajectory prediction using the diffusion model | |
de Almeida et al. | Context-free self-conditioned gan for trajectory forecasting | |
CN114638395A (zh) | 一种车辆出行时间预测的方法、系统、计算机设备及存储介质 | |
CN109284687B (zh) | 一种基于室内机会信号增强的场景识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |