CN115907009B - 一种自动驾驶感知模型的迁移方法、装置、设备和介质 - Google Patents
一种自动驾驶感知模型的迁移方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN115907009B CN115907009B CN202310147702.1A CN202310147702A CN115907009B CN 115907009 B CN115907009 B CN 115907009B CN 202310147702 A CN202310147702 A CN 202310147702A CN 115907009 B CN115907009 B CN 115907009B
- Authority
- CN
- China
- Prior art keywords
- model
- perception
- network
- labeling
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000008447 perception Effects 0.000 title claims abstract description 240
- 230000005012 migration Effects 0.000 title claims abstract description 73
- 238000013508 migration Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000012549 training Methods 0.000 claims abstract description 161
- 238000012545 processing Methods 0.000 claims abstract description 25
- 238000002372 labelling Methods 0.000 claims description 167
- 230000004927 fusion Effects 0.000 claims description 64
- 238000007781 pre-processing Methods 0.000 claims description 36
- 230000011218 segmentation Effects 0.000 claims description 32
- 238000012795 verification Methods 0.000 claims description 25
- 238000001514 detection method Methods 0.000 claims description 18
- 238000013527 convolutional neural network Methods 0.000 claims description 17
- 238000000605 extraction Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 14
- 238000004821 distillation Methods 0.000 claims description 12
- 230000008569 process Effects 0.000 claims description 12
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 208000011580 syndromic disease Diseases 0.000 claims 2
- 238000013473 artificial intelligence Methods 0.000 abstract description 7
- 238000013135 deep learning Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 15
- 238000005516 engineering process Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000008901 benefit Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 230000003924 mental process Effects 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Image Analysis (AREA)
Abstract
本公开提供了一种自动驾驶感知模型的迁移方法、装置、设备和介质,涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于自动驾驶、无人驾驶等场景。具体实现方案为:获取一种或多种模态的训练样本;采用所述训练样本进行感知模型训练,以训练完成至少两个版本的感知模型;采用所述训练样本,基于训练后的至少两个版本的感知模型,进行知识迁移,以形成车端模型。本公开提高了知识迁移形成车端模型的灵活性和多样性,提高了车端模型的准确性。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及计算机视觉、图像处理、深度学习等技术领域,可应用于自动驾驶、无人驾驶等场景。
背景技术
在自动驾驶车辆中,感知系统是最为重要的组成部分,其作用是帮助自动驾驶车辆理解周边的环境。
现有的自动驾驶感知模型,其生产方式基于少量训练数据,对小模型进行训练的传统模式。这无法发挥自动驾驶场景海量数据样本的优势。在数据方面,现有人工标注方法效率低、价格高、周期长,因此,也难以将海量数据标注为样本数据,满足模型训练的数据建设需求。
发明内容
本公开提供了一种自动驾驶感知模型的迁移方法、装置、设备以及存储介质。
根据本公开的一方面,提供了一种自动驾驶感知模型的迁移方法,包括:
获取一种或多种模态的训练样本;
采用所述训练样本进行感知模型训练,以训练完成至少两个版本的感知模型;
采用所述训练样本,基于训练后的至少两个版本的感知模型,进行知识迁移,以形成车端模型。
根据本公开的另一方面,提供了一种自动驾驶感知模型的迁移装置,包括:
样本获取模块,用于获取一种或多种模态的训练样本;
模型训练模块,用于采用所述训练样本进行感知模型训练,以训练完成至少两个版本的感知模型;
知识迁移模块,用于采用所述训练样本,基于训练后的至少两个版本的感知模型,进行知识迁移,以形成车端模型。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开任一实施例所提供的自动驾驶感知模型的迁移方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行本公开任一实施例所提供的自动驾驶感知模型的迁移方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开任一实施例所提供的自动驾驶感知模型的迁移方法。
本公开提高了知识迁移形成车端模型的灵活性和多样性,提高了车端模型的准确性。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1A是根据本公开实施例提供的一种自动感知模型训练方法的示意图;
图1B为本公开实施例所适用的自动驾驶感知模型的架构示意图一;
图1C为本公开实施例所适用的自动驾驶感知模型的架构示意图二;
图1D为本公开实施例所适用的基于CNN的感知模型架构示意图;
图1E为本公开实施例所适用的基于自动编码解码器的感知模型架构示意图;
图1F为本公开实施例所提供自动驾驶感知模型的训练方法的流程环节示意图;
图2A是根据本公开实施例提供的一种自动驾驶感知模型的迁移方法的示意图;
图2B为本公开实施例所提供的车端模型蒸馏过程示意图;
图3是根据本公开实施例提供的另一种自动驾驶感知模型的迁移方法的示意图;
图4是根据本公开实施例提供的一种自动驾驶感知模型的迁移装置的示意图;
图5是用来实现本公开实施例的一种自动驾驶感知模型的迁移方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
在自动驾驶车辆中,感知系统是最为重要的组成部分,其作用是帮助自动驾驶车辆理解周边的环境。自动驾驶感知模型通常利用多模态数据作为输入,例如摄像头采集的图像以及激光雷达采集的点云数据,完成对路面上障碍物的空间定位以及语义理解等。为了能对路面环境进行充分理解,自动驾驶感知模型需要包括多种视觉任务,例如3D检测、车道线分割、道路要素分割等。其中3D检测目的是预测障碍物的长宽高、3D位置以及类别,车道线分割与道路要素分割则是通过像素级别细粒度解析,定位车道线以及路面等区域。障碍物通常则包括机动车辆、行人、非机动车、交通锥筒等。对于整个自动驾驶车辆而言,准确、可靠的感知结果,对下游规划与控制至关重要,影响自动驾驶车辆的行驶安全。
本公开实施例的技术方案,充分利用大数据与大模型,构建一套全新的基于大模型知识迁移的自动驾驶感知模型的生产流程。整体方案分为两个阶段:首先,借助自动驾驶积累的海量数据,训练感知模型,借助作为大模型的感知模型的强大特征表达能力,突破自动驾驶感知效果天花板。然后,通过知识迁移技术,形成大数据,大模型和知识迁移的模型生产流程闭环,使得大模型的感知能力可以迁移到车端的小模型。大模型赋能后的车端模型,能大幅提升感知效果同时保持较好的实时性与功耗约束,实现规模化的落地应用。
图1A是根据本公开实施例提供的一种自动感知模型训练方法的示意图。该方法可以由自动驾驶感知模型的训练装置来执行,该装置可采用硬件和/或软件的方式来实现,可配置于电子设备中,一般为具有大规模数据处理能力的服务器或服务器集群。参考图1A,该方法具体包括如下:
S110、获取一种或多种模态的训练样本;其中,所述训练样本包括有标注数据和无标注数据;
S120、采用设定场景的有标注数据对预训练后的感知模型进行场景化训练;
S130、采用所述训练样本对场景化后的感知模型进行半监督训练,以更新所述感知模型并形成伪标注数据,且将所述伪标注数据更新至所述训练样本中;
S140、采用所述训练样本,基于半监督训练后的感知模型,进行知识迁移,以形成车端模型。
其中,本公开实施例所涉及的训练样本可包括至少一种或多种模态。可选的,多种模态的训练样本至少包括图像和点云。点云又可分为激光雷达点云和毫米波雷达点云等模态。不同模态的数据之间可以具有时空关联,也可以不具有时空关联。可以是时序的视频,也可以是单帧图像。例如由同一采集车同时进行采集的点云和视频图像,具有时空配置信息,即具有对应的时间戳和空间坐标对应关系。或者,单独采集的某个模态的数据也可以作为训练样本。
训练样本包括有标注数据和无标注数据。标注数据是指在采集的图像或点云等原始数据中,标注出的需要预测出的结果。例如,标注数据可以包括物体在图像中的2D框,物体在点云中的3D框,图像中的车道线等。一个原始数据中可以包括一项或多项标注数据。准确的标注数据需要大量的人工成本,所以海量的车辆采集数据以无标注数据居多。本公开实施例能够有效利用海量无标注数据,再结合少量的有标注数据,对模型进行训练。
本公开实施例涉及感知模型和车端模型。其中,感知模型为大模型,即模型结构为具有大规模参数的模型,参数量级一般是千万级、亿级别以上,可能到达十亿级别、百亿级别。在大模型的网络结构方面,例如采用UFO( 统一特征优化,Unified FeatuerOptimization)、DWNet(数据仓库网络)等网络结构。采用大模型作为感知模型,能够充分发挥大模型的强大特征表达能力,提高感知模型的预测准确性。
本公开实施例的技术方案,可选采用如图1B所示的大模型架构,该大模型可以是单模态大模型,也可以是多模态大模型,以分别适应单模态或多模态数据联合训练的需求。感知模型具体可包括预处理网络、主体网络和多任务输出网络。从而通过预处理网络对输入数据进行数据形式的预先处理,能够适配主体网络的输入需求。主体网络能够对单模态数据或多模态数据进行联合处理,提取特征。多任务输出网络可包括多个子任务分支模块,能够选择性的使用,适配于自动驾驶场景的多种任务预测需求。
可以预先训练多个版本的感知模型,从而形成感知模型库,在知识迁移和数据标注环节,可有效利用多版本感知模型的优势。所述感知模型的版本数量可以为多个,各版本感知模型之间包括如下至少一项区别:
预处理网络的网络结构;
主体网络的网络结构;
感知模型的训练超参数;
感知模型所采用的训练样本。
为了形成多个版本的感知模型,可以通过预设不同的预处理网络的网络结构、和/或主体网络的网络结构,并分别进行训练,从而形成不同版本的感知模型,例如单模态大模型、多模态大模型。另外,还可以设置不同的训练超参数,例如迭代次数、损失目标、或参数更新梯度等参数,从而得到不同版本的感知模型。当然,也可以从全部训练样本中进行选择,以不同的训练样本子集对感知模型进行训练,得到不同版本的感知模型。
在感知模型库中,除了包括各个版本的感知模型,还可以进一步收集其他相关的模型,例如处理单模态数据的感知模型,其他已训练的小规模模型等,从而能够在半监督训练过程、半自动化数据标注、知识迁移等环节发挥辅助性作用。
在本公开实施例中,可选的提供两种感知模型的网络结构可选如下:
第一种网络结构,所述预处理网络中包括一个或多个预处理分支模块,用于分别处理对应模态的训练样本,形成预处理样本;所述主体网络用于对输入的预处理样本进行特征处理;所述多任务输出网络包括多个子任务分支模块,用于分别根据所述主体网络的输出数据,识别对应子任务的自动驾驶感知结果。
上述网络结构,如果所述感知模型为单模态感知模型,则所述单模态感知模型的输入为一种模态的训练样本,进行数据的预处理、特征提取和转换、以及多任务识别。
上述网络结构,如果所述感知模型为多模态感知模型,则由主体网络对分别预处理后的各个模态数据进行融合,再进行特征提取和转换。该融合模式为前置融合,优选可以在主体网络中对单模态的预处理样本分别进行特征提取,将提取后的特征进行融合,再对融合后的特征进行转换表达。
在感知模型库中,也可以包括部分感知模型,采用后置融合的方式来融合多模态数据的信息。对于不同模态数据,可以在预处理网络和主体网络中分别进行处理,并分别输出各模态数据所提取和转换的特征,当各模态特征输入至多任务输出网络的子任务分支模块后,进行识别得到任务识别结果;此后再对各个模态所输出的任务识别结果进行融合。
感知模型中,主体网络是进行特征提取和转换的主要部分,网络结构的整体参数量可选的是超过亿级且可进一步扩展。预处理网络主要用于根据主体网络的需要,对输入的训练样本进行预处理。多任务输出网络用于基于主体网络提取的特征进行各种子任务的识别,所以多任务输出网络可包括一个或多个子任务分支模块,可采用特定任务输出头(task-specific heads)来实现。在自动驾驶感知场景中,子任务分支模块对应的子任务可选的包括下述至少一种:2D框检测任务、3D框检测任务、语义分割任务、车道线分割任务、以及物体跟踪任务。
在本公开实施例中,主体网络可选的是包括多层专家子网络,如图1C所示;所述感知模型还包括门控网络,所述门控网络配置在多层专家子网络与所述多任务输出网络之间,用于基于门控网络参数选择至少一个专家子网络的输出数据,传输给所述多任务输出网络中的至少一个子任务分支模块。
上述网络架构中,每个专家子网络可输入预处理样本进行特征提取和转换,专家子网络的输出结果经过门控网络输入多任务输出网络。其中门控网络可与多个专家子网络相连,且与多个子任务模块相连,从而选择性的连接专家子网络和子任务分支模块。例如,可以选择某个专家子网络的输出结果,提供给2D框检测的子任务分支模块;或者,也可以选择某两个专家子网络的输出结果,按照设定权重参数进行叠加或拼合后,提供给某个子任务分支模块。门控网络在主体网络和多任务输出网络之间的选择性连接参数和权重参数等,也可以在感知模型的训练过程中进行优化。
可选的是,所述主体网络中包括融合子网络,所述融合子网络用于分别从预处理后的单模态训练样本中提取单模态特征,并将单模态特征进行融合,形成融合特征;所述专家子网络中的特征提取模块和特征转换模块,用于对融合特征进行特征提取和特征转换。
具体是,融合子网络可包括多个单模态特征提取模块和融合模块。单模态特征提取模块分别与各个单模态预处理样本对应,用于从单模态预处理样本中提取特征,输出单模态特征。而后输出的多个单模态特征输入融合模块,融合模块用于将单模态特征进行融合,以形成融合特征。融合方式可以有多种,例如进行特征拼接。专家子网络中的特征提取模块用于对融合特征继续进行特征提取处理;特征转换模块用于对融合特征的提取特征进行转换表达。当专家子网络只有一个时,单模态特征提取模块、融合模块、特征提取模块和特征转换模块,共同构成专家子网络。
可选的,所述融合子网络的数量为一个,由多层专家子网络共用一个融合子网络;或所述融合子网络的数量为多个,分别对应设置在所述多层专家子网络中。即,多个专家子网络所包括的融合子网络可以是共用的一个,也可以是独立的多个。
主体网络中的专家子网络可以有多种选择。
如图1D所示,可选的,所述主体网络的专家子网络为卷积神经网络,包括骨干网络和多尺度特征收集网络。
如图1E所示,可选的,所述主体网络的专家子网络为自动编码解码网络,包括编码器和解码器。
参考图1D,为基于CNN(卷积神经网络)的大模型方案,其中,在预处理网络中可以首先通过预处理分支模块分别对图像或点云信号进行预处理。由于数字图像信号本身为高维度张量,与CNN网络相适配,可以进行空间尺度放缩等简单预处理操作。由于点云信号稀疏且无序的特点,预处理过程中需要进行采样与空间栅格化,转化成高维度张量,再作为CNN网络的输入。主体网络基于混合专家(Mixture-of-Experts)思想构建,其中每一个专家子网络采用CNN的残差网络实现骨干网络(backbone)和多尺度特征收集网络(neck)。再由门控网络选取全部专家子网络的一个子集,输出到相应的一个或者多个子任务分支模块。该感知模型的整体结构,既能够灵活实现任务的切分,也能实现不同专家特征的共享。最后,多任务输出模块中:2D框检测子任务(2D Object detection head)可输出2D包围框与分类得分;3D框检测子任务(3D Object detection head)可输出3D包围框、朝向角与分类得分;分割子任务(Segmentation head)可输出每个类别像素级别的分割区域(mask);车道线分割子任务(Lane Detection head)可输出每一条车道线的实例分割结果;跟踪子任务(Tracking head)可输出每一个物体的帧间运动偏移量。
参考图1E,为基于自动编码解码网络的大模型方案。自动编码解码网络可选是采用注意力机制(例如Transformer)模型来实现。其中,在预处理阶段,由于自动编码解码网络结构依赖序列化的数据输入,需将图像或点云转为序列化的数据格式,例如采用Tokenizer等预处理网络来实现。主干网络可采用基于Transformer的大模型实现特征的编码与解码,并构建混合专家模型实现任务的拆分与特征共享。模型输出端与基于CNN的大模型方案类似,采用多任务输出网络实现不同的感知任务。
本公开实施例的感知模型网络架构方案,具有较强的可扩展性,以及丰富的变化,能够满足各种自动驾驶感知场景下的感知需求。
由于训练样本中包括有大量的无标注数据,为了有效利用无标注数据且提高训练的效率,可选的采用无标注数据对感知模型进行预训练。由此来提升感知模型主干网络的特征提取能力。感知模型的预训练可主要用于训练特征提取部分的网络,可通过两个阶段来实现自监督学习:1)模态内自监督学习。即通过大量无标注数据增强模型主干网络的泛化能力,提升模型在跨场景、跨传感器应用时的效果;2)跨模态的模态间自监督对比学习。通过跨模态对比学习,通过增强模态之间特征一致性,提升模型在下游多任务中的预测效果。大规模预训练中的模态内自监督学习和模态间自监督对比学习可以采用先模态内自监督学习,再联合跨模态自监督对比学习共同训练的方式开展。
经过预训练后的感知模型,进一步基于设定场景的有标注数据进行场景化训练。可选的,所述设定场景的有标注数据的标注结果,对应于至少一个子任务的预测结果。设定场景可以是自动驾驶的任意感知需求场景。例如,识别车辆周围的车道线的场景,从而在训练样本中标注有车道线;对车辆周围物体进行识别和跟踪的场景,从而在训练样本的多帧数据中标注有物体以及物体的帧间位移。因此,不同的场景可具有不同的标注结果,标注结果对应于至少一个子任务的预测结果。利用各种具有标注结果的有标注数据,能够对感知模型进行整体训练,提升模型的准确性。对应于不同子任务场景的有标注数据,可以对该子任务分支模块进行单独训练。通过场景化训练,能够在预训练的大模型基础上,进行下游任务的调整。
在感知模型的训练环节,还可以引入对感知模型的多尺度训练,进一步提升感知模型效果以及新场景下的泛化能力。类似的,也可以迁移训练得到车端模型后,对车端模型进行半监督训练。半监督训练,也可称为半监督学习(Semi-Supervised Learning,SSL),结合了监督训练和无监督训练。半监督训练采用大量的无标记数据进行预测形成伪标注数据,以及同时使用有标记数据来进行训练监督。在对车端模型进行知识迁移时,可以选择适用更新前的训练样本的集合,也可以选择更新后的训练样本的集合,还可以从训练样本的集合中优选子集进行知识迁移。下面将通过实施例进行详细介绍。
当感知模型达到训练完成的条件时,可根据需求进行知识迁移,来生成以小规模模型结构为主的车端模型。车端模型的模型参数量小于作为大模型的感知模型模型参数。
本公开实施例,相对于基于少量有标注数据和小模型的模型生成方式,提供了全新的车端模型生成方式,如图1F所示,对感知模型首先可以基于海量的无标注数据进行大规模预训练,而后进行场景化(finetune)训练,再进行半监督训练。对于训练完成的感知模型,通过模型结构搜索技术确定车端模型网络结构,进而基于感知模型进行知识前行,训练完成车端模型。上述全新的车端模型生成方式,充分发挥了自动驾驶场景海量数据和大模型的优势。在本实施例的技术方案中,引入了多模态数据对大模型的训练技术,当多模态数据包括3D模态数据时,则能够输出3D的任务感知结果。本公开实施例的技术方案,能够形成感知模型,甚至能够形成多版本的感知模型库,其泛化能力强,方便按照车端个性化需求进行知识迁移。如图1F所示,基于训练的感知模型,可增设半自动化标注平台,形成伪标注数据,将通过后续实施例对半自动化标注过程进行介绍。
下面就车端模型知识迁移部分,进行详细介绍。图2A是根据本公开实施例提供的一种自动驾驶感知模型的迁移方法的示意图,该方法可由自动驾驶感知模型的迁移装置来执行,该装置可采用硬件和/或软件的方式来实现,可配置于电子设备中。参考图2A,该方法具体包括如下:
S210、获取一种或多种模态的训练样本;
S220、采用所述训练样本进行感知模型训练,以训练完成至少两个版本的感知模型;
S230、采用所述训练样本,基于训练后的至少两个版本的感知模型,进行知识迁移,以形成车端模型。
其中,可以通过图像采集设备和雷达等设备获取一种或多种模态的训练样本。使用不同的设备可以得到不同模态的训练样本。示例性的,通过图像采集设备可以获取模态为图像的训练样本,通过激光雷达可以获取模态为激光雷达点云的训练样本,通过毫米波雷达可以获取模态为毫米波雷达点云的训练样本。
将一种或多种模态的训练样本输入至感知模型中,对感知模型进行训练。基于不同因素或训练过程,可以得到至少两个版本的感知模型。其中,感知模型包括预处理网络、主体网络和多任务输出网络。不同版本的感知模型之间可以包括如下至少一项区别:预处理网络的网络结构、主体网络的网络结构、感知模型的训练超参数和感知模型所采用的训练样本。也就是,可以通过预设不同的预处理网络的网络结构、和/或主体网络的网络结构,并分别进行训练,从而形成不同版本的感知模型。还可以设置不同的训练超参数,例如迭代次数、损失目标、或参数更新梯度等参数,从而得到不同版本的感知模型。当然,也可以从全部训练样本中进行选择,以不同的训练样本子集对感知模型进行训练,得到不同版本的感知模型。
将训练样本输入至训练后的至少两个版本的感知模型中,得到至少两个版本的感知模型对应的输出结果,利用训练样本和至少两个版本的感知模型对应的输出结果对初始的车端模型进行训练,实现感知模型向车端模型的知识迁移,以形成车端模型。
在本公开中,车端模型的网络结构可以是基于CNN的方案,也可以是基于自动编码解码网络的方案。可以理解的是,基于CNN的方案是指车端模型采用CNN网络来实现,基于自动编码解码网络的方案是指车端模型采用注意力机制模型来实现。可以理解的是,车端模型与感知模型为同构模型或异构模型。同构模型是指车端模型与感知模型中的网络结构相同,异构模型是指车端模型与感知模型的网络结构不同。示例性的,感知模型为基于CNN的大模型方案,车端模型为基于CNN的方案时,车辆模型与感知模型为同构模型;感知模型为基于自动编码解码网络的大模型方案,车端模型为基于CNN的方案时,车辆模型与感知模型为异构模型。
在本公开的实施例中,可选的,采用所述训练样本,基于训练后的至少两个版本的感知模型,进行知识迁移,以形成车端模型包括:采用伪标签蒸馏方式,基于所述训练样本和训练后的至少两个版本的感知模型,进行知识迁移,以形成车端模型。
其中,伪标签蒸馏中,伪标签,即伪标注结果,可以通过单个感知模型或多个版本的感知模型的预测结果融合获得。在本公开中,知识迁移可以理解为,通过训练样本对感知模型进行训练,在车端模型的训练过程中,将感知模型的预测结果作为车端模型的无标注数据的伪标签,其中,感知模型和车端模型可以同时进行训练。具体的,如图2B所示,可以将训练样本分别输入至训练后的至少两个版本的感知模型中,从而得到各感知模型分别输出的伪标签,伪标签中可包括一个或多个子任务的预测结果。而后,将多个感知模型输出的伪标签进行融合,融合策略可以为根据设定规则进行优质伪标签的筛选,也可以基于伪标注结果之间的一致性,确定各个伪标注结果的置信度。而后基于融合伪标签对车端模型进行蒸馏训练。
通过伪标签蒸馏方式进行知识迁移,以形成车端模型,实现了车端模型与感知模型网络输出端的一致性约束,提高了为标签的准确度,从而提高了形成的车端模型的准确度。
本公开实施例的技术方案,通过一种或多种模态的训练样本进行感知模型训练,得到至少两个版本的感知模型,从而进行知识迁移,以形成车端模型,能够增加知识迁移的灵活性,提高形成车端模型的准确性。
图3是根据本公开实施例提供的另一种自动驾驶感知模型的迁移方法的示意图,该方法在上述实施例方基础上对伪标签蒸馏方式进行了细化。参考图3,该方法具体包括如下:
S310、获取一种或多种模态的训练样本;
S320、采用所述训练样本进行感知模型训练,以训练完成至少两个版本的感知模型;
S330、根据所述训练样本中的无标注数据,分别采用至少两个版本的感知模型,获得第一预测结果,作为无标注数据的伪标注结果;
S340、将基于各所述感知模型获得的伪标注结果进行融合,以形成融合标注结果;
S350、将所述无标注数据输入所述车端模型,以输出第二预测结果,并根据所述融合标注结果和所述车端模型输出的第二预测结果计算损失关系,且根据所述损失关系对所述车端模型进行更新。
其中,第一预测结果用于描述感知模型的输出结果。第二预测结果用于描述车端模型的输出结果。具体的,将训练样本中的无标注数据分别输入到至少两个版本的感知模型中,得到各感知模型分别输出的第一预测结果,将各感知模型输出的第一预测结果,作为无标注数据的伪标注结果。将各感知模型输出的伪标注结果进行融合,融合后的伪标注结果为融合标注结果。将训练样本中的无标注数据输入至车端模型,得到车端模型输出的第二预测结果,可以预先设置损失关系的计算方法,通过计算融合标注结果和第二预测结果的损失关系,对车端模型进行更新。
可选的,根据所述训练样本中的无标注数据,分别采用至少两个版本的感知模型,获得第一预测结果,作为无标注数据的伪标注结果包括:将不同模态的无标注数据,分别输入至少两个版本感知模型,以输出单一模态对应的预测结果,作为所述无标注数据的伪标注结果。
单一模态对应的预测结果是指,一种模态的训练样本经过感知模型得到的输出结果。具体的,针对一种或多种模态的训练样本,将每一种模态的训练样本中的无标注数据,分别输入到对应模态的感知模型中,输出结果为单一模态对应的预测结果,将单一模态对应的预测结果作为无标注数据的伪标注结果。示例性的,将模态为图像的训练样本中的无标注数据,输入到图像模态的感知模型中,得到图像模态对应的预测结果,作为无标注数据的伪标注结果;将模态为点云的训练样本中的无标注数据,输入到点云模态的感知模型中,得到点云模态对应的预测结果,作为无标注数据的伪标注结果。
可以采用多模态训练的感知模型,用于进行单模态数据的预测,或者,也可以基于单模态训练样本训练单模态版本的感知模型,用于进行单模态数据的处理。将单一模态对应的预测结果作为无标注数据的伪标注结果,能够对每个模态数据进行更有针对性的预测处理,从而得到更加准确的预测结果,能够在知识迁移,以形成车端模型时,降低数据量,提高训练效率。
可选的,感知模型中的多任务输出网络包括多个子任务分支模块,因此,伪标注结果包括感知模型中一个或多个子任务分支模块输出的子任务标注结果。则将各所述感知模型输出的伪标注结果进行融合,以形成融合标注结果包括:根据感知模型输出的多个子任务标注结果,进行一致性校验;根据校验结果调整各感知模型的子任务标注结果的置信度;根据各感知模型的子任务标注结果的置信度进行融合,以形成融合标注结果。
一致性校验用于对感知模型输出的多个子任务标注结果的一致性进行对比。一致性可体现在感知模型所输出不同子任务标注结果之间的一致性。置信度用于描述一致性的程度,示例性的,一致性程度越高,置信度越高。可以理解的是,感知模型的多任务输出网络可处理2D框检测子任务和3D框检测子任务,这两种子任务都会在样本数据中预测出物体的包围框位置,理论上,2D框和3D框应该位置和轮廓是一致的。所以可基于2D框和3D框之间的交并比来确定子任务标注结果的置信度。
具体的,对于至少两个版本的感知模型,对每一感知模型输出的多个子任务标注结果进行一致性校验,确定一致性校验结果,并根据一致性校验结果确定感知模型的子任务标注结果的置信度。对于至少两个版本的感知模型,将各感知模型中相同子任务标注结果的置信度进行融合,形成融合标注结果。其中,可以通过加权求和的方式将各感知模型中相同子任务标注结果的置信度进行融合,也可以通过其他方式进行融合。
通过对感知模型输出的多个子任务标注结果进行一致性校验,确定子任务标注结果的置信度,能够保证子任务标注结果的准确性,在根据子任务标注结果的置信度进行融合,形成融合标注结果时,保证融合标注结果的准确性。
在一个具体实施方式中,根据感知模型输出的多个子任务标注结果,进行一致性校验包括:针对任一个感知模型输出的相同物体的2D框和3D框,进行一致性校验。
可以理解的是,针对任一个感知模型,将无标注数据输入感知模型后,可以得到的至少一个物体的2D框和3D框。将相同物体的2D框和3D框进行一致性校验。理论上,相同物体的2D框和3D框的轮廓和位置应该匹配,如果实际预测结果的2D框和3D框匹配度较差,则说明此预测结果的准确性较低,可以予以排除,或者赋予较低的置信度。
通过对相同物体的2D框和3D框进行一致性校验能够保证一致性校验的准确性,从而保证子任务标注结果的置信度的准确性。
在另一个具体实施方式中,根据感知模型输出的多个子任务标注结果,进行一致性校验包括:针对不同感知模型输出的子任务标注结果,进行相同标注结果所属区域的一致性校验;其中,所述子任务标注结果包括:语义分割结果、车道线分割结果或物体识别结果。
可以理解的是,子任务分支模块对应的子任务包括:语义分割任务、车道线分割任务、以及物体跟踪任务。相应的,子任务分支模块中,通过语义分割任务得到的子任务标注结果为语义分割结果,通过车道线分割任务得到的子任务标注结果为车道线分割结果,通过物体识别任务得到的子任务标注结果为物体识别结果。针对不同感知模型输出的子任务标注结果,理论上相同标注结果所属区域应该范围大致相同。所以可基于相同标注结果所属区域的交并比来进行一致性校验。如果交并比表明相同物体在不同预测结果中的重叠性较差,则表明此物体的预测结果准确性低,可予以排除或赋予较低的置信度。
通过对不同感知模型输出的子任务标注结果,进行相同标注结果所属区域的一致性校验,能够筛选不同感知模型输出的子任务标注结果,且能够以物体为对象,确定物体级别的标注结果的准确性,从而进行排除或赋予对应数值的置信度。
在伪标签蒸馏方式的另一种细化方式中,采用伪标签蒸馏方式,基于所述训练样本和训练后的至少两个版本的感知模型,进行知识迁移,以形成车端模型包括:根据所述训练样本中的无标注数据,分别采用至少两个版本的感知模型,获得第一预测结果,作为无标注数据的伪标注结果;将基于各所述感知模型获得的伪标注结果与标准标注结果进行比对,以确定伪标注结果的置信度;将所述无标注数据输入所述车端模型,以输出第二预测结果,并根据所述伪标注结果及其置信度,与所述车端模型输出的第二预测结果,计算损失关系,且根据所述损失关系对所述车端模型进行更新。
具体的,将训练样本中的无标注数据分别输入到至少两个版本的感知模型中,将至少两个版本的感知模型输出的第一预测结果,作为无标注数据的伪标注结果。示例性的,也可以将不同模态的无标注数据分别输入至少两个版本感知模型,以输出单一模态对应的预测结果,作为无标注数据的伪标注结果。
标准标注结果是指预先设置的标注结果,例如有标注数据,通常是人工标注或通过其他手段进行标注的、相对准确的标注结果。将各感知模型输出的伪标注结果与标准标注结果进行比对,可以通过伪标注结果与标准标注结果之间的交并比,确定伪标注结果的置信度。
将无标注数据输入至车端模型中,得到第二预测结果,可以预先设置损失关系的计算方法,计算伪标注结果、置信度和第二预测结果之间的损失关系,根据损失关系对车端模型进行更新,实现车端模型的训练。
通过将伪标注结果与标准标注结果进行比对,确定伪标注结果的置信度,能够提高置信度的准确度,同时简化了置信度的确定过程,减少了计算量,提高了置信度确定的效率,从而提高了车端模型更新效率。
作为上述各自动驾驶感知模型的迁移方法的实现,本公开还提供了一种实施上述各自动驾驶感知模型的迁移方法的执行装置的可选实施例。
图4是本公开实施例中的一种自动驾驶感知模型的迁移装置的示意图。如图4所示的一种自动驾驶感知模型的迁移装置400,包括:样本获取模块401、模型训练模块402和知识迁移模块403。
其中,样本获取模块401,用于获取一种或多种模态的训练样本;
模型训练模块402,用于采用所述训练样本进行感知模型训练,以训练完成至少两个版本的感知模型;
知识迁移模块403,用于采用所述训练样本,基于训练后的至少两个版本的感知模型,进行知识迁移,以形成车端模型。
可选的,所述多种模态的训练样本至少包括图像和点云。
可选的,所述感知模型包括预处理网络、主体网络和多任务输出网络。
可选的,所述预处理网络中包括一个或多个预处理分支模块,用于分别处理对应模态的训练样本,形成预处理样本;
所述主体网络用于对输入的预处理样本进行特征处理;
所述多任务输出网络包括多个子任务分支模块,用于分别根据所述主体网络的输出数据,识别对应子任务的自动驾驶感知结果。
可选的,所述子任务分支模块对应的子任务包括下述至少一种:2D框检测任务、3D框检测任务、语义分割任务、车道线分割任务、以及物体跟踪任务。
可选的,所述感知模型为单模态感知模型,所述单模态感知模型的输入为一种模态的训练样本。
可选的,所述感知模型为多模态感知模型,所述主体网络中包括融合子网络,所述主体网络中包括融合子网络,所述融合子网络用于分别从预处理后的单模态训练样本中提取单模态特征,并将单模态特征进行融合,形成融合特征;所述专家子网络中的特征提取模块和特征转换模块,用于对融合特征进行特征提取和特征转换;
所述融合子网络的数量为一个,由多层专家子网络共用一个融合子网络;或所述融合子网络的数量为多个,分别对应设置在所述多层专家子网络中。
可选的,所述主体网络的专家子网络为卷积神经网络,包括骨干网络和多尺度特征收集网络;或
所述主体网络的专家子网络为自动编码解码网络,包括编码器和解码器。
可选的,不同版本感知模型之间包括如下至少一项区别:
预处理网络的网络结构;
主体网络的网络结构;
感知模型的训练超参数;
感知模型所采用的训练样本。
可选的,所述车端模型与所述感知模型为同构模型或异构模型。
可选的,知识迁移模块403具体用于:
采用伪标签蒸馏方式,基于所述训练样本和训练后的至少两个版本的感知模型,进行知识迁移,以形成车端模型。
可选的,知识迁移模块403包括:
预测单元,用于根据所述训练样本中的无标注数据,分别采用至少两个版本的感知模型,获得第一预测结果,作为无标注数据的伪标注结果;
融合单元,用于将基于各所述感知模型获得的伪标注结果进行融合,以形成融合标注结果;
第一更新单元,用于将所述无标注数据输入所述车端模型,以输出第二预测结果,并根据所述融合标注结果和所述车端模型输出的第二预测结果计算损失关系,且根据所述损失关系对所述车端模型进行更新。
可选的,预测单元具体用于:
将不同模态的无标注数据,分别输入至少两个版本感知模型,以输出单一模态对应的预测结果,作为所述无标注数据的伪标注结果。
可选的,所述伪标注结果包括感知模型中一个或多个子任务分支模块输出的子任务标注结果;则融合单元包括:
校验子单元,用于根据感知模型输出的多个子任务标注结果,进行一致性校验;
调整子单元,用于根据校验结果调整各感知模型的子任务标注结果的置信度;
融合子单元,用于根据各感知模型的子任务标注结果的置信度进行融合,以形成融合标注结果。
可选的,校验子单元具体用于:
针对任一个感知模型输出的相同物体的2D框和3D框,进行一致性校验。
可选的,校验子单元具体用于:
针对不同感知模型输出的子任务标注结果,进行相同标注结果所属区域的一致性校验;
其中,所述子任务标注结果包括:语义分割结果、车道线分割结果或物体识别结果。
可选的,知识迁移模块403包括:
预测单元,用于根据所述训练样本中的无标注数据,分别采用至少两个版本的感知模型,获得第一预测结果,作为无标注数据的伪标注结果;
比对单元,用于将基于各所述感知模型获得的伪标注结果与标准标注结果进行比对,以确定伪标注结果的置信度;
第二更新单元,用于将所述无标注数据输入所述车端模型,以输出第二预测结果,并根据所述伪标注结果及其置信度,与所述车端模型输出的第二预测结果,计算损失关系,且根据所述损失关系对所述车端模型进行更新。
本公开实施例所提供的自动驾驶感知模型的迁移装置,可用于执行本公开任意实施例所提供的自动驾驶感知模型的迁移方法,具备相应的功能和有益效果。
本公开实施例的技术方案,通过一种或多种模态的训练样本进行感知模型训练,得到至少两个版本的感知模型,从而进行知识迁移,以形成车端模型,能够增加知识迁移的灵活性,提高了知识迁移形成车端模型的灵活性和多样性,提高了车端模型的准确性。
本公开的技术方案中,所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等,均符合相关法律法规的规定,且不违背公序良俗。
根据本公开的实施例,本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
图5示出了可以用来实施本公开的实施例的示例电子设备500的示意性框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
设备500中的多个部件连接至I/O接口505,包括:输入单元506,例如键盘、鼠标等;输出单元507,例如各种类型的显示器、扬声器等;存储单元508,例如磁盘、光盘等;以及通信单元509,例如网卡、调制解调器、无线通信收发机等。通信单元509允许设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理,例如自动驾驶感知模型的迁移方法。例如,在一些实施例中,自动驾驶感知模型的迁移方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到设备500上。当计算机程序加载到RAM 503并由计算单元501执行时,可以执行上文描述的自动驾驶感知模型的迁移方法的一个或多个步骤。备选地,在其他实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行自动驾驶感知模型的迁移方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器,或者是结合了区块链的服务器。
人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术;人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。
云计算(cloud computing),指的是通过网络接入弹性可扩展的共享物理或虚拟资源池,资源可以包括服务器、操作系统、网络、软件、应用和存储设备等,并可以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术,可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开提供的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (30)
1.一种自动驾驶感知模型的迁移方法,包括:
获取一种或多种模态的训练样本;
采用所述训练样本进行感知模型训练,以训练完成至少两个版本的感知模型;其中,所述至少两个版本的感知模型是基于不同因素或训练过程而得到的;所述感知模型包括预处理网络、主体网络和多任务输出网络;所述预处理网络中包括一个或多个预处理分支模块,用于分别处理对应模态的训练样本,形成预处理样本;所述主体网络用于对输入的预处理样本进行特征处理;所述多任务输出网络包括多个子任务分支模块,用于分别根据所述主体网络的输出数据,识别对应子任务的自动驾驶感知结果;
采用伪标签蒸馏方式,将所述训练样本分别输入至训练后的至少两个版本的感知模型,得到各感知模型分别输出的伪标注结果并进行融合,从而进行知识迁移,以形成车端模型;其中,车端模型的模型参数量小于作为大模型的感知模型模型参数。
2.根据权利要求1所述的方法,其中,所述多种模态的训练样本至少包括图像和点云。
3.根据权利要求1所述的方法,其中,采用伪标签蒸馏方式,将所述训练样本分别输入至训练后的至少两个版本的感知模型,得到各感知模型分别输出的伪标注结果并进行融合,从而进行知识迁移,以形成车端模型包括:
根据所述训练样本中的无标注数据,分别采用至少两个版本的感知模型,获得第一预测结果,作为无标注数据的伪标注结果;
将基于各所述感知模型获得的伪标注结果进行融合,以形成融合标注结果;
将所述无标注数据输入所述车端模型,以输出第二预测结果,并根据所述融合标注结果和所述车端模型输出的第二预测结果计算损失关系,且根据所述损失关系对所述车端模型进行更新。
4.根据权利要求3所述的方法,其中,根据所述训练样本中的无标注数据,分别采用至少两个版本的感知模型,获得第一预测结果,作为无标注数据的伪标注结果包括:
将不同模态的无标注数据,分别输入至少两个版本感知模型,以输出单一模态对应的预测结果,作为所述无标注数据的伪标注结果。
5.根据权利要求1所述的方法,其中,所述子任务分支模块对应的子任务包括下述至少一种:2D框检测任务、3D框检测任务、语义分割任务、车道线分割任务、以及物体跟踪任务。
6.根据权利要求1所述的方法,其中:所述感知模型为单模态感知模型,所述单模态感知模型的输入为一种模态的训练样本。
7.根据权利要求1所述的方法,其中,所述感知模型为多模态感知模型,所述主体网络中包括融合子网络,所述融合子网络用于分别从预处理后的单模态训练样本中提取单模态特征,并将单模态特征进行融合,形成融合特征;专家子网络中的特征提取模块和特征转换模块,用于对融合特征进行特征提取和特征转换;
所述融合子网络的数量为一个,由多层专家子网络共用一个融合子网络;或所述融合子网络的数量为多个,分别对应设置在所述多层专家子网络中。
8.根据权利要求3所述的方法,其中,所述伪标注结果包括感知模型中一个或多个子任务分支模块输出的子任务标注结果;则将基于各所述感知模型获得的伪标注结果进行融合,以形成融合标注结果包括:
根据感知模型输出的多个子任务标注结果,进行一致性校验;
根据校验结果调整各感知模型的子任务标注结果的置信度;
根据各感知模型的子任务标注结果的置信度进行融合,以形成融合标注结果。
9.根据权利要求8所述的方法,其中,根据感知模型输出的多个子任务标注结果,进行一致性校验包括:
针对任一个感知模型输出的相同物体的2D框和3D框,进行一致性校验。
10.根据权利要求8所述的方法,其中,根据感知模型输出的多个子任务标注结果,进行一致性校验包括:
针对不同感知模型输出的子任务标注结果,进行相同标注结果所属区域的一致性校验;
其中,所述子任务标注结果包括:语义分割结果、车道线分割结果或物体识别结果。
11. 根据权利要求1所述的方法,其中:
所述主体网络的专家子网络为卷积神经网络,包括骨干网络和多尺度特征收集网络;或
所述主体网络的专家子网络为自动编码解码网络,包括编码器和解码器。
12.根据权利要求1或3-7任一所述的方法,其中,不同版本感知模型之间包括如下至少一项区别:
预处理网络的网络结构;
主体网络的网络结构;
感知模型的训练超参数;
感知模型所采用的训练样本。
13.根据权利要求1-7任一所述的方法,其中,所述车端模型与所述感知模型为同构模型或异构模型。
14.根据权利要求1所述的方法,其中,采用伪标签蒸馏方式,将所述训练样本分别输入至训练后的至少两个版本的感知模型,得到各感知模型分别输出的伪标注结果并进行融合,从而进行知识迁移,以形成车端模型包括:
基于所述训练样本中的无标注数据,分别采用至少两个版本的感知模型,获得第一预测结果,作为无标注数据的伪标注结果;
将基于各所述感知模型获得的伪标注结果与标准标注结果进行比对,以确定伪标注结果的置信度;
将所述无标注数据输入所述车端模型,以输出第二预测结果,并根据所述伪标注结果及其置信度,与所述车端模型输出的第二预测结果,计算损失关系,且根据所述损失关系对所述车端模型进行更新。
15.一种自动驾驶感知模型的迁移装置,包括:
样本获取模块,用于获取一种或多种模态的训练样本;
模型训练模块,用于采用所述训练样本进行感知模型训练,以训练完成至少两个版本的感知模型;其中,所述至少两个版本的感知模型是基于不同因素或训练过程而得到的;所述感知模型包括预处理网络、主体网络和多任务输出网络;所述预处理网络中包括一个或多个预处理分支模块,用于分别处理对应模态的训练样本,形成预处理样本;所述主体网络用于对输入的预处理样本进行特征处理;所述多任务输出网络包括多个子任务分支模块,用于分别根据所述主体网络的输出数据,识别对应子任务的自动驾驶感知结果;
知识迁移模块,用于采用伪标签蒸馏方式,将所述训练样本分别输入至训练后的至少两个版本的感知模型,得到各感知模型分别输出的伪标注结果并进行融合,从而进行知识迁移,以形成车端模型;其中,车端模型的模型参数量小于作为大模型的感知模型模型参数。
16.根据权利要求15所述的装置,其中,所述多种模态的训练样本至少包括图像和点云。
17.根据权利要求15所述的装置,其中,知识迁移模块包括:
预测单元,用于根据所述训练样本中的无标注数据,分别采用至少两个版本的感知模型,获得第一预测结果,作为无标注数据的伪标注结果;
融合单元,用于将基于各所述感知模型获得的伪标注结果进行融合,以形成融合标注结果;
第一更新单元,用于将所述无标注数据输入所述车端模型,以输出第二预测结果,并根据所述融合标注结果和所述车端模型输出的第二预测结果计算损失关系,且根据所述损失关系对所述车端模型进行更新。
18.根据权利要求17所述的装置,其中,预测单元具体用于:
将不同模态的无标注数据,分别输入至少两个版本感知模型,以输出单一模态对应的预测结果,作为所述无标注数据的伪标注结果。
19.根据权利要求15所述的装置,其中,所述子任务分支模块对应的子任务包括下述至少一种:2D框检测任务、3D框检测任务、语义分割任务、车道线分割任务、以及物体跟踪任务。
20.根据权利要求15所述的装置,其中:所述感知模型为单模态感知模型,所述单模态感知模型的输入为一种模态的训练样本。
21.根据权利要求15所述的装置,其中,所述感知模型为多模态感知模型,所述主体网络中包括融合子网络,所述融合子网络用于分别从预处理后的单模态训练样本中提取单模态特征,并将单模态特征进行融合,形成融合特征;专家子网络中的特征提取模块和特征转换模块,用于对融合特征进行特征提取和特征转换;
所述融合子网络的数量为一个,由多层专家子网络共用一个融合子网络;或所述融合子网络的数量为多个,分别对应设置在所述多层专家子网络中。
22.根据权利要求17所述的装置,其中,所述伪标注结果包括感知模型中一个或多个子任务分支模块输出的子任务标注结果;则融合单元包括:
校验子单元,用于根据感知模型输出的多个子任务标注结果,进行一致性校验;
调整子单元,用于根据校验结果调整各感知模型的子任务标注结果的置信度;
融合子单元,用于根据各感知模型的子任务标注结果的置信度进行融合,以形成融合标注结果。
23.根据权利要求22所述的装置,其中,校验子单元具体用于:
针对任一个感知模型输出的相同物体的2D框和3D框,进行一致性校验。
24.根据权利要求22所述的装置,其中,校验子单元具体用于:
针对不同感知模型输出的子任务标注结果,进行相同标注结果所属区域的一致性校验;
其中,所述子任务标注结果包括:语义分割结果、车道线分割结果或物体识别结果。
25. 根据权利要求15所述的装置,其中:
所述主体网络的专家子网络为卷积神经网络,包括骨干网络和多尺度特征收集网络;或
所述主体网络的专家子网络为自动编码解码网络,包括编码器和解码器。
26.根据权利要求15或17-21任一所述的装置,其中,不同版本感知模型之间包括如下至少一项区别:
预处理网络的网络结构;
主体网络的网络结构;
感知模型的训练超参数;
感知模型所采用的训练样本。
27.根据权利要求15-21任一所述的装置,其中,所述车端模型与所述感知模型为同构模型或异构模型。
28.根据权利要求22所述的装置,其中,知识迁移模块包括:
预测单元,用于基于所述训练样本中的无标注数据,分别采用至少两个版本的感知模型,获得第一预测结果,作为无标注数据的伪标注结果;
比对单元,用于将基于各所述感知模型获得的伪标注结果与标准标注结果进行比对,以确定伪标注结果的置信度;
第二更新单元,用于将所述无标注数据输入所述车端模型,以输出第二预测结果,并根据所述伪标注结果及其置信度,与所述车端模型输出的第二预测结果,计算损失关系,且根据所述损失关系对所述车端模型进行更新。
29. 一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-14中任一项所述的自动驾驶感知模型的迁移方法。
30.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-14中任一项所述的自动驾驶感知模型的迁移方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310147702.1A CN115907009B (zh) | 2023-02-10 | 2023-02-10 | 一种自动驾驶感知模型的迁移方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310147702.1A CN115907009B (zh) | 2023-02-10 | 2023-02-10 | 一种自动驾驶感知模型的迁移方法、装置、设备和介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115907009A CN115907009A (zh) | 2023-04-04 |
CN115907009B true CN115907009B (zh) | 2023-05-26 |
Family
ID=85751912
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310147702.1A Active CN115907009B (zh) | 2023-02-10 | 2023-02-10 | 一种自动驾驶感知模型的迁移方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115907009B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116450207A (zh) * | 2023-06-14 | 2023-07-18 | 北京鉴智科技有限公司 | 自动驾驶感知处理方法、装置、电子设备及存储介质 |
CN116821699B (zh) * | 2023-08-31 | 2024-01-19 | 山东海量信息技术研究院 | 一种感知模型训练方法、装置及电子设备和存储介质 |
CN116861261B (zh) * | 2023-09-04 | 2024-01-19 | 浪潮(北京)电子信息产业有限公司 | 自动驾驶模型的训练方法、部署方法、系统、介质和设备 |
CN116861262B (zh) * | 2023-09-04 | 2024-01-19 | 苏州浪潮智能科技有限公司 | 一种感知模型训练方法、装置及电子设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114463656A (zh) * | 2020-10-22 | 2022-05-10 | 北京鸿享技术服务有限公司 | 检测模型训练方法、装置、设备及存储介质 |
CN115272794A (zh) * | 2022-07-25 | 2022-11-01 | 深圳华策辉弘科技有限公司 | 模型训练方法、计算机设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210026355A1 (en) * | 2019-07-25 | 2021-01-28 | Nvidia Corporation | Deep neural network for segmentation of road scenes and animate object instances for autonomous driving applications |
CN113705716B (zh) * | 2021-09-03 | 2023-10-10 | 北京百度网讯科技有限公司 | 图像识别模型训练方法、设备、云控平台及自动驾驶车辆 |
CN114912629A (zh) * | 2022-03-08 | 2022-08-16 | 北京百度网讯科技有限公司 | 联合感知模型训练、联合感知方法、装置、设备和介质 |
CN115205586A (zh) * | 2022-06-27 | 2022-10-18 | 中山大学 | 基于知识蒸馏的多自监督任务融合方法、装置及存储介质 |
CN115205633A (zh) * | 2022-07-27 | 2022-10-18 | 北京大学 | 基于鸟瞰图对比学习的自动驾驶多模态自监督预训练方法 |
-
2023
- 2023-02-10 CN CN202310147702.1A patent/CN115907009B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114463656A (zh) * | 2020-10-22 | 2022-05-10 | 北京鸿享技术服务有限公司 | 检测模型训练方法、装置、设备及存储介质 |
CN115272794A (zh) * | 2022-07-25 | 2022-11-01 | 深圳华策辉弘科技有限公司 | 模型训练方法、计算机设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115907009A (zh) | 2023-04-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115879535B (zh) | 一种自动驾驶感知模型的训练方法、装置、设备和介质 | |
CN115907009B (zh) | 一种自动驾驶感知模型的迁移方法、装置、设备和介质 | |
Zhou et al. | Deep learning in next-frame prediction: A benchmark review | |
CN115860102B (zh) | 一种自动驾驶感知模型的预训练方法、装置、设备和介质 | |
Gurram et al. | Monocular depth estimation through virtual-world supervision and real-world sfm self-supervision | |
EP3663965A1 (en) | Method for predicting multiple futures | |
CN113901909B (zh) | 基于视频的目标检测方法、装置、电子设备和存储介质 | |
US11967150B2 (en) | Parallel video processing systems | |
CN114715145B (zh) | 一种轨迹预测方法、装置、设备及自动驾驶车辆 | |
CN111652181B (zh) | 目标跟踪方法、装置及电子设备 | |
CN115879060B (zh) | 基于多模态的自动驾驶感知方法、装置、设备和介质 | |
US20230245429A1 (en) | Method and apparatus for training lane line detection model, electronic device and storage medium | |
CN116092055A (zh) | 训练方法、获取方法、装置、设备及自动驾驶车辆 | |
CN117216710A (zh) | 多模态自动标注方法、标注模型的训练方法及相关设备 | |
Rong et al. | Big data intelligent tourism management platform design based on abnormal behavior identification | |
CN117745944A (zh) | 预训练模型确定方法、装置、设备以及存储介质 | |
CN116664997A (zh) | 一种感知融合系统、电子设备和存储介质 | |
CN117035032A (zh) | 融合文本数据和自动驾驶数据进行模型训练的方法和车辆 | |
Wu et al. | Self-learning and explainable deep learning network toward the security of artificial intelligence of things | |
CN113344121B (zh) | 训练招牌分类模型和招牌分类的方法 | |
Fan et al. | Autonomous Vehicle Vision 2021: ICCV Workshop Summary | |
CN116993996B (zh) | 对图像中的对象进行检测的方法及装置 | |
CN116168132B (zh) | 街景重建模型获取及街景重建方法、装置、设备及介质 | |
Rehman et al. | Big Data Analytics for AIoT Network | |
CN117746417A (zh) | 目标检测模型构建方法、目标检测方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |