CN114332590A

CN114332590A - 联合感知模型训练、联合感知方法、装置、设备和介质

Info

Publication number: CN114332590A
Application number: CN202210218587.8A
Authority: CN
Inventors: 王健; 苏翔博; 吴其蔓; 王之港; 孙昊; 丁二锐; 王井东; 吴甜; 王海峰
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2022-03-08
Filing date: 2022-03-08
Publication date: 2022-04-12
Anticipated expiration: 2042-03-08
Also published as: US20230289402A1; CN114912629A; CN114332590B; KR20230132350A; JP2023131117A

Abstract

本公开提供了一种联合感知模型训练、联合感知方法、装置、设备和介质，涉及人工智能技术领域，尤其涉及计算机视觉、图像识别和深度学习技术。具体实现方案为：获取样本图像和样本图像的感知标签；获取预设的联合感知模型；联合感知模型包括特征提取网络和联合感知网络；通过特征提取网络对样本图像进行特征提取，得到目标样本特征；通过联合感知网络根据目标样本特征进行联合感知，得到感知预测结果；根据感知预测结果和感知标签，对预设的联合感知模型进行训练；其中，联合感知包括执行至少两种感知任务。根据本公开的技术，减少了联合感知过程的数据运算量，提高了计算效率。

Description

联合感知模型训练、联合感知方法、装置、设备和介质

技术领域

本公开涉及人工智能技术领域，尤其涉及计算机视觉、图像识别和深度学习技术，具体涉及一种联合感知模型训练、联合感知方法、装置、设备和介质。

背景技术

随着计算机科学的不断发展，人工智能技术应运而生。人工智能作为研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。

基于人工智能技术对图像进行处理，为智慧交通、智慧安防和智慧城市等的构建，具备重要意义。

发明内容

本公开提供了一种联合感知模型训练、联合感知方法、装置、设备和介质。

根据本公开的一方面，提供了一种联合感知模型训练方法，包括：

获取样本图像和样本图像的感知标签；

获取预设的联合感知模型；联合感知模型包括特征提取网络和联合感知网络；

通过特征提取网络对样本图像进行特征提取，得到目标样本特征；

通过联合感知网络根据目标样本特征进行联合感知，得到感知预测结果；

根据感知预测结果和感知标签，对预设的联合感知模型进行训练；其中，联合感知包括执行至少两种感知任务。

根据本公开的另一方面，还提供了一种联合感知方法，包括：

获取预测图像；

将预测图像输入至目标联合感知模型，得到感知预测结果；

其中，目标联合感知模型基于本公开实施例提供的任意一种联合感知模型训练方法训练所得的初始联合感知模型得到。

根据本公开的另一方面，还提供了一种电子设备，包括：

至少一个处理器；以及

与至少一个处理器通信连接的存储器；其中，

存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开实施例提供的任意一种联合感知模型训练方法，和/或，本公开实施例提供的任意一种联合感知方法。

根据本公开的另一方面，还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开实施例提供的任意一种联合感知模型训练方法，和/或本公开实施例提供的任意一种联合感知方法。

根据本公开的技术，减少了联合感知过程的数据运算量，提高了计算效率。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是本公开实施例提供的一种联合感知模型训练方法的流程图；

图2是本公开实施例提供的一种联合感知模型的结构示意图；

图3A是本公开实施例提供的一种特征提取网络的结构示意图；

图3B是本公开实施例提供的一种第一多路模块的结构示意图；

图3C是本公开实施例提供的一种第一特征提取子网络的结构示意图；

图3D是本公开实施例提供的一种第一特征提取子网络的结构示意图；

图4A是本公开实施例提供的一种联合感知网络的结构示意图；

图4B是本公开实施例提供的一种检测头模块的结构示意图；

图4C是本公开实施例提供的一种第二多路模块的结构示意图；

图4D是本公开实施例提供的一种第二特征提取子网络的结构示意图；

图4E是本公开实施例提供的一种第二特征提取子网络的结构示意图；

图5是本公开实施例提供的一种联合感知方法的流程图；

图6A是本公开实施例提供的重参数化后的第一特征提取子网络的结构图；

图6B是本公开实施例提供的重参数化后的第二特征提取子网络的结构图；

图7是本公开实施例提供的一种联合感知模型训练装置的结构图；

图8是本公开实施例提供的一种联合感知装置的结构图；

图9是用来实现本公开实施例的联合感知模型训练方法和/或联合感知方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

本公开实施例适用于对图像在至少一个类别目标下进行多任务联合感知的情况，为智慧城市、智慧交通和智慧安防等的构建，提供了技术支撑。所谓多任务联合感知可以包括对目标检测任务、对目标的属性识别任务、和对目标的搜索特征提取任务等中的至少两种的执行。其中，目标即为图像中的待标注对象，通过对该待标注对象进行目标检测、属性识别或搜索特征提取等。

需要说明的是，由于对图像的联合感知过程需要基于联合感知模型实现，为了便于理解，首先对联合感知模型的训练过程进行详细说明。

图1是本公开实施例提供的一种联合感知模型训练方法的流程图，适用于对具备多任务联合感知功能的联合感知模型进行训练的应用场景。本公开实施例所提供的联合感知模型训练方法，可以由联合感知模型训练装置执行，该装置可以采用软件和/或硬件实现，并具体配置于电子设备中。

如图1所示的一种联合感知模型训练方法，包括：

S101、获取样本图像和样本图像的感知标签。

其中，样本图像即为在模型训练过程中所使用的图像。样本图像的感知标签用于表征对样本图像进行联合感知后的理论结果，可以包括不同感知任务对应的标准感知结果。其中，联合感知可以包括目标检测、目标属性识别和目标搜索特征提取中的至少两种感知任务。

示例性地，目标检测任务对应的标准感知结果可以包括待标注对象的标注框的位置，例如可以包括标注框的坐标、大小、尺度和置信度等中的至少一种；属性识别任务对应的标准感知结果可以包括待标注对象的至少一个属性类别，例如车辆可以包括车辆颜色、车辆类型等，人脸可以包括性别等，人体可以包括服饰颜色等；搜索特征提取任务对应的标准感知结果可以包括用于图像检索的特征向量等。

在一个可选实施例中，样本图像可以是对视频流数据进行抽帧处理后的图片帧。

为了减少样本差异对模型训练过程的影响，在一个可选实施例中，还可以对不同样本图像统一进行预处理。

示例性地，可以对样本图像进行缩放处理，以统一不同样本图像的图像尺寸。示例性地，可以对样本图像进行归一化处理，例如各样本图像统一减去RGB（red green blue，红绿蓝）三原色均值，以便增强所训练模型的鲁棒性。

S102、获取预设的联合感知模型；联合感知模型包括特征提取网络和联合感知网络。

S103、通过特征提取网络对样本图像进行特征提取，得到目标样本特征。

S104、通过联合感知网络根据目标样本特征进行联合感知，得到感知预测结果；其中，联合感知包括执行至少两种感知任务。

S105、根据感知预测结果和感知标签，对预设的联合感知模型进行训练。

其中，联合感知模型可以采用机器学习模型或深度学习模型构建得到。

其中，感知预测结果可以是对不同感知任务对应的预测结果。例如，感知预测结果可以包括目标检测任务下所预测的待标注对象的标注框位置、属性识别任务下所预测的待标注对象的至少一个属性类别、和搜索特征提取任务下所预测的用于图像搜索的特征向量等中的至少一种。

参见图2所示的联合感知模型的结构示意图。其中，联合感知模型包括特征提取网络和联合感知网络；特征提取网络对样本图像进行特征提取，得到目标样本特征；联合感知网络根据目标样本特征进行联合感知，得到感知预测结果；根据感知预测结果与感知标签之间的差异情况，对联合感知模型中的网络参数进行优化，直至联合感知模型的模型性能趋于稳定或训练样本的数量达到预设数量阈值，得到训练好的联合感知模型，用于后续对输入的图像进行联合感知预测。

需要说明的是，通过在联合感知网络中针对不同感知任务，共享特征提取网络所提取的目标样本特征，使得在模型训练过程中，联合感知模型中特征提取网络学习到了不同感知任务对应视觉特征的提取能力，无需针对不同感知任务分别设置独立的特征提取网络，节约了大量的计算资源，提高了计算效率。同时，不同感知任务之间的特征相互增强，提升了单一感知任务的特征表现。

其中，目标样本特征中包括不同感知任务所对应的视觉特征，用于作为联合感知网络后续进行联合感知的数据支撑。

在一个可选实施例中，特征提取网络可以基于特征金字塔网络加以实现，从而进行多尺度特征提取，提高目标样本特征的特征丰富性。

由于特征提取网络虽然学习到了不同感知任务对应视觉特征的提取能力，但是可能存在部分感知任务对应特征信息的丢失，导致所提取特征的丰富性和全面性降低的情况，进而影响联合感知模型的感知结果准确度。

为了进一步提高模型的联合感知能力，在另一可选实施例中，可以对特征提取网络进行改进，进一步增强特征提取网络中不同感知任务下多尺度特征的联合提取能力。

参见图3A所示的特征提取网络的示意图，可以将特征提取网络进一步细化为包括基座模块和至少两个第一多路模块。其中，基座模块对样本图像进行降采样，得到不同尺度的初始样本特征；第一多路模块对初始样本特征进行不同感知任务的特征提取，得到初始样本特征相应尺度下的目标样本特征。

也即，通过基座模对样本图像进行降采样，得到不同尺度的初始样本特征；针对任一尺度的初始样本特征，通过该尺度对应第一多路模块对该尺度的初始样本特征进行不同感知任务的特征提取，得到该尺度下的目标样本特征。

其中，图3A示例性给出了采用基座模块对样本图像逐级降采样后得到C₁-C₅五个不同尺度的初始样本特征；C₃-C₅分别通过对应的第一多路模块进行处理，得到目标样本特征P₃-P₅。需要说明的是，上述仅示例性给出了初始样本特征的数量和目标样本特征的数量，不应理解为对两者的具体限定，本领域技术人员可以根据实际需要进行相应数量的调整。

可以理解的是，通过在特征提取网络中引入第一多路模块分别对单一尺度下的初始样本特征，进行不同感知任务的特征提取，从而使特征提取网络具备了不同感知任务下的多尺度特征提取能力，进而提高了所提取的目标样本特征的丰富性和全面性，为联合感知模型的模型精度的提高，奠定了基础。

在一个可选实施例中，还可以将单一尺度的初始样本特征与其他尺度的目标样本特征进行融合，以更新该单一尺度的初始样本特征，从而提高了该单一尺度经相应第一多路模块处理后最终得到的目标样本特征的丰富性。

在一个具体实现方式中，针对相邻尺度的第一多路模块处理过程，将相邻尺度中较小尺度的目标样本特征与相邻尺度中较大尺度的初始样本特征进行融合，以更新该相邻尺度中较大尺度的初始样本特征，从而增加了该较大尺度的初始样本特征的丰富性，进而提高了该较大尺度的目标样本特征输出结果的准确度。

需要说明的是，可以分别基于单一尺度的目标样本特征进行联合感知，并将不同尺度的感知预测结果进行融合，得到最终的感知预测结果；或者可选的，还可以将不同尺度的目标样本特征进行融合，并对融合结果进行联合感知，得到最终的感知预测结果。

以下将对特征提取网络中的第一多路模块的具体结构，进行详细说明。

参见图3B所示的第一多路模块的结构示意图，针对单一尺度的初始样本特征，该第一多路模块可以进一步细化为包括第一拆分子网络、第一特征提取子网络和第一融合子网络；第一拆分子网络按照通道维度对初始样本特征进行拆分，得到第一待融合样本特征和第一待处理样本特征；第一特征提取子网络对第一待处理样本特征进行特征提取，得到第一目标中间样本特征；第一融合子网络将第一待融合样本特征和第一目标中间样本特征进行特征融合，得到该尺度下的目标样本特征。

示例性地，按照通道维度对初始样本特征进行拆分，可以得到至少两组拆分结果。在进行拆分时，可以按照通道维度进行随机拆分或顺序拆分，本公开对具体的拆分机制不做任何限定，仅需保证按照通道维度进行拆分即可。需要说明的是，本公开对不同拆分结果中特征的通道数量不做任何限定。

为了便于后续处理，可以限定拆分结果的数量为两个，也即对初始样本特征拆分得到第一待融合样本特征和第一待处理样本特征。为了便于进行拆分操作，可以通过顺序拆分的方式对初始样本特征拆分为第一待融合样本特征和第一待处理样本特征。可选的，第一待融合样本特征和第一待处理样本特征的通道数量可以相同。

可以理解的是，采用对初始样本特征中的第一待处理样本特征进行特征提取，替代对全量的初始样本特征进行特征提取的方式，由于减少了特征提取过程中通道数量（第一待融合样本特征和第一待处理样本特征的通道数量相同时，通道数量减半），因此降低了特征提取过程的计算量和显存占用量。同时，通过将初始样本特征中的第一待融合样本特征与第一待处理样本特征进行特征提取所得的第一目标中间样本特征进行特征融合，增加了梯度路径数量（第一待融合样本特征和第一待处理样本特征的通道数量相同时，梯度路径数量扩增一倍），提升了所训练模型的学习能力。

以形状为(n,c,h,w)的初始样本特征为例，对第一多路模块的处理过程进行说明。其中，n为样本图像数量，c为通道数量，h为样本图像的高度，w为样本图像的宽度。对初始样本特征沿着通道维度进行均匀拆分，得到形状均为(n,c/2,h,w)的第一待融合样本特征和第一待处理样本特征。通过第一特征提取子网络对形状为(n,c/2,h,w)的第一待处理样本特征进行特征提取，得到形状为(n,c/2,h,w)的第一目标中间样本特征。由于特征提取过程通道数量减半，因此减少了特征提取过程的计算量和显存占用量。通过将形状为(n,c/2,h,w)的第一待融合样本特征与形状为(n,c/2,h,w)的第一目标中间样本特征进行特征融合，得到形状为(n,c,h,w)的目标样本特征，将梯度路径数量扩增一倍，从而提高了所训练模型的学习能力。

为了进一步提高第一特征提取子网络所提取特征的全面性和丰富性，在一个可选实施例中，可以在第一特征提取子网络中进行不同维度特征的提取。

进一步参见图3C所示的第一特征提取子网络的示意图，该第一特征提取子网络可以设置为包括第一全局感知模块、第一局部感知模块和第一感知融合模块；第一全局感知模块对第一待处理样本特征进行全局特征提取，得到第一全局中间样本特征；第一局部感知模块对第一待处理样本特征进行局部特征提取，得到第一局部中间样本特征；第一感知融合模块对第一全局中间样本特征和第一局部中间样本特征进行特征融合，得到第一目标中间样本特征。

可以理解的是，通过从全局维度和局部维度对第一待处理样本特征分别进行特征提取，并将得到的第一全局中间样本特征和第一局部中间样本特征进行融合，使得融合后得到的第一目标中间样本特征中既携带有整体上下文信息，又携带有局部细节，提升了第一目标中间样本特征的丰富性和全面性。

在一个可选实施例中，参见图3D所示的第一特征提取子网络的示意图，该第一特征提取子网络中的第一全局感知模块可以包括池化层和激活层，其中，池化层用于对第一待处理样本特征进行全局特征提取；激活层用于对全局特征提取结果进行非线性计算，从而提高第一全局感知模块的非线性特征提取能力。

需要说明的是，本公开实施例对池化层所采用的具体池化方式，以及激活层所采用的具体激活函数不作任何限定，可以根据实际需求和模型训练情况进行设置或调整。例如，池化层可以采用平均池化、激活层可以采用ReLU激活函数。

在一个可选实施例中，第一局部感知模块中可以根据实际需求，设置至少一个第一局部感知分支，进行局部特征提取。

示例性地，继续参见图3D，该第一特征提取子网络的第一局部感知模块中可以设置至少两个第一局部感知分支，通过不同第一局部感知分支对第一待处理样本特征在不同感受野下进行局部特征提取，得到相应感受野下的第一局部中间样本特征。相应的，第一感知融合模块可以首先对不同感受野下的第一局部中间样本特征进行融合（例如可以像素叠加），得到第一局部中间样本特征融合结果；将第一局部中间样本特征融合结果与第一全局中间样本特征进行融合（例如可以是通道相乘），得到第一目标中间样本特征。

可以理解的是，通过设置至少两个第一局部感知分支进行不同感受野下的局部特征提取，提高了第一局部中间样本特征的丰富性，从而有助于提高后续对不同尺度大小的待标注对象的标注能力，为多类别目标的标注奠定了基础。同时，通过不同感受野下的局部特征提取，使得所提取特征能够支持不同的感知任务，有助于提高联合感知模型的感知精度。

在一个具体实现方式中，可以在第一局部感知分支中设置卷积层和批处理层。其中，卷积层用于根据卷积核进行相应感受野下的局部特征提取；批处理层用于对所提取特征进行归一化处理，从而同化不同第一局部感知分支所提取第一局部中间样本特征的分布情况，加速模型收敛，同时提高训练过程的稳定性。

需要说明的是，不同第一局部感知分支中所采用的卷积核尺度不同，从而使不同第一局部感知分支能够进行不同感受野下的局部特征提取。其中，卷积核的数量可以由技术人员根据需要或经验值进行设定或调整，卷积核种类可以根据联合感知的感知任务进行具体设定。示例性地，针对目标搜索特征提取任务，由于搜索过程通常需要多粒度特征，因此大尺度卷积核和小尺度卷积核均需要设置。示例性地，针对属性识别任务和目标检测任务，需要针对不同目标类别，设置横向或纵向卷积核等。具体的，可以采用1*3卷积核和3*5卷积核对人体进行局部分块建模，从而获得更好的人体检索特征。在一个具体示例中，可以分别在各第一局部感知分支中采用1*1、1*3、3*1、3*3、3*5、5*3和5*5的卷积核，以便进行多尺度多方向的特征提取。

继续参见图3D，在一个可选实施例中，还可以在第一局部感知模块中进一步添加第一旁路分支，从而进一步加速模型收敛。可选的，第一旁路分支可以是直连结构，从而直接将第一待处理样本特征作为相应的第一局部中间样本特征，减少梯度消散，从而加速模型收敛。或者可选的，第一旁路分支中还可以设置第一批处理模块，对应批处理层，对第一待处理样本特征进行归一化处理，得到相应的第一局部中间样本特征，从而同化不同分支中第一局部中间样本特征的分布情况，从而加速模型收敛。

上述内容对联合感知模型中特征提取网络的具体结构，进行了示例性说明。以下将对联合感知模型中的联合感知网络进行详述。

参见图4A所示的联合感知网络的示意图，联合感知网络中可以包括检测头模块，检测头模块中设置有不同任务感知分支，用于通过不同任务感知分支，对目标样本特征进行联合感知，得到相应感知任务的感知预测结果。

示例性地，任务感知分支可以包括目标检测分支、属性识别分支和搜索特征提取分支等中的至少一种。其中，目标检测分支对应目标检测任务，用于检测图像中的待标注对象（也即某一类别目标）；属性识别分支对应属性识别任务，用于识别图像中待标注对象的至少一个属性类别；搜索特征提取分支对应搜索特征提取任务，用于进行便于图像搜索的特征向量的提取。

需要说明的是，上述不同任务感知分支仅对检测头模块中的不同任务感知分支进行示例性说明，不应理解为对任务感知分支的具体限定，可以根据实际需求进行任务感知分支的增加、删除或修改等。

可以理解的是，通过在联合感知网络中设置具备不同任务感知分支的检测头模块，使得联合感知网络中具备了对不同感知任务的联合感知能力，无需分别针对某一感知任务进行单一感知模型的建立和训练，提高了多感知任务情况下的便捷性，提高了联合感知模型的通用性。

为了使联合感知模型能够学习到对不同类别目标中不同感知任务的联合感知能力，在一个可选实施例中，还可以将联合感知网络中检测头模块的数量设置为至少两个，不同检测头模块对不同类别目标进行联合感知。这样设置的好处在于，无需针对不同类别目标分别进行相应联合感知模型的训练，同时提高了联合感知模型的通用性。另外，通过不同类别目标下不同感知任务共享相同的特征提取网络，在节省大量计算的同时，在模型训练过程中，特征提取网络也能够学习到不同类别目标下不同感知任务的视觉特征，进一步提高了所提取特征的丰富性，有助于提高联合感知模型的模型精度。

在一个具体实例中，可以在联合感知网络中分别设置人脸检测头模块、人体检测头模块、机动车检测头模块和非机动车检测头模块。其中，人脸检测头模块，用于对人脸目标进行不同感知任务的联合感知；人体检测头模块，用于对人体目标进行不同感知任务的联合感知；机动车检测头模块，用于对机动车目标进行不同感知任务的联合感知；非机动车检测头模块，用于对非机动车目标进行不同感知任务的联合感知。

当样本图像中存在至少两类目标时，在一个可选实施例中，还可以通过引入其他网络结构，增强检测头模块在进行联合感知过程中对不同类别目标的针对性。

进一步参见图4B所示的检测头模块的示意图。其中，联合感知网络中的检测头模块中可以包括第二多路模块和至少两个任务感知分支（例如图示中的目标检测分支、属性识别分支和搜索特征提取分支）。

其中，检测头模块中的第二多路模块对目标样本特征进行相同类别目标在不同感知任务下的特征提取，得到感知样本特征；各任务感知分支分别根据感知样本特征，确定相应感知任务下的感知预测结果。

也即，通过第二多路模块对目标样本特征进行相同类别目标在不同感知任务下的特征提取，得到感知样本特征；各任务感知分支共享该感知样本特征，分别根据该感知样本特征进行联合感知，得到相应感知任务下的感知预测结果。

可以理解的是，通过在联合感知网络的检测头模块中引入第二多路模块对特征提取网路所输出的目标样本特征进行相同类别目标下不同感知任务对应的视觉特征的提取，使得所提取特征能够与检测头模块所对应类别目标相匹配，使得所提取视觉特征更具目标针对性，有助于提高不同类别目标对应的不同感知任务的感知预测结果的准确度。

需要说明的是，可以分别将单一尺度的目标样本特征作为相同类别目标对应各检测头模块的输入数据，进行检测头模块对应类别目标的联合感知，通过将不同尺度下相同类别目标的检测头模块的联合感知结果按照感知任务维度进行融合，得到相应类别目标的最终感知预测结果；或者，可选的，还可以将不同尺度的目标样本特征进行融合，并将融合结果作为检测头模块的输入数据，进行检测头模块对应类别目标的联合感知，得到相应类别目标的最终感知预测结果。

以下将对联合感知网络的检测头模块中的第二多路模块的具体结构，进行详细说明。需要说明的是，检测头模块中的第二多路模块与前述特征提取网络中的第一多路模块的结构相同，网络参数可以相同或不同，具体根据实际训练情况确定。

参见图4C所示的第二多路模块的结构示意图，该第二多路模块可以进一步细化为包括第二拆分子网络、第二特征提取子网络和第二融合子网络；第二拆分子网络按照通道维度对目标样本特征进行拆分，得到第二待融合样本特征和第二待处理样本特征；第二特征提取子网络对第二待处理样本特征进行特征提取，得到第二目标中间样本特征；第二融合子网络将第二待融合样本特征和第二目标中间样本特征进行特征融合，得到感知样本特征。

示例性地，按照通道维度对目标样本特征进行拆分，可以得到至少两组拆分结果。在进行拆分时，可以按照通道维度进行随机拆分或顺序拆分，本公开对具体的拆分机制不做任何限定，仅需保证按照通道维度进行拆分即可。需要说明的是，本公开对不同拆分结果中特征的通道数量不做任何限定。

为了便于后续处理，可以限定拆分结果的数量为两个，也即对目标样本特征拆分得到第二待融合样本特征和第二待处理样本特征。为了便于进行拆分操作，可以通过顺序拆分的方式对目标样本特征拆分为第二待融合样本特征和第二待处理样本特征。可选的，第二待融合样本特征和第二待处理样本特征的通道数量可以相同。

可以理解的是，采用对目标样本特征中的第二待处理样本特征进行特征提取，替代对全量的目标样本特征进行特征提取的方式，由于减少了特征提取过程中通道数量（第二待融合样本特征和第二待处理样本特征的通道数量相同时，通道数量减半），因此降低了特征提取过程的计算量和显存占用量。同时，通过将目标样本特征中的第二待融合样本特征与第二待处理样本特征进行特征提取所得的第二目标中间样本特征进行特征融合，增加了梯度路径数量（第二待融合样本特征和第二待处理样本特征的通道数量相同时，梯度路径数量扩增一倍），提升了所训练模型的学习能力。

以形状为(n,c,h,w)的目标样本特征为例，对第二多路模块的处理过程进行说明。其中，n为样本图像数量，c为通道数量，h为样本图像的高度，w为样本图像的宽度。对目标样本特征沿着通道维度进行均匀拆分，得到形状均为(n,c/2,h,w)的第二待融合样本特征和第二待处理样本特征。通过第二特征提取子网络对形状为(n,c/2,h,w)的第二待处理样本特征进行特征提取，得到形状为(n,c/2,h,w)的第二目标中间样本特征。由于特征提取过程通道数量减半，因此减少了特征提取过程的计算量和显存占用量。通过将形状为(n,c/2,h,w)的第二待融合样本特征与形状为(n,c/2,h,w)的第二目标中间样本特征进行特征融合，得到形状为(n,c,h,w)的目标样本特征，将梯度路径数量扩增一倍，从而提高了所训练模型的学习能力。

为了进一步提高第二特征提取子网络所提取特征的全面性和丰富性，在一个可选实施例中，可以在第二特征提取子网络中进行不同维度特征的提取。

进一步参见图4D所示的第二特征提取子网络的示意图，该第二特征提取子网络可以设置为包括第二全局感知模块、第二局部感知模块和第二感知融合模块；第二全局感知模块对第二待处理样本特征进行全局特征提取，得到第二全局中间样本特征；第二局部感知模块对第二待处理样本特征进行局部特征提取，得到第二局部中间样本特征；第二感知融合模块对第二全局中间样本特征和第二局部中间样本特征进行特征融合，得到第二目标中间样本特征。

可以理解的是，通过从全局维度和局部维度对第二待处理样本特征分别进行特征提取，并将得到的第二全局中间样本特征和第二局部中间样本特征进行融合，使得融合后得到的第二目标中间样本特征中既携带有整体上下文信息，又携带有局部细节，提升了第二目标中间样本特征的丰富性和全面性。

在一个可选实施例中，参见图4E所示的第二特征提取子网络的示意图，该第二特征提取子网络的第二全局感知模块可以包括池化层和激活层，其中，池化层用于对第二待处理样本特征进行全局特征提取；激活层用于对全局特征提取结果进行非线性计算，从而提高第二全局感知模块的非线性特征提取能力。

在一个可选实施例中，第二局部感知模块中可以根据实际需求，设置至少一个第二局部感知分支，进行局部特征提取。

示例性地，参见图4E所示的第二特征提取子网络的示意图，该第二特征提取子网络的第二局部感知模块中可以设置至少两个第二局部感知分支，通过不同第二局部感知分支对第二待处理样本特征在不同感受野下进行局部特征提取，得到相应感受野下的第二局部中间样本特征。相应的，第二感知融合模块可以首先对不同感受野下的第二局部中间样本特征进行融合（例如可以像素叠加），得到第二局部中间样本特征融合结果；将第二局部中间样本特征融合结果与第二全局中间样本特征进行融合（例如可以是通道相乘），得到第二目标中间样本特征。

可以理解的是，通过设置至少两个第二局部感知分支进行不同感受野下的局部特征提取，提高了第二局部中间样本特征的丰富性，从而有助于提高对不同尺度大小的待标注对象的标注能力，为多类别目标的标注奠定了基础。同时，通过不同感受野下的局部特征提取，使得所提取特征能够支持不同的感知任务，有助于提高联合感知模型的感知精度。

在一个具体实现方式中，可以在第二局部感知分支中设置卷积层和批处理层。其中，卷积层用于根据卷积核进行相应感受野下的局部特征提取；批处理层用于对所提取特征进行归一化处理，从而同化不同第二局部感知分支所提取第二局部中间样本特征的分布情况，加速模型收敛，同时提高训练过程的稳定性。

需要说明的是，不同第二局部感知分支中所采用的卷积核尺度不同，从而使不同第二局部感知分支能够进行不同感受野下的局部特征提取。其中，卷积核的数量可以由技术人员根据需要或经验值进行设定或调整，卷积核种类可以根据联合感知的感知任务进行具体设定。示例性地，针对目标搜索特征提取任务，由于搜索过程通常需要多粒度特征，因此大尺度卷积核和小尺度卷积核均需要设置。示例性地，针对属性识别任务和目标检测任务，需要针对不同目标类别，设置横向或纵向卷积核等。具体的，可以采用1*3卷积核和3*5卷积核对人体进行局部分块建模，从而获得更好的人体检索特征。在一个具体示例中，可以分别在各局部感知分支中采用1*1、1*3、3*1、3*3、3*5、5*3和5*5的卷积核，以便进行多尺度多方向的特征提取。

继续参见图4E，在一个可选实施例中，还可以在第二局部感知模块中进一步添加第二旁路分支，从而进一步加速模型收敛。可选的，第二旁路分支可以是直连结构，从而直接将第二待处理样本特征作为相应的第二局部中间样本特征，减少梯度消散，从而加速模型收敛。或者可选的，第二旁路分支中还可以设置第二批处理模块，对应批处理层，对第二待处理样本特征进行归一化处理，得到相应的第二局部中间样本特征，从而同化不同分支中第二局部中间样本特征的分布情况，从而加速模型收敛。

上述内容对联合感知模型的训练过程进行了详细说明，以下将通过联合感知模型的使用过程，对联合感知方法进行详细说明。

图5是本公开实施例提供的一种联合感知方法的流程图，适用于采用具备多任务联合感知功能的联合感知模型进行不同感知任务的联合感知的应用场景。本公开实施例所提供的联合感知方法，可以由联合感知装置执行，该装置可以采用软件和/或硬件实现，并具体配置于电子设备中。需要说明的是，执行联合感知方法的电子设备与执行联合感知模型训练方法的电子设备，两者可以是同一设备或不同设备，本公开对此不做任何限定。

参见图5所示的一种联合感知方法，包括：

S501、获取预测图像。

其中，预测图像为待进行联合感知的图像。示例性地，预测图像可以是对视频流数据进行抽帧处理后的图片帧。

在一个可选实施例中，为了提高后续对预测图像的感知预测结果的准确度，在一个可选实施例中，还可以对预测图像进行预处理。其中，预处理方式与训练联合感知模型时对样本图像的预处理方式相一致即可。

示例性地，可以对预测图像进行缩放处理，以使预测图像与预处理后的样本图像尺寸一致。示例性地，可以对预测图像进行归一化处理，例如将预测图像减去RGB三原色均值。

S502、将预测图像输入至目标联合感知模型，得到感知预测结果。

其中，目标联合感知模型基于本公开实施例所提供的任意一种联合感知模型训练方法所得的初始联合感知模型得到。其中，感知预测结果可以是对不同感知任务对应的预测结果。例如，感知预测结果可以包括目标检测任务下所预测的待标注对象的标注框位置、属性识别任务下所预测的待标注对象的至少一个属性类别、和搜索特征提取任务下所预测的用于图像搜索的特征向量等中的至少一种。

可选的，可以直接将前述训练好的联合感知模型，也即初始联合感知模型，直接作为目标联合感知模型。或者可选的，可以对初始联合感知模型进行后处理，以提升推理性能，并将后处理结果作为目标联合感知模型。

需要说明的是，本公开所采用的目标联合感知模型基于前述训练好的初始联合感知模型确定，而初始联合感知模型中的联合感知网络中针对不同感知任务，共享特征提取网络所提取的目标预测特征，无需针对不同感知任务分别设置独立的特征提取网络，节约了大量的计算资源，提高了计算效率。

当初始联合感知模型的特征提取网络中包括第一多路模块，且第一多路模块包括第一特征提取子网络，第一特征提取子网络中第一局部感知模块设置为包括至少两个第一局部感知分支时，由于多局部感知分支的方式，使得在推理阶段，也即直接使用训练所得的初始联合感知模型确定预测图像的感知预测结果时，将会投入大量计算资源，推理效率也相对较低。

为了降低推理阶段的运算量，同时提高推理效率，可以将初始联合感知模型中的第一局部感知模块替换为耗时较少、运算量较少的等效模块，得到目标联合感知模型。

在一个可选实施例中，目标联合感知模型可以是基于对至少两个第一局部感知分支进行重参数化得到。也即，可以将初始联合感知模型中特征提取网络内第一多路模块中第一特征提取子网络的第一局部感知模块中的至少两个第一局部感知分支，进行重参数化，并将重参数化后得到的单路结构，替代原有的至少两个第一局部感知分支。或者，若第一多路模块的第一局部感知模块中包括至少两个第一局部感知分支和第一旁路分支，则可以将初始联合感知模型中特征提取网络内第一多路模块的第一局部感知模块中的至少两个第一局部感知分支和第一旁路分支，共同进行重参数化，并将重参数化后得到的单路结构替代原有的至少两个第一局部感知分支和第一旁路分支。

需要说明的是，执行重参数化所采用的计算设备可以是执行联合感知模型训练方法的电子设备、执行联合感知方法的电子设备或其他设备，本公开对此不作任何限定。另外，本公开对重参数化的具体执行时机也不作任何限定，仅需保证在训练得到初始联合感知模型之后，在使用目标联合感知模型之前即可。

可以理解的是，通过对初始联合感知模型中特征提取网络的第一多路模块进行重参数化的方式，在保持特征丰富提取的同时，能够减少所使用的联合感知模型中特征提取网络的复杂程度，从而减少了第一特征提取子网络对所输入数据进行处理得到相应输出结果的推理过程的数据运算量，提高了推理效率。

在一个具体实现方式中，可以先将特征提取网络中第一局部感知分支中的卷积层和批处理层进行参数合并，得到不同第一局部感知分支的参数合并结果；再将不同第一局部感知分支和/或第一旁路分支的网络参数进行合并，得到最终重参数化结果；采用最终参数化结果优化特征提取网络中第一多路模块中的第一特征提取子网络内第一局部感知模块的等效替代结构设置。

具体的，可以采用以下公式，对第一局部感知模块进行重参数化：

；

其中，F _i是第i个分支卷积层的卷积核，μ _i和σ _i是第i个分支批处理层的均值和方差，γ _i和β _i是批处理层的尺度因子和平移因子。F’和b’是重参数化后的卷积核和偏置项参数。

参见图6A所示的重参数化前后的第一特征提取子网络的示意图，该第一特征提取子网络中的第一局部感知模块将初始联合感知模型中的多分支的第一局部感知模块（可参见图3D）替换为单路结构，且仅根据重参数化后的结果配置卷积层即可，模型结果大幅度简化，有助于提高推理效率。在一个具体示例中，若模型训练阶段第一局部感知模块的各第一局部感知分支中采用1*1、1*3、3*1、3*3、3*5、5*3和5*5的卷积核，则重参数化后卷积层的卷积核大小为5*5。

当初始联合感知模型的联合感知网络中包括检测头模块，且检测头模块中设置有第二多路模块；第二多路模块包括第二特征提取子网络，第二特征提取子网络中第二局部感知模块设置为包括至少两个第二局部感知分支时，由于多局部感知分支的方式，使得在推理阶段，也即直接使用训练所得的初始联合感知模型确定预测图像的感知预测结果时，将会投入大量计算资源，推理效率也相对较低。

为了降低推理阶段的运算量，同时提高推理效率，可以将初始联合感知模型中第二多路模块的第二局部感知模块替换为耗时较少、运算量较少的等效模块，得到目标联合感知模型。

在一个可选实施例中，目标联合感知模型可以基于对至少两个第二局部感知分支进行重参数化得到。也即，可以将初始联合感知模型中检测头模块内第二多路模块的第二局部感知模块中的至少两个第二局部感知分支，进行重参数化，并将重参数化后得到的单路结构，替代检测头模块的第二多路模块中第二局部感知模块原有的至少两个第二局部感知分支。或者，若第二多路模块的第二局部感知模块中包括第二局部感知分支和第二旁路分支，则可以将初始联合感知模型中检测头模块内第二多路模块的第二局部感知模块中的至少两个第二局部感知分支和第二旁路分支，共同进行重参数化，并将重参数化后得到的单路结构，替代原有的至少两个第二局部感知分支和第二旁路分支。

可以理解的是，通过对初始联合感知模型中联合感知网络的第二多路模块进行重参数化的方式，在保持特征丰富提取的同时，能够减少所使用的联合感知模型中联合感知网络的复杂程度，从而减少了第二特征提取子网络对所输入数据进行处理得到相应输出结果的推理过程的数据运算量，提高了推理效率。

在一个具体实现方式中，可以先将联合感知网络的检测头模块中第二局部感知分支中的卷积层和批处理层进行参数合并，得到不同第二局部感知分支的参数合并结果；再将不同第二局部感知分支和/或第二旁路分支的网络参数进行合并，得到最终重参数化结果；采用最终重参数化结果进行联合感知网络中第二多路模块中第二特征提取子网络内第二局部感知模块的等效替代结构设置。

具体的，可以采用以下公式，对第二局部感知模块进行重参数化：

；

参见图6B所示的重参数化前后的第二特征提取子网络的示意图，该第二特征提取子网络中的第二局部感知模块将初始联合感知模型中多分支的第二局部感知模块（可参见图4E）替换为单路结构，且仅根据重参数化后的结果配置卷积层即可，模型结果大幅度简化，有助于提高推理效率。在一个具体示例中，若模型训练阶段第二局部感知模块的各第二局部感知分支中采用1*1、1*3、3*1、3*3、3*5、5*3和5*5的卷积核，则重参数化后卷积层的卷积核大小为5*5。

在一个可选实施例中，在支持整形量化（如int8）推理的设备上，还可以对初始联合感知模型或重参数化后的初始联合感知模型进行整形量化，从而进一步提升推理速度。

当第一多路模块中第一局部感知模块的第一旁路分支包括第一批处理模块时，第一批处理模块内尺度方差多大，导致重参数化后的等效替代结构中卷积层权重分布不均，进行整形量化的效果较差，将会影响推理结果准确度。为了避免上述情况的发生，在一个可选实施例中，在对第一多路模块的第一局部感知模块进行重参数化之前，还可以将包括第一批处理模块的第一旁路分支替换为直连结构，这样既不影响整体的模型效果，也有益于重参数化后的卷积层权重分布。

当第二多路模块中第二局部感知模块的第二旁路分支包括第二批处理模块时，第二批处理模块内尺度方差多大，导致重参数化后的等效替代结构中卷积层权重分布不均，进行整形量化的效果较差，将会影响推理结果准确度。为了避免上述情况的发生，在一个可选实施例中，在对第二多路模块的第二局部感知模块进行重参数化之前，还可以将包括第二批处理模块的第二旁路分支替换为直连结构，这样既不影响整体的模型效果，也有益于重参数化后的卷积层权重分布。

作为上述各联合感知模型训练方法的实现，本公开还提供了实施上述各联合感知模型训练方法的执行装置的可选实施例。进一步参见图7所示的一种联合感知模型训练装置700，包括：样本数据获取模块701、预设模型获取模块702、特征提取网络703、联合感知网络704和模型训练模块705。其中，样本数据获取模块701，用于获取样本图像和样本图像的感知标签；

预设模型获取模块702，用于获取预设的联合感知模型；联合感知模型包括特征提取网络和联合感知网络；

特征提取网络703，用于对样本图像进行特征提取，得到目标样本特征；

联合感知网络704，用于根据目标样本特征进行联合感知，得到感知预测结果；

模型训练模块705，用于根据感知预测结果和感知标签，对预先构建的联合感知模型进行训练；其中，联合感知包括执行至少两种感知任务。

在一个可选实施例中，特征提取网络703包括基座模块和至少两个第一多路模块；

基座模块，用于对样本图像进行降采样，得到不同尺度的初始样本特征；

第一多路模块，用于对初始样本特征进行不同感知任务的特征提取，得到初始样本特征相应尺度下的目标样本特征。

在一个可选实施例中，第一多路模块包括第一拆分子网络、第一特征提取子网络和第一融合子网络；

第一拆分子网络，用于按照通道维度对初始样本特征进行拆分，得到第一待融合样本特征和第一待处理样本特征；

第一特征提取子网络，用于对第一待处理样本特征进行特征提取，得到第一目标中间样本特征；

第一融合子网络，用于将第一待融合样本特征和第一目标中间样本特征进行特征融合，得到初始样本特征相应尺度下的目标样本特征。

在一个可选实施例中，第一特征提取子网络包括第一全局感知模块、第一局部感知模块和第一感知融合模块；

第一全局感知模块，用于对第一待处理样本特征进行全局特征提取，得到第一全局中间样本特征；

第一局部感知模块，用于对第一待处理样本特征进行局部特征提取，得到第一局部中间样本特征；

第一感知融合模块，用于对第一全局中间样本特征和第一局部中间样本特征进行特征融合，得到第一目标中间样本特征。

在一个可选实施例中，第一局部感知模块包括至少两个第一局部感知分支；

各第一局部感知分支，用于对第一待处理样本特征在不同感受野下进行局部特征提取，得到相应感受野下的第一局部中间样本特征。

在一个可选实施例中，第一局部感知模块还包括第一旁路分支；

若第一旁路分支为直连结构，则第一旁路分支用于直接将第一待处理样本特征作为相应的第一局部中间样本特征；或者，

若第一旁路分支中包括第一批处理模块，则第一旁路分支用于通过第一批处理模块对第一待处理样本特征进行归一化处理，得到相应的第一局部中间样本特征。

在一个可选实施例中，联合感知网络704，包括检测头模块；

检测头模块，用于通过不同任务感知分支，对目标样本特征进行联合感知，得到相应感知任务的感知预测结果。

在一个可选实施例中，检测头模块包括第二多路模块和至少两个任务感知分支；

第二多路模块，用于对目标样本特征进行相同类别目标在不同感知任务下的特征提取，得到感知样本特征；

各任务感知分支，用于分别根据感知样本特征，确定相应感知任务下的感知预测结果。

在一个可选实施例中，第二多路模块包括第二拆分子网络、第二特征提取子网络和第二融合子网络；

第二拆分子网络，用于按照通道维度对目标样本特征进行拆分，得到第二待融合样本特征和第二待处理样本特征；

第二特征提取子网络，用于对第二待处理样本特征进行特征提取，得到第二目标中间样本特征；

第二融合子网络，用于将第二待融合样本特征和第二目标中间样本特征进行特征融合，得到感知样本特征。

在一个可选实施例中，第二特征提取子网络包括第二全局感知模块、第二局部感知模块和第二感知融合模块；

第二全局感知模块，用于对第二待处理样本特征进行全局特征提取，得到第二全局中间样本特征；

第二局部感知模块，用于对第二待处理样本特征进行局部特征提取，得到第二局部中间样本特征；

第二感知融合模块，用于对第二全局中间样本特征和第二局部中间样本特征进行特征融合，得到第二目标中间样本特征。

在一个可选实施例中，第二局部感知模块包括至少两个第二局部感知分支；

各第二局部感知分支，用于对第二待处理样本特征在不同感受野下进行局部特征提取，得到相应感受野下的第二局部中间样本特征。

在一个可选实施例中，第二局部感知模块还包括第二旁路分支；

若第二旁路分支为直连结构，则第二旁路分支用于直接将第二待处理样本特征作为相应的第二局部中间样本特征；或者，

若第二旁路分支中包括第二批处理模块，则第二旁路分支用于通过第二批处理模块对第二待处理样本特征进行归一化处理，得到相应的第二局部中间样本特征。

在一个可选实施例中，检测头模块的数量为至少两个；不同检测头模块对不同类别目标进行联合感知。

上述联合感知模型训练装置可执行本公开任意实施例所提供的联合感知模型训练方法，具备执行各联合感知模型训练方法相应的功能模块和有益效果。

作为上述各联合感知方法的实现，本公开还提供了实施上述各联合感知方法的执行装置的可选实施例。进一步参见图8所示的一种联合感知装置800，包括：预测图像获取模块801和感知预测模块802。其中，

预测图像获取模块801，用于获取预测图像；

感知预测模块802，用于将预测图像输入至目标联合感知模型，得到感知预测结果；其中，目标联合感知模型基于本公开实施例提供的任意一种联合感知模型训练装置训练所得的初始联合感知模型得到。

在一个可选实施例中，目标联合感知模型基于对初始联合感知模型的网络参数进行整形量化处理得到。

在一个可选实施例中，初始联合感知模型包括第一多路模块，第一多路模块包括至少两个第一局部感知分支；目标联合感知模型基于对至少两个第一局部感知分支进行重参数化得到；和/或，

初始联合感知模型包括第二多路模块，第二多路模块包括至少两个第二局部感知分支；目标联合感知模型基于对至少两个第二局部感知分支进行重参数化得到。

上述联合感知装置可执行本公开任意实施例所提供的联合感知方法，具备执行各联合感知方法相应的功能模块和有益效果。

本公开的技术方案中，所涉及的样本图像、感知标签和预测图像等的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图9示出了可以用来实施本公开的实施例的示例电子设备900的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图9所示，设备900包括计算单元901，其可以根据存储在只读存储器（ROM）902中的计算机程序或者从存储单元908加载到随机访问存储器（RAM）903中的计算机程序，来执行各种适当的动作和处理。在RAM 903中，还可存储设备900操作所需的各种程序和数据。计算单元901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出（I/O）接口905也连接至总线904。

设备900中的多个部件连接至I/O接口905，包括：输入单元906，例如键盘、鼠标等；输出单元907，例如各种类型的显示器、扬声器等；存储单元908，例如磁盘、光盘等；以及通信单元909，例如网卡、调制解调器、无线通信收发机等。通信单元909允许设备900通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元901可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元901的一些示例包括但不限于中央处理单元（CPU）、图形处理单元（GPU）、各种专用的人工智能（AI）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（DSP）、以及任何适当的处理器、控制器、微控制器等。计算单元901执行上文所描述的各个方法和处理，例如联合感知模型训练方法和/或联合感知方法。例如，在一些实施例中，联合感知模型训练方法和/或联合感知方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元908。在一些实施例中，计算机程序的部分或者全部可以经由ROM 902和/或通信单元909而被载入和/或安装到设备900上。当计算机程序加载到RAM 903并由计算单元901执行时，可以执行上文描述的联合感知模型训练方法和/或联合感知方法的一个或多个步骤。备选地，在其他实施例中，计算单元901可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行联合感知模型训练方法和/或联合感知方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、现场可编程门阵列（FPGA）、专用集成电路（ASIC）、专用标准产品（ASSP）、芯片上系统的系统（SOC）、复杂可编程逻辑设备（CPLD）、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦除可编程只读存储器（EPROM或快闪存储器）、光纤、便捷式紧凑盘只读存储器（CD-ROM）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，CRT（阴极射线管）或者LCD（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（LAN）、广域网（WAN）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

人工智能是研究使计算机来模拟人的某些思维过程和智能行为（如学习、推理、思考、规划等）的学科，既有硬件层面的技术也有软件层面的技术。人工智能硬件技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理等技术；人工智能软件技术主要包括计算机视觉技术、语音识别技术、自然语言处理技术及机器学习/深度学习技术、大数据处理技术、知识图谱技术等几大方向。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开提供的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种联合感知模型训练方法，包括：

获取样本图像和所述样本图像的感知标签；

获取预设的联合感知模型；所述联合感知模型包括特征提取网络和联合感知网络；

通过所述特征提取网络对所述样本图像进行特征提取，得到目标样本特征；

通过所述联合感知网络根据所述目标样本特征进行联合感知，得到感知预测结果；

根据所述感知预测结果和所述感知标签，对预设的联合感知模型进行训练；其中，所述联合感知包括执行至少两种感知任务。

2.根据权利要求1所述的方法，其中，所述特征提取网络包括基座模块和至少两个第一多路模块；

所述通过所述特征提取网络对所述样本图像进行特征提取，得到目标样本特征，包括：

通过所述基座模块对所述样本图像进行降采样，得到不同尺度的初始样本特征；

通过所述第一多路模块对所述初始样本特征进行不同感知任务的特征提取，得到所述初始样本特征相应尺度下的目标样本特征。

3.根据权利要求2所述的方法，其中，所述第一多路模块包括第一拆分子网络、第一特征提取子网络和第一融合子网络；

通过所述第一多路模块对所述初始样本特征进行不同感知任务的特征提取，得到所述初始样本特征相应尺度下的目标样本特征，包括：

通过所述第一拆分子网络按照通道维度对所述初始样本特征进行拆分，得到第一待融合样本特征和第一待处理样本特征；

通过所述第一特征提取子网络对所述第一待处理样本特征进行特征提取，得到第一目标中间样本特征；

通过所述第一融合子网络将所述第一待融合样本特征和所述第一目标中间样本特征进行特征融合，得到所述初始样本特征相应尺度下的目标样本特征。

4.根据权利要求3所述的方法，其中，所述第一特征提取子网络包括第一全局感知模块、第一局部感知模块和第一感知融合模块；

所述通过所述第一特征提取子网络对所述第一待处理样本特征进行特征提取，得到第一目标中间样本特征，包括：

通过所述第一全局感知模块对所述第一待处理样本特征进行全局特征提取，得到第一全局中间样本特征；

通过所述第一局部感知模块对所述第一待处理样本特征进行局部特征提取，得到第一局部中间样本特征；

通过所述第一感知融合模块对所述第一全局中间样本特征和所述第一局部中间样本特征进行特征融合，得到所述第一目标中间样本特征。

5.根据权利要求4所述的方法，其中，所述第一局部感知模块包括至少两个第一局部感知分支；

所述通过所述第一局部感知模块对所述第一待处理样本特征进行局部特征提取，得到第一局部中间样本特征，包括：

通过不同第一局部感知分支对所述第一待处理样本特征在不同感受野下进行局部特征提取，得到相应感受野下的第一局部中间样本特征。

6.根据权利要求5所述的方法，其中，所述第一局部感知模块还包括第一旁路分支；

所述通过所述第一局部感知模块对所述第一待处理样本特征进行局部特征提取，得到第一局部中间样本特征，还包括：

若所述第一旁路分支为直连结构，则直接将所述第一待处理样本特征作为相应的第一局部中间样本特征；或者，

若所述第一旁路分支中包括第一批处理模块，则通过所述第一批处理模块对所述第一待处理样本特征进行归一化处理，得到相应的第一局部中间样本特征。

7.根据权利要求1所述的方法，其中，所述联合感知网络包括检测头模块；

所述通过所述联合感知网络根据所述目标样本特征进行联合感知，得到感知预测结果，包括：

通过所述检测头模块中的不同任务感知分支，对所述目标样本特征进行联合感知，得到相应感知任务的感知预测结果。

8.根据权利要求7所述的方法，其中，所述检测头模块包括第二多路模块和至少两个任务感知分支；

所述通过所述检测头模块中的不同任务感知分支，对所述目标样本特征进行联合感知，得到相应感知任务的感知预测结果，包括：

通过所述第二多路模块对所述目标样本特征进行相同类别目标在不同感知任务下的特征提取，得到感知样本特征；

通过各任务感知分支分别根据所述感知样本特征，确定相应感知任务下的感知预测结果。

9.根据权利要求8所述的方法，其中，所述第二多路模块包括第二拆分子网络、第二特征提取子网络和第二融合子网络；

所述通过所述第二多路模块对所述目标样本特征进行相同类别目标在不同感知任务下的特征提取，得到感知样本特征，包括：

通过所述第二拆分子网络按照通道维度对所述目标样本特征进行拆分，得到第二待融合样本特征和第二待处理样本特征；

通过所述第二特征提取子网络对所述第二待处理样本特征进行特征提取，得到第二目标中间样本特征；

通过所述第二融合子网络将所述第二待融合样本特征和所述第二目标中间样本特征进行特征融合，得到所述感知样本特征。

10.根据权利要求9所述的方法，其中，所述第二特征提取子网络包括第二全局感知模块、第二局部感知模块和第二感知融合模块；

所述通过所述第二特征提取子网络对所述第二待处理样本特征进行特征提取，得到第二目标中间样本特征，包括：

通过所述第二全局感知模块对所述第二待处理样本特征进行全局特征提取，得到第二全局中间样本特征；

通过所述第二局部感知模块对所述第二待处理样本特征进行局部特征提取，得到第二局部中间样本特征；

通过所述第二感知融合模块对所述第二全局中间样本特征和所述第二局部中间样本特征进行特征融合，得到所述第二目标中间样本特征。

11.根据权利要求10所述的方法，其中，所述第二局部感知模块包括至少两个第二局部感知分支；

所述通过所述第二局部感知模块对所述第二待处理样本特征进行局部特征提取，得到第二局部中间样本特征，包括：

通过不同第二局部感知分支对所述第二待处理样本特征在不同感受野下进行局部特征提取，得到相应感受野下的第二局部中间样本特征。

12.根据权利要求11所述的方法，其中，所述第二局部感知模块还包括第二旁路分支；

所述通过所述第二局部感知模块对所述第二待处理样本特征进行局部特征提取，得到第二局部中间样本特征，还包括：

若所述第二旁路分支为直连结构，则直接将所述第二待处理样本特征作为相应的第二局部中间样本特征；或者，

若所述第二旁路分支中包括第二批处理模块，则通过所述第二批处理模块对所述第二待处理样本特征进行归一化处理，得到相应的第二局部中间样本特征。

13.根据权利要求7所述的方法，其中，所述检测头模块的数量为至少两个；不同检测头模块对不同类别目标进行联合感知。

14.一种联合感知方法，包括：

获取预测图像；

将所述预测图像输入至目标联合感知模型，得到感知预测结果；

其中，所述目标联合感知模型基于权利要求1-13任一项所述的联合感知模型训练方法训练所得的初始联合感知模型得到。

15.根据权利要求14所述的方法，其中，所述目标联合感知模型基于对所述初始联合感知模型的网络参数进行整形量化处理得到。

16.根据权利要求14或15所述的方法，其中，所述初始联合感知模型包括第一多路模块，所述第一多路模块包括至少两个第一局部感知分支；所述目标联合感知模型基于对至少两个所述第一局部感知分支进行重参数化得到；和/或，

所述初始联合感知模型包括第二多路模块，所述第二多路模块包括至少两个第二局部感知分支；所述目标联合感知模型基于对至少两个所述第二局部感知分支进行重参数化得到。

17.一种联合感知模型训练装置，包括：

样本数据获取模块，用于获取样本图像和所述样本图像的感知标签；

预设模型获取模块，用于获取预设的联合感知模型；所述联合感知模型包括特征提取网络和联合感知网络；

特征提取网络，用于对所述样本图像进行特征提取，得到目标样本特征；

联合感知网络，用于根据所述目标样本特征进行联合感知，得到感知预测结果；

模型训练模块，用于根据所述感知预测结果和所述感知标签，对预先构建的联合感知模型进行训练；其中，所述联合感知包括执行至少两种感知任务。

18.根据权利要求17所述的装置，其中，所述特征提取网络包括基座模块和至少两个第一多路模块；

所述基座模块，用于对所述样本图像进行降采样，得到不同尺度的初始样本特征；

所述第一多路模块，用于对所述初始样本特征进行不同感知任务的特征提取，得到所述初始样本特征相应尺度下的目标样本特征。

19.根据权利要求18所述的装置，其中，所述第一多路模块包括第一拆分子网络、第一特征提取子网络和第一融合子网络；

所述第一拆分子网络，用于按照通道维度对所述初始样本特征进行拆分，得到第一待融合样本特征和第一待处理样本特征；

所述第一特征提取子网络，用于对所述第一待处理样本特征进行特征提取，得到第一目标中间样本特征；

所述第一融合子网络，用于将所述第一待融合样本特征和所述第一目标中间样本特征进行特征融合，得到所述初始样本特征相应尺度下的目标样本特征。

20.根据权利要求19所述的装置，其中，所述第一特征提取子网络包括第一全局感知模块、第一局部感知模块和第一感知融合模块；

所述第一全局感知模块，用于对所述第一待处理样本特征进行全局特征提取，得到第一全局中间样本特征；

所述第一局部感知模块，用于对所述第一待处理样本特征进行局部特征提取，得到第一局部中间样本特征；

所述第一感知融合模块，用于对所述第一全局中间样本特征和所述第一局部中间样本特征进行特征融合，得到所述第一目标中间样本特征。

21.根据权利要求20所述的装置，其中，所述第一局部感知模块包括至少两个第一局部感知分支；

各所述第一局部感知分支，用于对所述第一待处理样本特征在不同感受野下进行局部特征提取，得到相应感受野下的第一局部中间样本特征。

22.根据权利要求21所述的装置，其中，所述第一局部感知模块还包括第一旁路分支；

若所述第一旁路分支为直连结构，则所述第一旁路分支用于直接将所述第一待处理样本特征作为相应的第一局部中间样本特征；或者，

若所述第一旁路分支中包括第一批处理模块，则所述第一旁路分支用于通过所述第一批处理模块对所述第一待处理样本特征进行归一化处理，得到相应的第一局部中间样本特征。

23.根据权利要求17所述的装置，其中，所述联合感知网络包括检测头模块；

所述检测头模块，用于通过不同任务感知分支，对所述目标样本特征进行联合感知，得到相应感知任务的感知预测结果。

24.根据权利要求23所述的装置，其中，所述检测头模块包括第二多路模块和至少两个任务感知分支；

所述第二多路模块，用于对所述目标样本特征进行相同类别目标在不同感知任务下的特征提取，得到感知样本特征；

各所述任务感知分支，用于分别根据所述感知样本特征，确定相应感知任务下的感知预测结果。

25.根据权利要求24所述的装置，其中，所述第二多路模块包括第二拆分子网络、第二特征提取子网络和第二融合子网络；

所述第二拆分子网络，用于按照通道维度对所述目标样本特征进行拆分，得到第二待融合样本特征和第二待处理样本特征；

所述第二特征提取子网络，用于对所述第二待处理样本特征进行特征提取，得到第二目标中间样本特征；

所述第二融合子网络，用于将所述第二待融合样本特征和所述第二目标中间样本特征进行特征融合，得到所述感知样本特征。

26.根据权利要求25所述的装置，其中，所述第二特征提取子网络包括第二全局感知模块、第二局部感知模块和第二感知融合模块；

所述第二全局感知模块，用于对所述第二待处理样本特征进行全局特征提取，得到第二全局中间样本特征；

所述第二局部感知模块，用于对所述第二待处理样本特征进行局部特征提取，得到第二局部中间样本特征；

所述第二感知融合模块，用于对所述第二全局中间样本特征和所述第二局部中间样本特征进行特征融合，得到所述第二目标中间样本特征。

27.根据权利要求26所述的装置，其中，所述第二局部感知模块包括至少两个第二局部感知分支；

各第二局部感知分支，用于对所述第二待处理样本特征在不同感受野下进行局部特征提取，得到相应感受野下的第二局部中间样本特征。

28.根据权利要求27所述的装置，其中，所述第二局部感知模块还包括第二旁路分支；

若所述第二旁路分支为直连结构，则所述第二旁路分支用于直接将所述第二待处理样本特征作为相应的第二局部中间样本特征；或者，

若所述第二旁路分支中包括第二批处理模块，则所述第二旁路分支用于通过所述第二批处理模块对所述第二待处理样本特征进行归一化处理，得到相应的第二局部中间样本特征。

29.根据权利要求23所述的装置，其中，所述检测头模块的数量为至少两个；不同检测头模块对不同类别目标进行联合感知。

30.一种联合感知装置，包括：

预测图像获取模块，用于获取预测图像；

感知预测模块，用于将所述预测图像输入至目标联合感知模型，得到感知预测结果；其中，所述目标联合感知模型基于权利要求17-29任一项所述的联合感知模型训练装置训练所得的初始联合感知模型得到。

31.根据权利要求30所述的装置，其中，所述目标联合感知模型基于对所述初始联合感知模型的网络参数进行整形量化处理得到。

32.根据权利要求30或31所述的装置，其中，所述初始联合感知模型包括第一多路模块，所述第一多路模块包括至少两个第一局部感知分支；所述目标联合感知模型基于对至少两个所述第一局部感知分支进行重参数化得到；和/或，

33.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-13中任一项所述的联合感知模型训练方法，和/或权利要求14-16中任一项所述的联合感知方法。

34.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-13中任一项所述的联合感知模型训练方法，和/或权利要求14-16中任一项所述的联合感知方法。

35.一种计算机程序产品，包括计算机程序/指令，所述计算机程序/指令被处理器执行时实现权利要求1-13中任一项所述的联合感知模型训练方法的步骤，和/或权利要求14-16中任一项所述的联合感知方法的步骤。