CN114842457B

CN114842457B - 模型训练及特征提取方法、装置、电子设备和介质

Info

Publication number: CN114842457B
Application number: CN202210747010.6A
Authority: CN
Inventors: 陈吕劼
Original assignee: Xiaomi Automobile Technology Co Ltd
Current assignee: Xiaomi Automobile Technology Co Ltd
Priority date: 2022-06-29
Filing date: 2022-06-29
Publication date: 2023-09-26
Anticipated expiration: 2042-06-29
Also published as: CN114842457A

Abstract

本公开提出一种模型训练及特征提取方法、装置、电子设备和介质，其中，方法包括：从车载摄像头采集的第一图像中提取第一感兴趣区域；采用学生网络对第一感兴趣区域进行特征提取，得到第一图像特征；对第一图像进行增强处理，得到第二图像；从第二图像中提取与第一感兴趣区域对应的第二感兴趣区域；采用教师网络对第二感兴趣区域进行特征提取，得到第二图像特征；根据第一图像特征和第二图像特征之间的差异，对学生网络和教师网络进行联合训练。由此，通过自监督学习方式，利用车载摄像头采集的无标签图像对学生网络和教师网络进行联合训练，使得学生网络和教师网络学习到图像的语义、几何、定位等丰富的特征，从而增强自动驾驶算法的泛化能力。

Description

模型训练及特征提取方法、装置、电子设备和介质

技术领域

本公开涉及自动驾驶技术领域，尤其涉及一种模型训练及特征提取方法、装置、电子设备和介质。

背景技术

自动驾驶车辆每天都会产生大量的传感器数据（比如图像数据、雷达数据等），可以采用深度学习模型对传感器数据进行检测，以确定障碍物信息，从而可根据障碍物信息控制车辆行驶，以提升车辆行驶的安全性。

目前，为了提升深度学习模型预测结果的准确性，可以采用人工标注的传感器数据对深度学习模型进行预先训练，然而，由于人工标注的成本高昂，通过人工标注所有传感器数据，再利用标注数据对模型进行有监督训练的方式，几乎是无法实现的。

针对上述问题，现有厂商普遍通过人工筛选或主动学习等方式选取部分针对自动驾驶场景的传感器数据进行标注和学习，但这种方式会丢失大部分的传感器数据。此外，部分厂商尝试了在虚拟引擎中构建仿真环境进行快速的数据收集和标注，但是仿真环境采集的数据和真实采集的传感器数据存在色彩、光照、数据分布等方面的差异，因此也无法仅仅依靠虚拟数据进行自动驾驶算法的学习。

发明内容

本公开旨在至少在一定程度上解决相关技术中的技术问题之一。

为此，本公开提出了如下技术方案：

本公开第一方面实施例提出了一种模型训练方法，包括：

获取车载摄像头采集的第一图像，并从所述第一图像中提取第一感兴趣区域；

采用学生网络对所述第一感兴趣区域进行特征提取，以得到第一图像特征；

对所述第一图像进行增强处理，以得到第二图像，并从所述第二图像中提取与所述第一感兴趣区域对应的第二感兴趣区域；

采用教师网络对所述第二感兴趣区域进行特征提取，以得到第二图像特征；

根据所述第一图像特征和所述第二图像特征之间的差异，对所述学生网络和所述教师网络进行联合训练。

本公开第二方面实施例提出了一种特征提取方法，包括：

获取车载摄像头采集的待识别图像；

采用如本公开第一方面实施例所训练得到的学生网络对所述待识别图像进行特征提取，或者，采用如本公开第一方面实施例所训练得到的教师网络对所述待识别图像进行特征提取，以得到所述待识别图像的图像特征。

本公开第三方面实施例提出了一种模型训练装置，包括：

第一获取模块，用于获取车载摄像头采集的第一图像，并从所述第一图像中提取第一感兴趣区域；

第一提取模块，用于采用学生网络对所述第一感兴趣区域进行特征提取，以得到第一图像特征；

第二获取模块，用于对所述第一图像进行增强处理，以得到第二图像，并从所述第二图像中提取与所述第一感兴趣区域对应的第二感兴趣区域；

第二提取模块，用于采用教师网络对所述第二感兴趣区域进行特征提取，以得到第二图像特征；

训练模块，用于根据所述第一图像特征和所述第二图像特征之间的差异，对所述学生网络和所述教师网络进行联合训练。

本公开第四方面实施例提出了一种特征提取装置，包括：

获取模块，用于获取车载摄像头采集的待识别图像；

提取模块，用于采用如本公开第三方面实施例所训练得到的学生网络对所述待识别图像进行特征提取，或者，采用如本公开第三方面实施例所训练得到的教师网络对所述待识别图像进行特征提取，以得到所述待识别图像的图像特征。

本公开第五方面实施例提出了一种电子设备，包括：

处理器；

用于存储所述处理器的可执行指令的存储器；其中，所述处理器被配置为调用并执行所述存储器存储的可执行指令，以实现如本公开第一方面实施例提出的模型训练方法，或者，实现如本公开第二方面实施例提出的特征提取方法。

本公开第六方面实施例提出了一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开第一方面实施例提出的模型训练方法，或者，实现如本公开第二方面实施例提出的特征提取方法。

本公开第七方面实施例提出了一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如本公开第一方面实施例提出的模型训练方法，或者，实现如本公开第二方面实施例提出的特征提取方法。

本公开的技术方案，通过自监督学习方式，利用车载摄像头采集的无标签的图像数据对学生网络和教师网络进行联合训练，使得学生网络和教师网络能够学习到图像的语义、几何、定位等丰富的特征，从而增强自动驾驶算法的泛化能力和可靠性，一方面，无需人工标注图像，可以节省人工成本，另一方面，采用真实采集的图像数据对学生网络和教师网络进行训练，可以提升学生网络和教师网络在实际自动驾驶场景中预测结果的准确性和可靠性。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本公开一实施例所提供的模型训练方法的流程示意图；

图2为本公开另一实施例所提供的模型训练方法的流程示意图；

图3为本公开另一实施例所提供的模型训练方法的流程示意图；

图4为本公开另一实施例所提供的模型训练方法的流程示意图；

图5为本公开另一实施例所提供的模型训练方法的流程示意图；

图6为本公开实施例所提供的非对称网络的训练过程示意图；

图7为本公开一实施例所提供的特征提取方法的流程示意图；

图8为本公开一实施例所提供的模型训练装置的结构示意图；

图9为本公开一实施例所提供的特征提取装置的结构示意图；

图10示出了适于用来实现本公开实施方式的示例性电子设备的框图。

具体实施方式

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

自监督学习是目前先进的深度学习训练方法，其可以充分利用车载传感器采集的大量丰富的无标签数据进行模型的特征学习，从而增强自动驾驶软件的泛化能力和可靠性。但是目前的自监督学习方法普遍是为通用计算机视觉应用而设计，在自动驾驶场景中的应用存在诸多问题。

针对上述问题，本公开针对自动驾驶场景中车载传感器采集的图像数据，采用改进的自监督学习方法来学习图像数据中的语义信息、几何信息、定位能力等更广泛的特征。

下面参考附图描述本公开实施例的模型训练及特征提取方法、装置、电子设备和介质。

图1为本公开一实施例所提供的模型训练方法的流程示意图。

本公开实施例以该模型训练方法被配置于模型训练装置中来举例说明，该模型训练装置可以应用于任一电子设备中，以使该电子设备可以执行模型训练功能。

其中，电子设备可以为任一具有计算能力的设备，例如可以为电脑、移动终端、服务器等，移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。

如图1所示，该模型训练方法可以包括以下步骤：

步骤101，获取车载摄像头采集的第一图像，并从第一图像中提取第一感兴趣区域。

在本公开实施例中，第一感兴趣区域（Region of Interest，简称ROI）的个数可以为一个，或者，也可以为多个，本公开对此并不做限制。

在本公开实施例中，可以获取任一车辆中的车载摄像头所采集的图像，本公开中记为第一图像，并可以从第一图像中提取感兴趣区域，本公开中记为第一感兴趣区域。

步骤102，采用学生网络对第一感兴趣区域进行特征提取，以得到第一图像特征。

在本公开实施例中，可以采用学生网络对第一感兴趣区域进行特征提取，以得到该第一感兴趣区域的图像特征，本公开中记为第一图像特征。

步骤103，对第一图像进行增强处理，以得到第二图像，并从第二图像中提取与第一感兴趣区域对应的第二感兴趣区域。

在本公开实施例中，增强处理可以包括颜色增强处理、高斯模糊处理、平移处理和缩放处理中的至少一项，或者，增强处理也可以包括其他图像增强处理，比如HIS（色调、饱和度、明度）变换、光谱增强处理、反差增强、图像滤波处理、多光谱变换处理等，本公开对此并不做限制。

在本公开实施例中，可以对第一图像进行增强处理，以得到第二图像，并从第二图像中提取与第一感兴趣区域对应的第二感兴趣区域。即，第二感兴趣区域和第一感兴趣区域中包括相同的对象，比如，第一感兴趣区域为第一图像中行人A所在的区域，第二感兴趣区域为第二图像中该行人A所在的区域。

步骤104，采用教师网络对第二感兴趣区域进行特征提取，以得到第二图像特征。

在本公开实施例中，可以采用教师网络对第二感兴趣区域进行特征提取，以得到第二感兴趣区域对应的图像特征，本公开中记为第二图像特征。

需要说明的是，本公开对步骤102和步骤103-104的执行时序不做限制，比如，步骤102可以与步骤103-104并列执行，或者，步骤102和步骤103并列执行，或者，步骤102和步骤104并列执行，或者，步骤102也可以与步骤103-104顺序执行，比如，步骤103-104可以在步骤102之前执行，本公开对此并不做限制。

步骤105，根据第一图像特征和第二图像特征之间的差异，对学生网络和教师网络进行联合训练。

在本公开实施例中，可以根据第一图像特征和第二图像特征之间的差异，对学生网络和教师网络进行联合训练。

需要说明的是，学生网络和教师网络可以为自蒸馏领域中模型结构相同或相似的两个网络，比如，可以将模型结构相同的两个网络中的任意一个网络作为学生网络，另一个作为教师网络。其中，教师网络中的模型参数可以根据学生网络中的模型参数进行更新。比如，可以根据学生网络输出的图像特征和教师网络输出的图像特征之间的差异，对学生网络中的模型参数进行调整，以使上述差异最小化，之后，可以利用学生网络中调整后的模型参数，对教师网络中的模型参数进行更新。

也就是说，在模型训练时，可以先对学生网络进行调整，调整后的学生网络可以指导教师网络学习，学习后的教师网络可以在下一次训练时，指导学生网络学习，两个网络互相作用和学习，来提升两个网络的预测精度。

作为一种示例，可以根据第一图像特征和第二图像特征之间的差异，生成损失函数，其中，损失函数与上述差异为正向关系（即呈正相关关系），即差异越小，损失函数的取值越小，反之，差异越大，损失函数的取值越大，从而可以根据损失函数，对学生网络和教师网络进行联合训练，以使损失函数的取值最小化。比如，可以根据损失函数，对学生网络中的模型参数进行调整，以使上述损失函数的取值最小化，之后，可以利用学生网络中调整后的模型参数，对教师网络中的模型参数进行更新。

需要说明的是，上述仅以训练的终止条件为损失函数的取值最小化进行示例，实际应用时，也可以设置其它的终止条件，比如终止条件还可以为训练次数达到设定的次数阈值，或者，终止条件还可以为训练时长达到设定的时长阈值，等等，本公开对此并不做限制。

本公开实施例的模型训练方法，通过从车载摄像头采集的第一图像中提取第一感兴趣区域，并采用学生网络对第一感兴趣区域进行特征提取，以得到第一图像特征；对第一图像进行增强处理，以得到第二图像，并从第二图像中提取与第一感兴趣区域对应的第二感兴趣区域；采用教师网络对第二感兴趣区域进行特征提取，以得到第二图像特征；根据第一图像特征和第二图像特征之间的差异，对学生网络和教师网络进行联合训练。由此，通过自监督学习方式，利用车载摄像头采集的无标签的图像数据对学生网络和教师网络进行联合训练，使得学生网络和教师网络能够学习到图像的语义、几何、定位等丰富的特征，从而增强自动驾驶算法的泛化能力和可靠性，一方面，无需人工标注图像，可以节省人工成本，另一方面，采用真实采集的图像数据对学生网络和教师网络进行训练，可以提升学生网络和教师网络在实际自动驾驶场景中预测结果的准确性和可靠性。

为了清楚说明本公开上述实施例中，是如何对学生网络和教师网络进行联合训练的，本公开还提出一种模型训练方法。

图2为本公开另一实施例所提供的模型训练方法的流程示意图。

如图2所示，该模型训练方法可以包括以下步骤：

步骤201，获取车载摄像头采集的第一图像，并从第一图像中提取第一感兴趣区域。

步骤202，采用学生网络对第一感兴趣区域进行特征提取，以得到第一图像特征。

步骤203，对第一图像进行增强处理，以得到第二图像，并从第二图像中提取与第一感兴趣区域对应的第二感兴趣区域。

步骤204，采用教师网络对第二感兴趣区域进行特征提取，以得到第二图像特征。

步骤201至204的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤205，根据第一图像特征和第二图像特征之间的差异，对学生网络中的各模型参数进行调整。

在本公开实施例中，可以根据第一图像特征和第二图像特征之间的差异，对学生网络中的各模型参数进行调整。其中，学生网络可以通过反向传播的方式进行模型参数的更新。

作为一种示例，可以根据第一图像特征和第二图像特征之间的差异，生成第一损失函数，其中，第一损失函数与上述差异为正向关系，即差异越小，第一损失函数的取值越小，反之，差异越大，第一损失函数的取值越大。从而本公开中，可以根据第一损失函数的取值，对学生网络进行训练，比如，可以根据第一损失函数对学生网络中的各模型参数进行调整，以使第一损失函数的取值最小化。

需要说明的是，上述仅以学生网络训练的终止条件为第一损失函数的取值最小化进行示例，实际应用时，还可以设置其他的终止条件，比如，终止条件还可以为训练次数达到设定的次数阈值，或者，终止条件还可以为训练时长达到设定的时长阈值，等等，本公开对此并不做限制。

步骤206，根据调整后的学生网络中的各模型参数，对教师网络中对应模型参数进行调整。

在本公开实施例中，可以根据调整后的学生网络中的各模型参数，对教师网络中对应模型参数进行调整。比如，可以将调整后的学生网络中的模型参数的指数移动平均值（Exponential Moving Average，简称EMA），作为教师网络中对应模型参数的取值。

本公开实施例的模型训练方法，通过根据第一图像特征和第二图像特征之间的差异，对学生网络中的各模型参数进行调整；根据调整后的学生网络中的各模型参数，对教师网络中对应模型参数进行调整。由此，根据两个网络输出的图像特征，即可实现对两个网络进行训练，可以实现无需对图像进行标注，即可使得两个网络对图像自身的信息进行挖掘并进行特征学习。

为了清楚说明本公开任一实施例中，是如何根据调整后的学生网络中的各模型参数，对教师网络中对应模型参数进行调整的，本公开还提出一种模型训练方法。

图3为本公开另一实施例所提供的模型训练方法的流程示意图。

如图3所示，该模型训练方法可以包括以下步骤：

步骤301，获取车载摄像头采集的第一图像，并从第一图像中提取第一感兴趣区域。

步骤302，采用学生网络对第一感兴趣区域进行特征提取，以得到第一图像特征。

步骤303，对第一图像进行增强处理，以得到第二图像，并从第二图像中提取与第一感兴趣区域对应的第二感兴趣区域。

步骤304，采用教师网络对第二感兴趣区域进行特征提取，以得到第二图像特征。

步骤305，根据第一图像特征和第二图像特征之间的差异，对学生网络中的各模型参数进行调整。

步骤301至305的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤306，针对调整后的学生网络中的任一模型参数，确定本次调整的目标调整值。

在本公开实施例中，针对调整后的学生网络中的任一模型参数，可以确定该任一模型参数对应的目标调整值，即该目标调整值可为本次（即最近一次或最后一次）调整得到的取值。

步骤307，查询任一模型参数对应的多个历史调整值。

在本公开实施例中，还可以查询该任一模型参数对应的多个历史调整值，其中，历史调整值的调整时刻位于目标调整值的调整时刻之前。

作为一种示例，以将调整后的学生网络中的模型参数的EMA，作为教师网络中对应模型参数的取值进行示例，历史调整值的个数可以根据EMA算法的超参数β确定。即，历史调整值的个数=1/(1-β)-1。

步骤308，根据目标调整值和多个历史调整值，对教师网络中与任一模型参数对应的模型参数进行调整。

在本公开实施例中，教师网络的网络结构可以与学生网络相同。

在本公开实施例中，可以根据目标调整值和多个历史调整值，对教师网络中与任一模型参数对应的模型参数进行调整。

仍以上述例子进行示例，假设学生网络中的任一模型参数对应的目标调整值为θ_t，多个历史调整值分别为：θ_t-1、θ_t-2、θ_t-3、…、θ_t-1/(1-β)+1，其中，θ_t-1的调整时刻>θ_t-2的调整时刻>θ_t-3的调整时刻>…的调整时刻>θ_t-1/(1-β)+1的调整时刻，则教师网络中对应模型参数的调整值θ为：

θ=(1-β)θ_t+β(1-β)θ_t-1+β(1-β)²θ_t-2+β(1-β)³θ_t-3+…+β(1-β)^1/(1-β)-1θ_t-1/(1-β)+1；（1）

以β=0.9进行示例，则：

θ=0.1θ_t+0.1*0.9θ_t-1+0.1*0.9²θ_t-2+0.1*0.9³θ_t-3+…+0.1*0.9⁹θ_t-9。

综上，可以实现根据学生网络的指数移动平均值，有效确定教师网络中各模型参数的取值，从而可以根据各模型参数的取值，对教师网络进行有效更新。

基于本公开上述实施例，为了清楚说明是如何从图像中提取感兴趣区域的，本公开还提出一种模型训练方法。

图4为本公开另一实施例所提供的模型训练方法的流程示意图。

如图4所示，该模型训练方法可以包括以下步骤：

步骤401，获取车载摄像头采集的第一图像。

步骤401的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

步骤402，获取第一图像对应的热力图，其中，热力图中各像素点的响应值，用于指示第一图像中对应像素点的重要程度。

在本公开实施例中，可以获取第一图像对应的热力图，其中，热力图中各像素点的响应值，用于指示第一图像中对应像素点的重要程度。

作为一种示例，可以根据有监督训练模型的类别激活图（Class Activation Map，简称CAM），确定用于表征第一图像中各区域或各像素点重要程度的热力图。

作为另一种示例，可以根据无监督预训练模型（比如DINO模型）中的高响应图，确定用于表征第一图像中各区域或各像素点重要程度的热力图。

步骤403，根据热力图中各像素点的响应值，从热力图中确定至少一个第三感兴趣区域。

在本公开实施例中，可以根据热力图中各像素点的响应值，从热力图中确定至少一个感兴趣区域，本公开中记为至少一个第三感兴趣区域。

作为一种可能的实现方式，可以根据热力图中各像素点的响应值，从各像素点中确定至少一个目标像素点，其中，目标像素点的响应值高于设定阈值，从而可以根据至少一个目标像素点，从热力图中确定至少一个第三感兴趣区域，其中，第三感兴趣区域是以目标像素点为中心的区域。

作为一种示例，可以随机选取N个目标像素点，并根据设定比例范围确定与各目标像素点在热力图中的坐标相关的长度和宽度，针对各目标像素点中的任一目标像素点，可以根据与该任一目标像素点的坐标相关的长度和宽度，从热力图中提取第三感兴趣区域，其中，第三感兴趣区域的中心为该任一目标像素点，第三感兴趣区域的长度和与该任一目标像素点的坐标相关的长度匹配，第三感兴趣区域的宽度和与该任一目标像素点的坐标相关的宽度匹配。

步骤404，根据至少一个第三感兴趣区域在热力图中的第一位置，从第一图像中提取与各第一位置匹配的第一感兴趣区域。

在本公开实施例中，可以根据至少一个第三感兴趣区域在热力图中的第一位置，从第一图像中提取与各第一位置匹配的第一感兴趣区域。即第一感兴趣区域在第一图像中的位置，与第三感兴趣区域在热力图中的位置相同，且，第一感兴趣区域的尺寸与第三感兴趣区域的尺寸相同。

举例而言，假设第三感兴趣区域在热力图的左上角，则第一感兴趣区域也在第一图像的左上角。

步骤405，采用学生网络对第一感兴趣区域进行特征提取，以得到第一图像特征。

步骤406，对第一图像进行增强处理，以得到第二图像。

步骤407，从第二图像中提取与第一感兴趣区域对应的第二感兴趣区域。

在本公开实施例的一种可能的实现方式中，在增强处理未包括平移处理和缩放处理时，比如，增强处理包括颜色增强处理、高斯模糊处理、HIS变换、光谱增强处理、反差增强、图像滤波处理和多光谱变换处理中的至少一项时，可以根据至少一个第三感兴趣区域在热力图中的目第一位置，从第二图像中提取与各第一位置匹配的第二感兴趣区域。即第二感兴趣区域在第二图像中的位置，与第三感兴趣区域在热力图中的位置相同，且，第二感兴趣区域的尺寸与第三感兴趣区域的尺寸相同。

在本公开实施例的一种可能的实现方式中，在增强处理包括平移处理，而未包括缩放处理时，可以根据设定的平移距离和第一位置，确定第二感兴趣区域对应的第二位置，其中，平移距离是根据增强处理导致第一图像中像素点相对第二图像中对应像素点之间的距离差异确定的，从而本公开中，可以根据第二位置，从第二图像中确定与第二位置匹配的第二感兴趣区域。

其中，第一感兴趣区域的尺寸与第二感兴趣的尺寸相同。

作为一种示例，可以根据设定的平移距离、设定的平移方向和第一位置，确定第二感兴趣区域对应的第二位置。其中，平移方向是根据增强处理导致第二图像中的像素点相对第一图像中对应像素点的方向。

举例而言，假设平移方向为向上，平移距离为n，则第二位置的横轴坐标与第一位置的横轴坐标相同，第二位置的纵轴坐标等于第一位置的纵轴坐标-n。

假设平移方向为向下，平移距离为n，则第二位置的横轴坐标与第一位置的横轴坐标相同，第二位置的纵轴坐标等于第一位置的纵轴坐标+n。

假设平移方向为向左，平移距离为n，则第二位置的纵轴坐标与第一位置的纵轴坐标相同，第二位置的横轴坐标等于第一位置中的横轴坐标-n。

假设平移方向为向右，平移距离为n，则第二位置的纵轴坐标与第一位置的纵轴坐标相同，第二位置的横轴坐标等于第一位置的横轴坐标+n。

在本公开实施例的一种可能的实现方式中，在增强处理包括缩放处理，而未包括平移处理时，可以根据设定的缩放尺度和第一位置，确定第二感兴趣区域对应的第三位置，其中，缩放尺度是根据增强处理导致第二图像相对第一图像的缩放程度确定的，从而本公开中，可以根据第三位置，从第二图像中确定与第三位置匹配的第二感兴趣区域。

其中，第一感兴趣区域的尺寸与第二感兴趣的尺寸不同。

举例而言，假设第一图像的尺寸为a*a，第二图像的尺寸为2a*2a，第一感兴趣在第一图像的左上角，且尺寸为b*b，其中，b小于a，则第二感兴趣区域也在第二图像的左上角，且尺寸为2b*2b。

需要说明的是，实际应用时，还可能同时对第一图像进行缩放处理和平移处理，此时，可以结合上述两种方式，确定第二感兴趣区域对应的第四位置，从而可以根据第四位置，从第二图像中确定与第四位置匹配的第二感兴趣区域。

还需说明的是，也可以采用其他算法，确定第二感兴趣区域在第二图像中的位置，本公开对此并不做限制。

步骤408，采用教师网络对第二感兴趣区域进行特征提取，以得到第二图像特征。

步骤409，根据第一图像特征和第二图像特征之间的差异，对学生网络和教师网络进行联合训练。

步骤405至409的解释说明可以参见本公开任一实施例中的相关描述，在此不做赘述。

本公开实施例的模型训练方法，通过获取第一图像对应的热力图，其中，热力图中各像素点的响应值，用于指示第一图像中对应像素点的重要程度；根据热力图中各像素点的响应值，从热力图中确定至少一个第三感兴趣区域；根据至少一个第三感兴趣区域在热力图中的第一位置，从第一图像中提取与各第一位置匹配的第一感兴趣区域。由此，由于热力图可以表征第一图像中各区域或各像素点的重要程度，根据热力图定位第一图像中的感兴趣区域，可以实现提取第一图像中重要程度较高的感兴趣区域，从而可以根据重要程度较高的感兴趣区域，对两个网络进行训练，以使网络能够学习到更丰富的图像特征，提升网络的训练效果。

在本公开实施例的一种可能的实现方式中，为了提升学生网络的训练效果，学生网络还可以基于第一感兴趣区域进行生成式学习，即通过对第一感兴趣区域中的部分区域进行遮挡或掩码，再通过学生网络进行图像重建，根据重建的图像对学生网络进行训练。下面结合图5，对上述过程进行详细说明。

图5为本公开另一实施例所提供的模型训练方法的流程示意图。

如图5所示，在图1至图4任一实施例的基础上，该模型训练方法还可以包括以下步骤：

步骤501，对第一感兴趣区域中的至少一个子区域进行掩码，以得到掩码后的第一感兴趣区域。

在本公开实施例中，可以对第一感兴趣区域中的至少一个子区域进行遮挡或掩码，以得到掩码后的第一感兴趣区域。

步骤502，采用学生网络对掩码后的第一感兴趣区域进行图像预测，以得到预测图像。

在本公开实施例中，可以采用学生网络对掩码后的第一感兴趣区域进行图像预测（即图像重建），以得到预测图像。也就是说，本公开中，学生网络可以采用与机器翻译任务类似的方式，预测第一感兴趣区域中的整个图像区域，得到预测图像。

步骤503，根据预测图像和第一感兴趣区域之间的差异，对学生网络中的模型参数进行调整。

在本公开实施例中，可以根据预测图像和第一感兴趣区域之间的差异，对学生网络中的模型参数进行调整。

作为一种示例，可以根据预测图像和第一感兴趣区域之间的差异，生成第二损失函数，其中，第二损失函数与上述差异为正向关系，即差异越小，第二损失函数的取值越小，反之，差异越大，第二损失函数的取值越大。从而本公开中，可以根据第二损失函数的取值，对学生网络进行训练，比如，可以根据第二损失函数对学生网络中的各模型参数进行调整，以使第二损失函数的取值最小化。

需要说明的是，上述仅以学生网络训练的终止条件为第二损失函数的取值最小化进行示例，实际应用时，还可以设置其他的终止条件，比如，终止条件还可以为训练次数达到设定的次数阈值，或者，终止条件还可以为训练时长达到设定的时长阈值，等等，本公开对此并不做限制。

需要说明的是，本公开对步骤501至503的执行时序不做限制，比如，步骤501至503可以在步骤101之前执行，或者，步骤501至503还可以在步骤105之后执行。

在本公开实施例的一种可能的实现方式中，学生网络也可以采用与完形填空任务类似的方式，只预测遮挡或掩码的子区域。即本公开中，还可以采用学生网络对掩码后的第一感兴趣区域中的掩码子区域进行图像预测，以得到至少一个预测区域，从而可以根据至少一个预测区域和至少一个子区域之间的差异，对学生网络中的模型参数进行调整。

作为一种示例，可以根据至少一个预测区域和至少一个子区域之间的差异，生成第三损失函数，其中，第三损失函数与上述差异为正向关系，即差异越小，第三损失函数的取值越小，反之，差异越大，第三损失函数的取值越大。从而本公开中，可以根据第三损失函数，对学生网络进行训练，即对学生网络中的模型参数进行调整。比如，可以根据第三损失函数对学生网络进行训练，以使第三损失函数的取值最小化。

需要说明的是，上述仅以学生网络训练的终止条件为第三损失函数的取值最小化进行示例，实际应用时，也可以设置其它的终止条件，比如终止条件还可以为训练次数达到设定的次数阈值，或者，终止条件还可以为训练时长达到设定的时长阈值，等等，本公开对此并不做限制。

本公开实施例的模型训练方法，通过对第一感兴趣区域中的至少一个子区域进行掩码，以得到掩码后的第一感兴趣区域；采用学生网络对掩码后的第一感兴趣区域进行图像预测，以得到预测图像；根据预测图像和第一感兴趣区域之间的差异，对学生网络中的模型参数进行调整。由此，学生网络基于第一感兴趣区域进行生成式学习，可以进一步提升学生网络的训练效果，从而根据学生网络中的模型参数，对教师网络中的模型参数进行更新时，可以提升教师网络的训练效果。

作为一种示例，可以通过以下步骤，对学生网络和教师网络进行训练：

1、获取与自动驾驶场景相关的图像，本公开中记为第一图像I，并获取该第一图像I对应的热力图H。

2、以热力图H中各像素点的响应值作为对应像素点的概率值，根据各像素点的概率值，从各像素点中随机选取n个概率值较高的目标像素点（或称为坐标点），并以一定比例范围随机确定与各目标像素点相关的长度和宽度，从而可根据各目标像素点的坐标以及与各目标像素点相关的长度和宽度，从热力图H中确定n个第三兴趣区域，并根据第三感兴趣区域在热力图中的位置，从第一图像I中确定n个第一感兴趣区域，其中，n个第一感兴趣区域构成集合N。

3、对第一图像I进行随机的平移、缩放、颜色增强、高斯模糊处理等图像增强操作，得到第二图像I*，并从第二图像I*中提取与各第一感兴趣区域对应的第二感兴趣区域，其中，n个第二感兴趣区域中的可见区域构成集合N*。

4、如图6所示，可以构建非对称网络，并将第一图像I中的第一感兴趣区域输入至学生网络进行特征提取，得到第一图像特征F，以及将第二图像I*中的第二感兴趣区域输入至教师网络进行特征提取，得到第二图像特征F*。其中，学生网络通过反向传播进行更新，教师网络通过学生网络的EMA进行更新。

5、由于相同的感兴趣区域的特征应该相同，因此监督通过两个网络后的感兴趣区域的特征一致，即根据第一图像特征F和第二图像特征F*之间的差异，生成学生网络的第一损失函数（或称为对比损失函数），从而可以根据第一损失函数对学生网络进行训练。

作为一种示例，第一损失函数可以如下所示：

；（2）

6、学生网络还可以基于第一感兴趣区域独立进行生成式学习，即通过对第一感兴趣区域中的部分区域进行遮挡或掩码，再通过学生网络进行图像重建，根据重建的图像，生成学生网络的第二损失函数或第三损失函数，其中，第二损失函数或第三损失函数还可以称为生成式损失函数L_G。

综上，本公开所提供的模型训练方式，相对于现有技术具有以下优点：

1）无需对图像进行标注，可通过对图像自身的信息进行挖掘并进行特征学习；

2）可以利用车载摄像头采集的大规模的图像数据进行训练学习，并且能够随着图像数据的增加不断地提升学习效果；

3）将对比学习和生成学习相结合，能够同时增强网络的判别能力和语义生成能力；

4）对图像进行增强处理，如平移、缩放等增强操作，可以增强模型对于定位与几何信息的学习能力；

5）相对于通过构建虚拟环境生成大量训练数据的方式，本公开中利用车载摄像头在实际的自动驾驶场景中采集的图像数据，来对学生网络和教师网络进行训练，能够显著地提升自动驾驶算法的泛化能力。

上述为模型训练方法所对应的各实施例，本公开还提出一种模型应用方法，即特征提取方法。

图7为本公开一实施例所提供的特征提取方法的流程示意图。

如图7所示，该特征提取方法可以包括以下步骤：

步骤701，获取车载摄像头采集的待识别图像。

在本公开实施例中，可以获取目标车辆中的车载摄像头所采集的待识别图像。其中，目标车辆可以为待控制车辆。

步骤702，采用经过训练的学生网络对待识别图像进行特征提取，或者，采用经过训练的方法所训练得到的教师网络对待识别图像进行特征提取，以得到待识别图像的图像特征。

在本公开实施例中，学生网络和教师网络可以采用前述任一方法实施例训练得到。

在本公开实施例中，可以采用经过训练的学生网络对待识别图像进行特征提取，以得到待识别图像的图像特征。或者，可以采用经过训练的方法所训练得到的教师网络对待识别图像进行特征提取，以得到待识别图像的图像特征。

可选的，可以根据待识别图像的图像特征，对待识别图像中的障碍物信息进行检测，从而可以根据检测到的障碍物信息对目标车辆进行控制，比如控制目标车辆的行驶方向和行驶速度等。

本公开实施例的特征提取方法，通过获取车载摄像头采集的待识别图像；采用经过训练的学生网络对待识别图像进行特征提取，或者，采用经过训练的方法所训练得到的教师网络对待识别图像进行特征提取，以得到待识别图像的图像特征。由此，采用经过训练的学生网络或教师网络对图像进行特征提取，可以提升特征提取结果的准确性和可靠性。

与上述图1至图5实施例提供的模型训练方法相对应，本公开还提供一种模型训练装置，由于本公开实施例提供的模型训练装置与上述图1至图5实施例提供的模型训练方法相对应，因此在模型训练方法的实施方式也适用于本公开实施例提供的模型训练装置，在本公开实施例中不再详细描述。

图8为本公开一实施例所提供的模型训练装置的结构示意图。

如图8所示，该模型训练装置800可以包括：第一获取模块801、第一提取模块802、第二获取模块803、第二提取模块804以及训练模块805。

其中，第一获取模块801，用于获取车载摄像头采集的第一图像，并从第一图像中提取第一感兴趣区域。

第一提取模块802，用于采用学生网络对第一感兴趣区域进行特征提取，以得到第一图像特征。

第二获取模块803，用于对第一图像进行增强处理，以得到第二图像，并从第二图像中提取与第一感兴趣区域对应的第二感兴趣区域。

第二提取模块804，用于采用教师网络对第二感兴趣区域进行特征提取，以得到第二图像特征。

训练模块805，用于根据第一图像特征和第二图像特征之间的差异，对学生网络和教师网络进行联合训练。

在本公开实施例的一种可能的实现方式中，第一获取模块801，用于：获取第一图像对应的热力图，其中，热力图中各像素点的响应值，用于指示第一图像中对应像素点的重要程度；根据热力图中各像素点的响应值，从热力图中确定至少一个第三感兴趣区域；根据至少一个第三感兴趣区域在热力图中的第一位置，从第一图像中确定与各第一位置匹配的第一感兴趣区域。

在本公开实施例的一种可能的实现方式中，增强处理中包括颜色增强处理和/或高斯模糊处理，第二获取模块803，用于：根据至少一个第三感兴趣区域在热力图中的第一位置，从第二图像中提取与各第一位置匹配的第二感兴趣区域。

在本公开实施例的一种可能的实现方式中，增强处理中包括平移处理；第二获取模块803，用于：根据设定的平移距离和第一位置，确定第二感兴趣区域对应的第二位置；其中，平移距离是根据增强处理导致第一图像中像素点相对第二图像中对应像素点之间的距离差异确定的；根据第二位置，从第二图像中提取与第二位置匹配的第二感兴趣区域。

在本公开实施例的一种可能的实现方式中，增强处理中包括缩放处理；第二获取模块803，用于：根据设定的缩放尺度和第一位置，确定第二感兴趣区域对应的第三位置；其中，缩放尺度是根据增强处理导致第二图像相对第一图像的缩放程度确定的；根据第三位置，从第二图像中确定与第三位置匹配的第二感兴趣区域。

在本公开实施例的一种可能的实现方式中，第一获取模块801，用于：根据热力图中各像素点的响应值，从各像素点中确定至少一个目标像素点；其中，目标像素点的响应值高于设定阈值；从热力图中确定至少一个第三感兴趣区域，其中，第三感兴趣区域是以目标像素点为中心的区域。

在本公开实施例的一种可能的实现方式中，训练模块805，用于：根据第一图像特征和第二图像特征之间的差异，对学生网络中的各模型参数进行调整；根据调整后的学生网络中的各模型参数，对教师网络中对应模型参数进行调整。

在本公开实施例的一种可能的实现方式中，训练模块805，用于：针对调整后的学生网络中的任一模型参数，确定本次调整的目标调整值；查询任一模型参数对应的多个历史调整值；根据目标调整值和多个历史调整值，对教师网络中与任一模型参数对应的模型参数进行调整。

在本公开实施例的一种可能的实现方式中，该模型训练装置800还可以包括：

第一掩码模块，用于对第一感兴趣区域中的至少一个子区域进行掩码，以得到掩码后的第一感兴趣区域。

第一预测模块，用于采用学生网络对掩码后的第一感兴趣区域进行图像预测，以得到预测图像。

第一调整模块，用于根据预测图像和第一感兴趣区域之间的差异，对学生网络中的模型参数进行调整。

第二掩码模块，用于对第一感兴趣区域中的至少一个子区域进行掩码，以得到掩码后的第一感兴趣区域。

第二预测模块，用于采用学生网络对掩码后的第一感兴趣区域中的掩码子区域进行图像预测，以得到至少一个预测区域。

第二调整模块，用于根据至少一个预测区域和至少一个子区域之间的差异，对学生网络中的模型参数进行调整。

本公开实施例的模型训练装置，通过从车载摄像头采集的第一图像中提取第一感兴趣区域，并采用学生网络对第一感兴趣区域进行特征提取，以得到第一图像特征；对第一图像进行增强处理，以得到第二图像，并从第二图像中提取与第一感兴趣区域对应的第二感兴趣区域；采用教师网络对第二感兴趣区域进行特征提取，以得到第二图像特征；根据第一图像特征和第二图像特征之间的差异，对学生网络和教师网络进行联合训练。由此，通过自监督学习方式，利用车载摄像头采集的无标签的图像数据对学生网络和教师网络进行联合训练，使得学生网络和教师网络能够学习到图像的语义、几何、定位等丰富的特征，从而增强自动驾驶算法的泛化能力和可靠性，一方面，无需人工标注图像，可以节省人工成本，另一方面，采用真实采集的图像数据对学生网络和教师网络进行训练，可以提升学生网络和教师网络在实际自动驾驶场景中预测结果的准确性和可靠性。

与上述图7实施例提供的特征提取方法相对应，本公开还提供一种特征提取装置，由于本公开实施例提供的特征提取装置与上述图7实施例提供的特征提取方法相对应，因此在特征提取方法的实施方式也适用于本公开实施例提供的特征提取装置，在本公开实施例中不再详细描述。

图9为本公开一实施例所提供的特征提取装置的结构示意图。

如图9所示，该特征提取装置900可以包括：获取模块901和提取模块902。

其中，获取模块901，用于获取车载摄像头采集的待识别图像。

提取模块902，用于采用如图8所述的装置所训练得到的学生网络对待识别图像进行特征提取，或者，采用图8所述的装置所训练得到的教师网络对待识别图像进行特征提取，以得到待识别图像的图像特征。

本公开实施例的特征提取装置，通过获取车载摄像头采集的待识别图像；采用经过训练的学生网络对待识别图像进行特征提取，或者，采用经过训练的方法所训练得到的教师网络对待识别图像进行特征提取，以得到待识别图像的图像特征。由此，采用经过训练的学生网络或教师网络对图像进行特征提取，可以提升特征提取结果的准确性和可靠性。

为了实现上述实施例，本公开还提出一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时，实现如本公开前述任一实施例提出的模型训练方法或特征提取方法。

为了实现上述实施例，本公开还提出一种非临时性计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本公开前述任一实施例提出的模型训练方法或特征提取方法。

为了实现上述实施例，本公开还提出一种计算机程序产品，当所述计算机程序产品中的指令由处理器执行时，执行如本公开前述任一实施例提出的模型训练方法或特征提取方法。

图10是根据一示例性实施例示出的一种电子设备的框图。例如，电子设备1000可以是移动电话，计算机，数字广播终端，消息收发设备，游戏控制台，平板设备，医疗设备，健身设备，个人数字助理等。

参照图10，电子设备1000可以包括以下一个或多个组件：处理组件1002，存储器1004，电力组件1006，多媒体组件1008，音频组件1010，输入/输出（I/ O）接口1012，传感器组件1014，以及通信组件1016。

处理组件1002通常控制电子设备1000的整体操作，诸如与显示，电话呼叫，数据通信，相机操作和记录操作相关联的操作。处理组件1002可以包括一个或多个处理器1020来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件1002可以包括一个或多个模块，便于处理组件1002和其他组件之间的交互。例如，处理组件1002可以包括多媒体模块，以方便多媒体组件1008和处理组件1002之间的交互。

存储器1004被配置为存储各种类型的数据以支持在电子设备1000的操作。这些数据的示例包括用于在电子设备1000上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器1004可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM），电可擦除可编程只读存储器（EEPROM），可擦除可编程只读存储器（EPROM），可编程只读存储器（PROM），只读存储器（ROM），磁存储器，快闪存储器，磁盘或光盘。

电力组件1006为电子设备1000的各种组件提供电力。电力组件1006可以包括电源管理系统，一个或多个电源，及其他与为电子设备1000生成、管理和分配电力相关联的组件。

多媒体组件1008包括在所述电子设备1000和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件1008包括一个前置摄像头和/或后置摄像头。当电子设备1000处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1010被配置为输出和/或输入音频信号。例如，音频组件1010包括一个麦克风（MIC），当电子设备1000处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1004或经由通信组件1016发送。在一些实施例中，音频组件1010还包括一个扬声器，用于输出音频信号。

I/ O接口1012为处理组件1002和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件1014包括一个或多个传感器，用于为电子设备1000提供各个方面的状态评估。例如，传感器组件1014可以检测到电子设备1000的打开/关闭状态，组件的相对定位，例如所述组件为电子设备1000的显示器和小键盘，传感器组件1014还可以检测电子设备1000或电子设备1000一个组件的位置改变，用户与电子设备1000接触的存在或不存在，电子设备1000方位或加速/减速和电子设备1000的温度变化。传感器组件1014可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1014还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件1014还可以包括加速度传感器，陀螺仪传感器，磁传感器，压力传感器或温度传感器。

通信组件1016被配置为便于电子设备1000和其他设备之间有线或无线方式的通信。电子设备1000可以接入基于通信标准的无线网络，如WiFi，4G或5G，或它们的组合。在一个示例性实施例中，通信组件1016经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件1016还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

在示例性实施例中，电子设备1000可以被一个或多个应用专用集成电路（ASIC）、数字信号处理器（DSP）、数字信号处理设备（DSPD）、可编程逻辑器件（PLD）、现场可编程门阵列（FPGA）、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器1004，上述指令可由电子设备1000的处理器1020执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本公开的描述中，“多个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本公开的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本公开的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备（如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统）使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例（非穷尽性列表）包括以下：具有一个或多个布线的电连接部（电子装置），便携式计算机盘盒（磁装置），随机存取存储器（RAM），只读存储器（ROM），可擦除可编辑只读存储器（EPROM或闪速存储器），光纤装置，以及便携式光盘只读存储器（CDROM）。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本公开各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本公开的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本公开的限制，本领域的普通技术人员在本公开的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种模型训练方法，其特征在于，所述方法包括：

对所述第一图像进行增强处理，以得到第二图像，并从所述第二图像中提取与所述第一感兴趣区域对应的第二感兴趣区域，其中，第一感兴趣区域与第二感兴趣区域中包括相同的对象；

根据所述第一图像特征和所述第二图像特征之间的差异，对所述学生网络和所述教师网络进行联合训练；

还包括：

对所述第一感兴趣区域中的至少一个子区域进行掩码，以得到掩码后的第一感兴趣区域；

采用所述学生网络对所述掩码后的第一感兴趣区域中的掩码子区域进行图像预测，以得到预测图像；

根据所述预测图像和所述第一感兴趣区域之间的差异，生成学生网络的第二损失函数，根据第二损失函数对所述学生网络中的模型参数进行调整；

所述从所述第一图像中提取第一感兴趣区域，包括：

获取所述第一图像对应的热力图，其中，所述热力图中各像素点的响应值，用于指示所述第一图像中对应像素点的重要程度；

根据所述热力图中各所述像素点的响应值，从所述热力图中确定至少一个第三感兴趣区域；

根据所述至少一个第三感兴趣区域在所述热力图中的第一位置，从所述第一图像中确定与各所述第一位置匹配的第一感兴趣区域；

所述增强处理中包括缩放处理；

从所述第二图像中提取与所述第一感兴趣区域的位置匹配的第二感兴趣区域，包括：

根据设定的缩放尺度和所述第一位置，确定所述第二感兴趣区域对应的第三位置；其中，所述缩放尺度是根据所述增强处理导致所述第二图像相对所述第一图像的缩放程度确定的；

根据所述第三位置，从所述第二图像中确定与所述第三位置匹配的第二感兴趣区域,其中，第一感兴趣区域的尺寸与第二感兴趣区域的尺寸不同；

所述根据所述第一图像特征和所述第二图像特征之间的差异，对所述学生网络和所述教师网络进行联合训练，包括：

根据所述第一图像特征和所述第二图像特征之间的差异，生成学生网络的第一损失函数，根据第一损失函数对所述学生网络中的各模型参数进行调整；

根据调整后的所述学生网络中的各模型参数，对所述教师网络中对应模型参数进行调整。

2.根据权利要求1所述的方法，其特征在于，所述增强处理中包括颜色增强处理和/或高斯模糊处理，所述从所述第二图像中提取与所述第一感兴趣区域对应的第二感兴趣区域，包括：

根据所述至少一个第三感兴趣区域在所述热力图中的第一位置，从所述第二图像中提取与各所述第一位置匹配的第二感兴趣区域。

3.根据权利要求1所述的方法，其特征在于，所述增强处理中包括平移处理；

所述从所述第二图像中提取与所述第一感兴趣区域对应的第二感兴趣区域，包括：

根据设定的平移距离和所述第一位置，确定所述第二感兴趣区域对应的第二位置；其中，所述平移距离是根据所述增强处理导致所述第一图像中像素点相对所述第二图像中对应像素点之间的距离差异确定的；

根据所述第二位置，从所述第二图像中提取与所述第二位置匹配的第二感兴趣区域。

4.根据权利要求1所述的方法，其特征在于，所述根据所述热力图中各所述像素点的响应值，从所述热力图中确定至少一个第三感兴趣区域，包括：

根据所述热力图中各所述像素点的响应值，从各所述像素点中确定至少一个目标像素点；其中，所述目标像素点的响应值高于设定阈值；

从所述热力图中确定至少一个第三感兴趣区域，其中，所述第三感兴趣区域是以所述目标像素点为中心的区域。

5.根据权利要求4所述的方法，其特征在于，所述根据调整后的所述学生网络中的各模型参数，对所述教师网络中对应模型参数进行调整，包括：

针对所述调整后的学生网络中的任一模型参数，确定本次调整的目标调整值；

查询所述任一模型参数对应的多个历史调整值；

根据所述目标调整值和所述多个历史调整值，对所述教师网络中与所述任一模型参数对应的模型参数进行调整。

6.一种特征提取方法，其特征在于，所述方法包括：

获取车载摄像头采集的待识别图像；

采用如权利要求1-5中任一项所述的方法所训练得到的学生网络对所述待识别图像进行特征提取，或者，采用如权利要求1-5中任一项所述的方法所训练得到的教师网络对所述待识别图像进行特征提取，以得到所述待识别图像的图像特征。

7.一种模型训练装置，其特征在于，所述装置包括：

第二获取模块，用于对所述第一图像进行增强处理，以得到第二图像，并从所述第二图像中提取与所述第一感兴趣区域对应的第二感兴趣区域，其中，第一感兴趣区域与第二感兴趣区域中包括相同的对象；

训练模块，用于根据所述第一图像特征和所述第二图像特征之间的差异，对所述学生网络和所述教师网络进行联合训练；

还包括：

第一掩码模块，用于对所述第一感兴趣区域中的至少一个子区域进行掩码，以得到掩码后的第一感兴趣区域；

第一预测模块，用于采用所述学生网络对所述掩码后的第一感兴趣区域进行图像预测，以得到预测图像；

第一调整模块，用于根据所述预测图像和所述第一感兴趣区域之间的差异，生成学生网络的第二损失函数，根据第二损失函数对所述学生网络中的模型参数进行调整；

所述第一获取模块，用于：

其中，所述增强处理中包括缩放处理；

所述第二获取模块，用于：

根据所述第三位置，从所述第二图像中确定与所述第三位置匹配的第二感兴趣区域，其中，第一感兴趣区域的尺寸与第二感兴趣区域的尺寸不同；

所述训练模块，用于：

8.根据权利要求7所述的装置，其特征在于，所述增强处理中包括颜色增强处理和/或高斯模糊处理，所述第二获取模块，用于：

9.根据权利要求7所述的装置，其特征在于，所述增强处理中包括平移处理；

所述第二获取模块，用于：

10.根据权利要求7所述的装置，其特征在于，所述第一获取模块，用于：

11.根据权利要求7所述的装置，其特征在于，所述训练模块，用于：

查询所述任一模型参数对应的多个历史调整值；

12.一种特征提取装置，其特征在于，所述装置包括：

获取模块，用于获取车载摄像头采集的待识别图像；

提取模块，用于采用如权利要求7-11中任一项所述的装置所训练得到的学生网络对所述待识别图像进行特征提取，或者，采用如权利要求7-11中任一项所述的装置所训练得到的教师网络对所述待识别图像进行特征提取，以得到所述待识别图像的图像特征。

13.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器的可执行指令的存储器；其中，所述处理器被配置为调用并执行所述存储器存储的可执行指令，以实现如权利要求1-5中任一项所述的模型训练方法，或者，实现如权利要求6所述的特征提取方法。

14.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-5中任一所述的模型训练方法，或者，实现如权利要求6所述的特征提取方法。