CN115984547A

CN115984547A - 目标检测模型、训练方法及系统、目标检测方法及系统

Info

Publication number: CN115984547A
Application number: CN202310023892.6A
Authority: CN
Inventors: 请求不公布姓名; 梁鸿; 项载尉; 周颖超
Original assignee: Hunan Shibite Robot Co Ltd
Current assignee: Hunan Shibite Robot Co Ltd
Priority date: 2022-12-05
Filing date: 2023-01-09
Publication date: 2023-04-18

Abstract

本发明公开了目标检测模型、训练方法及系统、目标检测方法及系统，包括：获取已知场景A的已标注目标信息的数据集DA；获取新场景B的未标注目标信息的数据集DB；基于场景B的背景图和已知的目标图片生成标注有目标信息的数据集DC；获取DA的样本X_a及标签Y_a，DB的样本X_b，DC的样本X_c及标签Y_c；将X_a、X_b、X_c输入特征提取网络C_f提取得到特征f_a、f_b、f_c；获取目标检测损失L_det、分类损失L_adv；融合L_det和L_adv，获取总损失；优化网络直至总损失收敛。本发明通过少量新场景的背景图片、少量新场景的无标注图片和已知场景的标注图片，就可以对新场景进行设配，获得适用于新场景的目标检测模型，解决跨场景的目标物体检测问题，检测效果好，人工成本低。

Description

目标检测模型、训练方法及系统、目标检测方法及系统

技术领域

本发明涉及机器学习技术领域，特别涉及一种目标检测模型、训练方法及系统、目标检测方法及系统。

背景技术

现有针对领域迁移的目标检测算法中，主要有基于特征对抗的算法、基于均值教师网络训练和基于对抗生成网络等方法。

特征对抗方法，主要通过学习不同领域的数据特征，通过反向梯度等方法优化特征，提取跨领域通用的特征，从而实现不同领域之间的迁移。

均值教师网络主要靠在源数据域的教师网络提供监督，新数据域的学生模型同时学习教师网络的输出和有标签数据。

对抗生成主要通过不同领域之间做数据生成，从而实现模型适应不同领域。

但是，在很多实际工业场景中，经常会遇到数据不足的问题。比如，我们有初始A工厂的大量标注数据，但是新工厂B还未生产，只有少量无标注数据。由于缺少数据，利用上述现有的三种方法训练目标检测模型和检测目标，目标检测效果都不理想。

发明内容

为解决现有技术中数据缺少的情况下训练获得的目标检测模型检测效果不好的不足，本发明提供了一种目标检测模型、训练方法及系统、目标检测方法及系统，能够在新场景样本数据缺少的情况下，提升领域迁移的效果，大大提升目标检测效果。

为解决上述技术问题，本发明所采用的技术方案是：

一种目标检测模型训练方法，其特点是包括以下步骤：

步骤1，获取已知场景A的已标注目标信息的图片数据集DA；

步骤2，获取新场景B的没有标注目标信息的图片数据集DB；

步骤3，基于场景B的背景图和已知的目标图片生成标注有目标信息的图片数据集DC；

步骤4，采样获取DA的样本X_a及对应的带有目标信息的标签Y_a，DB的样本X_b，DC的样本X_c及对应的带有目标信息的标签Y_c；

步骤5，将X_a、X_b、X_c输入特征提取网络C_f提取得到对应的特征f_a、f_b、f_c；

步骤6，基于f_a、f_c、位置预测网络C_loc、类别预测网络C_cls、Y_a和Y_c，获取目标检测损失L_det；

步骤7，基于f_a、f_b和分类网络C_adv，获取分类损失L_adv；

步骤8，融合L_det和L_adv，获取总损失L_total；

步骤9，优化所述特征提取网络C_f、位置预测网络C_loc和类别预测网络C_cls，直至总损失L_total收敛。

作为一种优选方式，所述步骤3中，基于类比生成算法，利用场景B的背景图和已知的目标图片生成标注有目标信息的图片数据集DC。

作为一种优选方式，所述步骤3中，图片数据集DC中的数据获取过程包括：

步骤301，将已知的目标图片转换为二值图；

步骤302，获取已知场景A的原图，目标与背景分割结果图；

步骤303，获取新场景B的背景图；

步骤304，基于场景B的背景图和随机抽取的二值图做掩模处理，得到包括背景和对应的待填充掩模区域的图；

步骤305，基于步骤302的获取信息，根据类比生成算法，填充步骤304输出图中待填充掩模区域；

步骤306，对每个待填充掩模区域，取最大外接矩形作为目标检测的标注物体框，并用生成的图作为数据集DC中的数据。

作为一种优选方式，所述步骤6包括：

步骤601，将f_a、f_c输入位置预测网络C_loc和类别预测网络C_cls，得到对应的目标位置信息r_loc和目标类别信息r_cls；

步骤602，基于r_loc、r_cls、Y_a和Y_c，计算目标检测位置信息损失和目标检测类型信息损失；

步骤603，计算目标检测位置信息损失和目标检测类型信息损失之和，并将该和作为目标检测损失L_det。

作为一种优选方式，所述步骤7包括：

步骤701，将f_a、f_b输入分类网络C_adv，得到对应的目标预测类别r_a、r_b；

步骤702，计算目标分类损失L_adv，其中，L_adv＝-log(r_a)-log(1-r_b)。

作为一种优选方式，所述步骤8中，L_total＝αL_det+βL_adv，其中，α、β为预设的权值。

基于同一个发明构思，本发明还提供了一种目标检测模型训练系统，其特点是包括：

第一获取模块：用于获取已知场景A的已标注目标信息的图片数据集DA；

第二获取模块：用于获取新场景B的没有标注目标信息的图片数据集DB；

第三获取模块：用于基于场景B的背景图和已知的目标图片生成标注有目标信息的图片数据集DC；

采样模块：用于采样获取DA的样本X_a及对应的带有目标信息的标签Y_a，DB的样本X_b，DC的样本X_c及对应的带有目标信息的标签Y_c；

特征提取模块：用于将X_a、X_b、X_c输入特征提取网络C_f提取得到对应的特征f_a、f_b、f_c；

目标检测损失获取模块：用于基于f_a、f_c、位置预测网络C_loc、类别预测网络C_cls、Y_a和Y_c，获取目标检测损失L_det；

分类损失获取模块：用于基于f_a、f_b和分类网络C_adv，获取分类损失L_adv；

总损失获取模块：用于融合L_det和L_adv以获取总损失L_total；

模型优化模块：用于优化所述特征提取网络C_f、位置预测网络C_loc和类别预测网络C_cls，直至总损失L_total收敛。

基于同一个发明构思，本发明还提供了一种目标检测模型，包括特征提取网络C_f、位置预测网络C_loc和类别预测网络C_cls，其特点是所述特征提取网络C_f、位置预测网络C_loc和类别预测网络C_cls通过所述的目标检测模型训练方法优化后获得。

基于同一个发明构思，本发明还提供了一种目标检测方法，其特点是利用所述的目标检测模型对待检测图片进行目标检测。

基于同一个发明构思，本发明还提供了一种目标检测系统，其特点是包括图像采集单元和所述的目标检测模型，其中：

图像采集单元：用于采集待检测图片；

目标检测模型：用于对待检测图片检测识别以输出目标检测结果。

与现有技术相比，本发明通过少量新场景的背景图片、少量新场景的无标注图片和已知场景的标注图片，就可以对新场景进行设配，本发明基于对抗学习和样本生成获得适用于新场景的跨领域目标检测模型，解决跨场景的目标物体检测问题，检测效果好，人工成本低。

附图说明

图1为本发明目标检测模型训练方法一实施例流程图。

图2为零部件图片一样例。

图3为已知场景A的原图一样例。

图4为新场景B的背景图一样例。

图5为新场景B的生成图一样例。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

在针对零部件等目标检测场景中，在新场景样本数据缺少的条件下，利用已知场景的标注数据集和少量新场景的无标注数据，如何完成目标检测模型的迁移，是本发明所要解决的主要技术问题。本发明通过少量新场景的背景图片、少量新场景的无标注图片和已知场景的标注图片，就可以对新场景进行设配，获得适用于新场景的检测效果好的目标检测模型，可用于各种新场景的目标物体检测。

如图1所示，本发明所述的目标检测模型训练方法一实施例包括以下步骤：

步骤1，获取已知场景A的已标注目标信息的图片数据集DA。数据集DA中，包括大量已知场景A的已标注出目标信息(如工厂零部件)的带已知场景A背景信息的图片，其中，目标信息可以采用人工标注，也可以采用其它方法标注，在此不做限定。

步骤2，获取新场景B的没有标注目标信息的图片数据集DB。数据集DB中，包括少量新场景B的没有标注出目标信息的带新场景B背景信息的图片。

步骤3，基于场景B的少量背景图和已知的大量目标图片生成大量融合图构建生成标注有目标信息的图片数据集DC。

在某些实施例中，所述步骤3中，基于类比生成算法，利用场景B的少量背景图和已知的大量目标图片生成大量标注有目标信息的图片数据集DC。所述步骤3具体包括：

步骤301，将已知的目标图片转换为二值图。当待检测目标为零部件时，步骤301具体为将各种形状的零部件图片转换为二值图。图2为零部件图片一样例。

步骤302，获取已知场景A的原图，目标与背景分割结果图。图3为已知场景A的原图一样例。

步骤303，获取新场景B的背景图。图4为新场景B的背景图一样例。

步骤304，基于场景B的少量背景图和随机抽取的零部件形状二值图做mask(掩模)处理，得到包括背景和对应的待填充掩模区域的图。

步骤305，基于步骤302的获取信息，根据类比生成算法，填充步骤304输出图中mask所表示的待填充掩模区域。其中，类比生成算法可直接引用现有算法，如，可以采用公开号为CN102646271A中公开的基于CUDA的快速图像类比合成方法，也可以采用其它已有算法，在此不做限定。

步骤306，对每个待填充掩模区域，取最大外接矩形作为目标检测的标注物体框，并用生成的图作为数据集DC中的数据，作为训练用原图。图5为新场景B的生成图一样例。

重复步骤304～步骤306，直到获得足量的生成图片和标注结果。

随后，即可针对三个来源的图片数据集，融合目标检测和对抗特征训练网络模型。

具体细节如下：

步骤4，采样获取DA的样本X_a及对应的带有目标信息的标签Y_a，DB的样本X_b，DC的样本X_c及对应的带有目标信息的标签Y_c。

步骤5，将X_a、X_b、X_c输入特征提取网络C_f提取得到对应的特征f_a、f_b、f_c。在一些实施例中，特征提取网络C_f可以直接使用vgg，resnet等通用的特征提取网络，也可以采用其它特征提取网络，在此不做限定。

步骤6，基于f_a、f_c、位置预测网络C_loc、类别预测网络C_cls、Y_a和Y_c，获取目标检测损失L_det。

在一些实施例中，所述步骤6包括：

步骤601，将有标签的样本X_a、X_c的特征f_a、f_c分别输入位置预测网络C_loc和类别预测网络C_cls，分别得到对应的目标位置信息r_loc和目标类别信息r_cls。在一些实施例中，位置预测网络C_loc和类别预测网络C_cls两个子网络模块由多个卷积叠加组建。

步骤602，基于r_loc、r_cls、Y_a和Y_c，计算目标检测位置信息损失L_loc(r_loc,Y)和目标检测类型信息损失L_cls(r_cls,Y)。

步骤603，计算目标检测位置信息损失和目标检测类型信息损失之和，并将该和作为目标检测损失L_det。具体地，目标检测损失L_det＝L_loc(r_loc,Y)+L_cls(r_cls,Y)。其中，L_loc(r_loc,Y)可以用通用的L2或者SmothL1计算，L_cls(r_cls,Y)采用交叉熵计算。由于数据X_a来自源数据域，通过它可以指导网络学习源数据域的目标检测，X_c的样本来自虚拟生成，结合了源数据域和目标数据域的特点，可以让网络有一定的迁移能力，适配两个数据域的数据。

步骤7，计算不同领域的对抗特征损失：基于f_a、f_b和分类网络C_adv，获取分类损失L_adv。

在一些实施例中，所述步骤7包括：

步骤701，设置源数据域的样本X_a的标签为1，目标数据域的样本X_b的标签为0。标签为1表示对应的数据来源是源数据域，标签为0表示对应的数据来源是目标数据域。将f_a、f_b输入分类网络C_adv，得到对应的目标预测类别r_a、r_b。

步骤702，计算目标分类损失L_adv，其中，L_adv＝-log(r_a)-log(1-r_b)。由于X_a、X_b来自两个不同的数据域，正常的分类损失，可以让特征提取网络更好地区分不同数据域，而对抗特征学习，对原分类损失取负，将使得特征提取网络提取的特征不再关心数据域，得到跨数据域的通用特征。

步骤8，融合L_det和L_adv，获取总损失L_total。

在一些实施例中，所述步骤8中，L_total＝αL_det+βL_adv，其中，α、β为预设的用于平衡检测和对抗特征的权值，在本实施例中，α、β均默认设置为1，可以根据需要调整大小。

步骤9，采用随机梯度优化方法等方法优化所述特征提取网络C_f、位置预测网络C_loc和类别预测网络C_cls，直至总损失L_total收敛。

本发明中，目标检测部分的网络还可以切换为任意其他目标检测网络，比如YOLO，FasterRCNN等。

本发明还提供了一种跨领域目标检测模型训练系统，包括：

总损失获取模块：用于融合L_det和L_adv以获取总损失L_total；

本发明还提供了一种目标检测模型，具体为基于对抗学习和样本生成的跨领域目标检测模型，包括特征提取网络C_f、位置预测网络C_loc和类别预测网络C_cls，所述特征提取网络C_f、位置预测网络C_loc和类别预测网络C_cls通过所述的目标检测模型训练方法优化后获得。

本发明还提供了一种目标检测方法，其利用所述的目标检测模型对待检测图片进行目标检测。

本发明还提供了一种目标检测系统，其包括图像采集单元和所述的目标检测模型，其中：

图像采集单元：用于采集待检测图片；

本发明通过融合特征对抗和类比生成图片，解决跨场景的目标物体检测，实现自适应领域迁移目标检测：

本发明能在具有少量新场景标注样本的条件下，根据已有部件结构图片，生成虚拟标注数据，大大提升检测效果；本发明通过融合对抗特征学习和3个类型的数据，无需对新场景数据标注，大大降低人工成本。

本发明可用于不同场景下的零部件检测模型优化，比如不同工厂环境下的物体检测，工厂的背景环境可以剧烈变化，但是检测的物体有一定的相似性，本发明可以通过对一个工厂采集充分的数据训练，扩展到不同工厂的物体检测。同样，本发明也可以应用到不同公路上的车辆检测，不同地域的行人检测等。

如表1所示，实验对比效果如下：

针对已知工厂收集的零部件数据集A，人工标注目标物体位置，数量10000张，分别构建训练和测试集A；对新的工厂收集数据集B，不标注，数量5000；再采集1800张，人工标注作为测试集B，利用新工厂的图片背景，生成虚拟的数据5000张。然后对比算法效果。

可以看到，利用原始目标检测模型，对于没有训练的测试集B，检测效果远远差于有标注的测试集A。通过加入对抗特征模块，测试集B的指标提升了9个点，有一定的效果。进一步，通过融合对抗特征模块和类比图片生成数据，整体效果提升接近40个点，同时对原测试集A也有9个点的提升，充分说明了本方法在目标检测的领域迁移上有很好的效果。

表1实验对比效果表

上述第一获取模块、第二获取模块、第三获取模块、采样模块、特征提取模块、目标检测损失获取模块、分类损失获取模块、总损失获取模块、模型优化模块用于实现上述目标检测模型训练方法。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述系统的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中，上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。另外，各功能单元、模块的具体名称也只是为了便于相互区分，并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述或记载的部分，可以参见其它实施例的相关描述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的实施例中，应该理解到，所揭露的方法和系统，可以通过其它的方式实现。例如，以上所描述的方法和系统实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种目标检测模型训练方法，其特征在于，包括以下步骤：

步骤1，获取已知场景A的已标注目标信息的图片数据集DA；

步骤2，获取新场景B的没有标注目标信息的图片数据集DB；

步骤7，基于f_a、f_b和分类网络C_adv，获取分类损失L_adv；

步骤8，融合L_det和L_adv，获取总损失L_total；

2.根据权利要求1所述的目标检测模型训练方法，其特征在于，所述步骤3中，基于类比生成算法，利用场景B的背景图和已知的目标图片生成标注有目标信息的图片数据集DC。

3.根据权利要求2所述的目标检测模型训练方法，其特征在于，所述步骤3中，图片数据集DC中的数据获取过程包括：

步骤301，将已知的目标图片转换为二值图；

步骤302，获取已知场景A的原图，目标与背景分割结果图；

步骤303，获取新场景B的背景图；

4.根据权利要求1至3任一项所述的目标检测模型训练方法，其特征在于，所述步骤6包括：

5.根据权利要求1至3任一项所述的目标检测模型训练方法，其特征在于，所述步骤7包括：

6.根据权利要求1至3任一项所述的目标检测模型训练方法，其特征在于，所述步骤8中，L_total＝αL_det+βL_adv，其中，α、β为预设的权值。

7.一种目标检测模型训练系统，其特征在于，包括：

总损失获取模块：用于融合L_det和L_adv以获取总损失L_total；

8.一种目标检测模型，包括特征提取网络C_f、位置预测网络C_loc和类别预测网络C_cls，其特征在于，所述特征提取网络C_f、位置预测网络C_loc和类别预测网络C_cls通过如权利要求1至6任一项所述的目标检测模型训练方法优化后获得。

9.一种目标检测方法，其特征在于，利用如权利要求8所述的目标检测模型对待检测图片进行目标检测。

10.一种目标检测系统，其特征在于，包括图像采集单元和如权利要求8所述的目标检测模型，其中：

图像采集单元：用于采集待检测图片；