CN117708726B

CN117708726B - 网络模型解耦的开集合类别训练方法、装置及其存储介质

Info

Publication number: CN117708726B
Application number: CN202410161844.8A
Authority: CN
Inventors: 曾钦勇; 尹小杰; 周菡
Original assignee: Chengdu Haofu Technology Co ltd
Current assignee: Chengdu Haofu Technology Co ltd
Priority date: 2024-02-05
Filing date: 2024-02-05
Publication date: 2024-04-16
Anticipated expiration: 2044-02-05
Also published as: CN117708726A

Abstract

本发明涉及深度学习技术领域，公开了一种网络模型解耦的开集合类别训练方法、装置及其存储介质，所述多任务模型包括骨干网络，所述方法包括：通过对多任务模型的骨干网络进行数次解耦来获取输入图片的特征信息，该特征信息包括解耦分离出的浅层、较深层和深层的特征信息；依据所述多任务模型得到的特征信息进行推理判断方法；本发明能够获取到模型的不同层次信息，将同个目标划分出多个特征并对应到模型的深层浅层，将多个特征结合后在能判断出已训练类别的同时更有利于判断未经训练的类别；该发明可以运用于交通场景中，对获取的图片进行分析，有助于实现车辆信息的精确判断。

Description

网络模型解耦的开集合类别训练方法、装置及其存储介质

技术领域

本发明涉及深度学习技术领域，具体讲是网络模型解耦的开集合类别训练方法、装置及其存储介质。

背景技术

通用的分类模型，大多为固定类别，如新增推理类别则需要对模型再次训练，不利于开发者的维护以及使用者在不确定类别情况下的使用。对于开集合任务类别来说，模型应具备更多的泛化性和较精确的识别能力，而固定类别的推理则不具备这种泛化能力，如在一些交通复杂的场景中对于未训练过的车辆无法进行识别。

目前现有的绝大部分模型都是由backbone（骨干网络）、neck（颈部网络）、head（头部网络）三个部分组成，backbone进行特征提取，neck进行特征融合，head进行检测，大多数网络的backbone在进行多任务学习时采用的都是从一而终的共享权重，而开集合类别往往需要更多不同方向（如颜色，形状，以及一些抽象）的特征信息，而在训练过程中，不同方向的特征信息在训练过程中会相互影响，导致训练过程不佳，造成误检较多。

发明内容

因此，为了解决上述不足，本发明在此提供一种网络模型解耦的开集合类别训练方法、装置及其存储介质，所述训练方法是基于多任务模型解耦，能够获取到模型的不同层次信息，将同个目标划分出多个特征并对应到模型的深层浅层，将多个特征结合后在能判断出已训练类别的同时更有利于判断未经训练的类别。

第一方面，本发明提供了一种网络模型解耦的开集合类别训练方法，所述网络模型为至少包括backbone（骨干网络）的多任务模型，该方法包括：

通过对多任务模型的backbone进行数次解耦来获取输入图片的特征信息，该特征信息包括解耦分离出的浅层、较深层和深层的特征信息；

依据所述多任务模型得到的特征信息进行推理判断。

通过上述技术特征能够获取到模型的不同层次信息，将同个目标划分出多个特征并对应到网络的深层浅层，再将特征信息进行推理判断，不同层次信息在解耦后训练阶段梯度不互相影响，提高了模型的学习能力。

可选的，通过对多任务模型的backbone进行数次解耦来获取输入图片的特征信息的方法是：

对多任务模型的backbone经过多次block（算法块）计算，从而分别解耦分离出浅层、较深层的特征信息，并在多任务模型的最后block后得到深层的特征信息。

通过多次调用block,能够更好的获取到不同层次的特征信息，对不同方向的特征学习效果更好，提高了模型精度。

可选的，上述解耦的次数取决于任务的个数和需要学习的方向；其中block的调用次数根据任务的复杂程度以及部署时对多任务模型参数的限制进行确定。

可选的，所述推理判断的方法是：

将被对比图片与对比图片预处理后分别送入多任务模型进行推理，得到被对比图片的特征信息及对比图片的特征信息；

依据不同需要，分别对所述浅层、较深层和深层的特征信息预设阈值；

索引取出被对比图片的所述浅层、较深层和深层的特征信息及对比图片的所述浅层、较深层和深层的特征信息，并依次进行相似度对比；

通过相似度对比得到被对比图片的所述浅层、较深层和深层的特征信息与对比图片的所述浅层、较深层和深层的特征信息的方向相似度值，将多个任务及方向相似度值与预设阈值的阈值依次对比，得到多个bool型矩阵；

将多个bool型矩阵转换为float类型，再将多个矩阵的值进行对位相加；

根据对位相加的值判断多个任务及方向的多任务模型输出是否为同一物体。

上述技术特征在基于提取多层特征信息后，能够更好的进行推理判断，将同个目标划分出多个特征并对应到模型的相应层，将多个特征结合后在能判断出已训练类别的同时更有利于判断未经训练的类别。

可选的，判断多个任务及方向的多任务模型输出是否为同一物体的方法是：

当对位相加的值等于任务方向的个数，则为同一类物体；

若存在多个物体皆满足对位相加的值等于任务方向的个数，取最大相似度的物体。

可选的，所述相似度对比的方法包括但不限于欧氏距离和余弦相似度。

所述网络模型解耦的开集合类别训练方法的技术原理是：将不同方向的信息单独分离出去从而进行不同方向的学习，因为浅层网络提取的特征和输入比较接近，且浅层网络的感受野较小，包含更多的像素点信息，分辨率也高，更有利于识别一些局部特征明显的信息（如颜色，纹理，边缘等）。

较深层网络即有一部分局部信息，又包含部分局部和整体信息之间的关联，更有利于识别轮廓信息。

深层网络随着感受野的增加，提取的特征包含的是更抽象的信息，即语义信息，获取的是图像整体的信息。

第二方面，本发明提供了一种网络模型解耦的开集合类别训练方法的装置，包括：

训练信息获取模块，用于通过对多任务模型的backbone进行解耦来获取特征训练的训练信息，该训练信息包括解耦分离出的浅层、较深层和深层的特征信息；

推理模块，用于将所述多任务模型得到的多个任务及方向特征信息与所述训练信息进行推理。

第三方面，本发明提供了一种存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现所述网络模型解耦的开集合类别训练方法。

本发明具有如下优点：

本发明能够获取到了网络的不同层次信息后，将同个目标划分出多个特征并对应到网络的深层浅层，再将多个特征结合后在能判断出已训练类别的同时更有利于判断未经训练的类别，并且解决了现有技术中由于不同方向的特征信息在训练过程中会相互影响，导致训练过程不佳，造成误检较多的问题，该发明可以运用于交通场景中，对获取的图片进行分析，有助于实现车辆信息的精确判断。

附图说明

图1是本发明所述网络模型解耦的开集合类别训练方法的流程示意图；

图2是本发明所述基于多任务模型解耦的开集合类别训练装置的结构性框图；

图中：100、训练信息获取模块；200、推理模块。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。

如背景技术中所述，目前现有的绝大部分模型都是由backbone（骨干网络）、neck（颈部网络）、head（头部网络）三个部分组成，backbone进行特征提取，neck进行特征融合，head进行检测，大多数网络的backbone在进行多任务学习时采用的都是从一而终的共享权重，而开集合类别往往需要更多不同方向（如颜色，形状，以及一些抽象）的特征信息，而在训练过程中，不同方向的特征信息在训练过程中会相互影响，导致训练过程不佳，造成误检较多。

基于上述原因，如图1所示，实施例提供了一种网络模型解耦的开集合类别训练方法，应用于交通场景中，所述网络模型为至少包括backbone（骨干网络）的多任务模型，该方法包括：

步骤S100、通过对多任务模型的backbone经过多次调用block（算法块）解耦出输入图片的特征信息，该特征信息包括解耦分离出的浅层、较深层和深层的特征信息。

所述深层的特征信息是在模型的最后block后得到，其中解耦的次数主要取决于任务的个数和需要学习的方向，block的调用次数可根据任务的复杂程度以及部署时对多任务模型参数的限制进行调整，例如：在交通场景中，对车辆的识别（如车辆的颜色，形状以及细节特征的解耦），第一层（即浅层特征信息）可用于识别车辆颜色（明显特征，不限于颜色），第二层（即较深层特征信息）可用于识别车辆类型（轿车，货车等），第三层（即深层特征信息）可用于识别车辆整体信息（车辆更加具体的信息），这三层信息在解耦后训练阶段梯度不互相影响，提高了模型的学习能力，有助于实现车辆信息的精确判断。

步骤S200、依据所述多任务模型得到的特征信息进行推理判断。

上述技术特征的技术原理是：将不同方向的信息单独分离出去从而进行不同方向的学习，因为浅层网络提取的特征和输入比较接近，且浅层网络的感受野较小，包含更多的像素点信息，分辨率也高，更有利于识别一些局部特征明显的信息（如颜色，纹理，边缘等）。

通过上述技术特征能够获取到模型的不同层次信息，将同个目标划分出多个特征并对应到网络的深层浅层，再将特征信息进行推理判断，不同层次信息在解耦后训练阶段梯度不互相影响，提高了模型的学习能力。同时单一物体或多个物体的分类、回归任务，在解耦训练中对不同任务及方向更细力度的获取特征训练的信息，使对不同方向的特征学习效果更好，提高了模型精度。

在一实施例中，步骤S200中所述推理判断的方法是：

推理（训练）过程中对不同任务及方向的标签和网络输出做损失并累计总损失，将被对比图片与对比图片预处理后分别送入多任务模型进行推理，得到被对比图片的特征信息及对比图片的特征信息；

索引取出被对比图片的所述浅层、较深层和深层的特征信息及对比图片的所述浅层、较深层和深层的特征信息，并依次进行相似度对比（对比方法包括但不限于欧氏距离，余弦相似度）；

将多个bool型矩阵并通过+0.0转bool类型为float类型，再将多个矩阵的值进行对位相加；

当对位相加的值等于任务方向的个数，则为同一类物体；

通过上述技术特征能够更好的进行推理判断，将同个目标划分出多个特征并对应到模型的相应层，将多个特征结合后在能判断出已训练类别的同时更有利于判断未经训练的类别。

在另一实施例中，本发明提供了一种网络模型解耦的开集合类别训练方法的装置，如图2所示，该装置包括：

训练信息获取模块100，用于通过对多任务模型的backbone进行解耦来获取特征训练的训练信息，该训练信息包括解耦分离出的浅层、较深层和深层的特征信息；

推理模块200，用于将所述多任务模型得到的多个任务及方向特征信息与所述训练信息进行推理。

需要说明的是，在上述实施例中，各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其它实施例的相关描述。

本领域的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可读程序代码的计算机可读存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或者其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本申请实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如上的网络模型解耦的开集合类别训练方法。

所述新增任务的多任务模型训练装置/终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。

其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random AccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是，所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减，例如在某些司法管辖区，根据立法和专利实践，计算机可读介质不包括电载波信号和电信信号。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分，仅仅为一种逻辑功能划分﹐实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。以上实施例仅用以说明本申请的技术方案,而非对其限制；尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种网络模型解耦的开集合类别训练方法，所述网络模型为至少包括骨干网络的多任务模型，其特征在于，该方法包括：

通过对多任务模型的骨干网络进行数次解耦来获取输入图片的特征信息，该特征信息包括解耦分离出的浅层、较深层和深层的特征信息；

依据所述多任务模型得到的特征信息进行推理判断；

所述推理判断的方法是：

2.根据权利要求1所述网络模型解耦的开集合类别训练方法，其特征在于，通过对多任务模型的骨干网络进行数次解耦来获取输入图片的特征信息的方法是：

对多任务模型的骨干网络经过多次算法块计算，从而分别解耦分离出浅层、较深层的特征信息，并在多任务模型的最后算法块计算后得到深层的特征信息。

3.根据权利要求1所述网络模型解耦的开集合类别训练方法，其特征在于，判断多个任务及方向的多任务模型输出是否为同一物体的方法是：

当对位相加的值等于任务方向的个数，则为同一类物体；

4.根据权利要求1所述网络模型解耦的开集合类别训练方法，其特征在于：在对多任务模型的推理过程中对不同任务及方向的标签和多任务模型输出做损失并累计总损失。

5.根据权利要求1所述网络模型解耦的开集合类别训练方法，其特征在于：所述相似度对比的方法包括但不限于欧氏距离和余弦相似度。

6.一种网络模型解耦的开集合类别训练方法的装置，其特征在于，包括：

训练信息获取模块，用于通过对多任务模型的骨干网络进行解耦来获取特征训练的训练信息，该训练信息包括解耦分离出的浅层、较深层和深层的特征信息；和

推理模块，用于将所述多任务模型得到的多个任务及方向特征信息与所述训练信息进行推理，推理判断的方法是：

7.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-4任一项所述网络模型解耦的开集合类别训练方法。