CN116229211A

CN116229211A - 样本生成方法、模型训练方法、对象检测方法及装置

Info

Publication number: CN116229211A
Application number: CN202310215904.5A
Authority: CN
Inventors: 何斌; 王康康; 胡斌
Original assignee: Apollo Zhilian Beijing Technology Co Ltd
Current assignee: Apollo Zhilian Beijing Technology Co Ltd
Priority date: 2023-03-01
Filing date: 2023-03-01
Publication date: 2023-06-06

Abstract

本公开提供了一种样本生成方法、模型训练方法、对象检测方法及装置，涉及人工智能技术领域，尤其涉及图像处理、深度学习等领域。具体实现方案为：利用多个第一深度学习模型分别处理第一图像数据，得到针对第一图像数据的多个第一输出信息；其中，多个第一输出信息与多个第一深度学习模型一一对应，每个第一输出信息包括第一初始伪标签和第一初始伪标签的置信度；对多个第一输出信息中的至少两个第一输出信息进行融合处理，得到中间伪标签和中间伪标签的置信度；以及根据中间伪标签和中间伪标签的置信度，确定针对第一图像数据的第一标注信息，得到第一训练样本；第一标注信息包括第一标签和第一标签的置信度。

Description

样本生成方法、模型训练方法、对象检测方法及装置

技术领域

本公开涉及人工智能技术领域，尤其涉及图像处理、深度学习等领域，更具体地，本公开提供了一种生成训练样本的方法、深度学习模型的训练方法、对象检测方法、装置、电子设备、存储介质以及计算机程序产品。

背景技术

随着深度学习技术的发展，深度学习模型对训练样本的需求量越来越大。可以人工对数据进行标注和清洗，形成训练集，然后使用训练集中的训练样本对深度学习模型进行训练。然而人工标注数据存在成本高、效率低等问题。

发明内容

本公开提供了一种生成训练样本的方法、深度学习模型的训练方法、对象检测方法、装置、电子设备、存储介质以及计算机程序产品。

根据本公开的一方面，提供了一种生成训练样本的方法，包括：利用多个第一深度学习模型分别处理第一图像数据，得到针对第一图像数据的多个第一输出信息；其中，多个第一输出信息与多个第一深度学习模型一一对应，每个第一输出信息包括第一初始伪标签和第一初始伪标签的置信度；对多个第一输出信息中的至少两个第一输出信息进行融合处理，得到中间伪标签和中间伪标签的置信度；以及根据中间伪标签和中间伪标签的置信度，确定针对第一图像数据的第一标注信息，得到第一训练样本；第一标注信息包括第一标签和第一标签的置信度。

根据本公开的一方面，提供了一种深度学习模型的训练方法，包括：获取训练样本；以及利用训练样本训练第二深度学习模型；其中，训练样本是利用上述生成训练样本的方法得到的。

根据本公开的一方面，提供了一种对象检测方法，包括：获取第三图像数据；将第三图像数据输入第三深度学习模型，得到第三图像数据的第三输出信息，第三输出信息包括置信度，还包括以下中的至少一个：针对第三图像数据中目标对象的检测框和分类结果；其中，第三深度学习模型是利用上述深度学习模型的训练方法训练得到的。

根据本公开的另一方面，提供了一种生成训练样本的装置，包括：第一信息获得模块、融合模块和第一确定模块。第一信息获得模块用于利用多个第一深度学习模型分别处理第一图像数据，得到针对第一图像数据的多个第一输出信息；其中，多个第一输出信息与多个第一深度学习模型一一对应，每个第一输出信息包括第一初始伪标签和第一初始伪标签的置信度。融合模块用于对多个第一输出信息中的至少两个第一输出信息进行融合处理，得到中间伪标签和中间伪标签的置信度。第一确定模块用于根据中间伪标签和中间伪标签的置信度，确定针对第一图像数据的第一标注信息，得到第一训练样本；第一标注信息包括第一标签和第一标签的置信度。

根据本公开的另一方面，提供了一种深度学习模型的训练装置，包括：第一获取模块和训练模块。第一获取模块用于获取训练样本，其中，训练样本是利用生成训练样本的装置得到的。训练模块用于利用训练样本训练第二深度学习模型。

根据本公开的另一方面，提供了一种对象检测装置，包括：第二获取模块和第二信息获得模块。第二获取模块用于获取第三图像数据。第二信息获得模块用于将第三图像数据输入第三深度学习模型，得到第三图像数据的第三输出信息，第三输出信息包括置信度，还包括以下中的至少一个：针对第三图像数据中目标对象的检测框和分类结果。第三深度学习模型是利用上述深度学习模型的训练装置得到的。

根据本公开的另一个方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行本公开提供的方法。

根据本公开的另一个方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行本公开提供的方法。

根据本公开的另一个方面，提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现本公开提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开实施例的生成训练样本的方法和装置的应用场景示意图；

图2是根据本公开实施例的生成第一训练样本的方法的示意流程图；

图3是根据本公开实施例的生成训练样本的方法的示意原理图；

图4是根据本公开实施例的生成第二训练样本的方法的示意流程图；

图5是根据本公开实施例的深度学习模型的训练方法的示意流程图；

图6是根据本公开实施例的对象检测方法的示意流程图；

图7是根据本公开实施例的生成训练样本的装置的示意结构框图；

图8是根据本公开实施例的深度学习模型的训练装置的示意结构框图；

图9是根据本公开实施例的对象检测装置的示意结构框图；以及

图10是用来实施本公开实施例的样本生成方法、模型训练方法、对象检测方法的电子设备的结构框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本公开实施例的生成训练样本的方法和装置的应用场景示意图。

需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，该实施例的应用场景100可以包括电子设备110和服务器140。

该电子设备110可以为具有处理功能的任意电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机、台式计算机和服务器等等。电子设备110可以通过网络与服务器140通信连接，该网络可以包括无线或有线通信链路。

服务器140可以预先训练多个第一深度学习模型，电子设备110可以利用经训练的多个第一深度学习模型150来处理第一图像数据120，得到针对第一图像数据120的第一标注信息130，进而基于该第一图像数据120和第一标注信息130确定训练样本。

需要说明的是，本公开所提供的生成训练样本的方法和对象检测方法均可以由电子设备110或服务器140执行，本公开所提供的深度学习模型的训练方法可以由服务器140执行。

相应地，本公开所提供的生成训练样本的装置和对象检测装置可以设置于电子设备110或服务器140中，本公开所提供的深度学习模型的训练装置可以设置于服务器140中。

应该理解，图1中的电子设备和服务器的数目和类型仅仅是示意性的。根据实现需要，可以具有任意数目和类型的电子设备、服务器和数据库。

图2是根据本公开实施例的生成第一训练样本的方法的示意流程图。

如图2所示，该生成训练样本的方法200可以包括操作S210～操作S240。

在操作S210，利用多个第一深度学习模型分别处理第一图像数据，得到针对第一图像数据的多个第一输出信息；其中，多个第一输出信息与多个第一深度学习模型一一对应，每个第一输出信息包括第一初始伪标签和第一初始伪标签的置信度。

例如，多个第一深度学习模型是预先训练的，第一深度学习模型可以用于对图像数据进行分类、目标检测等任务。第一深度学习模型可以采用CNN(卷积神经网络，Convolutional Neural Network)、Transformer等，本实施例对第一深度学习模型的结构不做限定。此外，可以理解的是，多个第一深度学习模型彼此之间存在差异，例如深度学习模型的结构、参数等彼此不同。

例如，第一图像的数量可以是1个，也可以是N个，N是大于等于2的整数。例如，第一图像数据可以是有标签数据，也可以是无标签数据。

例如，可以将第一图像数据输入某个第一深度学习模型，该第一深度学习输出第一输出信息，第一输出信息中的第一初始伪标签可以包括检测框的位置信息、类别等信息。

在操作S220，对多个第一输出信息中的至少两个第一输出信息进行融合处理，得到中间伪标签和中间伪标签的置信度。

例如，可以基于多个第一输出信息中的至少一个第一输出信息来确定中间伪标签和中间伪标签的置信度。

例如，可以将多个第一输出信息中与最高置信度对应的第一初始伪标签确定为中间伪标签，将最高置信度确定为中间伪标签的置信度。

例如，可以对多个第一输出信息中的置信度按照从高至低的顺序进行排序，可以预先设置k的数值，k是大于等于2的整数，若k小于等于第一输出信息的数量，则可以从多个第一输出信息中选择top k个第一输出信息，并对k个第一输出信息进行融合处理。若k大于第一输出信息的数量，则可以对全部第一输出信息进行融合处理。基于置信度的排序，可以从多个第一输出信息中，将第一深度学习模型评估出的较为可信的第一输出信息选择出来，从而提高中间伪标签和置信度的准确性。

例如，融合处理可以包括：针对选择出的至少两个第一输出信息，可以将其中的第一初始伪标签的平均值确定为中间伪标签，将置信度的平均值确定为中间伪标签的置信度。

在操作S230，根据中间伪标签和中间伪标签的置信度，确定针对第一图像数据的第一标注信息，得到第一训练样本；第一标注信息包括第一标签和第一标签的置信度。

例如，可以将中间伪标签和中间伪标签的置信度，分别确定为第一标签和第一标签的置信度。

本公开实施例可以利用多个第一深度学习模型来得到针对同一个第一图像数据的多个第一输出信息，然后基于这些第一输出信息来确定第一图像数据的标注信息，将第一图像数据和标注信息组合即可得到第一训练样本。可以看出，由于上述过程无需人工对训练样本进行标注，从而降低了人工成本，提高了标注效率。

此外，由于在处理过程中，还基于该多个第一输出信息中的至少两个第一输出信息来进行融合处理，而非根据某一个第一输出信息来确定融合后的中间伪标签，因此中间伪标签可以体现至少两个第一深度学习对第一图像数据的评估结果，缓解由于单个第一深度学习输出的第一输出信息不准确而造成第一标注信息错误的问题。

图3是根据本公开实施例的生成训练样本的方法的示意原理图。

以第一深度学习模型用于进行目标检测任务为例，本实施例中的生成训练样本的方法可以包括预处理阶段和融合阶段，还可以包括数据清洗阶段和样本扩充阶段。

在预处理阶段，可以利用多个第一深度学习模型302分别处理第一图像数据301，得到针对第一图像数据301的多个第一输出信息303，每个第一输出信息303包括第一初始伪标签和第一初始伪标签的置信度。

例如，使用多个第一深度学习模型302对当前输入的第一图像数据301进行处理，针对第一图像数据中的同一个目标对象，多个第一深度学习模型302可以输出不同的检测框、与检测框对应的分类结果和置信度，置信度可以表征检测框中的目标对象属于特定类别的概率。

在融合阶段，可以对多个第一输出信息303中的至少两个第一输出信息303进行融合处理，得到中间伪标签304和中间伪标签304的置信度305。融合处理的具体过程在下文进行说明，在此不再赘述。

接下来，在完成融合阶段之后，可以根据第一图像数据301是否对应有原始标签306的置信度307，来采用不同的处理方法。

例如，若第一图像数据为无标签数据，则可以省略数据清洗阶段，并直接将融合阶段的得到中间伪标签和中间伪标签的置信度，分别确定为第一标签和第一标签的置信度，从而得到第一训练样本。

例如，若第一图像数据301为有标签数据，则可以进入数据清洗阶段，数据清洗阶段可以进一步根据中间伪标签304、中间伪标签304的置信度305、原始标签306和原始标签306的置信度307的置信度，来确定第一标注信息308，从而将第一图像数据301和第一标注信息308组合为第一训练样本。数据清洗阶段的处理过程在下文进行说明，在此不再赘述。

可以看出，通过上述方式，无论第一图像数据为无标签数据，还是有标签数据，均可以得到针对该第一图像数据的第一标注信息。

在得到第一标注信息之后，可以根据第一标注信息的数据分布，来确定是否进入样本扩充阶段。样本扩充阶段的处理过程在下文进行说明，在此不再赘述。

以下对上文融合阶段所涉及的融合处理操作进行说明。

在一些实施例中，上述融合处理可以包括：针对至少两个第一输出信息中第一初始伪标签包含的多个检测框，基于多个检测框各自的位置信息和尺寸信息，确定中间伪标签中的检测框位置信息。例如，根据多个检测框的目标点坐标、长度、宽度分别进行加权平均处理得到的加权平均值，确定融合信息中的检测框位置信息，目标点可以是中心点、顶点等。例如，多个检测框的权重可以相同，也可以预先为多个第一深度学习模型配置各自的权重，并将该权重作为融合处理过程中多个检测框的权重。

在一些实施例中，上述融合处理可以包括：根据至少两个第一输出信息中第一初始伪标签包含的多个类别，确定中间伪标签中的类别。例如将至少两个第一输出信息中出现频率最高的类别，或者置信度最大的类别确定为中间伪标签中的类别。

在一些实施例中，上述融合处理可以包括：根据至少两个第一输出信息中的多个置信度的加权平均值，确定中间伪标签的置信度。例如，多个置信度的权重可以相同，也可以预先为多个第一深度学习模型配置各自的权重，并将该权重作为融合处理过程中多个置信度的权重。

上述融合处理过程可以对第一输出信息中的各个信息进行处理，并准确得多融合后的中间伪标签和中间伪标签的置信度。

以下对上文数据清洗阶段所涉及的处理操作进行说明。

本实施例将第一图像数据原本的标签称为原始标签，该原始标签可以是人工标注的标签，也可以是其他深度学习模型标注出的标签，该其他深度学习模型的精度可以低于上述多个第一深度学习模型。此外，原始标签对应有置信度，该置信度可以是0或1，也可以是0～1之间的其他数值。

例如，可以根据中间伪标签的置信度和原始标签的置信度，确定第一标签的置信度。例如，可以确定中间伪标签的置信度和原始标签的置信度的加权平均值，作为第一标注信息中的置信度，其中，中间伪标签和原始标签的权重可以相等。通过该种方式可以准确确定第一标签的置信度。

例如，可以根据中间伪标签和原始标签，确定第一标签。

在一种确定第一标签的实施例中，若存在原始标签和中间伪标签，且原始标签和中间伪标签一致，则可以将原始标签中的检测框和中间伪标签中的检测框的加权平均值确定为第一标签中的检测框，其中，中间伪标签和原始标签的权重可以相等。也可以将原始标签中的检测框或者中间伪标签中的检测框确定为第一标签中的检测框。

在另一种确定第一标签的实施例中，若存在原始标签和中间伪标签，且原始标签和中间伪标签不一致，则表示原始标签出现了误标注的问题，可以将中间伪标签确定为第一标签。

在另一种确定第一标签的实施例中，若存在中间伪标签，且原始标签缺失，表示原始标签出现了漏标注的问题，可以将中间伪标签确定为第一标签。

在另一种确定第一标签的实施例中，若存在原始标签，且中间伪标签缺失，表示原始标签出现了误标注的问题，此时可以删除原始标签，并确定与基于原始标签得到的第一标签为空，即，无需基于该原始标签来确定第一标签。

本实施例中，在数据清洗阶段，可以利用多个第一深度学习模型得到中间伪标签，对第一图像数据误标注的原始标签进行二次清理。此外，还可以对第一图像数据漏标注的原始标签进行补充，从而提升样本数据的丰富性。

在其他实施例中，第一深度学习模型还可以用于进行分类任务为例。需要说明的是，若第一深度学习模型用于处理目标检测任务，则该第一深度学习模型处理第一图像数据之后得到的第一输出信息a包括检测框、与检测框对应的分类结果和置信度，置信度可以表征检测框中的目标对象属于特定分类结果的概率。若第一深度学习模型用于处理分类任务，则该第一深度学习模型处理第一图像数据之后得到的第一输出信息b包括分类结果和置信度，置信度可以表征检测框中的目标对象属于特定分类结果的概率。

可以看出，第一输出信息a与第一输出信息b类似，区别在于第一输出信息b相比于第一输出信息a减少了检测框。因此，基于第一输出信息b确定第一标注信息的方式可以参考基于第一输出信息a确定第一标注信息的方式，本实施例在此不再赘述。

上文对确定第一图像数据的第一标注信息的方式进行了详细说明，在得到第一标注信息之后，还可以基于第一标注信息的数据分布，确定是否进入样本扩充阶段，来对第一训练样本进行扩充。以下结合图4，对样本扩充的方式进行说明。

图4是根据本公开实施例的生成第二训练样本的方法的示意流程图。

如图4所示，在得到第一标注信息之后，生成训练样本的方法400还可以包括操作S440～操作S470。

在操作S440，确定针对N个第一图像的N个第一标注信息的数据分布与预定数据分布是否一致。若是，则可以进入操作S450，若否，则可以结束。

例如，预定数据分布可以表征第一标注信息分布不均衡，例如第一标注信息中的检测框尺寸分布不均衡、类别分布不均衡、置信度分布不均衡等。

例如，第一标签包括检测框，第二标签包括检测框，相应地，预定数据分布可以包括检测框尺寸预定分布，检测框尺寸预定分布可以表征第一标注信息中的检测框尺寸分布不均衡。例如大尺寸检测框的第一训练样本远多于小尺寸检测框的第一训练样本。

例如，第一标签包括类别，第二标签包括类别，相应地，预定数据分布可以包括预定类别分布，该预定类别分布可以表征第一标注信息中的类别分布不均衡。例如第一类别的第一训练样本远多于第二类别的第一训练样本。

例如，第一标签包括置信度，第二标签包括置信度，相应地，预定数据分布可以包括置信度预定分布，该置信度预定分布可以表征第一标注信息中的置信度分布不均衡。例如置信度为1的第一训练样本远多于置信度为0.7的第一训练样本。

例如，可以确定第一标注信息的评价指标，评价指标可以对第一标注信息的均衡性进行评估，评价指标可以包括准确率、召回率、F1分数、AUC值等。

接下来，可以在评价指标的值超过预定范围的情况下，确定N个第一标注信息的数据分布存在不均衡的问题，即，确定该N个第一标注信息的数据分布与预定数据分布一致。

例如，预定数据分布可以服从正态分布、均匀分布等。

在操作S450，确定M个第二图像数据各自的第二标注信息，M是大于等于2的整数，第二标注信息可以包括第二标签和第二标签的置信度中的至少一个。

例如，第二图像数据可以是无标签数据，可以采用上文提到的预处理阶段、融合阶段的处理方式来处理第二图像数据，得到第二标注信息。

例如，针对M个第二图像数据中的每个第二图像数据，利用多个第一深度学习模型分别处理第二图像数据，得到针对第二图像数据的多个第二输出信息，其中，多个第二输出信息与多个第一深度学习模型一一对应，每个第二输出信息包括第二初始伪标签和第二初始伪标签的置信度。然后对多个第二输出信息中的至少两个第二输出信息进行融合处理，得到第二标签和第二标签的置信度。处理过程参考上文，在此不再赘述。

本实施例通过多个第一深度学习模型处理第二图像数据，得到第二输出信息，然后基于多个第二输出信息来确定第二标签，可以降低人工标注数据的成本。

在其他实施例中，也可以通过人工标注或者其他方式来确定第一图像数据的第二标注信息，本实施例确定第二标注信息的方式不做限定。

在操作S460，根据M个第二图像数据各自的第二标注信息、数据分布和预定数据分布，从M个第二图像数据中确定至少一个目标图像数据。

例如，可以根据N个第一标注信息的数据分布与预定数据分布之间的偏差，确定目标标注信息和目标数量，然后从M个第二图像数据中，选择目标数量个第二标注信息与目标标注信息一致的第二图像数据，作为至少一个目标图像数据。

例如目标标注信息包括以下中的至少一个：第二标签中的检测框、第二标签中的类别和第二标签的置信度，其中，检测框可以根据尺寸划分为大尺寸检测框、小尺寸检测框，类别可以具体分为第一类别、第二类别、第三类别等，置信度可以划分为多个置信度区间。

例如，N个第一标注信息的数据分布指示了第一类别、第二类别、第三类别的训练样本的比例是1：100：100.2，而预定数据分布中第一类别、第二类别、第三类别的训练样本的比例为93：100：100.2，可以看出，目标标注信息为第一类别，即需要补充的训练样本为第一类别的训练样本。此外，还可以确定需要补充的数量Num。然后基于该数量，从M个第二图像数据中筛选目标图像数据，所筛选的目标图像数据的类别为第一类别，且筛选出的目标图像数据的数量与上述数量Num相等或相近。

本实施例可以基于N个第一标注信息的数据分布与预定数据分布之间的偏差，准确确定所需要的目标数量和目标标注信息，进而准确确定需要补充的第二训练样本，得到数据分布均衡性高的训练集。

在其他实施例中，也可以通过随机抽取、人工选取等方式，从M个第二图像数据中一些第二图像数据，并添加至训练集中对第一训练样本进行补充。

在操作S470，根据至少一个目标图像数据和至少一个目标图像数据各自的第二标注信息，生成第二训练样本。

第二训练样本用于对第一训练样本进行补充，在得到第二训练样本之后，可以将第二训练样本和第一训练样本均添加至训练集，并利用训练集来训练待训练的第二深度学习模型。

本实施例在第一训练样本的数据分布不均衡的情况下，生成第二训练样本，基于第一训练样本的数据分布对第一训练样本进行有针对性地补充。例如，在某个分类场景中，第一类别的的训练样本数量远多于第二类别的训练样本数量，可以利用多个第一深度学习模型来确定无标签数据的第二标签，然后基于第二标签从多个第二图像数据中筛选第二类别的第二图像数据，从而利用该写筛选出的第二图像数据来扩充训练集。例如，在物体检测场景中，小物体训练样本的数量远多于大物体训练样本的数量，则可以对大物体训练样本进行补充。

可以看出，上述方式可以使整体的训练样本的数据分布更加均衡，提升训练样本的有效性，进而提高第二深度学习模型的训练效果，以及提升第二深度学习模型在业务场景中的效果。

图5是根据本公开实施例的深度学习模型的训练方法的示意流程图。

如图5所示，该深度学习模型的训练方法500可以包括操作S510～操作S520。

在操作S510，获取训练样本。例如，训练样本是利用上述生成训练样本的方法得到的。

在操作S520，利用训练样本训练第二深度学习模型。

图6是根据本公开实施例的对象检测方法的示意流程图。

如图6所示，该对象检测方法600可以包括操作S610～操作S620。

在操作S610，获取第三图像数据；

在操作S620，将第三图像数据输入第三深度学习模型，得到第三图像数据的第三输出信息，第三输出信息包括置信度。此外，若第三深度学习模型用于进行图像分类任务，则第三输出信息还可以包括分类结果。若第三深度学习模型用于进行目标检测任务，则第三输出信息还可以包括针对第三图像数据中目标对象的检测框和分类结果。例如，上述第三深度学习模型是利用上述深度学习模型的训练方法训练得到的。

图7是根据本公开实施例的生成训练样本的装置的示意结构框图。

如图7所示，该生成训练样本的装置700可以包括：第一信息获得模块710、融合模块720和第一确定模块730。

第一信息获得模块710用于利用多个第一深度学习模型分别处理第一图像数据，得到针对第一图像数据的多个第一输出信息；其中，多个第一输出信息与多个第一深度学习模型一一对应，每个第一输出信息包括第一初始伪标签和第一初始伪标签的置信度。

融合模块720用于对多个第一输出信息中的至少两个第一输出信息进行融合处理，得到中间伪标签和中间伪标签的置信度。

第一确定模块730用于根据中间伪标签和中间伪标签的置信度，确定针对第一图像数据的第一标注信息，得到第一训练样本；第一标注信息包括第一标签和第一标签的置信度。

根据本公开另一实施例，融合模块包括以下中的至少一个：第一确定子模块、第二确定子模块和第三确定子模块。第一确定子模块用于针对至少两个第一输出信息中第一初始伪标签包含的多个检测框，基于多个检测框各自的位置信息和尺寸信息，确定中间伪标签中的检测框位置信息。第二确定子模块用于根据至少两个第一输出信息中第一初始伪标签包含的多个类别，确定中间伪标签中的类别。第三确定子模块用于根据至少两个第一输出信息中的多个置信度的加权平均值，确定中间伪标签的置信度。

根据本公开另一实施例，第一确定模块包括：第四确定子模块和第五确定子模块。第四确定子模块用于响应于检测到第一图像对应有原始标签和原始标签的置信度，根据中间伪标签和原始标签，确定第一标签；根据中间伪标签的置信度和原始标签的置信度，确定第一标签的置信度。第五确定子模块用于响应于检测到第一图像缺少原始标签，将中间伪标签和中间伪标签的置信度，分别确定为第一标签和第一标签的置信度。

根据本公开另一实施例，第四确定子模块包括：第一确定单元、第二确定单元、第三确定单元和第四确定单元。第一确定单元用于响应于检测到存在原始标签和中间伪标签，且原始标签和中间伪标签一致，将以下之一确定为第一标签：原始标签和中间伪标签的加权平均值、原始标签和中间伪标签。第二确定单元用于响应于检测到存在原始标签和中间伪标签，且原始标签和中间伪标签不一致，将中间伪标签确定为第一标签。第三确定单元用于响应于检测到存在中间伪标签，且原始标签缺失，将中间伪标签确定为第一标签。第四确定单元用于响应于检测到存在原始标签，且中间伪标签缺失，确定第一标签为空。

根据本公开另一实施例，上述装置还包括：第二确定模块，用于根据多个第一输出信息中多个置信度的排序，从多个第一输出信息中确定至少两个第一输出信息。

根据本公开另一实施例，第一图像的数量是N个，N是大于等于2的整数。装置还包括：第三确定模块、第四确定模块和生成模块。第三确定模块用于响应于检测到针对N个第一图像的N个第一标注信息的数据分布与预定数据分布一致，确定M个第二图像数据各自的第二标注信息。其中，第二标注信息包括以下中的至少一个：第二标签和第二标签的置信度，M是大于等于2的整数。第四确定模块用于根据M个第二图像数据各自的第二标注信息、数据分布和预定数据分布，从M个第二图像数据中确定至少一个目标图像数据。生成模块用于根据至少一个目标图像数据和至少一个目标图像数据各自的第二标注信息，生成第二训练样本。

根据本公开另一实施例，第四确定模块包括：第六确定子模块和选择子模块。第六确定子模块用于根据N个第一标注信息的数据分布与预定数据分布之间的偏差，确定目标标注信息和目标数量。选择子模块用于从M个第二图像数据中，选择目标数量个第二标注信息与目标标注信息一致的第二图像数据，作为至少一个目标图像数据。

根据本公开另一实施例，第三确定模块包括：获得子模块和融合子模块。获得子模块用于针对M个第二图像数据中的每个第二图像数据，利用多个第一深度学习模型分别处理第二图像数据，得到针对第二图像数据的多个第二输出信息。其中，多个第二输出信息与多个第一深度学习模型一一对应，每个第二输出信息包括第二初始伪标签和第二初始伪标签的置信度。融合子模块用于对多个第二输出信息中的至少两个第二输出信息进行融合处理，得到第二标签和第二标签的置信度。

根据本公开另一实施例，第一标签、第二标签、预定数据分布满足以下中的至少一个：第一标签包括检测框，且第二标签包括检测框，且预定数据分布包括检测框尺寸预定分布。第一标签包括类别，且第二标签包括类别，且预定数据分布包括预定类别分布。第一标签包括置信度，且第二标签包括置信度，且预定数据分布包括置信度预定分布。

图8是根据本公开实施例的深度学习模型的训练装置的示意结构框图。

如图8所示，该深度学习模型的训练装置800可以包括第一获取模块810和训练模块820。

第一获取模块810用于获取训练样本。例如，训练样本是利用生成训练样本的装置得到的。

训练模块820用于利用训练样本训练第二深度学习模型。

图9是根据本公开实施例的对象检测装置的示意结构框图。

如图9所示，该对象检测装置900可以包括第二获取模块910和第二信息获得模块920。

第二获取模块910用于获取第三图像数据。

第二信息获得模块920用于将第三图像数据输入第三深度学习模型，得到第三图像数据的第三输出信息，第三输出信息包括置信度，还包括以下中的至少一个：针对第三图像数据中目标对象的检测框和分类结果。第三深度学习模型是利用上述深度学习模型的训练装置得到的。

本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。

在本公开的技术方案中，在获取或采集用户个人信息之前，均获取了用户的授权或同意。

根据本公开的实施例，本公开还提供了一种电子设备，包括至少一个处理器；以及与至少一个处理器通信连接的存储器；存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述生成训练样本的方法、深度学习模型的训练方法、对象检测方法中的至少一个。

根据本公开的实施例，本公开还提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行上述生成训练样本的方法、深度学习模型的训练方法、对象检测方法中的至少一个。

根据本公开的实施例，本公开还提供了一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现上述生成训练样本的方法、深度学习模型的训练方法、对象检测方法中的至少一个。

电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图10所示，设备1000包括计算单元1001，其可以根据存储在只读存储器(ROM)1002中的计算机程序或者从存储单元1008加载到随机访问存储器(RAM)1003中的计算机程序，来执行各种适当的动作和处理。在RAM 1003中，还可存储设备1000操作所需的各种程序和数据。计算单元1001、ROM 1002以及RAM 1003通过总线1004彼此相连。输入/输出(I/O)接口1005也连接至总线1004。

设备1000中的多个部件连接至I/O接口1005，包括：输入单元1006，例如键盘、鼠标等；输出单元1007，例如各种类型的显示器、扬声器等；存储单元1008，例如磁盘、光盘等；以及通信单元1009，例如网卡、调制解调器、无线通信收发机等。通信单元1009允许设备1000通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1001可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1001的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1 001执行上文所描述的各个方法和处理，例如上述生成训练样本的方法、深度学习模型的训练方法、对象检测方法中的至少一个。例如，在一些实施例中，上述生成训练样本的方法、深度学习模型的训练方法、对象检测方法中的至少一个可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1008。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1002和/或通信单元1009而被载入和/或安装到设备1000上。当计算机程序加载到RAM1003并由计算单元1001执行时，可以执行上文描述的上述生成训练样本的方法、深度学习模型的训练方法、对象检测方法中的至少一个的一个或多个步骤。备选地，在其他实施例中，计算单元1001可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行上述生成训练样本的方法、深度学习模型的训练方法、对象检测方法中的至少一个。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、复杂可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种生成训练样本的方法，包括：

利用多个第一深度学习模型分别处理第一图像数据，得到针对所述第一图像数据的多个第一输出信息；其中，所述多个第一输出信息与所述多个第一深度学习模型一一对应，每个第一输出信息包括第一初始伪标签和所述第一初始伪标签的置信度；

对所述多个第一输出信息中的至少两个第一输出信息进行融合处理，得到中间伪标签和所述中间伪标签的置信度；以及

根据所述中间伪标签和所述中间伪标签的置信度，确定针对所述第一图像数据的第一标注信息，得到第一训练样本；所述第一标注信息包括第一标签和所述第一标签的置信度。

2.根据权利要求1所述的方法，其中，所述对所述多个第一输出信息中的至少两个第一输出信息进行融合处理，得到中间伪标签和所述中间伪标签的置信度包括以下中的至少一个：

针对所述至少两个第一输出信息中第一初始伪标签包含的多个检测框，基于所述多个检测框各自的位置信息和尺寸信息，确定所述中间伪标签中的检测框位置信息；

根据所述至少两个第一输出信息中第一初始伪标签包含的多个类别，确定所述中间伪标签中的类别；以及

根据所述至少两个第一输出信息中的多个置信度的加权平均值，确定所述中间伪标签的置信度。

3.根据权利要求1所述的方法，其中，所述根据所述中间伪标签和所述中间伪标签的置信度，确定针对所述第一图像数据的第一标注信息包括：

响应于检测到所述第一图像对应有原始标签和所述原始标签的置信度，根据所述中间伪标签和所述原始标签，确定所述第一标签；根据所述中间伪标签的置信度和所述原始标签的置信度，确定所述第一标签的置信度；以及

响应于检测到所述第一图像缺少原始标签，将所述中间伪标签和所述中间伪标签的置信度，分别确定为所述第一标签和所述第一标签的置信度。

4.根据权利要求3所述的方法，其中，所述根据所述中间伪标签和所述原始标签，确定所述第一标签包括：

响应于检测到存在所述原始标签和所述中间伪标签，且所述原始标签和所述中间伪标签一致，将以下之一确定为所述第一标签：所述原始标签和所述中间伪标签的加权平均值、所述原始标签和所述中间伪标签;

响应于检测到存在所述原始标签和所述中间伪标签，且所述原始标签和所述中间伪标签不一致，将所述中间伪标签确定为所述第一标签;

响应于检测到存在所述中间伪标签，且所述原始标签缺失，将所述中间伪标签确定为所述第一标签；以及

响应于检测到存在所述原始标签，且所述中间伪标签缺失，确定所述第一标签为空。

5.根据权利要求1所述的方法，还包括：根据所述多个第一输出信息中多个置信度的排序，从所述多个第一输出信息中确定所述至少两个第一输出信息。

6.根据权利要求1至5中任意一项所述的方法，其中，所述第一图像的数量是N个，N是大于等于2的整数；所述方法还包括：

响应于检测到针对N个第一图像的N个第一标注信息的数据分布与预定数据分布一致，确定M个第二图像数据各自的第二标注信息；其中，所述第二标注信息包括以下中的至少一个：第二标签和所述第二标签的置信度，M是大于等于2的整数；

根据所述M个第二图像数据各自的第二标注信息、所述数据分布和所述预定数据分布，从所述M个第二图像数据中确定至少一个目标图像数据；以及

根据所述至少一个目标图像数据和所述至少一个目标图像数据各自的第二标注信息，生成第二训练样本。

7.根据权利要求6所述的方法，其中，所述根据所述M个第二图像数据各自的第二标注信息、所述数据分布和所述预定数据分布，从所述M个第二图像数据中确定至少一个目标图像数据包括：

根据所述N个第一标注信息的数据分布与预定数据分布之间的偏差，确定目标标注信息和目标数量；以及

从所述M个第二图像数据中，选择目标数量个第二标注信息与所述目标标注信息一致的第二图像数据，作为所述至少一个目标图像数据。

8.根据权利要求6所述的方法，其中，所述确定M个第二图像数据各自的第二标注信息包括：

针对所述M个第二图像数据中的每个第二图像数据，利用所述多个第一深度学习模型分别处理所述第二图像数据，得到针对所述第二图像数据的多个第二输出信息；其中，所述多个第二输出信息与所述多个第一深度学习模型一一对应，每个第二输出信息包括第二初始伪标签和所述第二初始伪标签的置信度；以及

对所述多个第二输出信息中的至少两个第二输出信息进行融合处理，得到所述第二标签和所述第二标签的置信度。

9.根据权利要求6所述的方法，其中，所述第一标签、所述第二标签、所述预定数据分布满足以下中的至少一个：

所述第一标签包括检测框，且所述第二标签包括检测框，且所述预定数据分布包括检测框尺寸预定分布；

所述第一标签包括类别，且所述第二标签包括类别，且所述预定数据分布包括预定类别分布；以及

所述第一标签包括置信度，且所述第二标签包括置信度，且所述预定数据分布包括置信度预定分布。

10.一种深度学习模型的训练方法，包括：

获取训练样本；以及

利用所述训练样本训练第二深度学习模型；

其中，所述训练样本是利用权利要求1至9中任意一项所述的方法得到的。

11.一种对象检测方法，包括：

获取第三图像数据；

将所述第三图像数据输入第三深度学习模型，得到所述第三图像数据的第三输出信息，所述第三输出信息包括置信度，还包括以下中的至少一个：针对所述第三图像数据中目标对象的检测框和分类结果;

其中，所述第三深度学习模型是利用权利要求10所述的方法训练得到的。

12.一种生成训练样本的装置，包括：

第一信息获得模块，用于利用多个第一深度学习模型分别处理第一图像数据，得到针对所述第一图像数据的多个第一输出信息；其中，所述多个第一输出信息与所述多个第一深度学习模型一一对应，每个第一输出信息包括第一初始伪标签和所述第一初始伪标签的置信度；

融合模块，用于对所述多个第一输出信息中的至少两个第一输出信息进行融合处理，得到中间伪标签和所述中间伪标签的置信度；以及

第一确定模块，用于根据所述中间伪标签和所述中间伪标签的置信度，确定针对所述第一图像数据的第一标注信息，得到第一训练样本；所述第一标注信息包括第一标签和所述第一标签的置信度。

13.根据权利要求12所述的装置，其中，所述融合模块包括以下中的至少一个：

第一确定子模块，用于针对所述至少两个第一输出信息中第一初始伪标签包含的多个检测框，基于所述多个检测框各自的位置信息和尺寸信息，确定所述中间伪标签中的检测框位置信息；

第二确定子模块，用于根据所述至少两个第一输出信息中第一初始伪标签包含的多个类别，确定所述中间伪标签中的类别；以及

第三确定子模块，用于根据所述至少两个第一输出信息中的多个置信度的加权平均值，确定所述中间伪标签的置信度。

14.根据权利要求12所述的装置，其中，所述第一确定模块包括：

第四确定子模块，用于响应于检测到所述第一图像对应有原始标签和所述原始标签的置信度，根据所述中间伪标签和所述原始标签，确定所述第一标签；根据所述中间伪标签的置信度和所述原始标签的置信度，确定所述第一标签的置信度；以及

第五确定子模块，用于响应于检测到所述第一图像缺少原始标签，将所述中间伪标签和所述中间伪标签的置信度，分别确定为所述第一标签和所述第一标签的置信度。

15.根据权利要求14所述的装置，其中，所述第四确定子模块包括：

第一确定单元，用于响应于检测到存在所述原始标签和所述中间伪标签，且所述原始标签和所述中间伪标签一致，将以下之一确定为所述第一标签：所述原始标签和所述中间伪标签的加权平均值、所述原始标签和所述中间伪标签；

第二确定单元，用于响应于检测到存在所述原始标签和所述中间伪标签，且所述原始标签和所述中间伪标签不一致，将所述中间伪标签确定为所述第一标签；

第三确定单元，用于响应于检测到存在所述中间伪标签，且所述原始标签缺失，将所述中间伪标签确定为所述第一标签；以及

第四确定单元，用于响应于检测到存在所述原始标签，且所述中间伪标签缺失，确定所述第一标签为空。

16.根据权利要求12所述的装置，还包括：

第二确定模块，用于根据所述多个第一输出信息中多个置信度的排序，从所述多个第一输出信息中确定所述至少两个第一输出信息。

17.根据权利要求12至16中任意一项所述的装置，其中，所述第一图像的数量是N个，N是大于等于2的整数；所述装置还包括：

第三确定模块，用于响应于检测到针对N个第一图像的N个第一标注信息的数据分布与预定数据分布一致，确定M个第二图像数据各自的第二标注信息；其中，所述第二标注信息包括以下中的至少一个：第二标签和所述第二标签的置信度，M是大于等于2的整数；

第四确定模块，用于根据所述M个第二图像数据各自的第二标注信息、所述数据分布和所述预定数据分布，从所述M个第二图像数据中确定至少一个目标图像数据；以及

生成模块，用于根据所述至少一个目标图像数据和所述至少一个目标图像数据各自的第二标注信息，生成第二训练样本。

18.根据权利要求17所述的装置，其中，所述第四确定模块包括：

第六确定子模块，用于根据所述N个第一标注信息的数据分布与预定数据分布之间的偏差，确定目标标注信息和目标数量；以及

选择子模块，用于从所述M个第二图像数据中，选择目标数量个第二标注信息与所述目标标注信息一致的第二图像数据，作为所述至少一个目标图像数据。

19.根据权利要求17所述的装置，其中，所述第三确定模块包括：

获得子模块，用于针对所述M个第二图像数据中的每个第二图像数据，利用所述多个第一深度学习模型分别处理所述第二图像数据，得到针对所述第二图像数据的多个第二输出信息；其中，所述多个第二输出信息与所述多个第一深度学习模型一一对应，每个第二输出信息包括第二初始伪标签和所述第二初始伪标签的置信度；以及

融合子模块，用于对所述多个第二输出信息中的至少两个第二输出信息进行融合处理，得到所述第二标签和所述第二标签的置信度。

20.根据权利要求17所述的装置，其中，所述第一标签、所述第二标签、所述预定数据分布满足以下中的至少一个：

21.一种深度学习模型的训练装置，包括：

第一获取模块，用于获取训练样本；以及

训练模块，用于利用所述训练样本训练第二深度学习模型；

其中，所述训练样本是利用权利要求12至20中任意一项所述的装置得到的。

22.一种对象检测装置，包括：

第二获取模块，用于获取第三图像数据；

第二信息获得模块，用于将所述第三图像数据输入第三深度学习模型，得到所述第三图像数据的第三输出信息，所述第三输出信息包括置信度，还包括以下中的至少一个：针对所述第三图像数据中目标对象的检测框和分类结果；

其中，所述第三深度学习模型是利用权利要求21所述的装置训练得到的。

23.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1至11中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行根据权利要求1至11中任一项所述的方法。

25.一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据权利要求1至11中任一项所述的方法。