CN110889463A

CN110889463A - 一种样本标注方法、装置、服务器及机器可读存储介质

Info

Publication number: CN110889463A
Application number: CN201911260058.9A
Authority: CN
Inventors: 文为
Original assignee: Beijing QIYI Century Science and Technology Co Ltd
Current assignee: Beijing QIYI Century Science and Technology Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-03-17

Abstract

本发明实施例提供了一种样本标注方法、装置、服务器及机器可读存储介质，通过获取样本集，将样本集中的多个已标注样本作为训练样本，分别对不同网络结构的多个预设网络模型进行训练，得到多个训练后的网络模型，针对样本集中的任一未标注样本，将该未标注样本分别输入多个训练后的网络模型，得到各网络模型的输出结果，对各输出结果进行融合，得到该未标注样本的标注信息，利用标注信息对该未标注样本进行标注。样本集中包括多个已标注样本和多个未标注样本，多个已标注样本的数量占样本集中样本总数量的比例小于预设比例，标注人员只需要对少量的样本进行标注，减少了人工标注的工作量，降低了人工标注的误标、漏标风险，提高了样本标注效率。

Description

一种样本标注方法、装置、服务器及机器可读存储介质

技术领域

本发明涉及智能分析技术领域，特别是涉及一种样本标注方法、装置、服务器及机器可读存储介质。

背景技术

深度学习技术作为机器学习研究中的一个新兴领域，通过模仿人脑的机制来解析数据，是一种通过建立和模拟人脑进行分析学习的技术。深度学习技术提供了一种端到端的网络模型，例如卷积神经网络模型、循环神经网络模型、长短期记忆网络模型等，将待解析的数据输入网络模型，无需关心网络模型的内部结构，可快速得到数据的解析结果，数据解析效率非常高，因此，在图像分类、目标检测、目标跟踪、语音识别、人脸识别等人工智能领域得到了极为广泛的应用。

网络模型在应用之前需要经过训练，通过将海量的训练样本输入网络模型，针对一个训练样本，网络模型对应的有一个输出结果，将输出结果与标称信息进行比较，基于比较结果调整网络模型的网络参数，这即为一次训练过程，对调整网络参数后的网络模型再进行下一次的训练过程，经过多次训练过程的迭代，直至网络模型的输出结果收敛(即输出结果与标称信息之间的差异小于阈值)，此时训练结束，所得到的最终的网络模型具有较高的数据解析精度。

上述标称信息通常是指训练样本的标注信息，传统的方法中，样本的标注信息往往是人工标注的，但是，随着网络结构的复杂度越来越高，所需要的样本数量也越来越多，对海量样本进行标注，标注人员很容易疲劳，极易出现误标、漏标的情况，导致样本标注效率很低。

发明内容

本发明实施例的目的在于提供一种样本标注方法、装置、服务器及机器可读存储介质，以提高样本标注效率。具体技术方案如下：

第一方面，本发明实施例提供了一种样本标注方法，该方法包括：

获取样本集，其中，样本集中包括多个已标注样本和多个未标注样本，多个已标注样本的数量占样本集中样本总数量的比例小于预设比例；

将多个已标注样本作为训练样本，分别对不同网络结构的多个预设网络模型进行训练，得到多个训练后的网络模型；

针对任一未标注样本，将该未标注样本分别输入多个训练后的网络模型，得到各网络模型的输出结果；对各输出结果进行融合，得到该未标注样本的标注信息；利用标注信息对该未标注样本进行标注。

可选的，在针对任一未标注样本，将该未标注样本分别输入多个训练后的网络模型，得到各网络模型的输出结果的步骤之前，该方法还包括：将多个未标注样本划分为多个样本组；

在对属于同一样本组的各未标注样本均进行标注的步骤之后，该方法还包括：

将标注后的样本和样本集中的多个已标注样本作为训练样本，分别对多个训练后的网络模型进行训练，更新多个训练后的网络模型；

针对属于该样本组的任一未标注样本，将该未标注样本分别输入更新的多个训练后的网络模型，得到各网络模型的输出结果；对各输出结果进行融合，得到该未标注样本的标注信息；利用标注信息对该未标注样本进行标注；计算本次利用各网络模型得到的该未标注样本的标注信息与上一次利用各网络模型得到的该未标注样本的标注信息的差异度；

对属于该样本组的各未标注样本对应的差异度进行统计；

若统计结果大于预设阈值，则返回执行将标注后的样本和样本集中的多个已标注样本作为训练样本，分别对多个训练后的网络模型进行训练，更新多个训练后的网络模型的步骤。

可选的，对属于该样本组的各未标注样本对应的差异度进行统计的步骤，包括：

计算属于该样本组的所有未标注样本对应的差异度平均值，作为统计结果。

可选的，该方法还包括：

若统计结果小于或等于预设阈值，则确定对属于该样本组的所有未标注样本完成标注。

可选的，输出结果包括多个标注对象的置信度、类别和检测框；

对各输出结果进行融合，得到该未标注样本的标注信息的步骤，包括：

筛选出各输出结果中置信度大于预设置信度阈值的各标注对象的类别及检测框；

针对同一类别的标注对象，若至少两个网络模型输出的该标注对象的检测框之间存在重叠部分，则保留一个该标注对象的类别及检测框；

统计针对所有标注对象保留的类别及检测框，作为该未标注样本的标注信息。

可选的，输出结果包括样本分类结果；

针对该未标注样本，若至少两个网络模型输出的样本分类结果相同，则确定该未标注样本的类别，并将所述类别作为该未标注样本的标注信息。

第二方面，本发明实施例提供了一种样本标注装置，该装置包括：

获取模块，用于获取样本集，其中，样本集中包括多个已标注样本和多个未标注样本，多个已标注样本的数量占样本集中样本总数量的比例小于预设比例；

第一训练模块，用于将多个已标注样本作为训练样本，分别对不同网络结构的多个预设网络模型进行训练，得到多个训练后的网络模型；

第一标注模块，用于针对任一未标注样本，将该未标注样本分别输入多个训练后的网络模型，得到各网络模型的输出结果；对各输出结果进行融合，得到该未标注样本的标注信息；利用标注信息对该未标注样本进行标注。

可选的，该装置还包括：

划分模块，用于将所述多个未标注样本划分为多个样本组；

第二训练模块，用于在对属于同一样本组的各未标注样本均进行标注之后，将标注后的样本和样本集中的多个已标注样本作为训练样本，分别对多个训练后的网络模型进行训练，更新多个训练后的网络模型；

第二标注模块，用于针对属于该样本组的任一未标注样本，将该未标注样本分别输入更新的多个训练后的网络模型，得到各网络模型的输出结果；对各输出结果进行融合，得到该未标注样本的标注信息；利用标注信息对该未标注样本进行标注；计算本次利用各网络模型得到的该未标注样本的标注信息与上一次利用各网络模型得到的该未标注样本的标注信息的差异度；

统计模块，用于对属于该样本组的各未标注样本对应的差异度进行统计；若统计结果大于预设阈值，则返回执行将标注后的样本和样本集中的多个已标注样本作为训练样本，分别对多个训练后的网络模型进行训练，更新多个训练后的网络模型的步骤。

可选的，统计模块，具体用于：

可选的，该装置还包括：

确定模块，用于若统计结果小于或等于预设阈值，则确定对属于该样本组的所有未标注样本完成标注。

第一标注模块，具体用于：

可选的，输出结果包括样本分类结果；

第一标注模块，具体用于：

第三方面，本发明实施例提供了一种服务器，包括处理器、通信接口、存储器和通信总线，其中，处理器、通信接口、存储器通过通信总线完成相互间的通信；

存储器，用于存放计算机程序；

处理器，用于执行存储器上所存放的计算机程序时，实现本发明实施例第一方面所提供的样本标注方法。

第四方面，本发明实施例提供了一种机器可读存储介质，机器可读存储介质中存储有指令，当指令在服务器上运行时，使得服务器执行本发明实施例第一方面所提供的样本标注方法。

第五方面，本发明实施例提供了一种包含指令的计算机程序产品，当该计算机程序产品在服务器上运行时，使得服务器执行本发明实施例第一方面所提供的样本标注方法。

本发明实施例提供的一种样本标注方法、装置、服务器及机器可读存储介质，通过获取样本集，将样本集中的多个已标注样本作为训练样本，分别对不同网络结构的多个预设网络模型进行训练，得到多个训练后的网络模型，针对样本集中的任一未标注样本，将该未标注样本分别输入多个训练后的网络模型，得到各网络模型的输出结果，对各输出结果进行融合，得到该未标注样本的标注信息，利用标注信息对该未标注样本进行标注。样本集中包括多个已标注样本和多个未标注样本，多个已标注样本的数量占样本集中样本总数量的比例小于预设比例，标注人员预先可以对少量的样本进行标注，利用这些已标注样本训练多个网络模型，再利用训练后的多个网络模型对未标注样本进行解析，通过对各网络模型的输出结果进行融合，得到未标注样本的标注信息，实现了对未标注样本的自动标注，减少了人工标注的工作量，降低了人工标注所带来的误标、漏标风险，从而提高了样本标注效率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明一实施例的样本标注方法的流程示意图；

图2为本发明另一实施例的样本标注方法的流程示意图；

图3为本发明实施例的样本标注方法的一实例流程示意图；

图4为本发明一实施例的样本标注装置的结构示意图；

图5为本发明另一实施例的样本标注装置的结构示意图；

图6为本发明再一实施例的样本标注装置的结构示意图；

图7为本发明实施例的服务器的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为了提高样本标注效率，本发明实施例提供了一种样本标注方法、装置、服务器及机器可读存储介质。下面，首先对本发明实施例所提供的样本标注方法进行介绍。

本发明实施例所提供的一种样本标注方法的执行主体可以为具有样本标注功能的服务器，该服务器中至少包括具有数据处理能力的核心处理芯片。实现本发明实施例所提供的一种样本标注方法的方式可以为设置于服务器中的软件、硬件电路和逻辑电路的至少一种方式。

本发明实施例所提供的一种样本标注方法，如图1所示，该方法可以包括如下步骤。

S101，获取样本集，其中，样本集中包括多个已标注样本和多个未标注样本，多个已标注样本的数量占样本集中样本总数量的比例小于预设比例。

在对网络模型进行训练之前，获取到大量的样本，这些样本随机乱序组成样本集，从这些样本中可以选择少量的样本进行人工标注，例如选择5％的样本进行人工标注，这样，所组成的样本集中包括有多个已标注样本和多个未标注样本，并且已标注样本的数量明显少于未标注样本的数量。当然，对少量样本的人工标注也可以在组成样本集之前进行，这里不做具体的限定。

S102，将多个已标注样本作为训练样本，分别对不同网络结构的多个预设网络模型进行训练，得到多个训练后的网络模型。

通过已标注样本对不同网络结构的多个预设网络模型进行训练，例如可以选择3-6种常用的预设网络模型，这些预设网络模型具有不同的网络结构，但是具有相同的解析功能，例如都是进行目标检测的网络模型，或者都是进行图像分类的网络模型等，其中，进行标注对象检测的网络模型包括：经典的基于候选区域特征的卷积神经网络(Regionsfeatures with Convolutional Neural Network，简称RCNN)、实时单一检测器(You OnlyLook Once，简称YOLO)、特征金字塔网络(Feature Pyramid Network，简称FPN)等，进行图像分类的网络模型包括：经典的视觉几何组神经网络(Visual Geometry Group Network，简称VGGNet)、残差神经网络(Residual Neural Network，简称ResNet)、增强型神经网络(InceptionNet)等。利用已标注样本同时对各预设网络模型进行训练，由于不同网络模型对样本的处理能力有所不同，因此，同时使用已标注样本对各预设网络模型进行训练，可以得到多个训练后的网络模型。

S103，针对任一未标注样本，将该未标注样本分别输入多个训练后的网络模型，得到各网络模型的输出结果，对各输出结果进行融合，得到该未标注样本的标注信息，利用标注信息对该未标注样本进行标注。

在经过S102得到多个训练后的网络模型后，可以利用这些网络模型对剩余的未标注样本进行解析，得到各网络模型的输出结果，对单个未标注样本来说，比如有5个网络模型，则会得到5个网络模型的输出结果，对单个未标注样本的这些输出结果进行融合处理，得到最终的结果，将这个结果作为该未标注样本的标注信息，基于标注信息即可实现对该未标注样本的标注。

应用本发明实施例，通过获取样本集，将样本集中的多个已标注样本作为训练样本，分别对不同网络结构的多个预设网络模型进行训练，得到多个训练后的网络模型，针对样本集中的任一未标注样本，将该未标注样本分别输入多个训练后的网络模型，得到各网络模型的输出结果，对各输出结果进行融合，得到该未标注样本的标注信息，利用标注信息对该未标注样本进行标注。样本集中包括多个已标注样本和多个未标注样本，多个已标注样本的数量占样本集中样本总数量的比例小于预设比例，标注人员预先可以对少量的样本进行标注，利用这些已标注样本训练多个网络模型，再利用训练后的多个网络模型对未标注样本进行解析，通过对各网络模型的输出结果进行融合，得到未标注样本的标注信息，实现了对未标注样本的自动标注，减少了人工标注的工作量，降低了人工标注所带来的误标、漏标风险，从而提高了样本标注效率。

基于图1所示实施例，本发明实施例还提供了一种样本标注方法，如图2所示，该方法可以包括如下步骤。

S201，获取样本集，其中，样本集中包括多个已标注样本和多个未标注样本，多个已标注样本的数量占样本集中样本总数量的比例小于预设比例。

S202，将多个已标注样本作为训练样本，分别对不同网络结构的多个预设网络模型进行训练，得到多个训练后的网络模型。

S203，将多个未标注样本划分为多个样本组。

S204，针对同一样本组中的各未标注样本，将该未标注样本分别输入多个训练后的网络模型，得到各网络模型的输出结果，对各输出结果进行融合，得到该未标注样本的标注信息，利用标注信息对该未标注样本进行标注。

S205，将标注后的样本和样本集中的多个已标注样本作为训练样本，分别对多个训练后的网络模型进行训练，更新多个训练后的网络模型。

对未标注样本进行划分，得到多个样本组，划分的方式不做限定，可以是平均划分，也可以是基于样本的数据量、时间段等进行划分，划分后对一个样本组中的未标注样本进行批量标注。在对一个样本组中的所有未标注样本均进行标注后，将标注后的样本和前面已标注样本作为训练样本，对网络模型再次进行训练，得到新的网络模型。由于本次训练的训练样本比上一次训练的训练样本多，所训练出来的网络模型精度会进一步提升。

S206，针对属于该样本组的任一未标注样本，将该未标注样本分别输入更新的多个训练后的网络模型，得到各网络模型的输出结果，对各输出结果进行融合，得到该未标注样本的标注信息，利用标注信息对该未标注样本进行标注，计算本次利用各网络模型得到的该未标注样本的标注信息与上一次利用各网络模型得到的该未标注样本的标注信息的差异度。

其中，差异度通常以百分比或者0～1的分值表示，差异度越大，则说明两次利用各网络模型得到的标注信息就越不同，例如同一标注对象的位置无重叠、同一位置的标注对象的类别不同等等。

在更新网络模型后，可以重新对这个样本组中的未标注样本进行标注处理，通过将未标注样本输入新的各网络模型，根据各网络模型的输出结果得到标注信息，对未标注样本进行标注，具体的过程与图1所示的S103相同，这里不再赘述。

在本次得到标注信息后，可以将本次得到的标注信息与上一次利用各网络模型得到的标注信息进行比较，得到两次得到标注信息的差异度。

S207，对属于该样本组的各未标注样本对应的差异度进行统计，判断统计结果是否大于预设阈值，若是则返回执行S205，否则执行S208。

S208，确定对属于该样本组的所有未标注样本完成标注。

由于是对样本组中的未标注样本进行批量标注，批量标注的整体可以反映出标注的准确性，因此，需要对属于一个样本组的各未标注样本对应的差异度进行统计，统计结果表征了两次得到标注信息的整体差异。具体的统计过程可以是加权求和、求平均、求加权平均等等。如果统计结果很大，则说明网络模型的精度较低，标注信息未收敛，需要对网络模型继续进行训练；如果统计结果很小，则说明标注信息已收敛，基于标注信息进行样本标注的准确度较高，可以输出最终的标注结果。

应用本发明实施例，通过少量的已标注样本训练多个预设网络模型，得到初级模型，然后通过所有初级模型对未标注样本进行分批标注，未标注样本通过融合的方式得到标注信息，基于标注信息对未标注样本进行标注，将标注后的属于一个样本组的样本和原本的已标注样本作为训练样本重新训练网络模型，得到次级模型，再通过所有次级模型对未标注样本重新进行分批标注，如此迭代往复直至标注信息收敛，再利用收敛的标注信息对未标注样本进行标注，保证了标注结果的高准确度。

可选的，图2所示实施例中的对属于该样本组的各未标注样本对应的差异度进行统计的步骤，具体可以为：计算属于该样本组的所有未标注样本对应的差异度平均值，作为统计结果。

由于平均值能够反映整体标注信息差异度的大体分布程度，因此，在进行差异度统计时，一般采用求平均值的方式进行统计，这里所提及的平均值可以是所有差异度求和再取平均，也可以是对所有差异度的加权平均。

在图1和图2所示实施例中，网络模型对训练样本的处理任务主要包括目标检测任务和分类任务，下面分别从目标检测任务和分类任务的执行过程，对各输出结果进行融合，得到该未标注样本的标注信息的步骤进行说明。

针对目标检测任务，所采用的网络模型为上述的RCNN、YOLO、FPN等网络模型，输出结果可以包括多个标注对象的置信度、类别和检测框。其中，置信度是指检测出来的某个标注对象是指定目标的可能性，通常以百分比或者权值标识。

相应的，对各输出结果进行融合，得到该未标注样本的标注信息的步骤，具体可以通过如下步骤实现：

第一步，筛选出各输出结果中置信度大于预设置信度阈值的各标注对象的类别及检测框。

一个输出结果中可能包括多个标注对象的置信度和多个标注对象的类别及检测框，由于置信度很低的标注对象一定是误检的，这些标注对象可以不予考虑，只需要筛选出置信度大于预设置信度阈值的各标注对象的类别及检测框。

第二步，针对同一类别的标注对象，若至少两个网络模型输出的该标注对象的检测框之间存在重叠部分，则保留一个该标注对象的类别及检测框。

在筛选出类别及检测框后，不同的输出结果中同一类别的标注对象的检测框之间可能存在重叠，也可能不存在重叠，如果有至少两个输出结果中同一类别的标注对象的检测框之间存在重叠部分，则说明有多个网络模型检测出了同一个标注对象，说明针对这一个标注对象的检测框是准确的，可以保留其中一个该标注对象的类别及检测框。

第三步，统计针对所有标注对象保留的类别及检测框，作为该未标注样本的标注信息。

利用上述步骤，可以得到针对不同标注对象的类别及检测框，将这些标注对象的类别及检测框进行统计，即具体统计都有什么类别的标注对象、对应着什么样的检测框、检测框都在图像中的什么位置等信息，统计的结果即是一个标注样本中所有的标注信息，可以基于这些信息对样本进行标注。

针对分类任务，所采用的网络模型为上述的VGGNet、ResNet、InceptionNet等网络模型，输出结果可以包括样本分类结果。

针对该未标注样本，若至少两个网络模型输出的样本分类结果相同，则确定该未标注样本的类别，并将确定出的类别作为该未标注样本的标注信息。

利用不同的网络模型对未标注样本进行分类处理，得到的分类结果可能相同，也可能不同，如果不同网络模型对同一个未标注样本的分类结果不同，说明分类结果不准确，不予保留，如果不同网络模型对同一个未标注样本的分类结果相同，则说明分类结果准确，该未标注样本的类别即为分类结果的类别。分类结果即可作为该未标注样本的标注信息，可以基于该标注信息对该未标注样本进行标注。

经过上述过程，能够保证目标检测和样本分类的准确性，为样本标注的准确度提供了保障。

为了便于理解，下面结合具体实例，对本发明实施例所提供的样本标注方法进行介绍，如图3所示，该实例包括如下步骤。

第一步，对大量需要标注的样本进行随机的乱序组合，视数据量的多少抽取5％-10％的样本，对抽取的样本进行人工标注。

第二步，选择五种网络模型，利用已标注的样本同时对这些网络模型进行训练，得到五个初级模型。

第三步，用第二步得到的各初级模型，对剩余的未标注的样本进行检测或分类，得到各初级模型的输出结果。对于单个样本来说，五个初级模型得到五个输出结果。

第四步，对五个初级模型的输出结果进行筛选与加权，得到最终的检测结果，将这个检测结果作为样本的标注信息。

具体的筛选与加权的过程如下：首先从各输出结果中筛选置信度在0.9以上的各标注对象的检测结果，针对筛选出的各标注对象的检测结果，查看不同的输出结果中是否存在一个标注对象的检测结果之间有重叠，如果有，则保留重叠的部分，将所有标注对象的检测结果进行统计，得到最终的结果，并将最终的结果作为标注信息。

第五步，将新标注的样本加入前面的已标注样本对五个网络模型重新进行训练，得到新的网络模型，重复第三步和第四步，进行迭代的检测和训练，将每一次新标注的样本加入前面的已标注样本加入上次训练的网络模型进行重新训练。

第六步，重复训练，直到所有的未标注样本的标注信息保持稳定即可结束，即上一次利用网络模型得到的标注信息与本次利用网络模型得到的标注信息进行差异度，当平均值小于预设阈值时就表示标注信息已稳定。输出利用标注信息进行样本标注的标注结果。

相应于上述方法实施例，本发明实施例提供了一种样本标注装置，如图4所示，该装置可以包括：

获取模块410，用于获取样本集，其中，样本集中包括多个已标注样本和多个未标注样本，多个已标注样本的数量占样本集中样本总数量的比例小于预设比例；

第一训练模块420，用于将多个已标注样本作为训练样本，分别对不同网络结构的多个预设网络模型进行训练，得到多个训练后的网络模型；

第一标注模块430，用于针对任一未标注样本，将该未标注样本分别输入多个训练后的网络模型，得到各网络模型的输出结果；对各输出结果进行融合，得到该未标注样本的标注信息；利用标注信息对该未标注样本进行标注。

基于图4所示实施例，本发明实施例还提供了一种样本标注装置，如图5所示，该装置可以包括：

划分模块440，用于将所述多个未标注样本划分为多个样本组；

第一标注模块430，用于针对任一未标注样本，将该未标注样本分别输入多个训练后的网络模型，得到各网络模型的输出结果；对各输出结果进行融合，得到该未标注样本的标注信息；利用标注信息对该未标注样本进行标注；

第二训练模块450，用于在对属于同一样本组的各未标注样本均进行标注之后，将标注后的样本和样本集中的多个已标注样本作为训练样本，分别对多个训练后的网络模型进行训练，更新多个训练后的网络模型；

第二标注模块460，用于针对属于该样本组的任一未标注样本，将该未标注样本分别输入更新的多个训练后的网络模型，得到各网络模型的输出结果；对各输出结果进行融合，得到该未标注样本的标注信息；利用标注信息对该未标注样本进行标注；计算本次利用各网络模型得到的该未标注样本的标注信息与上一次利用各网络模型得到的该未标注样本的标注信息的差异度；

统计模块470，用于对属于该样本组的各未标注样本对应的差异度进行统计；若统计结果大于预设阈值，则返回执行将标注后的样本和样本集中的多个已标注样本作为训练样本，分别对多个训练后的网络模型进行训练，更新多个训练后的网络模型的步骤。

基于图5所示实施例，本发明实施例还提供了一种样本标注装置，如图6所示，该装置可以包括：

统计模块470，用于对属于该样本组的各未标注样本对应的差异度进行统计；若统计结果大于预设阈值，则返回执行将标注后的样本和样本集中的多个已标注样本作为训练样本，分别对多个训练后的网络模型进行训练，更新多个训练后的网络模型的步骤；

确定模块480，用于若统计结果小于或等于预设阈值，则确定对属于该样本组的所有未标注样本完成标注。

基于图5所示实施例、图6所示实施例，可选的，统计模块470，具体可以用于：

可选的，输出结果可以包括多个标注对象的置信度、类别和检测框；

图4所示实施例、图5所示实施例和图6所示实施例的第一标注模块430，具体可以用于：

可选的，输出结果可以包括样本分类结果；

本发明实施例还提供了一种服务器，如图7所示，包括处理器710、通信接口720、存储器730和通信总线740，其中，处理器710、通信接口720、存储器730通过通信总线740完成相互间的通信；

存储器730，用于存放计算机程序；

处理器710，用于执行存储器730上所存放的计算机程序时，实现本发明实施例第一方面所提供的样本标注方法。

上述服务器提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

通信接口用于上述服务器与其他设备之间的通信。

存储器可以包括随机存取存储器(Random Access Memory，简称RAM)，也可以包括非易失性存储器(Non-volatile Memory，简称NVM)，例如至少一个磁盘存储器。可选的，存储器还可以是至少一个位于远离前述处理器的存储装置。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processor，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

在本发明提供的又一实施例中，还提供了一种机器可读存储介质，机器可读存储介质中存储有指令，当指令在服务器上运行时，使得服务器执行本发明实施例第一方面所提供的样本标注方法。

在本发明提供的又一实施例中，还提供了一种包含指令的计算机程序产品，当该计算机程序产品在服务器上运行时，使得服务器执行本发明实施例第一方面所提供的样本标注方法。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(Digital Subscriber Line，简称DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如数字多功能光盘(Digital Versatile Disc，简称DVD))、或者半导体介质(例如固态硬盘(SolidState Disk，简称SSD))等。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中的各个实施例均采用相关的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、服务器、机器可读存储介质、计算机程序产品实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

以上所述仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本发明的保护范围内。

Claims

1.一种样本标注方法，其特征在于，所述方法包括：

获取样本集，所述样本集中包括多个已标注样本和多个未标注样本，所述多个已标注样本的数量占所述样本集中样本总数量的比例小于预设比例；

将所述多个已标注样本作为训练样本，分别对不同网络结构的多个预设网络模型进行训练，得到多个训练后的网络模型；

针对任一未标注样本，将该未标注样本分别输入所述多个训练后的网络模型，得到各网络模型的输出结果；对各输出结果进行融合，得到该未标注样本的标注信息；利用所述标注信息对该未标注样本进行标注。

2.根据权利要求1所述的方法，其特征在于，

在所述针对任一未标注样本，将该未标注样本分别输入所述多个训练后的网络模型，得到各网络模型的输出结果之前，所述方法还包括：将所述多个未标注样本划分为多个样本组；

在对属于同一样本组的各未标注样本均进行标注之后，所述方法还包括：

将标注后的样本和所述样本集中的所述多个已标注样本作为训练样本，分别对所述多个训练后的网络模型进行训练，更新所述多个训练后的网络模型；

针对属于该样本组的任一未标注样本，将该未标注样本分别输入更新的所述多个训练后的网络模型，得到各网络模型的输出结果；对各输出结果进行融合，得到该未标注样本的标注信息；利用所述标注信息对该未标注样本进行标注；计算本次利用所述各网络模型得到的该未标注样本的标注信息与上一次利用所述各网络模型得到的该未标注样本的标注信息的差异度；

对属于该样本组的各未标注样本对应的差异度进行统计；

若统计结果大于预设阈值，则返回执行所述将标注后的样本和所述样本集中的所述多个已标注样本作为训练样本，分别对所述多个训练后的网络模型进行训练，更新所述多个训练后的网络模型。

3.根据权利要求2所述的方法，其特征在于，所述对属于该样本组的各未标注样本对应的差异度进行统计，包括：

4.根据权利要求2所述的方法，其特征在于，所述方法还包括：

若所述统计结果小于或等于所述预设阈值，则确定对属于该样本组的所有未标注样本完成标注。

5.根据权利要求1所述的方法，其特征在于，所述输出结果包括多个标注对象的置信度、类别和检测框；

所述对各输出结果进行融合，得到该未标注样本的标注信息，包括：

6.根据权利要求1所述的方法，其特征在于，所述输出结果包括样本分类结果；

7.一种样本标注装置，其特征在于，所述装置包括：

获取模块，用于获取样本集，所述样本集中包括多个已标注样本和多个未标注样本，所述多个已标注样本的数量占所述样本集中样本总数量的比例小于预设比例；

第一训练模块，用于将所述多个已标注样本作为训练样本，分别对不同网络结构的多个预设网络模型进行训练，得到多个训练后的网络模型；

第一标注模块，用于针对任一未标注样本，将该未标注样本分别输入所述多个训练后的网络模型，得到各网络模型的输出结果；对各输出结果进行融合，得到该未标注样本的标注信息；利用所述标注信息对该未标注样本进行标注。

8.根据权利要求7所述的装置，其特征在于，所述装置还包括：

划分模块，用于将所述多个未标注样本划分为多个样本组；

第二训练模块，用于在对属于同一样本组的各未标注样本均进行标注之后，将标注后的样本和所述样本集中的所述多个已标注样本作为训练样本，分别对所述多个训练后的网络模型进行训练，更新所述多个训练后的网络模型；

第二标注模块，用于针对属于该样本组的任一未标注样本，将该未标注样本分别输入更新的所述多个训练后的网络模型，得到各网络模型的输出结果；对各输出结果进行融合，得到该未标注样本的标注信息；利用所述标注信息对该未标注样本进行标注；计算本次利用所述各网络模型得到的该未标注样本的标注信息与上一次利用所述各网络模型得到的该未标注样本的标注信息的差异度；

统计模块，用于对属于该样本组的各未标注样本对应的差异度进行统计；若统计结果大于预设阈值，则返回执行所述将标注后的样本和所述样本集中的所述多个已标注样本作为训练样本，分别对所述多个训练后的网络模型进行训练，更新所述多个训练后的网络模型。

9.根据权利要求8所述的装置，其特征在于，所述统计模块，具体用于：

10.根据权利要求8所述的装置，其特征在于，所述装置还包括：

确定模块，用于若所述统计结果小于或等于所述预设阈值，则确定对属于该样本组的所有未标注样本完成标注。

11.根据权利要求7所述的装置，其特征在于，所述输出结果包括多个标注对象的置信度、类别和检测框；

所述第一标注模块，具体用于：

12.根据权利要求7所述的装置，其特征在于，所述输出结果包括样本分类结果；

所述第一标注模块，具体用于：

13.一种服务器，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口、所述存储器通过所述通信总线完成相互间的通信；

所述存储器，用于存放计算机程序；

所述处理器，用于执行所述存储器上所存放的计算机程序时，实现权利要求1-6任一项所述的方法。

14.一种机器可读存储介质，其特征在于，所述机器可读存储介质中存储有指令，当指令在服务器上运行时，使得服务器执行权利要求1-6任一项所述的方法。