CN111310826B

CN111310826B - 样本集的标注异常检测方法、装置及电子设备

Info

Publication number: CN111310826B
Application number: CN202010092213.7A
Authority: CN
Inventors: 周世豪; 赵博睿; 魏秀参
Original assignee: Xuzhou Kuangshi Data Technology Co ltd; Nanjing Kuangyun Technology Co ltd; Beijing Megvii Technology Co Ltd
Current assignee: Xuzhou Kuangshi Data Technology Co ltd; Nanjing Kuangyun Technology Co ltd; Beijing Megvii Technology Co Ltd
Priority date: 2020-02-13
Filing date: 2020-02-13
Publication date: 2024-02-02
Anticipated expiration: 2040-02-13
Also published as: CN111310826A

Abstract

本发明提供了一种样本集的标注异常检测方法、装置及电子设备，涉及机器学习技术领域，该方法包括：获取预先标注完成的样本集；其中，样本集包括带有多种目标类型的样本；基于异常检测模型对样本集中的样本进行标注检测，得到标注异常样本；其中，异常检测模型为基于包含有目标类型的样本预先训练得到的，标注异常样本包括：错标样本和/或漏标样本。本发明能够在节约人力成本的基础上，提升对于样本集中标注异常样本的检测效率。

Description

样本集的标注异常检测方法、装置及电子设备

技术领域

本发明涉及机器学习技术领域，尤其是涉及一种样本集的标注异常检测方法、装置及电子设备。

背景技术

随着机器视觉技术的日渐成熟，利用神经网络模型进行目标识别或目标检测的技术被广泛应用于各行各业，在利用神经网络模型进行目标识别之前需要对神经网络模型进行模型训练，训练神经网络模型需要大量训练样本中的标注数据的支持，样本集中标注数据的数量和质量会对神经网络模型的性能产生直接的影响。然而，由于现有的样本标注技术中主要依靠人工标注，且一般的训练样本集具有数量多、场景复杂的特点，从而导致人工标注的样本容易存在分类错误或漏标样本等标注异常问题。但是，现有的样本集标注异常检测技术主要依赖于人工数据验收和二次标注，不仅耗费人力，还减缓了研发速度，因此，现有的样本集标注异常检测技术还存在人力成本较高且检测速度较慢的问题。

发明内容

有鉴于此，本发明的目的在于提供一种样本集的标注异常检测方法、装置及电子设备，能够在节约人力成本的基础上，提升对于样本集中标注异常样本的检测效率。

为了实现上述目的，本发明实施例采用的技术方案如下：

第一方面，本发明实施例提供了一种样本集的标注异常检测方法，包括：获取预先标注完成的样本集；其中，所述样本集包括带有多种目标类型的样本；基于异常检测模型对所述样本集中的样本进行标注检测，得到标注异常样本；其中，所述异常检测模型为基于包含有所述目标类型的样本预先训练得到的，所述标注异常样本包括：错标样本和/或漏标样本。

进一步，本发明实施例提供了第一方面的第一种可能的实施方式，其中，所述异常检测模型包括分类器；所述分类器是基于所述样本集包含的目标及所述目标对应的标注类型训练得到的；基于异常检测模型对所述样本集中的样本进行标注检测，得到标注异常样本的步骤，包括：应用所述分类器对所述样本集中的各个样本的标注框进行分类检测；根据分类检测结果确定标注框中的目标对应的标注类型是否正确；如果否，将所述标注框所在的样本确定为错标样本。

进一步，本发明实施例提供了第一方面的第二种可能的实施方式，其中，所述异常检测模型包括漏标检测器；所述漏标检测器是基于所述样本集训练得到的；基于异常检测模型对所述样本集中的样本进行标注检测，得到标注异常样本的步骤，包括：应用所述漏标检测器对所述样本集中的各个样本进行目标检测，得到各个所述样本包含目标的预测结果；其中，所述预测结果用于表征所述样本包含所述目标类型对应的目标的预测分数及所述目标的预测位置；根据各个所述样本上的标注框和所述样本包含目标的预测结果确定漏标样本。

进一步，本发明实施例提供了第一方面的第三种可能的实施方式，其中，所述应用所述分类器对所述样本集中的各个样本的标注框进行分类检测的步骤，包括：将所述样本集内各个样本中的标注框逐一作为目标标注框；对于每个所述样本的每个所述目标标注框，分别利用所述分类器检测所述目标标注框内的目标与每种所述目标类型对应目标的相似程度，得到每个所述样本的每个标注框内的目标对应每种所述目标类型的相似分数。

进一步，本发明实施例提供了第一方面的第四种可能的实施方式，其中，所述根据分类检测结果确定标注框中的目标对应的标注类型是否正确的步骤，包括：以每个所述样本的每个标注框内的目标作为当前目标，分别执行以下操作：将所述当前目标对应每种所述目标类型的相似分数排序；从最高的相似分数开始，选取预设个数的相似分数；比较选取的相似分数对应的目标类型与所述当前目标的标注框标注的标注类型；如果选取的相似分数对应的目标类型中包含所述标注类型，确定所述当前目标的标注类型正确。

进一步，本发明实施例提供了第一方面的第五种可能的实施方式，其中，所述分类器的训练过程包括：获取所述样本集中各标注框中的目标及所述目标对应的标注框类型，得到所述分类器的训练集；其中，所述标注框类型包括密集框，所述密集框为多个相邻目标的标注框；将所述标注框类型为密集框的目标从所述分类器的训练集中剔除，得到优化训练集；对所述优化训练集进行归一化处理，得到目标训练集；将所述目标训练集输入至所述分类器，对所述分类器进行第一预设迭代次数的迭代训练，得到训练后的分类器。

进一步，本发明实施例提供了第一方面的第六种可能的实施方式，其中，所述将所述目标训练集输入至所述分类器，对所述分类器进行预设迭代次数的迭代训练，得到训练后的分类器的步骤，包括：将所述分类器的初始学习率设置为第一预设学习率，基于所述目标训练集对所述分类器进行迭代训练，并使所述第一预设学习率在迭代训练中以第一预设倍数进行第一预设次数的衰减，直至达到第一预设迭代次数，得到训练后的分类器。

进一步，本发明实施例提供了第一方面的第七种可能的实施方式，其中，所述漏标检测器包括多个目标检测器；多个所述目标检测器应用的目标检测算法均不相同；所述应用所述漏标检测器对所述样本集中的各个样本进行目标检测，得到各个所述样本包含目标的预测结果的步骤，包括：基于多个所述目标检测器分别对所述样本集内的各个样本进行目标检测，得到多个所述目标检测器分别对应每个所述样本包含目标的预测结果。

进一步，本发明实施例提供了第一方面的第八种可能的实施方式，其中，所述根据各个所述样本上的标注框和所述样本包含目标的预测结果确定漏标样本的步骤，包括：将所述样本包含的每个目标逐一作为当前目标，对每个所述当前目标，分别执行以下操作：获取多个所述目标检测器检测所述当前目标得到的多个预测结果，根据多个所述预测结果中的预测位置计算各个所述预测结果中两两预测结果的面积交并比；其中，所述预测位置包括所述目标的像素坐标；将存在所述面积交并比满足预设数值，且所述预测分数达到预设分数的当前目标作为待选目标；其中，所述面积交并比为两个位置的面积交集与面积并集之比；计算所述待选目标的预测位置与所述待选目标所在样本上各个标注框的面积交并比；如果所述待选目标的预测位置与各个所述标注框的面积交并比均小于预设最小交并比，则将所述待选目标作为漏标目标，将所述漏标目标所在样本作为漏标样本。

进一步，本发明实施例提供了第一方面的第九种可能的实施方式，其中，所述目标检测器的训练过程包括：将所述样本集分别输入多个所述目标检测器中进行迭代训练，其中，所述目标检测器的初始学习率设置为第二预设学习率；在迭代训练中过程中使所述第二预设学习率以第二预设倍数进行第二预设次数的衰减，直至达到第二预设迭代次数，停止所述迭代训练，得到训练后的目标检测器。

第二方面，本发明实施例还提供了一种样本集的标注异常检测装置，包括：样本获取模块，用于获取预先标注完成的样本集；其中，所述样本集包括带有多种目标类型的样本；标注异常检测模块，用于基于异常检测模型对所述样本集中的样本进行标注检测，得到标注异常样本；其中，所述异常检测模型为基于包含有所述目标类型的样本预先训练得到的，所述标注异常样本包括：错标样本和/或漏标样本。

第三方面，本发明实施例提供了一种电子设备，包括：处理器和存储装置；所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如上述第一方面任一项所述的方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述第一方面任一项所述的方法的步骤。

本发明实施例提供了一种样本集的标注异常检测方法、装置及电子设备，首先获取预先标注完成的样本集(包括带有多种目标类型的样本)；然后基于异常检测模型(基于包含有目标类型的样本预先训练得到)对样本集中的样本进行标注检测，得到标注异常样本(包括错标样本和/或漏标样本)。通过使用预先训练得到的异常检测模型对样本集中的样本进行标注检测，无需人为对样本集进行数据验收或二次标注，就可以自动检测出样本集中的错标样本和/或漏标样本，从而确定样本集中标注异常的样本，在节约人力成本的基础上，提升了对于样本集中标注异常样本的检测效率。

本发明实施例的其他特征和优点将在随后的说明书中阐述，或者，部分特征和优点可以从说明书推知或毫无疑义地确定，或者通过实施本发明实施例的上述技术即可得知。

为使本发明的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本发明实施例所提供的一种电子设备的结构示意图；

图2示出了本发明实施例所提供的一种样本集的标注异常检测方法流程图；

图3示出了本发明实施例所提供的一种错分样本检测流程图；

图4示出了本发明实施例所提供的一漏标样本检测流程图；

图5示出了本发明实施例所提供的一种样本集的标注异常检测装置结构示意图；

图6示出了本发明实施例所提供的另一种样本集的标注异常检测装置结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。

目前现有的样本集标注异常检测技术主要依赖于人工数据验收和二次标注，考虑到现有的样本集标注异常检测技术还存在人力成本较高且检测速度较慢的问题，为改善此问题，本发明实施例提供了一种样本集的标注异常检测方法、装置及电子设备，可应用于任何需要自动检测样本集的标注异常的场景。以下对本发明实施例进行详细介绍。

实施例一：

首先，参照图1来描述用于实现本发明实施例的一种样本集的标注异常检测方法、装置及电子设备的示例电子设备100。

如图1所示的一种电子设备的结构示意图，电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106、输出装置108以及图像采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备也可以具有其他组件和结构。

所述处理器102可以采用数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)中的至少一种硬件形式来实现，所述处理器102可以是中央处理单元(CPU)、图形处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元中的一种或几种的组合，并且可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储装置104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。

所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。

所述图像采集装置110可以拍摄用户期望的图像(例如照片、视频等)，并且将所拍摄的图像存储在所述存储装置104中以供其它组件使用。

示例性地，用于实现根据本发明实施例的样本集的标注异常检测方法、装置及电子设备的示例电子设备可以被实现为诸如智能手机、平板电脑、计算机等智能终端。

实施例二：

本实施例提供了一种样本集的标注异常检测方法，该方法可以由诸如前述电子设备执行，参见图2所示的样本集的标注异常检测方法流程图，该方法主要包括以下步骤S202～步骤S204：

步骤S202，获取预先标注完成的样本集；其中，样本集包括带有多种目标类型的样本。

上述样本集包括多个样本，每个样本上带有预先标注出的目标，该样本可以为诸如图片等训练样本，上述样本集中标注的目标可以是诸如动物、人、植物等需要进行训练识别的一种或多种目标。诸如，在训练可以识别出人、车辆和电话的神经网络模型时，上述预先标注完成的样本集是通过预先在图片样本集的所有图片中标注出图片中的人、车辆和电话得到的，该标注方式可以是使用标注框选中需要标注的目标，并标明标注框内目标对应的目标类型。

为了提升训练后的神经网络模型的准确性，在使用已标注的样本集对神经网络模型训练之前，首先需要获取预先标注完成的样本集，并对训练神经网络模型的训练集进行标注异常检测，以引导标注员对于标注异常的样本进行修改，从而降低样本集中的标注样本错误率。

步骤S204，基于异常检测模型对样本集中的样本进行标注检测，得到标注异常样本；其中，异常检测模型为基于包含有目标类型的样本预先训练得到的，标注异常样本包括：错标样本和/或漏标样本。

由于上述样本集中的图片比较复杂，可能存在对于图片中的物体有效范围或拥挤场景定义模糊而将目标类型标注错误的问题，导致样本集中可能存在被错误分类的样本，因此，上述错标样本可以是存在对标注框中的目标所标注的目标类型与该目标的实际类型不符合的样本。

由于上述样本集中的图片数量较多，在人工标注样本集时，可能存在遗漏标注图片中的目标的问题，上述漏标样本是图片样本中存在某种目标，但是却没有被标注的样本。

本实施例提供的上述样本集的标注异常检测方法，通过使用预先训练得到的异常检测模型对样本集中的样本进行标注检测，无需人为对样本集进行数据验收或二次标注，就可以自动检测出样本集中的错标样本和/或漏标样本，从而确定样本集中标注异常的样本，在节约人力成本的基础上，提升了对于样本集中标注异常样本的检测效率。

为了准确检测得到样本集中的错标样本，本实施例提供了基于异常检测模型对样本集中的样本进行标注检测，得到错标样本的实施方式，其中，上述异常检测模型包括分类器，该分类器是基于样本集包含的目标及目标对应的标注类型训练得到的，参加如图3所示的错分样本检测流程图，具体可参照如下步骤S302～步骤S306执行：

步骤S302，应用分类器对样本集中的各个样本的标注框进行分类检测。

由于上述分类器是基于样本集中各个标注框中包含的目标训练得到的，通过利用分类器对样本集中的各个样本的标注框内的目标进行分类检测，得到各个标注框内目标的分类检测结果。

在进行分类检测时，首先将样本集内各个样本中的标注框逐一作为目标标注框。然后对于每个样本的每个目标标注框，分别利用分类器检测目标标注框内的目标与每种目标类型对应目标的相似程度，得到每个样本的每个标注框内的目标对应每种目标类型的相似分数。利用上述分类器对每个目标标注框内的进行目标检测时，可以预先将各个样本中的标注框内的区域提取出来，将提取出的图片区域输入上述分类器中，从而实现利用分类器对每一个标注框内目标进行检测。由于上述分类器是基于样本集中包含的目标训练得到的，因此，上述分类器可以对样本集中的标注框内的目标进行目标分类，当上述样本集包含多种目标时，上述分类为N分类分类器，诸如，上述样本集中的标注的目标包括人物、车辆、电话等目标类型时，利用分类器对目标标注框内的目标进行检测，得到目标标注框内的目标与每种目标类型对应目标的相似程度(即目标标注框内的目标与每种目标类型对应目标的相似程度)，该相似程度可以以数组形式表示，该数组中包括目标标注框内的目标与人物、车辆、电话等目标类型的相似分数[x1，x2，x3]。利用上述分类器对样本集中的所有标注框内的目标进行检测，可以得到每个标注框内目标与每种目标类型对应目标的相似程度，即得到每个标注框所对应的相似程度数组，该数组即为分类检测结果。

步骤S304，根据分类检测结果确定标注框中的目标对应的标注类型是否正确。

由于上述样本集为预先完成标注的样本，即该样本集中的每个标注框当前都标注有与标注框中的目标相对应的标注类型(该标注类型为标注框中的目标的类型，诸如该标注类型为人，车辆或电话等)，根据上述分类检测结果中每个标注框内的目标对应每种目标类型的相似分数，可以判断出样本集的标注框中的目标对应的标注类型是否正确。

以每个样本的每个标注框内的目标作为当前目标，分别执行以下操作：将当前目标对应每种目标类型的相似分数排序；从最高的相似分数开始，选取预设个数的相似分数；比较选取的相似分数对应的目标类型与当前目标的标注框标注的标注类型；如果选取的相似分数对应的目标类型中包含标注类型，确定当前目标的标注类型正确。上述预设个数可以根据实际情况人为确定。诸如，当前目标种类的数量为5种，可以将上述预设个数设置为3，当前目标对应每种目标类型(诸如人，车辆，电话，自行车，遥控器等)的相似分数为[0.2，0.8，0.3，0.6，0.16]，该相似分数可以表示当前目标与某种目标类型的相似程度，对当前目标对应每种目标类型的相似分数进行排序，得到排序结果(0.8，0.6，0.3，0.2，0.16)，从最高的相似分数开始选取3个相似分数(0.8，0.6，0.3)，由于相似分数0.8为当前目标对应车辆的相似分数，即相似分数0.8对应的目标类型为车辆，同理，相似分数0.6对应的目标类型为自行车，相似分数0.3对应的目标类型为电话，如果选取的相似分数对应的目标类型中包含标注类型，即如果当前目标的标注类型包括选取的相似分数对应的目标类型(车辆、自行车或电话)中的任意一种类型，确定当前目标的标注类型时正确的，如果当前目标的标注类型为选取的相似分数对应的目标类型外的某种目标类型，确定当前目标的标注类型不正确。以每个样本的每个标注框内的目标作为当前目标，从而可以检测样本集中每个样本上的每个标注框内的目标的标注类型是否正确。

步骤S306，如果否，将标注框所在的样本确定为错标样本。

如果确定标注框中的目标对应的标注类型不正确，将该错误标注框所在的图片样本确定为错标样本，在一种具体的实施方式中，还可以将该错误标注框用区别于该样本背景的明显颜色标出，以方便标注人员对标注异常样本的修改。上述错标样本可以是存在错标目标的样本，错标目标即为分类器预测的类型与实际标注的类型不相同的目标，错标目标一般是因为对相似物体的混淆而标注错误的目标，也可能是由于在标注框中存在多个与目标相邻的拥挤物体而导致分类器检测得到的相似分数较低的目标。

为了提升上述分类器的目标分类准确性，本实施例提供了对上述分类器进行训练的实施方式，具体可参照如下步骤(1)～步骤(4)执行：

步骤(1)：获取样本集中各标注框中的目标及目标对应的标注框类型，得到分类器的训练集；其中，标注框类型包括密集框，密集框为多个相邻目标的标注框。

根据上述样本集中各个标注框在原始图片样本中提取出目标所在的目标区域(即标注框内的图片)，将各个标注框内的目标区域作为分类器的训练集。

步骤(2)：将标注框类型为密集框的目标从分类器的训练集中剔除，得到优化训练集。

由于上述密集框中包含有位置紧密的目标(多个拥挤目标)，无法对该密集框进行分类，因此可以将分类器的训练集中标注类型为密集框的目标区域对应的图片剔除，得到分类器的优化训练集。

步骤(3)：对优化训练集进行归一化处理，得到目标训练集。

将分类器的优化训练集中的各个图片尺寸归一化为固定尺寸，得到目标训练集，该固定尺寸可以为224*224，还可以是其他人为设定的尺寸。

步骤(4)：将目标训练集输入至分类器，对分类器进行第一预设迭代次数的迭代训练，得到训练后的分类器。

将所有的图片样本完成一次训练作为一次迭代训练，上述第一预设迭代次数可以是人为设定的迭代次数，该第一预设迭代次数诸如可以是60次。在对分类器的迭代训练时，可以将分类器的初始学习率设置为第一预设学习率，基于目标训练集对分类器进行迭代训练，并使第一预设学习率在迭代训练中以第一预设倍数进行第一预设次数的衰减，直至达到第一预设迭代次数，得到训练后的分类器。上述第一预设学习率、第一预设倍数和第一预设次数可以是人为设定的数值，诸如上述第一预设学习率可以是0.1，在迭代训练次数达到20次时，上述第一预设学习率由0.1衰减为0.01，在迭代训练次数达到40次时，上述第一预设学习率由0.01衰减为0.001，直至达到第一预设迭代次数，得到训练后的分类器。

为了准确检测得到样本集中的漏标样本，本实施例提供了基于异常检测模型对样本集中的样本进行标注检测，得到漏标样本的实施方式，其中，上述异常检测模型包括漏标检测器，该漏标检测器是基于样本集训练得到的，参加如图4所示的漏标样本检测流程图，具体可参照如下步骤S402～步骤S404执行：

步骤S402，应用漏标检测器对样本集中的各个样本进行目标检测，得到各个样本包含目标的预测结果；其中，预测结果用于表征样本包含目标类型对应的目标的预测分数及目标的预测位置。

为了进一步提升目标检测的准确性，上述漏标检测器包括多个目标检测器，且该多个目标检测器应用的目标检测算法均不相同。基于多个目标检测器分别对样本集内的各个样本进行目标检测，得到多个目标检测器分别对应每个样本包含目标的预测结果。由于同时采用多个检测器对各个样本进行目标检测，因此，对于样本上的每个目标，均可以得到该目标的多个预测结果，且该多个预测结果与上述多个目标检测器相对应，该目标的每个预测预测结果中均包括该目标的预测分数和该目标的预测位置。

步骤S404，根据各个样本上的标注框和样本包含目标的预测结果确定漏标样本。

为了确定样本集中的漏标样本，将各个样本包含的每个目标逐一作为当前目标，对每个当前目标，分别执行以下操作，具体可参照如下(1)～(4)执行：

(1)获取多个目标检测器检测当前目标得到的多个预测结果，根据多个预测结果中的预测位置计算各个预测结果中两两预测结果的面积交并比；其中，预测位置包括目标的像素坐标，该目标的像素坐标可以是该目标的目标框的各个顶点像素坐标。由于上述多个目标检测器对于该目标的预测位置可能不完全相同，计算上述多个目标检测器得到的预测位置是否接近，根据该目标的各个预测位置中目标框各个顶点的像素坐标，可以计算两两预测结果的面积交并比(即两个目标框的面积交集与面积并集之比)。

(2)将存在面积交并比满足预设数值，且预测分数达到预设分数的当前目标作为待选目标；其中，面积交并比为两个位置的面积交集与面积并集之比。当多个目标检测器对于同一当前目标的预测结果中，存在两两预测结果的面积交并比满足预设数值(该预设数值可以是0.75)，且多个目标检测器对当前目标的预测分数均达到预设分数(该预设分数可以是0.5)，表明该当前目标所在区域存在目标的可能性较大，将满足上述条件的当前目标作为待选目标，并进行进一步判定。

(3)计算待选目标的预测位置与该待选样本所在样本上各个标注框的面积交并比。计算上述多个目标检测器检测待选目标得到的多个预测位置与该待选目标所在样本上各个标注框的面积交并比，即计算该待选目标与待选目标所在图片样本的各个标注框的重叠度。

(4)如果待选目标的预测位置与各个标注框的面积交并比均小于预设最小交并比，则将该待选目标作为漏标目标，将漏标目标所在样本作为漏标样本。若多个目标检测器检测待选目标得到的多个预测位置与该待选目标所在样本上的各个标注框的面积交并比均小于预设最小交并比，即该待选目标的各个预测位置与各个标注框的重叠度较小，该待选目标与标注框的偏离较大，或该待选目标并未被标注，将该待选目标作为漏标目标，并将漏标目标所在样本作为漏标样本。在一种具体的实施方式中，还可以对漏标样本进行标记，或输出漏标目标所在样本及漏标目标的目标框坐标，以方便对漏标样本进行修改。

为了提升上述目标检测器的目标检测准确性，本实施例提供了对上述目标检测器进行训练的实施方式，具体可参照如下步骤1)～步骤2)执行：

步骤1)：将样本集分别输入多个目标检测器中进行迭代训练，其中，目标检测器的初始学习率设置为第二预设学习率。上述样本集为上述预先完成目标标注的样本集，选取多个高性能通用目标检测器，将上述样本集分别输入每个目标检测器中对目标检测器进行迭代训练，在对上述目标检测器进行训练时，可以设置有目标检测器的设备采用多个GPU(诸如8个GPU)进行训练，每个GPU可以处理多张图片样本，从而可以提升训练速度。上述多个目标检测器可以为设置有不同目标检测算法的检测器，该多个目标检测器可以包括设置有faster rcnn算法的resnext-101-FPN模型、设置有cascade rcnn算法的resnet-50模型和设置有trident net算法的resnet-50模型等可以实现目标检测的模型中的一种或多种。

步骤2)：在迭代训练中过程中使第二预设学习率以第二预设倍数进行第二预设次数的衰减，直至达到第二预设迭代次数，停止迭代训练，得到训练后的目标检测器。诸如，上述第二预设学习率可以是0.02，上述第二预设倍数可以是10倍，上述第二预设次数可以是2次，上述第二预设迭代次数可以是120次(其中，上述样本集中所有的图片样本均完成一次训练时迭代次数加1)，在迭代训练中过程中上述第二预设学习率0.02可以先衰减为0.002，再衰减为0.0002，衰减时间可以人为设定。

本实施例提供的上述样本集的标注异常检测方法，利用预先训练得到的图像分类器和目标检测器，可以检测出样本集中标注异常的样本，在降低数据清洗成本的基础上，还可以引导标注员修改标注异常的样本，提升了样本集目标标注的准确性，进而可以提升样本集训练得到的神经网络模型的识别准确性。

实施例三：

在前述实施例的基础上，本实施例提供了一种应用样本集的标注异常检测方法对样本集进行错标检测和漏标检测的示例，具体可参照如下步骤a～步骤c执行：

步骤a：获取预先标注完成的样本集。采用一般的标注方式对样本集进行标注，得到的标注框的内容可以包括：图片名称或标号，标注框中心坐标与长宽，标注类型(即标注框内目标的目标类型)，是否群框等信息。

步骤b：利用分类器对上述样本集中各个标注框内的目标区域进行检测，得到各个目标区域分别与多个目标类型的相似分数，并根据该相似分数判断该目标区域是否为错分目标，将错分目标所在样本确定为错分样本。

上述分类器是基于分类器的目标训练集训练得到的，分类器的目标训练集的获取方式可以包括：将上述样本集中各个标注框内的目标区域图片提取出来，作为分类器的待优化训练集，再将待优化训练集中的标注类型为密集框(也可以称为群框，密集框的标注框内包含有多个拥挤物体)的目标区域图片剔除，得到分类器的优化训练集，再对优化训练集的尺寸进行归一化处理，诸如将优化训练集中的各个图片变换为大小为224*224的尺寸，得到分类器的目标训练集。将变换尺寸后得到的目标训练集输入分类器中，对分类器进行训练。为了提升分类器分类的准确性，上述分类器的目标训练集中各个类型目标的数量要保持均衡，即各个类型目标对应的样本数量相近。

步骤c：利用预先训练得到的多个目标检测器对上述样本集中的各个样本进行目标检测，得到各样本中每个目标的预测分数和预测位置，根据每个目标的预测分数、预测位置及该目标所在样本内的各个标注框位置确定漏标目标，将漏标目标所在样本确定为漏标样本。

上述漏标目标的确定方式为：将同时满足以下三个条件的目标确定为漏标目标，一、至少存在两个目标分类器对该目标的预测位置的面积交并比IOU大于0.75。二、上述多个目标检测器对该目标的预测分数均大于0.5。三、上述多个目标检测器对该目标的预测位置与该目标所在样本内的各个标注框位置的面积交并比IOU均小于0.5。上述面积交并比IOU的计算方法是预测位置与标注框位置的面积交集与面积并集之比，其中，预测位置和标注框位置的面积时通过像素长度与宽度的乘积得到的。

本实施例提供的上述样本集的标注异常检测方法，在降低数据清洗成本的基础上，提升了样本集目标标注的准确性，进而可以提升样本集训练得到的神经网络模型的识别准确性。

实施例四：

对应于实施例二中所提供样本集的标注异常检测方法，本发明实施例提供了一种样本集的标注异常检测装置，参见图5所示的一种样本集的标注异常检测装置结构示意图，该装置包括以下模块：

样本获取模块51，用于获取预先标注完成的样本集；其中，样本集包括带有多种目标类型的样本。

标注异常检测模块52，用于基于异常检测模型对样本集中的样本进行标注检测，得到标注异常样本；其中，异常检测模型为基于包含有目标类型的样本预先训练得到的，标注异常样本包括：错标样本和/或漏标样本。

本实施例提供的上述样本集的标注异常检测装置，通过使用预先训练得到的异常检测模型对样本集中的样本进行标注检测，无需人为对样本集进行数据验收或二次标注，就可以自动检测出样本集中的错标样本和/或漏标样本，从而确定样本集中标注异常的样本，在节约人力成本的基础上，提升了对于样本集中标注异常样本的检测效率。

在一种实施方式中，上述异常检测模型包括分类器；分类器是基于样本集包含的目标及目标对应的标注类型训练得到的；上述标注异常检测模块52，进一步用于应用分类器对样本集中的各个样本的标注框进行分类检测；根据分类检测结果确定标注框中的目标对应的标注类型是否正确；如果否，将标注框所在的样本确定为错标样本。

在一种实施方式中，上述异常检测模型包括漏标检测器；漏标检测器是基于样本集训练得到的；上述标注异常检测模块52，进一步用于应用漏标检测器对样本集中的各个样本进行目标检测，得到各个样本包含目标的预测结果；其中，预测结果用于表征样本包含目标类型对应的目标的预测分数及目标的预测位置；根据各个样本上的标注框和样本包含目标的预测结果确定漏标样本。

在一种实施方式中，上述标注异常检测模块52，进一步用于将样本集内各个样本中的标注框逐一作为目标标注框；对于每个样本的每个目标标注框，分别利用分类器检测目标标注框内的目标与每种目标类型对应目标的相似程度，得到每个样本的每个标注框内的目标对应每种目标类型的相似分数。

在一种实施方式中，上述标注异常检测模块52，进一步用于以每个样本的每个标注框内的目标作为当前目标，分别执行以下操作：将当前目标对应每种目标类型的相似分数排序；从最高的相似分数开始，选取预设个数的相似分数；比较选取的相似分数对应的目标类型与当前目标的标注框标注的标注类型；如果选取的相似分数对应的目标类型中包含标注类型，确定当前目标的标注类型正确。

在一种实施方式中，参见图6所示的另一种样本集的标注异常检测装置结构示意图，上述装置还包括：

分类器训练模块63，用于获取样本集中各标注框中的目标及目标对应的标注框类型，得到分类器的训练集；其中，标注框类型包括密集框，密集框为多个相邻目标的标注框；将标注框类型为密集框的目标从分类器的训练集中剔除，得到优化训练集；对优化训练集进行归一化处理，得到目标训练集；将目标训练集输入至分类器，对分类器进行第一预设迭代次数的迭代训练，得到训练后的分类器。

在一种实施方式中，上述分类器训练模块63，进一步用于将分类器的初始学习率设置为第一预设学习率，基于目标训练集对分类器进行迭代训练，并使第一预设学习率在迭代训练中以第一预设倍数进行第一预设次数的衰减，直至达到第一预设迭代次数，得到训练后的分类器。

在一种实施方式中，上述漏标检测器包括多个目标检测器；多个目标检测器应用的目标检测算法均不相同；上述标注异常检测模块52，进一步用于基于多个目标检测器分别对样本集内的各个样本进行目标检测，得到多个目标检测器分别对应每个样本包含目标的预测结果。

在一种实施方式中，上述标注异常检测模块52，进一步用于将样本包含的每个目标逐一作为当前目标，对每个当前目标，分别执行以下操作：获取多个目标检测器检测当前目标得到的多个预测结果，根据多个预测结果中的预测位置计算各个预测结果中两两预测结果的面积交并比；其中，预测位置包括目标的像素坐标；将存在面积交并比满足预设数值，且预测分数达到预设分数的当前目标作为待选目标；其中，面积交并比为两个位置的面积交集与面积并集之比；计算待选目标的预测位置与该待选目标所在样本上各个标注框的面积交并比；如果待选目标的预测位置与各个标注框的面积交并比均小于预设最小交并比，则将该待选目标作为漏标目标，将漏标目标所在样本作为漏标样本。

在一种实施方式中，如图6所示，上述装置还包括：

检测器训练模块64，用于将样本集分别输入多个目标检测器中进行迭代训练，其中，目标检测器的初始学习率设置为第二预设学习率；在迭代训练中过程中使第二预设学习率以第二预设倍数进行第二预设次数的衰减，直至达到第二预设迭代次数，停止迭代训练，得到训练后的目标检测器。

本实施例提供的上述样本集的标注异常检测装置，利用预先训练得到的图像分类器和目标检测器，可以检测出样本集中标注异常的样本，在降低数据清洗成本的基础上，还可以引导标注员修改标注异常的样本，提升了样本集目标标注的准确性，进而可以提升样本集训练得到的神经网络模型的识别准确性。

本实施例所提供的装置，其实现原理及产生的技术效果和前述实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

实施例五：

本发明实施例提供了一种计算机可读介质，其中，所述计算机可读介质存储有计算机可执行指令，所述计算机可执行指令在被处理器调用和执行时，所述计算机可执行指令促使所述处理器实现上述实施例所述的样本集的标注异常检测方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统具体工作过程，可以参考前述实施例中的对应过程，在此不再赘述。

本发明实施例所提供的样本集的标注异常检测方法、装置及电子设备的计算机程序产品，包括存储了程序代码的计算机可读存储介质，所述程序代码包括的指令可用于执行前面方法实施例中所述的方法，具体实现可参见方法实施例，在此不再赘述。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种样本集的标注异常检测方法，其特征在于，包括：

获取预先标注完成的样本集；其中，所述样本集包括带有多种目标类型的样本；

基于异常检测模型对所述样本集中的样本进行标注检测，得到标注异常样本；其中，所述异常检测模型为基于包含有所述目标类型的样本预先训练得到的，所述标注异常样本包括：错标样本和/或漏标样本；

其中，所述异常检测模型包括分类器；所述分类器是基于所述样本集包含的目标及所述目标对应的标注类型训练得到的；

基于异常检测模型对所述样本集中的样本进行标注检测，得到标注异常样本的步骤，包括：

应用所述分类器对所述样本集中的各个样本的标注框进行分类检测；

根据分类检测结果确定标注框中的目标对应的标注类型是否正确；

如果否，将所述标注框所在的样本确定为错标样本；

其中，所述异常检测模型包括漏标检测器；所述漏标检测器是基于所述样本集训练得到的；

应用所述漏标检测器对所述样本集中的各个样本进行目标检测，得到各个所述样本包含目标的预测结果；其中，所述预测结果用于表征所述样本包含所述目标类型对应的目标的预测分数及所述目标的预测位置；

根据各个所述样本上的标注框和所述样本包含目标的预测结果确定漏标样本。

2.根据权利要求1所述的方法，其特征在于，所述应用所述分类器对所述样本集中的各个样本的标注框进行分类检测的步骤，包括：

将所述样本集内各个样本中的标注框逐一作为目标标注框；

对于每个所述样本的每个所述目标标注框，分别利用所述分类器检测所述目标标注框内的目标与每种所述目标类型对应目标的相似程度，得到每个所述样本的每个标注框内的目标对应每种所述目标类型的相似分数。

3.根据权利要求2所述的方法，其特征在于，所述根据分类检测结果确定标注框中的目标对应的标注类型是否正确的步骤，包括：

以每个所述样本的每个标注框内的目标作为当前目标，分别执行以下操作：

将所述当前目标对应每种所述目标类型的相似分数排序；

从最高的相似分数开始，选取预设个数的相似分数；

比较选取的相似分数对应的目标类型与所述当前目标的标注框标注的标注类型；

如果选取的相似分数对应的目标类型中包含所述标注类型，确定所述当前目标的标注类型正确。

4.根据权利要求1所述的方法，其特征在于，所述分类器的训练过程包括：

获取所述样本集中各标注框中的目标及所述目标对应的标注框类型，得到所述分类器的训练集；其中，所述标注框类型包括密集框，所述密集框为多个相邻目标的标注框；

将所述标注框类型为密集框的目标从所述分类器的训练集中剔除，得到优化训练集；

对所述优化训练集进行归一化处理，得到目标训练集；

将所述目标训练集输入至所述分类器，对所述分类器进行第一预设迭代次数的迭代训练，得到训练后的分类器。

5.根据权利要求4所述的方法，其特征在于，所述将所述目标训练集输入至所述分类器，对所述分类器进行第一预设迭代次数的迭代训练，得到训练后的分类器的步骤，包括：

将所述分类器的初始学习率设置为第一预设学习率，基于所述目标训练集对所述分类器进行迭代训练，并使所述第一预设学习率在迭代训练中以第一预设倍数进行第一预设次数的衰减，直至达到第一预设迭代次数，得到训练后的分类器。

6.根据权利要求1所述的方法，其特征在于，所述漏标检测器包括多个目标检测器；多个所述目标检测器应用的目标检测算法均不相同；

所述应用所述漏标检测器对所述样本集中的各个样本进行目标检测，得到各个所述样本包含目标的预测结果的步骤，包括：

基于多个所述目标检测器分别对所述样本集内的各个样本进行目标检测，得到多个所述目标检测器分别对应每个所述样本包含目标的预测结果。

7.根据权利要求6所述的方法，其特征在于，所述根据各个所述样本上的标注框和所述样本包含目标的预测结果确定漏标样本的步骤，包括：

将所述样本包含的每个目标逐一作为当前目标，对每个所述当前目标，分别执行以下操作：

获取多个所述目标检测器检测所述当前目标得到的多个预测结果，根据多个所述预测结果中的预测位置计算各个所述预测结果中两两预测结果的面积交并比；其中，所述预测位置包括所述目标的像素坐标；

将存在所述面积交并比满足预设数值，且所述预测分数达到预设分数的当前目标作为待选目标；其中，所述面积交并比为两个位置的面积交集与面积并集之比；

计算所述待选目标的预测位置与所述待选目标所在样本上各个标注框的面积交并比；

如果所述待选目标的预测位置与各个所述标注框的面积交并比均小于预设最小交并比，则将所述待选目标作为漏标目标，将所述漏标目标所在样本作为漏标样本。

8.根据权利要求6所述的方法，其特征在于，所述目标检测器的训练过程包括：

将所述样本集分别输入多个所述目标检测器中进行迭代训练，其中，所述目标检测器的初始学习率设置为第二预设学习率；

在迭代训练过程中使所述第二预设学习率以第二预设倍数进行第二预设次数的衰减，直至达到第二预设迭代次数，停止所述迭代训练，得到训练后的目标检测器。

9.一种样本集的标注异常检测装置，其特征在于，包括：

样本获取模块，用于获取预先标注完成的样本集；其中，所述样本集包括带有多种目标类型的样本；

标注异常检测模块，用于基于异常检测模型对所述样本集中的样本进行标注检测，得到标注异常样本；其中，所述异常检测模型为基于包含有所述目标类型的样本预先训练得到的，所述标注异常样本包括：错标样本和/或漏标样本；

其中，所述异常检测模型包括分类器；所述分类器是基于所述样本集包含的目标及所述目标对应的标注类型训练得到的；所述标注异常检测模块还用于：应用所述分类器对所述样本集中的各个样本的标注框进行分类检测；根据分类检测结果确定标注框中的目标对应的标注类型是否正确；如果否，将所述标注框所在的样本确定为错标样本；

其中，所述异常检测模型包括漏标检测器；所述漏标检测器是基于所述样本集训练得到的；所述标注异常检测模块还用于：应用所述漏标检测器对所述样本集中的各个样本进行目标检测，得到各个所述样本包含目标的预测结果；其中，所述预测结果用于表征所述样本包含所述目标类型对应的目标的预测分数及所述目标的预测位置；根据各个所述样本上的标注框和所述样本包含目标的预测结果确定漏标样本。

10.一种电子设备，其特征在于，包括：处理器和存储装置；

所述存储装置上存储有计算机程序，所述计算机程序在被所述处理器运行时执行如权利要求1至8任一项所述的方法。

11.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器运行时执行上述权利要求1至8任一项所述的方法的步骤。