CN108985214A

CN108985214A - 图像数据的标注方法和装置

Info

Publication number: CN108985214A
Application number: CN201810746760.5A
Authority: CN
Inventors: 罗培元
Original assignee: Shanghai Feixun Data Communication Technology Co Ltd
Current assignee: Hangzhou Jiji Intellectual Property Operation Co., Ltd
Priority date: 2018-07-09
Filing date: 2018-07-09
Publication date: 2018-12-11

Abstract

本申请实施例提供了一种图像数据的标注方法和装置，其中，该方法包括：获取待标注的图像数据；利用预设的检测网络模型确定出所述待标注的图像数据中的目标区域，并标注出所述目标区域的位置；利用预设的分类网络模型对所述目标区域的位置处的图像数据进行识别，并标注识别结果。该方案通过先利用事先训练好的检测网络模型寻找并标注目标对象所在的目标区域，再利用事先训练好的分类网络模型识别并标注目标区域中的图像数据是否是目标对象，从而解决了现有的数据标注方法中存在的准确度差、效率低的技术问题，达到了能高效、精确地对大量图像数据进行自动标注的技术效果。

Description

图像数据的标注方法和装置

技术领域

本申请涉及图像识别技术领域，特别涉及一种图像数据的标注方法和装置。

背景技术

在图像识别领域，通常需要先对样本图像数据进行标注，再利用标注后的样本图像数据对神经网络模型进行学习、训练，以得到用于图像识别的神经网络模型。

为了获取用于学习、训练的标注后的样本图像数据，现有方法大多是通过人工标注的方式对所采集的样本数据进行标注。具体的，技术人员依靠自身的经验和对图像内容的理解，逐一框出图像中的目标对象，并作对应的标注。由上可见，现有的图像数据的标注方法在实现过程中由于需要依赖技术人员个人的经验和对图像内容的理解，导致不同的技术人员由于所依据的经验和对图像内容的理解不同，标注后的样本图像数据也往往会存在差异，不够客观。此外，现有方法通过人工标注，标注速度相对较慢。并且由于通常需要标注的图像数的量相对较大，例如可能多达到几T，导致现有方法在实施过程中，也容易产生误差。综上可知，现有方法具体实施时，往往存在准确度差、效率低的技术问题。

针对上述问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种图像数据的标注方法和装置，以解决现有的数据标注方法中存在的准确度差、效率低的技术问题，达到能高效、精确地对大量图像数据进行自动标注的技术效果。

本申请实施例提供了一种图像数据的标注方法，包括：

获取待标注的图像数据；

利用预设的检测网络模型确定出所述待标注的图像数据中的目标区域，并标注出所述目标区域的位置；

利用预设的分类网络模型对所述目标区域的位置处的图像数据进行识别，并标注识别结果。

在一个实施方式中，在获取待标注的图像数据后，所述方法还包括：

对所述待标注的图像数据进行均衡化处理。

在一个实施方式中，对所述待标注的图像数据进行均衡化处理，包括：

根据所述待标注的图像数据，生成图像通道像素值的直方统计图；

对所述图像通道像素值的直方统计图中位于阈值范围内的通道像素值进行线性扩充；

根据线性扩充后的图像通道像素值的直方统计图，确定均衡化处理后的待标注的图像数据。

在一个实施方式中，利用预设的分类网络模型对所述目标区域的位置处的图像数据进行识别，包括：

提取所述目标区域的位置处的图像数据；

利用所述预设的分类网络模型对所述目标区域位置处的图像数据进行目标对象识别，以生成置信度参数，并根据所述置信度参数确定识别结果，其中，所述置信度参数用于指示所述目标区域的位置处的图像数据为目标对象的概率。

在一个实施方式中，所述预设的检测网络模型按照以下方式建立：

获取第一训练样本，其中，所述第一训练样本包括标注有目标对象所处位置的图像数据；

利用所述第一训练样本对第一神经网络模型进行训练学习，得到所述预设的检测网络模型。

在一个实施方式中，利用所述第一训练样本对第一神经网络模型进行训练学习，包括：

通过迁移学习的方法，利用所述第一训练样本对所述第一神经网络模型进行训练学习。

在一个实施方式中，所述预设的分类网络模型按照以下方式建立：

获取第二训练样本，其中，所述第二训练样本包括标注有目标对象名称的图像数据；

利用所述第二训练样本对第二神经网络模型进行训练学习，得到所述预设的分类网络模型。

在一个实施方式中，所述第二神经网络模型包括改进的YOLOv3模型，其中，所述改进的YOLOv3模型按照以下方式进行改进：

在进行多目标检测的情况下，将YOLOv3模型中的回归分类器的数量修改为多个；

在进行单目标检测的情况下，将YOLOv3模型中的回归分类器的数量修改为单个。

在一个实施方式中，所述目标对象包括人脸或车牌。

本申请实施例还提供了一种图像数据的标注装置，包括：

获取模块，用于获取待标注的图像数据；

第一标注模块，用于利用预设的检测网络模型确定出所述待标注的图像数据中的目标区域，并标注出所述目标区域的位置；

第二标注模块，用于利用预设的分类网络模型对所述目标区域的位置处的图像数据进行识别，并标注识别结果。

在一个实施方式中，所述装置还包括均衡化处理模块，用于对所述待标注的图像数据进行均衡化处理。

在一个实施方式中，所述第一标注模块包括：

第一提取单元，用于提取所述目标区域的位置处的图像数据；

第一标注单元，用于利用所述预设的分类网络模型对所述目标区域位置处的图像数据进行目标对象识别，以生成置信度参数，并根据所述置信度参数确定识别结果，其中，所述置信度参数用于指示所述目标区域的位置处的图像数据为目标对象的概率。

在一个实施方式中，所述装置还包括第一建立模块，其中，所述第一建立模块包括：

第一获取单元，用于获取第一训练样本，其中，所述第一训练样本包括标注有目标对象所处位置的图像数据；

第一学习单元，用于利用所述第一训练样本对第一神经网络模型进行训练学习，得到所述预设的检测网络模型。

在一个实施方式中，所述装置还包括第二建立模块，其中，所述第二建立模块包括：

第二获取单元，用于获取第二训练样本，其中，所述第二训练样本包括标注有目标对象名称的图像数据；

第二学习单元，用于利用所述第二训练样本对第二神经网络模型进行训练学习，得到所述预设的分类网络模型。

本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机指令，所述指令被执行时实现获取待标注的图像数据；利用预设的检测网络模型确定出所述待标注的图像数据中的目标区域，并标注出所述目标区域的位置；利用预设的分类网络模型对所述目标区域的位置处的图像数据进行识别，并标注识别结果。

在本申请实施例中，通过先利用事先训练好的检测网络模型寻找并标注目标对象所在的目标区域，再利用事先训练好的分类网络模型识别并标注目标区域中的图像数据是否是目标对象，从而解决了现有的数据标注方法中存在的准确度差、效率低的技术问题，达到了能高效、精确地对大量图像数据进行自动标注的技术效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是根据本申请实施方式提供的图像数据的标注方法的处理流程图；

图2是根据本申请实施方式提供的图像数据的标注装置的组成结构图；

图3是基于本申请实施例提供的图像数据的标注方法的电子设备组成结构示意图；

图4是在一个场景示例中应用本申请实施例提供的图像数据的标注方法和装置获得的图像通道像素值的直方统计图的示意图；

图5是在一个场景示例中应用本申请实施例提供的图像数据的标注方法和装置获得的均衡化处理后的图像与未均衡化处理的图像的对比示意图；

图6是在一个场景示例中没有改进的YOLOv3模型的结构示意图；

图7是在一个场景示例中应用本申请实施例提供的图像数据的标注方法和装置获得的标注后的人脸图像的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

考虑到现有的图像数据的标注方法，往往都是基于技术人员的经验和对图像内容的理解，通过手工标注来标注用于学习、训练的样本图像数据，即需要技术人员逐帧地在各个图像数据中找到并标注出图像中的目标对象的位置、长宽、中心点等等。由于不同技术人员所依据的经验和对图像内容的理解往往并不相同，导致不同技术人员所标注的结果也不相同，存在一定的主观影响。且通常需要标注的图像数据的量较大，例如，可能多达几T。这时，如果单纯靠技术人员进行手工标注很容易出现误差，并且标注的速度也相对较差。因此，现有的图像数据的标注方法具体实施时，往往会存在标注的准确度较差、标注效率低的技术问题。针对产生上述技术问题的根本原因，本申请考虑是否可以利用计算机等设备，通过深度学习，自动地对大量的图像数据进行标注。具体的，考虑先利用事先训练好的检测网络模型寻找并标注目标对象所在的目标区域，再利用事先训练好的分类网络模型识别并标注目标区域中的图像数据是否是目标对象，从而解决了现有的数据标注方法中存在的准确度差、效率低的技术问题，达到了能高效、精确地对大量图像数据进行自动标注的技术效果。

基于上述思考思路，本申请实施例提供了一种图像数据的标注方法。具体请参阅图1所示的根据本申请实施方式提供的图像数据的标注方法的处理流程图。本申请实施例提供的图像数据的标注方法，具体实施时，可以包括以下步骤。

S11：获取待标注的图像数据。

在本实施方式中，上述图像数据具体可以理解用于学习、训练目标对象识别模型(例如人脸识别模型)等神经网络模型的训练样本数据。当然，上述所列举的目标对象识别模型只是为了更好地说明本申请实施方式。具体实施时，根据具体的应用场景也可以将本申请实施例提供的图像标注方法推广至其他类型场景中的图像数据的标注中。对此，本申请不作限定。

在本实施方式中，上述图像数据具体可以是包含有目标对象和不包含有目标对象的数据。其中，上述目标对象可以根据具体的应用场景确定。例如，在学习、训练人脸识别模型时，上述目标对象可以是人脸，相应的，上述图像数据可以是包含有人脸的图像数据和不包含有人脸的图像数据，而在学习、训练车牌识别模型时，上述目标对象则可以是车牌，相应的，上述图像数据可以是包含有车牌的图像数据和不包含有车牌的图像数据。

在一个实施方式中，上述待标注的图像数据具体可以是照片，也可以是从视频中截取的图片数据。对于上述图像数据的具体形式，本申请不作限定。

在一个实施方式中，考虑到直接获取的图像数据往往较为粗糙。例如，许多待标注的图像数据由于采集的光线环境较差(例如过亮或过暗)，导致得到的图像数据中目标对象往往不够突出、显著，进而会影响后续利用神经网络模型进行识别标注的准确度。因此，在本实施方式中，为了提高待标注的图像数据的图像质量，提高算法的鲁棒性，在获取待标注的图像数据后，所述方法具体实施时还可以包括以下内容：对所述待标注的图像数据进行均衡化处理。

在本实施方式中，上述均衡化处理具体可以理解为对图像数据进行黑白平衡，使得图像数据中的目标对象的图像特征更为明显、清晰，便于后续模型的提取分析，提高图像数据的图像质量。

在一个实施方式中，上述对所述待标注的图像数据进行均衡化处理，具体实施时，可以包括以下内容：

S1：根据所述待标注的图像数据，生成图像通道像素值的直方统计图；

S2：对所述图像通道像素值的直方统计图中位于阈值范围内的通道像素值进行线性扩充；

S3：根据线性扩充后的图像通道像素值的直方统计图，确定均衡化处理后的待标注的图像数据。

在本实施方式中，可以先将所述待标注的图像数据，转化成图像通道像素值的直方统计图。其中，上述图像通道像素值的直方统计图中横坐标表征不同的通道，纵坐标表征每一个通道对应的像素值。

在本实施方式中，上述阈值区域具体可以理解为上述图像通道像素值的直方统计图中，像素值较为集中的多个通道区域。具体的，可以根据图像数据的明暗程度设置像素阈值，将图像通道像素值的直方统计图中像素值大于等于上述像素阈值的通道区域确定为上述阈值区域。当然，需要说明的是，上述像素阈值可以根据图片数据的具体情况和精度要求灵活设置。对于像素阈值的具体数值，本申请不作限定。

在本实施方式中，上述对所述图像通道像素值的直方统计图中位于阈值范围内的通道像素值进行线性扩充，具体可以包括：将所述图像通道像素值的直方统计图中位于阈值范围内的通道像素值的像素区间扩充到0至225这样可以使得原图像数据中的目标对象的图像特征更为突出、清楚。

在本实施方式中，在获得了线性扩充后的图像通道像素值的直方统计图，可以将线性扩充后的图像通道像素值的直方统计图再转化为图像数据，即得到了均衡化处理后的待标注的图像数据。进而可以将均衡化处理后的图像数据作为输入数据，利用下面已经学习、训练好的神经网络模型进行识别、标注。

S12：利用预设的检测网络模型确定出所述待标注的图像数据中的目标区域，并标注出所述目标区域的位置。

在本实施方式中，上述预设的检查网络模型具体可以理解为预先学习、训练好的用于检测、识别目标区域对象所在区域的神经网络模型。

在本实施方式中，上述目标区域具体可以理解为通过预设的检测网络模型所识别框选出的目标对象在图像数据中的图像区域。

在一个实施方式中，上述利用预设的检测网络模型确定出所述待标注的图像数据中的目标区域，并标注出所述目标区域的位置，具体实施时，可以包括以下内容：将所述待标注的图像数据作为输入，利用预设的检测网络模型对待标注的图像数据进行检测，以识别出待标注的图像数据中目标对象所在的目标区域，并通过标注框标出上述目标区域，并标注出目标区域的位置参数(例如标注目标区域或标注框的横坐标和纵坐标，以及距离中心点的偏移距离等)。

在本实施方式中，上述标注框具体可以是用于标注的矩形框，也可以是圆形框等等。对于上述标注框的具体形状本申请不作限定。

在本实施方式中，上述预设的检测网络模型具体实施时，可以按照以下方式建立获得：

S1：获取第一训练样本，其中，所述第一训练样本包括标注有目标对象所处位置的图像数据；

S2：利用所述第一训练样本对第一神经网络模型进行训练学习，得到所述预设的检测网络模型。

在本实施方式中，上述第一训练样本具体可以是只包括标注有目标对象所处位置的图像数据，也可以是同时包括标注有目标对象所处位置的图像数据和没有标注的图像数据，例如，上述第一训练样本中的一部分可以是已经标注有目标对象所处位置的图像数据，另一部分则可以是没有被标注的图像数据。

在本实施方式中，上述第一训练样本中所包括的标注有目标对象所处位置的图像数据具体可以是事先利用标注框标出目标对象所在区域的图像数据。例如，对于用于人脸识别的图像数据，上述第一训练样本中所包括的标注有目标对象所处位置的图像数据可以是事先利用标注框框出图像中的人脸位置的图像数据。

在本实施方式中，上述第一训练样本中所包括的标注有目标对象所处位置的图像数据可以按照以下方式获得：利用labeling(一种图像处理软件)通过矩形标注框框出并标注图像数据中的人脸区域，并保存标注框的位置坐标和长宽参数，生成xml格式的文件；再将xml格式的文件转换为csv格式的文件，从而得到了上述第一训练样本中所包括的标注有目标对象所处位置的图像数据。

在本实施方式中，通过利用包括有标注有目标对象所处位置的图像数据和没有标注的图像数据对神经网络进行学习、训练，可以得到能够自动识别出目标图像数据中对象所处位置的神经网络模型，即上述预设的检测网络模型。

在一个实施方式中，为了提高所训练的预设的检测网络模型的识别精度，在训练前，可以先对第一训练样本进行均衡化处理，得到均衡化处理后的第一训练样本，以突显第一训练样本中的图像特征；再利用均衡化处理后的第一训练样本进行学习、训练，得到精度更高的检测网络模型。

在本实施方式中，上述第一神经网络模型可以是基于YOLO的神经网络模型。其中，上述YOLO具体可以理解为是一种基于深度学习的目标检测(object detection)算法，该算法主要是把物体检测问题处理成回归问题，可以利用一个卷积神经网络结构根据输入的图像预测物体边界框和类别概率。YOLO区别于现有方法所采用的R-CNN(Regions with CNNfeatures)、Fast R-CNN(Fast Regions with CNN features)等，具有处理速度快、误差小、准确度高等特点。

在一个实施方式中，为了提高学习、训练第一神经网络模型的效率，具体实施时，上述利用所述第一训练样本对第一神经网络模型进行训练学习，可以包括：通过迁移学习的方法，利用所述第一训练样本对所述第一神经网络模型进行训练学习。这样由于第一神经网络模型与需要建立的检测网络模型存在一定的相似特征，在学习、训练的过程中，可以先保持第一神经网络模型中前面层的参数不变，仅对后面层的部分参数进行对应修改，再利用修改后的第一神经网络模型进行训练学习，以更快地收敛得到符合要求的预设的检测网络模型。

S13：利用预设的分类网络模型对所述目标区域的位置处的图像数据进行识别，并标注识别结果。

在本实施方式中，上述预设的分类网络模型具体可以理解为预先学习、训练好的用于识别、判断目标区域位置处的图像内容是否是目标对象的神经网络模型。

在一个实施方式中，为了提高识别的效率和准确度，具体实施时，可以利用上述预设的分类网络模型仅对待标注的图像中目标区域的位置处的图像数据进行识别，得到目标区域的识别结果，将针对目标区域的识别结果作为该待标注的图像的识别结果进行标注。这样可以避免对待标注图像中不存在目标对象的图像数据进行识别，从而提高了识别的效率，也避免了非目标对象的图像数据对识别产生的干扰。

在一个实施方式，上述利用预设的分类网络模型对所述目标区域的位置处的图像数据进行识别，具体实施时，可以包括以下内容：

S1：提取所述目标区域的位置处的图像数据；

S2：利用所述预设的分类网络模型对所述目标区域位置处的图像数据进行目标对象识别，以生成置信度参数，并根据所述置信度参数确定识别结果，其中，所述置信度参数用于指示所述目标区域的位置处的图像数据为目标对象的概率。

在本实施方式中，为了提高预设的分类网络模型识别速度，可以根据目标区域的位置，只提取所述待标注的图像数据中目标区域的位置处的图像数据进行识别和标注。例如，可以根据目标区域的位置，抠出待标注的图像数据中的目标区域的位置处的图像数据作为输入，利用预设的分类网络模型进行目标对象识别。

在本实施方式中，上述置信度参数具体可以理解为用于指示目标区域位置处的图像数据是否为目标对象的概率。根据上述置信度参数，可以判断待标注图像中的目标区域处的图像内容是否为目标对象，进而确定出对应识别结果。通常上述置信度参数数值越高，目标区域中的图像内容是目标对象的概率越大。具体实施时，可以根据精度要求设置阈值概率，检测置信度参数的数值是否大于阈值概率。如果置信度参数的数值大于上述阈值概率，则判断该目标区域中的图像内容是目标对象，识别成功。如果小于等于上述阈值概率，则判断该目标区域中的图像内容不是目标对象，识别失败。

在一个实施方式中，所述预设的分类网络模型具体实施时，可以按照以下方式建立获得：

S1：获取第二训练样本，其中，所述第二训练样本包括标注有目标对象名称的图像数据；

S2：利用所述第二训练样本对第二神经网络模型进行训练学习，得到所述预设的分类网络模型。

在本实施方式中，上述第二训练样本具体可以是只包括标注有目标对象名称的图像数据，也可以是同时包括标注有目标对象名称的图像数据和没有标注的图像数据，例如，上述第二训练样本中的一部分可以是已经标注有目标对象名称的图像数据，另一部分则可以是没有被标注的图像数据。

在本实施方式中，上述第二训练样本中所包括的标注有目标对象名称的图像数据具体可以是事先利用标识信息标注出目标对象所对应的内容名称的图像数据。例如，对于用于人脸识别的图像数据，上述第二训练样本中所包括的标注有目标对象名称的图像数据可以是事先利用标识信息标出“人脸”标签。

在本实施方式中，上述第二训练样本中所包括的标注有目标对象名称的图像数据可以按照以下方式获得：利用labeling(一种图像处理软件)通过矩形标注框框出并标注图像数据中的人脸区域，并保存人脸标签，生成xml格式的文件；再将xml格式的文件转换为csv格式的文件，从而得到了上述第二训练样本中所包括的标注有目标对象名称的图像数据。

在本实施方式中，通过利用包括有标注有目标对象名称的图像数据和没有标注的图像数据对神经网络进行学习、训练，可以得到能够自动识别出目标区域中的图像内容是否属于目标对象的神经网络模型，即上述预设的分类网络模型。

在一个实施方式中，为了提高所训练的预设的分类网络模型的识别精度，在训练前，可以先对第二训练样本进行均衡化处理，得到均衡化处理后的第二训练样本，以突显第二训练样本中的图像特征；再利用均衡化处理后的第二训练样本进行学习、训练，得到精度更高的检测网络模型。

在一个实施方式中，为了提高学习、训练第二神经网络模型的效率，具体实施时，上述利用所述第二训练样本对第二神经网络模型进行训练学习，可以包括：通过迁移学习的方法，利用所述第二训练样本对所述第二神经网络模型(或者用预设的检测网络模型作为第二神经网络模型)进行训练学习。这样由于第二神经网络模型与需要建立的检测网络模型存在一定的相似特征，在学习、训练的过程中，可以先保持第二神经网络模型中前面层的参数不变，仅对后面层的部分参数进行对应修改，再利用修改后的第二神经网络模型进行训练学习，以更快地收敛得到符合要求的预设的检测网络模型。

在一个实施方式中，所述第二神经网络模型具体可以包括改进的YOLOv3模型，其中，所述改进的YOLOv3模型按照以下方式进行改进：

在本实施方式中，上述YOLOv3模型具体可以理解为YOLO的神经网络模型中一个版本的神经网络模型。当然，需要说明的是，上述所列举的YOLOv3模型只是为了更好地说明本申请实施方式。具体实施时，根据具体情况也可以使用其他类型或版本的神经网络模型。对此，本申请不作限定。

在本实施方式中，进一步考虑到上述预设的分类模型在具体实施时可以只做目标区域中的图像内容是否为目标对象的判断，即，上述预设的分类模型可以是一种二分类模型(可以用于实现单目标检测)。而通常使用的YOLOv3模型则大多是针对多分类设计的。因此，通常使用的YOLOv3模型中通常会包含多个维度的回归分类(例如多个logistic分类方法)，以及多个回归分类器(例如多个logistic回归分类器)，导致YOLOv3模型的结构相对复杂，在运行时对资源、时间的占用相对较大，处理速度相对较慢。而对于本申请的应用场景，实际上不需要全部使用原本的YOLOv3模型中的多个回归分类器。因此，为了简化YOLOv3模型，提高基于上述模型进行目标对象识别的效率，具体实施时，可以按照以下方式对YOLOv3模型进行改进，以得到合适的第二神经网络模型：将YOLOv3模型中的回归分类器的数量修改为单个。

在一个实施方式中，考虑到上述预设的分类模型在具体实施时还可以对目标区域中的图像内容进行更为复杂的判断，例如上述预设的分类模型还可以是一种多分类模型(可以用于实现多目标检测)，这时为了满足要求，得到多种目标类型，还可以按照以下方式对YOLOv3模型进行改进，以得到合适的第二神经网络模型：将YOLOv3模型中的回归分类器的数量修改为多个。其中，需要说明的是，上述多个回归分类器的具体数量可以根据待分类的多种目标类型的类型数确定。

在本实施方式中，具体实施时，可以通过修改YOLOv3模型中的回归参数，将多个回归分类器修改为单个回归分类器，这样可以满足识别目标对象的精度要求，同时简化了模型结构，提高了确定效率，避免了资源的浪费。

在一个实施方式中，所述目标对象具体可以包括人脸或车牌等。当然，需要说明的是，上述所列举的人脸或车牌只是为了更好地说明本申请实施方式。具体实施时，还可以根据具体场景和标注要求，将其他的图像内容确定更为目标对象。对此，本申请不作限定。

从以上的描述中，可以看出，本申请实施例提供的图像数据的标注方法，通过先利用事先训练好的检测网络模型寻找并标注目标对象所在的目标区域，再利用事先训练好的分类网络模型识别并标注目标区域中的图像数据是否是目标对象，避免人工标注，从而解决了现有的数据标注方法中存在的准确度差、效率低的技术问题，达到了能高效、精确地对大量图像数据进行自动标注的技术效果；又通过将上述检测网络模型和分类网络模型串联，并利用分类网络模型只对检测网络模型所标注的目标区域中的图像内容是否是目标对象进行检测判断，进一步提高了处理效率、改善了准确度；还根据具体的是要需求，对YOLOv3模型进行针对性的改进，删除了多余的回归分类器，简化了模型结构，提高了处理效率；还通过事先对所获取的待标注的图像数据进行均衡化处理，以突显图像数据中目标对象的图像特征，提高数据质量，进一步改善了识别、标注的准确度。

基于同一发明构思，本发明实施例中还提供了一种图像数据的标注装置，如下面的实施例所述。由于图像数据的标注装置解决问题的原理与图像数据的标注方法相似，因此图像数据的标注装置的实施可以参见图像数据的标注方法的实施，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。请参阅图2，是本申请实施例提供的图像数据的标注装置的一种组成结构图，该装置具体可以包括：获取模块21、第一标注模块22、第二标注模块23，下面对该结构进行具体说明。

获取模块21，具体可以用于获取待标注的图像数据；

第一标注模块22，具体可以用于利用预设的检测网络模型确定出所述待标注的图像数据中的目标区域，并标注出所述目标区域的位置；

第二标注模块23，具体可以用于利用预设的分类网络模型对所述目标区域的位置处的图像数据进行识别，并标注识别结果。

在一个实施方式中，为了提高所获取的待标注的图像数据的数据质量，凸显图像数据中目标对象的图像特征，上述装置具体实施时还可以包括均衡化处理模块，具体可以用于对所述待标注的图像数据进行均衡化处理。

在一个实施方式中，为了能够对所述待标注的图像数据进行均衡化处理，上述均衡化处理模块具体实施时，可以包括以下结构单元：

第一处理单元，具体可以用于根据所述待标注的图像数据，生成图像通道像素值的直方统计图；

扩充单元，具体可以用于对所述图像通道像素值的直方统计图中位于阈值范围内的通道像素值进行线性扩充；

第二处理单元，具体可以用于根据线性扩充后的图像通道像素值的直方统计图，确定均衡化处理后的待标注的图像数据。

在一个实施方式中，为了能够利用预设的分类网络模型对所述目标区域的位置处的图像数据进行识别，上述第一标注模块22具体实施时，可以包括以下结构单元：

第一提取单元，具体可以用于提取所述目标区域的位置处的图像数据；

第一标注单元，具体可以用于利用所述预设的分类网络模型对所述目标区域位置处的图像数据进行目标对象识别，以生成置信度参数，并根据所述置信度参数确定识别结果，其中，所述置信度参数用于指示所述目标区域的位置处的图像数据为目标对象的概率。

在一个实施方式中，为了能够获得所述预设的检测网络模型，上述装置还可以包括第一建立模块，其中，上述第一建立模块具体可以包括以下结构单元：

第一获取单元，具体可以用于获取第一训练样本，其中，所述第一训练样本包括标注有目标对象所处位置的图像数据；

第一学习单元，具体可以用于利用所述第一训练样本对第一神经网络模型进行训练学习，得到所述预设的检测网络模型。

在一个实施方式中，上述第一学习单元具体实施时，可以按照以下程序执行：通过迁移学习的方法，利用所述第一训练样本对所述第一神经网络模型进行训练学习。

在一个实施方式中，为了获取所述预设的分类网络模型，上述装置具体实施时，还可以包括第二建立模块，其中，上述第二建立模块具体可以包括以下结构单元：

第二获取单元，具体可以用于获取第二训练样本，其中，所述第二训练样本包括标注有目标对象名称的图像数据；

第二学习单元，具体可以用于利用所述第二训练样本对第二神经网络模型进行训练学习，得到所述预设的分类网络模型。

所述第二神经网络模型具体可以包括改进的YOLOv3模型，其中，所述改进的YOLOv3模型按照以下方式进行改进：

在一个实施方式中，上述目标对象具体可以包括人脸或车牌等等。当然，需要说明的是，上述所列举的目标对象只是为了更好的说明本申请实施方式。具体实施时，根据具体的应用场景还可以选择其他的内容对象作为上述目标对象，进而可以将本申请实施例提供的图像数据的标注方法推广应用至其他类型的图像标注场景中。对此，本申请不作限定。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

需要说明的是，上述实施方式阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，在本说明书中，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

此外，在本说明书中，诸如第一和第二这样的形容词仅可以用于将一个元素或动作与另一元素或动作进行区分，而不必要求或暗示任何实际的这种关系或顺序。在环境允许的情况下，参照元素或部件或步骤(等)不应解释为局限于仅元素、部件、或步骤中的一个，而可以是元素、部件、或步骤中的一个或多个等。

本申请实施例提供的图像数据的标注装置，通过第一标注模块利用事先训练好的检测网络模型寻找并标注目标对象所在的目标区域，再通过第二标注模块利用事先训练好的分类网络模型识别并标注目标区域中的图像数据是否是目标对象，避免人工标注，从而解决了现有的数据标注方法中存在的准确度差、效率低的技术问题，达到了能高效、精确地对大量图像数据进行自动标注的技术效果；又通过将上述检测网络模型和分类网络模型串联，并利用分类网络模型只对检测网络模型所标注的目标区域中的图像内容是否是目标对象进行检测判断，进一步提高了处理效率、改善了准确度；还根据具体的是要需求，对YOLOv3模型进行针对性的改进，删除了多余的回归分类器，简化了模型结构，提高了处理效率；还通过均衡化处理模块事先对所获取的待标注的图像数据进行均衡化处理，以突显图像数据中目标对象的图像特征，提高数据质量，进一步改善了识别、标注的准确度。

本申请实施方式还提供了一种电子设备，具体可以参阅图3所示的基于本申请实施例提供的图像数据的标注方法的电子设备组成结构示意图，所述电子设备具体可以包括输入设备31、处理器32、存储器33。其中，所述输入设备31具体可以用于待标注的图像数据。所述处理器32具体可以用于利用预设的检测网络模型确定出所述待标注的图像数据中的目标区域，并标注出所述目标区域的位置；利用预设的分类网络模型对所述目标区域的位置处的图像数据进行识别，并标注识别结果。所述存储器33具体可以用于存储经输入设备31输入的待标注的图像数据，处理器32处理过程中生成的中间数据，以及相关的程序指令。

在本实施方式中，所述输入设备具体可以是用户和计算机系统之间进行信息交换的主要装置之一。所述输入设备可以包括键盘、鼠标、摄像头、扫描仪、光笔、手写输入板、语音输入装置等；输入设备用于把原始数据和处理这些数的程序输入到计算机中。所述输入设备还可以获取接收其他模块、单元、设备传输过来的数据。所述处理器可以按任何适当的方式实现。例如，处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式等等。所述存储器具体可以是现代信息技术中用于保存信息的记忆设备。所述存储器可以包括多个层次，在数字系统中，只要能保存二进制数据的都可以是存储器；在集成电路中，一个没有实物形式的具有存储功能的电路也叫存储器，如RAM、FIFO等；在系统中，具有实物形式的存储设备也叫存储器，如内存条、TF卡等。

在本实施方式中，该电子设备具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

本说申请实施方式中还提供了一种基于图像数据的标注方法的计算机存储介质，所述计算机存储介质存储有计算机程序指令，在所述计算机程序指令被执行时实现：获取待标注的图像数据；利用预设的检测网络模型确定出所述待标注的图像数据中的目标区域，并标注出所述目标区域的位置；利用预设的分类网络模型对所述目标区域的位置处的图像数据进行识别，并标注识别结果。

在本实施方式中，上述存储介质包括但不限于随机存取存储器(Random AccessMemory,RAM)、只读存储器(Read-Only Memory,ROM)、缓存(Cache)、硬盘(Hard DiskDrive,HDD)或者存储卡(Memory Card)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的，用于进行网络连接通信的接口。

在本实施方式中，该计算机存储介质存储的程序指令具体实现的功能和效果，可以与其它实施方式对照解释，在此不再赘述。

在一个具体实施场景示例中，应用本申请实施例的提供的图像数据的标注方法和装置对用于训练人脸识别模型的人脸图像数据进行自动标注。具体实施过程可以参阅以下内容。

S1：对图像(即待标注的图像数据)进行均衡化的预处理。

在本实施方式中，可以通过对图像进行均衡化的预处理，使得图像中白黑平衡得到相应的均衡，使得相应的目标对象的图像特征更加的显目。其在图像层面的具体做法如下：首先需要说明的是图像的像素值每个通道分布实际上应该是0-255。因此，可以先对每个通道的像素值进行统计得到上述的直方统计图(即图像通道像素值的直方统计图)，具体可以参阅图4所示的在一个场景示例中应用本申请实施例提供的图像数据的标注方法和装置获得的图像通道像素值的直方统计图的示意图。实际上像素值会集中出现在相应的区间(即阈值区域)，再将这些像素区间线性的扩充到0-255，即完成对直方图进行了均衡化处理。再根据均衡化处理后的直方统计图获得均衡化处理后的待标注的图像，可以参阅图5所示的在一个场景示例中应用本申请实施例提供的图像数据的标注方法和装置获得的均衡化处理后的图像与未均衡化处理的图像的对比示意图，均衡化处理后的图像的图像质量得到了较明显的提高，图像中的目标对象的图像特征更加显著、清楚。

S2：建立并训练目标检测模型(即预设的检测网络模型)和目标分类模型(即预设的分类网络模型)。

在本实施方式中，需要先对用于训练目标检测模型、目标分类模型的训练样本中的部分样本数据进行标注。具体的，可以使用labelimg工具，直接框出相应的目标：人脸(即目标对象)，并保存会生成相应的xml格式。其中，具体保存了目标的位置，长宽信息。随后xml文件会被转换为csv文件，用于后续模型的训练。

在本实施方式中，在选择使用哪种神经网络作为上述目标检测模型、目标分类模型的基础网络时，针对常见的检测神经网络模型比如FasterRCNN和YOLO进行了比较分析。为了照顾相应的速度方面的优势，考虑采用YOLO系列作为基础模型并对其进行了相应的优化修改。其中，为何采用YOLO系列原因如下：首先YOLO是统一网络。YOLO没有显示求取region proposal的过程。Faster R-CNN中尽管RPN与fast rcnn共享卷积层，但是在模型训练过程中，需要反复训练RPN网络和fast rcnn网络。相对于R-CNN系列的“看两眼”(候选框提取与分类)，YOLO只需要Look Once。因此，YOLO效率更高。其次，YOLO统一为一个回归问题，而R-CNN将检测结果分为两部分求解：物体类别(分类问题)，物体位置即bounding box(回归问题)。

在本实施方式中，针对迁移学习目标分类模型，结合具体场景需求，本例还对原有YOLOv3模型进行相应的针对人脸检测的改进优化。在原有的没有改进的YOLOv3的模型中，其具体结构可以参阅图6所示的在一个场景示例中没有改进的YOLOv3模型的结构示意图。经过若干的卷积，池化，残差等操作后，通过多个不同尺度操作后，图像进行多个维度的logistic分类器回归得到相应的检测目标。这种多个logistic分类器方法，对于多种目标的检测任务，具有良好的效果，但是对在本例中当前是单目标(只有人脸)任务，显然有相应的效率浪费。针对这种情况，本例YOLOv3模型进行了相应的修改，将多个logistic分类器方法，调整为了单个logistic回归分类器。这样在达到相应的检测精度情况下，也能提升检测效率。

在本实施方式中，需要补充的是，相对于普通训练任务，迁移学习也是求交叉熵最小的过程。比如在tensorflow中，观察tensorboard中loss已经降低收敛，不在继续下降时，模型训练基本可以判断为训练完成。可以用于验证，先看效率。

在本实施方式中，具体实施时，在检测任务中，训练数据的信息是位置信息和一副更大范围的图像，其中检测目标会是检测图像中一部分并被检测框，框出。但是针对分类任务，在人脸分来任务中，每个训练集基本就是整张人脸，或者非人脸，人脸或者非人脸部分会占有图片的绝大部分。

S3：利用目标检测模型和目标分类模型框出并标注出图像中的人脸。

在本实施方式中，通过上述步骤可以得到两个迁移学习模型。一个是目标检测模型；一个是目标分类模型。进而可以将需要标注的图片(即待标注的图像数据)进行均衡化预处理。再使用目标检测模型检测预处理后的图片，以框出人脸的位置。进一步，考虑到上述的目标检测模型仍然是一个使用迁移学习方式得到的模型，其检测精度可以没有达到相应的准确率，因此可以将检测得到的人脸图像抠出；再将抠出的人脸图像，使用目标分类模型进行二分分类(是人脸，非人脸的分类)。最后确定并标注分类结果(即识别结果)。其中，分类结果为人脸，对应高置信度标注结果；分类结果为非人脸，对应低置信度标注结果。可以参阅图7所示的在一个场景示例中应用本申请实施例提供的图像数据的标注方法和装置获得的标注后的人脸图像的示意图。

将本例中的图像数据的标注方法和现有的图像数据的标注方法进行比较分析，可知：本例中采用了一种自动化的标注数据整体解决方案，大大的降低了人工标注的工作量，在效率上是很大的提升；还使用了检测任务和分类任务串行检查的方式，待标注的数据会首先通过检测网络得到目标数据，随后抠出目标数据通过分类网络验证是否为正确数据，这种双把关的方法，非常有利于提高标注数据的准确率；还使用YOLOv3作为检测网络的基础网络，并且针对特定的人脸检测任务，对网络进行了相应的提升修改，砍掉了最后多余的logistic分类器，对于检测网络的执行效率有着显著的提升；还对所使用的原始数据，在进行检测任务和分类任务之前，对他们进行了图像前处理，这种图像均衡化的处理，更加有利于图像目标本身的突出，针对于人脸出现在过亮和过暗的环境中，有非常好的算法鲁棒性。

通过上述场景示例，验证了本申请实施例提供的图像数据的标注方法和装置，通过先利用事先训练好的检测网络模型寻找并标注目标对象所在的目标区域，再利用事先训练好的分类网络模型识别并标注目标区域中的图像数据是否是目标对象，确实解决了现有的数据标注方法中存在的准确度差、效率低的技术问题，达到了能高效、精确地对大量图像数据进行自动标注的技术效果。

尽管本申请内容中提到不同的具体实施例，但是，本申请并不局限于必须是行业标准或实施例所描述的情况等，某些行业标准或者使用自定义方式或实施例描述的实施基础上略加修改后的实施方案也可以实现上述实施例相同、等同或相近、或变形后可预料的实施效果。应用这些修改或变形后的数据获取、处理、输出、判断方式等的实施例，仍然可以属于本申请的可选实施方案范围之内。

虽然本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境，甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下，并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。

上述实施例阐明的装置或模块等，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。为了描述的方便，描述以上装置时以功能分为各种模块分别描述。当然，在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现，也可以将实现同一功能的模块由多个子模块的组合实现等。以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，移动终端，服务器，或者网络设备等)执行本申请各个实施例或者实施例的某些部分所述的方法。

本说明书中的各个实施例采用递进的方式描述，各个实施例之间相同或相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。本申请可用于众多通用或专用的计算机系统环境或配置中。例如：个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。

虽然通过实施例描绘了本申请，本领域普通技术人员知道，本申请有许多变形和变化而不脱离本申请的精神，希望所附的实施方式包括这些变形和变化而不脱离本申请。

Claims

1.一种图像数据的标注方法，其特征在于，包括：

获取待标注的图像数据；

2.根据权利要求1所述的方法，其特征在于，在获取待标注的图像数据后，所述方法还包括：

对所述待标注的图像数据进行均衡化处理。

3.根据权利要求2所述的方法，其特征在于，对所述待标注的图像数据进行均衡化处理，包括：

4.根据权利要求1所述的方法，其特征在于，利用预设的分类网络模型对所述目标区域的位置处的图像数据进行识别，包括：

提取所述目标区域的位置处的图像数据；

5.根据权利要求1所述的方法，其特征在于，所述预设的检测网络模型按照以下方式建立：

6.根据权利要求5所述的方法，其特征在于，利用所述第一训练样本对第一神经网络模型进行训练学习，包括：

7.根据权利要求1所述的方法，其特征在于，所述预设的分类网络模型按照以下方式建立：

8.根据权利要求7所述的方法，其特征在于，所述第二神经网络模型包括改进的YOLOv3模型，其中，所述改进的YOLOv3模型按照以下方式进行改进：

9.一种图像数据的标注装置，其特征在于，包括：

获取模块，用于获取待标注的图像数据；

10.根据权利要求9所述的装置，其特征在于，所述装置还包括均衡化处理模块，用于对所述待标注的图像数据进行均衡化处理。

11.根据权利要求9所述的装置，其特征在于，所述第一标注模块包括：

12.根据权利要求9所述的装置，其特征在于，所述装置还包括第一建立模块，其中，所述第一建立模块包括：

13.根据权利要求9所述的装置，其特征在于，所述装置还包括第二建立模块，其中，所述第二建立模块包括：

14.一种计算机可读存储介质，其特征在于，其上存储有计算机指令，所述指令被执行时实现权利要求1至8中任一项所述方法的步骤。