CN112070094A

CN112070094A - 训练数据的筛选方法、装置、电子设备及存储介质

Info

Publication number: CN112070094A
Application number: CN202011253325.2A
Authority: CN
Inventors: 刘家怡; 王华彦
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2020-11-11
Filing date: 2020-11-11
Publication date: 2020-12-11
Anticipated expiration: 2040-11-11
Also published as: CN112070094B

Abstract

本公开关于一种训练数据的筛选方法、装置、电子设备及存储介质，该方法包括：获取训练数据；训练数据中包括多个待识别图像；将各个待识别图像输入图像分割模型，得到各个待识别图像的预测分割区域；根据各个待识别图像的标记分割区域和预测分割区域，确定各个待识别图像的交并比和分割区域面积；根据各个待识别图像的交并比，确定训练数据的平均交并比；根据各个待识别图像的分割区域面积，确定训练数据的平均分割区域面积；分别将各个待识别图像的交并比、分割区域面积、平均交并比和平均分割区域面积输入数据判别模型，得到各个待识别图像的评价值，并根据评价值确定错误标记图像。采用本方法，提高了错误标记图像的识别准确率。

Description

训练数据的筛选方法、装置、电子设备及存储介质

技术领域

本公开涉及图像识别技术领域，尤其涉及一种训练数据的筛选方法、装置、电子设备及存储介质。

背景技术

随着图像识别技术的发展，通过图像分割模型，可以分割出特定的区域，比如指甲区域、头发区域、面部区域等；然而，为了训练出符合要求的图像分割模型，需要大量标记图像；但是，大量标记图像中可能存在错误标记图像，这类错误标记图像将直接降低用其训练的模型精度。因此，对其进行有效地识别可以进一步提高模型的质量。

相关技术中，对错误标记图像的识别方法，一般是在大量标记图像是正确标注的情况下，先训练出一个相对鲁棒的图像分割模型，利用该图像分割模型在错误标记图像上会预测出相对正确的分割结果，使得该图像分割模型在该图像上的IOU（Intersectionover Union，交并比）会比较低的特点，将IOU比较低的图像识别为错误标记图像；但是，IOU比较低的图像更多是图像复杂度较高，而图像分割模型的预测能力不足所造成的，有可能并不是真正的错误标记图像，从而导致错误标记图像的识别准确率较低。

发明内容

本公开提供一种训练数据的筛选方法、装置、电子设备及存储介质，以至少解决相关技术中错误标记图像的识别准确率较低的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种训练数据的筛选方法，包括：

获取训练数据；所述训练数据中包括多个待识别图像以及各个所述待识别图像对应的标记分割区域；

分别将各个所述待识别图像输入预先训练的图像分割模型，得到各个所述待识别图像对应的预测分割区域；

根据各个所述待识别图像对应的标记分割区域和预测分割区域，确定各个所述待识别图像的交并比和分割区域面积；

根据各个所述待识别图像的交并比，确定所述训练数据的平均交并比；

根据各个所述待识别图像的分割区域面积，确定所述训练数据的平均分割区域面积；

分别将各个所述待识别图像的交并比、分割区域面积、所述平均交并比和所述平均分割区域面积输入预先构建的数据判别模型，得到各个所述待识别图像的评价值，并根据所述评价值确定错误标记图像。

在一示例性实施例中，所述根据各个所述待识别图像对应的标记分割区域和预测分割区域，确定各个所述待识别图像的交并比和分割区域面积，包括：

确定各个所述待识别图像的标记分割区域对应的第一权重和预测分割区域对应的第二权重；所述第一权重与所述第二权重之和恒等于1；

分别根据所述第一权重和所述第二权重对各个所述待识别图像的标记分割区域和预测分割区域进行加权求和，得到各个所述待识别图像的分割区域面积。

在一示例性实施例中，所述根据各个所述待识别图像的交并比，确定所述训练数据的平均交并比，包括：

分别获取各个所述待识别图像的交并比与所述交并比对应的第三权重的第三乘积；

将各个所述待识别图像对应的第三乘积进行相加，得到所述训练数据的平均交并比。

在一示例性实施例中，所述根据各个所述待识别图像的分割区域面积，确定所述训练数据的平均分割区域面积，包括：

分别获取各个所述待识别图像的分割区域面积与所述分割区域面积对应的第四权重的第四乘积；

将各个所述待识别图像对应的第四乘积进行相加，得到所述训练数据的平均分割区域面积。

在一示例性实施例中，各个所述待识别图像的评价值通过下述方法得到：

获取各个所述待识别图像的交并比与所述平均交并比之间的差值，以及各个所述待识别图像的分割区域面积与所述平均分割区域面积之间的比值；

根据所述差值与所述比值的乘积，确定各个所述待识别图像的评价值。

在一示例性实施例中，在分别将各个所述待识别图像的交并比、分割区域面积、所述平均交并比和所述平均分割区域面积输入预先构建的数据判别模型，得到各个所述待识别图像的评价值，并根据所述评价值确定错误标记图像之后，还包括：

剔除所述训练数据中的所述错误标记图像，得到剩余的训练数据；

根据所述剩余的训练数据，对待训练的图像分割模型进行训练，得到训练完成的第一图像分割模型；

将所述预先训练的图像分割模型，更新为所述第一图像分割模型。

重新获取所述训练数据中的所述错误标记图像的标记分割区域，得到新的训练数据；

根据所述新的训练数据，对待训练的图像分割模型进行训练，得到训练完成的第二图像分割模型；

将所述预先训练的图像分割模型，更新为所述第二图像分割模型。

根据本公开实施例的第二方面，提供一种训练数据的筛选装置，包括：

训练数据获取单元，被配置为执行获取训练数据；所述训练数据中包括多个待识别图像以及各个所述待识别图像对应的标记分割区域；

预测分割区域确定单元，被配置为执行分别将各个所述待识别图像输入预先训练的图像分割模型，得到各个所述待识别图像对应的预测分割区域；

分割区域面积确定单元，被配置为执行根据各个所述待识别图像对应的标记分割区域和预测分割区域，确定各个所述待识别图像的交并比和分割区域面积；

平均交并比确定单元，被配置为执行根据各个所述待识别图像的交并比，确定所述训练数据的平均交并比；

平均分割区域面积确定单元，被配置为执行根据各个所述待识别图像的分割区域面积，确定所述训练数据的平均分割区域面积；

错误标记图像确定单元，被配置为执行分别将各个所述待识别图像的交并比、分割区域面积、所述平均交并比和所述平均分割区域面积输入预先构建的数据判别模型，得到各个所述待识别图像的评价值，并根据所述评价值确定错误标记图像。

在一示例性实施例中，所述分割区域面积确定单元，还被配置为执行确定各个所述待识别图像的标记分割区域对应的第一权重和预测分割区域对应的第二权重；所述第一权重与所述第二权重之和恒等于1；分别根据所述第一权重和所述第二权重对各个所述待识别图像的标记分割区域和预测分割区域进行加权求和，得到各个所述待识别图像的分割区域面积。

在一示例性实施例中，所述平均交并比确定单元，还被配置为执行分别获取各个所述待识别图像的交并比与所述交并比对应的第三权重的第三乘积；将各个所述待识别图像对应的第三乘积进行相加，得到所述训练数据的平均交并比。

在一示例性实施例中，所述平均分割区域面积确定单元，还被配置为执行分别获取各个所述待识别图像的分割区域面积与所述分割区域面积对应的第四权重的第四乘积；将各个所述待识别图像对应的第四乘积进行相加，得到所述训练数据的平均分割区域面积。

在一示例性实施例中，所述错误标记图像确定单元，还被配置为执行获取各个所述待识别图像的交并比与所述平均交并比之间的差值，以及各个所述待识别图像的分割区域面积与所述平均分割区域面积之间的比值；根据所述差值与所述比值的乘积，确定各个所述待识别图像的评价值。

在一示例性实施例中，所述装置还包括第一模型更新单元，被配置为执行剔除所述训练数据中的所述错误标记图像，得到剩余的训练数据；根据所述剩余的训练数据，对待训练的图像分割模型进行训练，得到训练完成的第一图像分割模型；将所述预先训练的图像分割模型，更新为所述第一图像分割模型。

在一示例性实施例中，所述装置还包括第二模型更新单元，被配置为执行重新获取所述训练数据中的所述错误标记图像的标记分割区域，得到新的训练数据；根据所述新的训练数据，对待训练的图像分割模型进行训练，得到训练完成的第二图像分割模型；将所述预先训练的图像分割模型，更新为所述第二图像分割模型。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面的任一项实施例中所述的训练数据的筛选方法。

根据本公开实施例的第四方面，提供一种存储介质，包括：当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行第一方面的任一项实施例中所述的训练数据的筛选方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面的任一项实施例中所述的训练数据的筛选方法。

本公开的实施例提供的技术方案至少带来以下有益效果：

获取训练数据；训练数据中包括多个待识别图像以及各个待识别图像对应的标记分割区域；分别将各个待识别图像输入预先训练的图像分割模型，得到各个待识别图像对应的预测分割区域；接着根据各个待识别图像对应的标记分割区域和预测分割区域，确定各个待识别图像的交并比和分割区域面积；然后根据各个待识别图像的交并比，确定训练数据的平均交并比；最后根据各个待识别图像的分割区域面积，确定训练数据的平均分割区域面积；分别将各个待识别图像的交并比、分割区域面积、平均交并比和平均分割区域面积输入预先构建的数据判别模型，得到各个待识别图像的评价值，并根据评价值确定错误标记图像；实现了根据待识别图像的交并比、分割区域面积、平均交并比和平均分割区域面积，确定待识别图像是否为错误标记图像的目的，综合考虑了待识别图像的交并比、分割区域面积、平均交并比和平均分割区域面积，有利于提高错误标记图像的识别准确率，避免了仅仅考虑待识别图像的交并比，导致错误标记图像的识别准确率较低的缺陷。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种训练数据的筛选方法的应用环境图。

图2是根据一示例性实施例示出的一种训练数据的筛选方法的流程图。

图3A是根据一示例性实施例示出的数据判别模型的识别效果曲线图。

图3B是根据一示例性实施例示出的基于IOU的识别效果曲线图。

图4是根据一示例性实施例示出的图像分割模型的更新步骤的流程图。

图5是根据一示例性实施例示出的另一种训练数据的筛选方法的流程图。

图6是根据一示例性实施例示出的一种训练数据的筛选装置的框图。

图7是根据一示例性实施例示出的一种电子设备的内部结构图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。

本公开所提供的训练数据的筛选方法，可以应用于如图1所示的应用环境中。参照图1，该应用环境图包括终端110。终端110是具有训练数据筛选功能的电子设备，该电子设备可以是智能手机、平板电脑或个人计算机等等。参考图1，终端110获取训练数据；所述训练数据中包括多个待识别图像以及各个所述待识别图像对应的标记分割区域；分别将各个所述待识别图像输入预先训练的图像分割模型，得到各个所述待识别图像对应的预测分割区域；根据各个所述待识别图像对应的标记分割区域和预测分割区域，确定各个所述待识别图像的交并比和分割区域面积；根据各个所述待识别图像的交并比，确定所述训练数据的平均交并比；根据各个所述待识别图像的分割区域面积，确定所述训练数据的平均分割区域面积；分别将各个所述待识别图像的交并比、分割区域面积、所述平均交并比和所述平均分割区域面积输入预先构建的数据判别模型，得到各个所述待识别图像的评价值，并根据所述评价值确定错误标记图像。

需要说明的是，本公开的训练数据的筛选方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。为了方便说明，在下面示例性实施例中，本公开主要以终端为例进行说明。

图2是根据一示例性实施例示出的一种训练数据的筛选方法的流程图，如图2所示，训练数据的筛选方法用于如图1所示的终端中，包括以下步骤：

在步骤S210中，获取训练数据；训练数据中包括多个待识别图像以及各个待识别图像对应的标记分割区域。

其中，待识别图像是指用来训练图像分割模型的标记图像，具有对应的标记分割区域；标记分割区域是指通过人工标记出的待识别图像中的目标区域，目标区域是指从待识别图像中分割出来的感兴趣区域，可以是头发区域、指甲区域、脸部区域等，具体根据实际场景确定，在此不做具体限定。

在步骤S220中，分别将各个待识别图像输入预先训练的图像分割模型，得到各个待识别图像对应的预测分割区域。

其中，预测分割区域是指通过图像分割模型预测出的待识别图像中的目标区域；预先训练的图像分割模型是一种能够从图像中分割出目标区域（比如头发区域）的深度神经网络模型，比如头发分割模型、指甲分割模型等。

具体地，终端分别将各个待识别图像输入预先训练的图像分割模型，通过预先训练的图像分割模型分别对各个待识别图像进行分割处理，得到各个待识别图像的预测分割区域；其中，预先训练的图像分割模型是根据各个待识别图像以及对应的标记分割区域，基于待训练的图像分割模型训练得到的，待训练的图像分割模型是指深度神经网络。

进一步地，预先训练的图像分割模型可以通过下述方式训练得到：终端分别将各个待识别图像输入待训练的图像分割模型，得到各个待识别图像的预测分割区域；根据各个待识别图像的预测分割区域和标记分割区域之间的差值，结合损失函数，得到待训练的图像分割模型的损失值；根据损失值调整待训练的图像分割模型的网络参数，直至损失值低于第一预设阈值时，将训练后的图像分割模型作为预先训练的图像分割模型。

举例说明，终端将待识别图像输入待训练的图像分割模型，并获得待训练的图像分割模型输出的预测分割区域；对比待识别图像的预测分割区域和标记分割区域，得到损失函数，并以此训练优化待训练的图像分割模型的模型参数；在通过大量训练数据优化待训练的图像分割模型之后，根据测试数据集的数据衡量图像分割模型的IOU，作为图像分割模型准确性的标准。

在步骤S230中，根据各个待识别图像对应的标记分割区域和预测分割区域，确定各个待识别图像的交并比和分割区域面积。

其中，交并比是指IOU（Intersection over Union，交并比），可以通过待识别图像对应的标记分割区域和预测分割区域确定，用于衡量从待识别图像中分割出目标区域的准确度；在实际场景中，交并比具体是指“标记分割区域和预测分割区域之间的交集”与“标记分割区域和预测分割区域之间的并集”的比值。

其中，分割区域面积是指待识别图像对应的标记分割区域或者预测分割区域所占用的面积，可以通过标记分割区域或者预测分割区域中的像素点个数确定；当然，分割区域面积还可以由待识别图像对应的标记分割区域所占用的面积和预测分割区域所占用的面积综合确定。

具体地，终端获取每个待识别图像对应的标记分割区域和预测分割区域之间的交集和并集，并统计每个待识别图像对应的标记分割区域和预测分割区域之间的交集与并集之间的比值，作为每个待识别图像的交并比；获取每个待识别图像对应的标记分割区域或者预测分割区域所占用的面积，作为每个待识别图像的分割区域面积。

在步骤S240中，根据各个待识别图像的交并比，确定训练数据的平均交并比。

其中，平均交并比可以是指各个待识别图像对应的交并比的平均值，也可以是指各个待识别图像对应的交并比的加权和；在实际场景中，平均交并比是指训练数据的平均IOU。

在步骤S250中，根据各个待识别图像的分割区域面积，确定训练数据的平均分割区域面积。

其中，平均分割区域面积可以是指各个待识别图像对应的分割区域面积的平均值，也可以是指各个待识别图像对应的分割区域面积的加权和。

在步骤S260中，分别将各个待识别图像的交并比、分割区域面积、平均交并比和平均分割区域面积输入预先构建的数据判别模型，得到各个待识别图像的评价值，并根据评价值确定错误标记图像。

其中，预先构建的数据判别模型是指能够根据输入的待识别图像的交并比、分割区域面积、平均交并比和平均分割区域面积，输出待识别图像的评价值的标记坏数据判别器。

其中，待识别图像的评价值用于衡量待识别图像是否标记错误，一般地，评价值越高，表示待识别图像为错误标记图像的可能性越大；比如，待识别图像的评价值大于预设阈值（比如2.5），则说明待识别图像标记错误，即待识别图像为错误标记图像。

其中，错误标记图像是指目标区域标记错误的待识别图像，具体是指评价值大于预设阈值的待识别图像。

具体地，终端获取预先构建的数据判别模型，然后将各个待识别图像的交并比、分割区域面积、平均交并比和平均分割区域面积输入预先构建的数据判别模型，通过预先构建的数据判别模型输出各个待识别图像的错误标记度；从各个待识别图像中，将评价值大于预设阈值的待识别图像，作为错误标记图像。这样，综合考虑了各个待识别图像的交并比、分割区域面积、平均交并比和平均分割区域面积，有利于提高错误标记图像的识别准确率，避免了仅仅考虑待识别图像的交并比，导致错误标记图像的识别准确率较低的缺陷。

例如，终端将各个待识别图像的评价值与预设阈值（比如2.5）进行比较，得到比较结果；根据比较结果，从各个待识别图像中筛选出评价值大于预设阈值的待识别图像，作为错误标记图像。需要说明的是，预设阈值可以根据实际情况进行调整，在此不做具体限定。这样，实现了根据待识别图像的评价值，确定待识别图像是否为错误标记图像的目的，无需通过人工复核，从而节省了大量人力成本，进而提高了错误标记图像的识别效率，同时有利于剔除错误标记图像。

进一步地，终端还可以将确定出的错误标记图像发送至对应的审核终端，通过审核终端的终端界面展示接收到的错误标记图像，便于用户及时知晓哪些图像是错误标记图像。

此外，终端还可以剔除训练数据中的错误标记图像，得到剩余的训练数据，并根据剩余的训练数据重新对待训练的图像分割模型进行训练；这样，有利于提高训练得到的图像分割模型的模型精度。

上述训练数据的筛选方法中，获取训练数据；训练数据中包括多个待识别图像以及各个待识别图像对应的标记分割区域；分别将各个待识别图像输入预先训练的图像分割模型，得到各个待识别图像对应的预测分割区域；接着根据各个待识别图像对应的标记分割区域和预测分割区域，确定各个待识别图像的交并比和分割区域面积；然后根据各个待识别图像的交并比，确定训练数据的平均交并比；最后根据各个待识别图像的分割区域面积，确定训练数据的平均分割区域面积；分别将各个待识别图像的交并比、分割区域面积、平均交并比和平均分割区域面积输入预先构建的数据判别模型，得到各个待识别图像的评价值，并根据评价值确定错误标记图像；实现了根据待识别图像的交并比、分割区域面积、平均交并比和平均分割区域面积，确定待识别图像是否为错误标记图像的目的，综合考虑了待识别图像的交并比、分割区域面积、平均交并比和平均分割区域面积，有利于提高错误标记图像的识别准确率，避免了仅仅考虑待识别图像的交并比，导致错误标记图像的识别准确率较低的缺陷。

在一示例性实施例中，在步骤S230中，根据各个待识别图像对应的标记分割区域和预测分割区域，确定各个待识别图像的交并比和分割区域面积，包括：确定各个待识别图像的标记分割区域对应的第一权重和预测分割区域对应的第二权重；第一权重与第二权重之和恒等于1；分别根据第一权重和第二权重对各个待识别图像的标记分割区域和预测分割区域进行加权求和，得到各个待识别图像的分割区域面积。

具体地，终端确定各个待识别图像的标记分割区域对应的第一权重和预测分割区域对应的第二权重；分别获取各个待识别图像的标记分割区域所占用的面积与标记分割区域对应的第一权重的第一乘积，以及各个待识别图像的预测分割区域所占用的面积与预测分割区域对应的第二权重的第二乘积；分别将各个待识别图像对应的第一乘积和第二乘积进行相加，得到各个待识别图像的图像标记区域面积。

举例说明，终端先计算单张待识别图像

的交并比：

；

其中，

是指第

张待识别图像，

是指待识别图像

的交并比，

是指待识别图像

的标记分割区域；

是指待识别图像

的预测分割区域，通过预先训练的图像分割模型

得到：

；

参照上述方法，可以得到各个待识别图像的交并比。

然后，服务器计算单张待识别图像

的分割区域面积：

；

其中，

表示待识别图像

的分割区域面积，

代表遍历待识别图像

中的每个像素点，

表示第一权重，

表示第二权重；当

时，表示待识别图像

的分割区域面积

等于待识别图像

的标记分割区域

所占用的面积；当

时，表示待识别图像

的分割区域面积

等于待识别图像

的预测分割区域

所占用的面积；当

时，表示待识别图像

的分割区域面积

等于待识别图像

的标记分割区域

所占用的面积和预测分割区域

所占用的面积的平均值；当然

的值也可以根据实际情况进行调整。

本公开实施例提供的技术方案，通过待识别图像的标记分割区域和预测分割区域的加权和，确定待识别图像的分割区域面积，综合考虑了待识别图像的标记分割区域和预测分割区域，有利于提高待识别图像的分割区域面积的确定准确率。

在一示例性实施例中，在步骤S240中，根据各个待识别图像的交并比，确定训练数据的平均交并比，包括：分别获取各个待识别图像的交并比与交并比对应的第三权重的第三乘积；将各个待识别图像对应的第三乘积进行相加，得到训练数据的平均交并比。

举例说明，终端通过下述计算公式，统计训练数据的平均交并比：

；

其中，

是指训练数据的平均交并比，

是指第

张待识别图像

的交并比

对应的第三权重；若针对所有待识别图像（总共

张），

均相同，则

等于

。

本公开实施例提供的技术方案，通过获取训练数据的平均交并比，有利于后续分别将各个待识别图像的交并比、分割区域面积、平均交并比和平均分割区域面积输入预先构建的数据判别模型，得到各个待识别图像的评价值，进而根据评价值即可直接确定错误标记图像，无需通过人工复核，从而提高了错误标记图像的识别效率。

在一示例性实施例中，在步骤S250中，根据各个待识别图像的分割区域面积，确定训练数据的平均分割区域面积，包括：分别获取各个待识别图像的分割区域面积与分割区域面积对应的第四权重的第四乘积；将各个待识别图像对应的第四乘积进行相加，得到训练数据的平均分割区域面积。

举例说明，终端通过下述计算公式，统计训练数据的平均分割区域面积：

；

其中，

是指训练数据的平均分割区域面积，

是指第

张待识别图像

的分割区域面积

对应的第四权重；若针对所有待识别图像（总共

张），

均相同，则

等于

。

本公开实施例提供的技术方案，通过获取训练数据的平均分割区域面积，有利于后续分别将各个待识别图像的交并比、分割区域面积、平均交并比和平均分割区域面积输入预先构建的数据判别模型，得到各个待识别图像的评价值，进而根据评价值即可直接确定错误标记图像，避免了仅仅考虑待识别图像的交并比，导致错误标记图像的识别准确率较低的缺陷。

在一示例性实施例中，在步骤S260中，各个待识别图像的评价值通过下述方法得到：获取各个待识别图像的交并比与平均交并比之间的差值，以及各个待识别图像的分割区域面积与平均分割区域面积之间的比值；根据差值与比值的乘积，确定各个待识别图像的评价值。

具体地，终端通过下述计算公式，确定各个待识别图像的评价值；

；

其中，

是指待识别图像

的评价值，

是指待识别图像

的交并比，

是指平均交并比，

表示待识别图像

的分割区域面积，

是指平均分割区域面积。

进一步地，终端还可以根据“待识别图像的交并比与平均交并比之间的差值”与“待识别图像的分割区域面积与平均分割区域面积之间的比值”的乘积，构建对应的数据判别模型，比如

，作为预先构建的数据判别模型；然后分别将各个待识别图像的交并比、分割区域面积、平均交并比和平均分割区域面积输入到预先构建的数据判别模型

，得到各个待识别图像的评价值。

需要说明的是，可以根据实际情况，变换上述公式的数学形式；或者经过人工再次审核数据后，将坏标签作为输入来训练一个基于机器学习的判别式数学形式。需要说明的是，上述公式综合了模型一般的准确率与在待识别图像上的准确率，并与目标分割面积成正比；即当一个图像分割模型的IOU比模型在数据集上低很多时，有两种可能：待识别图像本身很有挑战；待识别图像标注有问题。我们发现第一类这种有挑战的待识别图像多为分割对象在图片中占比很小，与数据集分布不一致，导致图像分割模型很难判断准确。这种情况目标分割面积很小，因此我们通过公式中的分割面积占比来避免第一种情况，进而将真正标注有问题的待识别图像筛选出来，因此本公式有效地综合了分割类任务的不同挑战来更好的刻画标注的质量。

进一步地，通过人为添加错误标注来对比测试预先构建的数据判别模型；我们尝试了一种比较明显的错误——将1%的数据标记旋转30-60度作为训练和测试集数据；之后我们对比低IOU和预先构建的数据判别模型的precision 和 recall（precision 对应识别的错误标记中为错误的比例，recall对应错误标记中被找出来的比例），具体如图3A和图3B所示；通过对比可知，当bad值大于2.5时，F1 接近峰值，达到precision和recall的最佳平衡。而低IOU找到的样本中误检率相对较高——这样会浪费有用的（而且是难学的）数据，并增加人工复核的工作量。而且在实验中，我们发现2.5的阈值比较稳定，而IOU的基准则与数据质量和标注难度相关；需要说明的是，F1是指F1分数，是统计学中用来衡量二分类模型精确度的一种指标，F1=2×[（precision×recall）/（precision+recall）]。

此外，我们通过目前的数据判别模型来清洗错误数据后，可以避免图像分割模型在错误数据上过拟合的缺陷。对于模型精度而言，我们在自动清洗掉错误数据后的测试结果如下：在有错误标记的数据上训练的结果：83.76%，在没有错误标记的数据上训练的结果： 84.04%；由此可见，错误的数据标注会对我们的模型训练造成一定的影响，需要在数据采集与模型训练过程中加以清除，而本数据判别模型可以自动地完成这个任务。

本公开实施例提供的技术方案，通过综合考虑各个待识别图像的交并比、分割区域面积、平均交并比和平均分割区域面积，有利于得到各个待识别图像的评价值，进而根据评价值即可直接确定错误标记图像，无需通过人工审核，从而简化了错误标记图像的识别流程，节约了大量人力成本，进一步提高了错误标记图像的识别效率。

在一示例性实施例中，如图4所示，在步骤S260中，在分别将各个待识别图像的交并比、分割区域面积、平均交并比和平均分割区域面积输入预先构建的数据判别模型，得到各个待识别图像的评价值，并根据评价值确定错误标记图像之后，还包括如下步骤：

在步骤S410中，剔除训练数据中的错误标记图像，得到剩余的训练数据。

在步骤S420中，根据剩余的训练数据，对待训练的图像分割模型进行训练，得到训练完成的第一图像分割模型。

在步骤S430中，将预先训练的图像分割模型，更新为第一图像分割模型。

举例说明，在根据评价值确定错误标记图像之后，终端还可以从各个待识别图像中滤除错误标记图像，得到剩余图像；将剩余图像输入待训练的图像分割模型，得到剩余图像的预测分割区域；根据剩余图像的预测分割区域和标记分割区域之间的差值，结合损失函数，得到待训练的图像分割模型的损失值，根据损失值调整待训练的图像分割模型的模型参数，直至损失值低于第二预设阈值时，将模型参数调整后的图像分割模型作为训练完成的第一图像分割模型；将预先训练的图像分割模型，更新为第一图像分割模型。

进一步地，在得到第一图像分割模型之后，终端还可以响应于针对待识别图像的识别请求，将待识别图像输入第一图像分割模型，得到待识别图像的预测分割区域。

本公开实施例提供的技术方案，通过剔除训练数据中的错误标记图像，得到剩余的训练数据，有利于提高训练数据的数据质量；同时，根据剩余的训练数据对待训练的图像分割模型进行训练，有利于提高图像分割模型的模型精度，从而使得通过图像分割模型输出的预测分割区域更加准确。

在一示例性实施例中，在步骤S260中，在在分别将各个待识别图像的交并比、分割区域面积、平均交并比和平均分割区域面积输入预先构建的数据判别模型，得到各个待识别图像的评价值，并根据评价值确定错误标记图像之后，还包括：重新获取训练数据中的错误标记图像的标记分割区域，得到新的训练数据；根据新的训练数据，对待训练的图像分割模型进行训练，得到训练完成的第二图像分割模型；将预先训练的图像分割模型，更新为第二图像分割模型。

举例说明，在根据评价值确定错误标记图像之后，终端还可以通过终端界面展示错误标记图像，审核人员在终端界面上对错误标记图像进行重新标记，以确定错误标记图像的真实目标区域；终端响应审核人员在终端界面上的标记操作，得到在错误标记图像上重新标记的目标区域信息，作为错误标记图像的标记分割区域；根据重新确定的错误标记图像的标记分割区域，替换训练数据中的错误标记图像的标记分割区域，得到新的训练数据；将新的训练数据中的每个待识别图像输入待训练的图像分割模型，得到每个待识别图像的预测分割区域；根据每个待识别图像的预测分割区域和标记分割区域之间的差值，结合损失函数，得到待训练的图像分割模型的损失值，根据损失值调整待训练的图像分割模型的模型参数，直至损失值低于第三预设阈值时，将模型参数调整后的图像分割模型作为训练完成的第二图像分割模型；将预先训练的图像分割模型，更新为第二图像分割模型。

进一步地，在得到更新后的第二图像分割模型之后，终端还可以响应于针对待识别图像的识别请求，将待识别图像输入第二图像分割模型，得到待识别图像的预测分割区域。本公开实施例提供的技术方案，通过重新获取错误标记图像的标记分割区域，有利于提高训练数据的数据质量；同时，根据新的训练数据对待训练的图像分割模型进行训练，有利于提高图像分割模型的模型精度，从而使得通过图像分割模型输出的预测分割区域更加准确，进而提高了图像分割的准确率。

图5是根据一示例性实施例示出的另一种训练数据的筛选方法的流程图，如图5所示，训练数据的筛选方法用于如图1所示的终端中，包括以下步骤：

在步骤S510中，获取训练数据；训练数据中包括多个待识别图像以及各个待识别图像对应的标记分割区域。

在步骤S520中，分别将各个待识别图像输入预先训练的图像分割模型，得到各个待识别图像对应的预测分割区域。

在步骤S530中，获取各个待识别图像对应的标记分割区域和预测分割区域之间的交集和并集，并统计各个待识别图像对应的标记分割区域和预测分割区域之间的交集与并集之间的比值，作为各个待识别图像的交并比。

在步骤S540中，确定各个待识别图像的标记分割区域对应的第一权重和预测分割区域对应的第二权重；第一权重与第二权重之和恒等于1；分别根据第一权重和第二权重对各个待识别图像的标记分割区域和预测分割区域进行加权求和，得到各个待识别图像的分割区域面积。

在步骤S550中，分别获取各个待识别图像的交并比与交并比对应的第三权重的第三乘积；将各个待识别图像对应的第三乘积进行相加，得到训练数据的平均交并比。

在步骤S560中，分别获取各个待识别图像的分割区域面积与分割区域面积对应的第四权重的第四乘积；将各个待识别图像对应的第四乘积进行相加，得到训练数据的平均分割区域面积。

在步骤S570中，获取各个待识别图像的交并比与平均交并比之间的差值，以及各个待识别图像的分割区域面积与平均分割区域面积之间的比值；根据差值与比值的乘积，确定各个待识别图像的评价值。

在步骤S580中，从各个待识别图像中，将评价值大于预设阈值的待识别图像，作为错误标记图像。

在步骤S590中，剔除训练数据中的错误标记图像，得到剩余的训练数据；根据剩余的训练数据，对待训练的图像分割模型进行训练，得到训练完成的第一图像分割模型；将预先训练的图像分割模型，更新为第一图像分割模型。

上述训练数据的筛选方法，综合考虑了待识别图像的交并比、分割区域面积、平均交并比和平均分割区域面积，有利于提高错误标记图像的识别准确率，避免了仅仅考虑待识别图像的交并比，导致错误标记图像的识别准确率较低的缺陷；实现了根据待识别图像的交并比、分割区域面积、平均交并比和平均分割区域面积，确定待识别图像是否为错误标记图像的目的，无需通过人工复核，从而提高了错误标记图像的识别效率；同时，根据剔除错误标记图像的剩余训练数据对待训练的图像分割模型进行重新训练，有利于提高图像分割模型的图像分割准确率。

应该理解的是，虽然图2、4、5的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图2、4、5中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图6是根据一示例性实施例示出的一种训练数据的筛选装置的框图。参照图6，该装置包括训练数据获取单元610，预测分割区域确定单元620，分割区域面积确定单元630，平均交并比确定单元640，平均分割区域面积确定单元650和错误标记图像确定单元660。

训练数据获取单元610，被配置为执行获取训练数据；训练数据中包括多个待识别图像以及各个待识别图像对应的标记分割区域。

预测分割区域确定单元620，被配置为执行分别将各个待识别图像输入预先训练的图像分割模型，得到各个待识别图像对应的预测分割区域。

分割区域面积确定单元630，被配置为执行根据各个待识别图像对应的标记分割区域和预测分割区域，确定各个待识别图像的交并比和分割区域面积。

平均交并比确定单元640，被配置为执行根据各个待识别图像的交并比，确定训练数据的平均交并比。

平均分割区域面积确定单元650，被配置为执行根据各个待识别图像的分割区域面积，确定训练数据的平均分割区域面积。

错误标记图像确定单元660，被配置为执行分别将各个待识别图像的交并比、分割区域面积、平均交并比和平均分割区域面积输入预先构建的数据判别模型，得到各个待识别图像的评价值，并根据评价值确定错误标记图像。

在一示例性实施例中，分割区域面积确定单元630，还被配置为执行确定各个待识别图像的标记分割区域对应的第一权重和预测分割区域对应的第二权重；第一权重与第二权重之和恒等于1；分别根据第一权重和第二权重对各个待识别图像的标记分割区域和预测分割区域进行加权求和，得到各个待识别图像的分割区域面积。

在一示例性实施例中，平均交并比确定单元640，还被配置为执行分别获取各个待识别图像的交并比与交并比对应的第三权重的第三乘积；将各个待识别图像对应的第三乘积进行相加，得到训练数据的平均交并比。

在一示例性实施例中，平均分割区域面积确定单元650，还被配置为执行分别获取各个待识别图像的分割区域面积与分割区域面积对应的第四权重的第四乘积；将各个待识别图像对应的第四乘积进行相加，得到训练数据的平均分割区域面积。

在一示例性实施例中，错误标记图像确定单元660，还被配置为执行获取各个待识别图像的交并比与平均交并比之间的差值，以及各个待识别图像的分割区域面积与平均分割区域面积之间的比值；根据差值与比值的乘积，确定各个待识别图像的评价值。

在一示例性实施例中，本公开提供的训练数据的筛选装置还包括第一模型更新单元，被配置为执行剔除训练数据中的错误标记图像，得到剩余的训练数据；根据剩余的训练数据，对待训练的图像分割模型进行训练，得到训练完成的第一图像分割模型；将预先训练的图像分割模型，更新为第一图像分割模型。

在一示例性实施例中，本公开提供的训练数据的筛选装置还包括第二模型更新单元，被配置为执行重新获取训练数据中的错误标记图像的标记分割区域，得到新的训练数据；根据新的训练数据，对待训练的图像分割模型进行训练，得到训练完成的第二图像分割模型；将预先训练的图像分割模型，更新为第二图像分割模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图7是根据一示例性实施例示出的一种用于执行上述的训练数据的筛选方法的电子设备700的框图。例如，电子设备700可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图7，电子设备700可以包括以下一个或多个组件：处理组件702、存储器704、电源组件706、多媒体组件708、音频组件710、输入/输出（I/O）的接口712、传感器组件714以及通信组件716。

处理组件702通常控制电子设备700的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。例如，处理组件702可以包括多媒体模块，以方便多媒体组件708和处理组件702之间的交互。

存储器704被配置为存储各种类型的数据以支持在电子设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器（SRAM）、电可擦除可编程只读存储器（EEPROM）、可擦除可编程只读存储器（EPROM）、可编程只读存储器（PROM）、只读存储器（ROM）、磁存储器、快闪存储器、磁盘或光盘。

电源组件706为电子设备700的各种组件提供电力。电源组件706可以包括电源管理系统，一个或多个电源，及其他与为电子设备700生成、管理和分配电力相关联的组件。

多媒体组件708包括在所述电子设备700和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器（LCD）和触摸面板（TP）。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件708包括一个前置摄像头和/或后置摄像头。当电子设备700处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件710被配置为输出和/或输入音频信号。例如，音频组件710包括一个麦克风（MIC），当电子设备700处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器704或经由通信组件716发送。在一些实施例中，音频组件710还包括一个扬声器，用于输出音频信号。

I/O接口712为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件714包括一个或多个传感器，用于为电子设备700提供各个方面的状态评估。例如，传感器组件714可以检测到电子设备700的打开/关闭状态，组件的相对定位，例如所述组件为电子设备700的显示器和小键盘，传感器组件714还可以检测电子设备700或电子设备700一个组件的位置改变，用户与电子设备700接触的存在或不存在，电子设备700方位或加速/减速和电子设备700的温度变化。传感器组件714可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件714还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件714还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件716被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络，如WiFi，运营商网络（如2G、3G、4G或5G），或它们的组合。在一个示例性实施例中，通信组件716经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件716还包括近场通信（NFC）模块，以促进短程通信。例如，在NFC模块可基于射频识别（RFID）技术，红外数据协会（IrDA）技术，超宽带（UWB）技术，蓝牙（BT）技术和其他技术来实现。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器704，上述指令可由电子设备700的处理器720执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器（RAM）、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，本公开还提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，电子设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得电子设备执行本公开的任一项实施例中所述的训练数据的筛选方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种训练数据的筛选方法，其特征在于，包括：

2.根据权利要求1所述的训练数据的筛选方法，其特征在于，所述根据各个所述待识别图像对应的标记分割区域和预测分割区域，确定各个所述待识别图像的交并比和分割区域面积，包括：

3.根据权利要求1所述的训练数据的筛选方法，其特征在于，所述根据各个所述待识别图像的交并比，确定所述训练数据的平均交并比，包括：

4.根据权利要求1所述的训练数据的筛选方法，其特征在于，所述根据各个所述待识别图像的分割区域面积，确定所述训练数据的平均分割区域面积，包括：

5.根据权利要求1所述的训练数据的筛选方法，其特征在于，各个所述待识别图像的评价值通过下述方法得到：

6.根据权利要求1至5任一项所述的训练数据的筛选方法，其特征在于，在分别将各个所述待识别图像的交并比、分割区域面积、所述平均交并比和所述平均分割区域面积输入预先构建的数据判别模型，得到各个所述待识别图像的评价值，并根据所述评价值确定错误标记图像之后，还包括：

根据所述剩余的训练数据，对待训练的图像分割模型进行训练，得到训练完成的第一图像分割模型；将所述预先训练的图像分割模型，更新为所述第一图像分割模型。

7.根据权利要求1至5任一项所述的训练数据的筛选方法，其特征在于，在分别将各个所述待识别图像的交并比、分割区域面积、所述平均交并比和所述平均分割区域面积输入预先构建的数据判别模型，得到各个所述待识别图像的评价值，并根据所述评价值确定错误标记图像之后，还包括：

8.一种训练数据的筛选装置，其特征在于，包括：

9.根据权利要求8所述的训练数据的筛选装置，其特征在于，所述分割区域面积确定单元，还被配置为执行确定各个所述待识别图像的标记分割区域对应的第一权重和预测分割区域对应的第二权重；所述第一权重与所述第二权重之和恒等于1；分别根据所述第一权重和所述第二权重对各个所述待识别图像的标记分割区域和预测分割区域进行加权求和，得到各个所述待识别图像的分割区域面积。

10.根据权利要求8所述的训练数据的筛选装置，其特征在于，所述平均交并比确定单元，还被配置为执行分别获取各个所述待识别图像的交并比与所述交并比对应的第三权重的第三乘积；将各个所述待识别图像对应的第三乘积进行相加，得到所述训练数据的平均交并比。

11.根据权利要求8所述的训练数据的筛选装置，其特征在于，所述平均分割区域面积确定单元，还被配置为执行分别获取各个所述待识别图像的分割区域面积与所述分割区域面积对应的第四权重的第四乘积；将各个所述待识别图像对应的第四乘积进行相加，得到所述训练数据的平均分割区域面积。

12.根据权利要求8所述的训练数据的筛选装置，其特征在于，所述错误标记图像确定单元，还被配置为执行获取各个所述待识别图像的交并比与所述平均交并比之间的差值，以及各个所述待识别图像的分割区域面积与所述平均分割区域面积之间的比值；根据所述差值与所述比值的乘积，确定各个所述待识别图像的评价值。

13.根据权利要求8至12任一项所述的训练数据的筛选装置，其特征在于，所述装置还包括第一模型更新单元，被配置为执行剔除所述训练数据中的所述错误标记图像，得到剩余的训练数据；根据所述剩余的训练数据，对待训练的图像分割模型进行训练，得到训练完成的第一图像分割模型；将所述预先训练的图像分割模型，更新为所述第一图像分割模型。

14.根据权利要求8至12任一项所述的训练数据的筛选装置，其特征在于，所述装置还包括第二模型更新单元，被配置为执行重新获取所述训练数据中的所述错误标记图像的标记分割区域，得到新的训练数据；根据所述新的训练数据，对待训练的图像分割模型进行训练，得到训练完成的第二图像分割模型；将所述预先训练的图像分割模型，更新为所述第二图像分割模型。

15.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至7中任一项所述的训练数据的筛选方法。

16.一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至7中任一项所述的训练数据的筛选方法。