CN108764372B

CN108764372B - 数据集的构建方法和装置、移动终端、可读存储介质

Info

Publication number: CN108764372B
Application number: CN201810588652.XA
Authority: CN
Inventors: 刘耀勇
Original assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Current assignee: Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2019-07-16
Anticipated expiration: 2038-06-08
Also published as: WO2019233297A1; CN108764372A

Abstract

本申请涉及一种数据集的构建方法和装置、移动终端、计算机可读存储介质。所述方法包括：根据学习任务获取具有第一预设数量且携带标注信息的第一数据集；在第一数据集上训练分类模型，并评估分类模型的精度信息；当精度信息达到预设值时，则基于训练后的分类模型分类筛选未标注的数据，将筛选出数据合并至第一数据集以形成第二数据集；基于训练后的分类模型对第二数据集的数据进行分类、清洗以形成具有目标数量的目标数据集；可以实现半自动化的数据采集和筛选标注，可在花费较小人力的基础上获取大量高质量的训练分类模型的数据，大大节约了人力成本，同时提高了构成数据集的效率。

Description

数据集的构建方法和装置、移动终端、可读存储介质

技术领域

本申请涉及计算机应用领域，特别是涉及一种数据集的构建方法和装置、移动终端、计算机可读存储介质。

背景技术

人工智能(Artificial Intelligence，AI)领域的发展日新月异，特别是随着深度学习技术的广泛应用，其在物体检测、识别等领域取得了突破性的进展。一般，人工智能AI算法主要是基于监督式学习的深度学习技术，而训练数据是人工智能模型的驱动力。

目前的训练数据获取方式主要包含开源数据集、网络爬取、线下采集。然而，为了获得大量与学习任务相关的数据，一般需要对开源数据集和网络爬取的数据进行人工筛选分类和信息标注，在获取大量筛选后的标注数据后，再应用于模型训练，这样常常耗费大量的人力和物力，成本很高。

发明内容

本申请实施例提供一种数据集的构建方法和装置、移动终端、计算机可读存储介质，可以在节约成本的基础上构建包括大量且有效数据的数据集。

一种数据集的构建方法，包括：

根据学习任务获取具有第一预设数量且携带标注信息的第一数据集；

在所述第一数据集上训练分类模型，并评估所述分类模型的精度信息；

当所述精度信息达到预设值时，则基于训练后的所述分类模型筛选未标注的数据，将筛选出的数据合并至所述第一数据集以形成第二数据集；

基于训练后的所述分类模型对所述第二数据集的数据进行分类、清洗以形成具有目标数量的目标数据集，其中，第二数据集的数据数量大于等于目标数据集的数据数量。

一种数据集的构建装置，包括：

数据集获取模块，用于根据学习任务获取具有第一预设数量且携带标注信息的第一数据集；

模型训练模块，用于在所述第一数据集上训练分类模型，并评估所述分类模型的精度信息；

数据集合并模块，用于当所述精度信息达到预设值时，则基于训练后的所述分类模型筛选未标注的数据，将筛选出的数据合并至所述第一数据集以形成第二数据集；

数据集处理模块，用于基于训练后的所述分类模型对所述第二数据集的数据进行分类、清洗以形成具有目标数量的目标数据集，其中，第二数据集的数据数量大于等于目标数据集的数据数量。

一种移动终端，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行数据集的构建方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现数据集的构建方法的步骤。

本申请实施例中数据集的构建方法和装置、移动终端、计算机可读存储介质，根据学习任务获取具有第一预设数量且携带标注信息的第一数据集；在第一数据集上训练分类模型，并评估分类模型的精度信息；当精度信息达到预设值时，则基于训练后的分类模型分类筛选未标注的数据，将筛选出数据合并至第一数据集以形成第二数据集；基于训练后的分类模型对第二数据集的数据进行分类、清洗以形成具有目标数量的目标数据集；可以实现半自动化的数据采集和筛选标注，可在花费较小人力的基础上获取大量高质量的训练分类模型的数据，大大节约了人力成本，同时提高了构成数据集的效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为一个实施例中数据集的构建方法的流程图；

图2为一个实施例中拍摄场景的类别示意图；

图3为另一个实施例中数据集的构建方法的流程图；

图4为一个实施例中根据学习任务获取具有第一预设数量且携带标注信息的第一数据集的流程图；

图5为一个实施例中在所述第一数据集上训练所述分类模型，并评估所述分类模型的精度信息的流程图；

图6为一个实施例中神经网络的架构示意图；

图7为另一个实施例中神经网络的架构示意图；

图8为一个实施例中基于分类模型分类筛选未标注的数据，将筛选出的数据合并至所述第一数据集以形成第二数据集的流程图；

图9为一个实施例中基于训练后的所述分类模型对所述第二数据集的数据进行分类、清洗以形成具有目标数量的目标数据集的流程图；

图10为一个实施例中图像处理装置的结构框图；

图11为一个实施例中移动终端的内部结构示意图；

图12为一个实施例中图像处理电路的示意图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

图1为一个实施例中数据集的构建方法的流程图。如图1所示，一种数据集的构建方法，包括步骤102至步骤106。其中：

步骤102，根据学习任务获取具有第一预设数量且携带标注信息的第一数据集。

其中，第一数据集中的数据可以为图像数据、视频数据、文字数据、语音数据等。在本申请中，以图像数据为例进行说明。根据学习任务可以先定义需要采集并分类筛选的图像数据的图像类别和对象类别。其中，图像类别可以理解为训练数据中背景区域的训练目标，例如，风景、海滩、雪景、蓝天、绿地、夜景、黑暗、背光、日出/日落、室内、烟火、聚光灯等。对象类别为训练数据中前景区域的训练目标，例如，人像、婴儿、猫、狗、美食等。另外，背景训练目标和前景训练目标还可为文本文档、微距等。

需要说明的是，背景区域是指图像数据的背景部分，前景区域是指图像数据的前景部分。

如图2所示，图像数据的拍摄场景可包括背景区域的图像类别、前景区域的对象类别和其他。背景区域的图像类别可包括风景、海滩、雪景、蓝天、绿地、夜景、黑暗、背光、日出/日落、室内、烟火、聚光灯等。前景区域的对象类别可为人像、婴儿、猫、狗、美食等。其他可为文本文档、微距等。

根据定义的图像类别和对象类别可以通过开源数据集和网络爬虫获取大量的数据，并通过人工筛选分类。其中，每类图像类别和每类对象类别的数据数量在预设范围内，可以相等，也可以不等。数量的具体数值可以根据实际需求来设定，例如，可以设定为2000或其他数值。通过人工筛选分类就可以筛选出包括第一预设数量的图像数据。

同时，还需要对筛选出的图像数据进行人工标注，使每一张图像数据均携带标注信息。其中，标注信息包括图像类别和对象类别中的至少一种，也即，标注信息可以为图像类别，例如，风景、海滩、雪景、蓝天等；标注信息也可以为对象类别，例如人像，人像+婴儿，人像+猫等；标注信息还可以包括图像类别和对象类别，例如，人像+风景；人像+日落；人像+聚光灯等。

将人工筛选出的包括第一预设数量的图像数据的存储在移动终端或服务器的预设存储区域，以形成第一数据集，且每一张图像数据均携带标注信息。继而，移动终端可以根据学习任务获取并调用存储的第一数据集。

步骤104，在所述第一数据集上训练分类模型，并评估所述分类模型的精度信息；

标注信息与分类模型的训练任务相关联，其标注信息的准确性影响着分类模型的精度。分类模型训练需要同时输入携带标注信息的第一数据集，根据学习任务来训练分类模型。

具体地，该分类模型可以为神经网络，神经网络包括至少包含一个输入层、n个中间层和两个输出层的神经网络，其中，将第i个中间层配置为图像特征提取层，该第j个中间层级联到该神经网络的第一支路，将该第k个中间层级联到该神经网络的第二支路，其中，i小于j,j小于k；i、j、k、n均为正整数，且i、j、k均小于n；一个输出层位于该第一支路，一个输出层位于该第二支路。该神经网络的第一支路的第一输出可以在用该神经网络进行图像检测时输出第一置信度，该第一置信度表示采用该神经网络检测出的背景图像所属指定图像类别的置信度。该神经网络的第二支路的第二输出可以在用该神经网络进行图像检测时输出每种预选的默认边界框相对于指定对象所对应的真实边界框的偏移量参数和所属指定对象类别的第二置信度。

在统计学中，一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信度是被测量参数的测量值的可信程度。

移动终端可以同时将携带标注信息的第一数据集输入至神经网络的输入层，进而对该神经网络进行训练。

具体地，可以将第一数据集的图像数据按照预设比例分为训练集和测试集，将训练集的图像数据和标注信息输入至神经网络的输入层，对该神经网络进行训练，进而调整神经网络的参数。将测试集的图像数据和标注信息同时输入至调整参数后的神经网络，对该神经网络进行价值评估，以获取训练后的神经网络的精度信息，也即，获取训练后的神经网络对第一数据集中测试集的测试识别率。其中，精度信息包括第一置信度和第二置信度。

步骤106，当所述精度信息达到预设值时，则基于训练后的所述分类模型筛选未标注的数据，将筛选出的数据合并至所述第一数据集以形成第二数据集。

由于第一数据集内的图像数据的数量较少，而为了使分类模型的性能达到最优，则需要上万到几十万个图片数据，若全部靠人力收集数据以及对该数据进行标注，耗时长、效率低且成本高。当分类模型对测试集的数据的测试精度达到预设值时，可以表示训练后的分类模型的性能较好，可以用于对图像数据进行分类筛选。基于训练后的分类模型可以对网络获取的大量未标注的图像数据进行识别、筛选、标注。同时，将训练后的分类模型识别出的图像数据进行标注，并合并至第一数据集中，以形成第二数据集。其中，通过分类模型识别出的图像数据中，每种图像类别和每种对象类别的图像数据的数量均在预设范围内，可以相同，也可以不同。同时，每类图像类别和每种对象类别的图像数据的总和大于目标数据集的目标数量，也即第二数据集的图像数据的数量大于目标数据集的图像数据的目标数量。

通过训练后的分类模型可以对网络获取的大量的未标注的图像数据进行筛选、分类、标注，可以避免耗费大量的人力去筛选图像数据，并对其进行分类处理，大大提高了获取符合学习任务的数据集的效率。

步骤108，基于训练后的所述分类模型对所述第二数据集的数据进行分类、清洗以形成具有目标数量的目标数据集。

基于训练后的分类模型自动对第二数据集的图像数据进行筛选、分类，获取每种数据的分类信息。可以从筛选结果中随机挑选若干图像数据进行人工验证，判断基于分类模型的分类信息是否正确；若不正确，则查验该图像数据的标注信息是否正确，若不正确，将其纠正以实现对第二数据集的数据清洗。可选的，数据清洗还可以理解为删除第二数据集中的无关数据、重复数据，平滑噪声数据，筛选掉与学习任务无关的数据，处理缺失值、异常值。

通过数据清洗，可以过滤掉第二数据集中与学习任务无关的数据，使第二数据集中保留的数据符合预设要求，即保留的数据均是与训练模型高度相关联的数据；同时使第二数据集的保留的数据数量达到目标数量，同时，继而可以根据第二数据集中保留的数据形成目标数据集。其中，目标数据集中，每种图像类别和每种对象类别的图像数据的质量和数量都可以达到预设要求，例如，每种图像类别和每种对象类别的图像数据的数量范围在5000-10000张之间，这样，由每种图像类别和每种对象类别的图像数据构成的目标数据集可以的数量可达到几万、十几万。

上述数据集的构建方法，根据学习任务获取具有第一预设数量且携带标注信息的第一数据集；在所述第一数据集上训练分类模型，并评估所述分类模型的精度信息；当所述精度信息达到预设值时，则基于训练后的所述分类模型分类筛选未标注的数据，将筛选出数据合并至所述第一数据集以形成第二数据集；基于训练后的所述分类模型对所述第二数据集的数据进行分类、清洗以形成具有目标数量的目标数据集；可以通过实现半自动化的数据采集和筛选标注，可在花费较小人力的基础上获取大量高质量的训练分类模型的数据，大大节约了人力成本，同时提高了构成数据集的效率。

图3为另一个实施例中数据集的构建方法的流程图。如图3所示，一种数据集的构建方法，包括步骤302至步骤314。其中：

步骤302，根据学习任务获取具有第一预设数量且携带标注信息的第一数据集；

步骤304，在所述第一数据集上训练分类模型，并评估所述分类模型的精度信息；

上述步骤302-步骤304与前述实施例中步骤102-步骤104一一对应，在此，不再赘述。

步骤306，当所述精度信息未达到预设值时，则获取具有第二预设数量且携带标注信息的新数据。

当在第一数据集上训练的分类模型的精度信息为达到预设值时，则需要注入新的数据继续对该分类模型进行训练，使其训练后的分类模型的精度信息达到预设值。具体地，可以再次获取携带标注信息的新数据，再次获取的新数据的数量之和为第二预设数量。该新数据与第一数据集中的数据的属性相同，也即，图像类别相同、对象类别相同。例如，可以基于人工继续分类筛序新数据，每种图像类别和每种对象类别的数据再次筛选出若干(如，各种类别的数据均增加1000张)，并对筛选的数据进行标注，使筛选的新数据也携带标注信息。

步骤308，将所述新数据合并至所述第一数据集中，形成第三数据集。

将获取的新数据合并至第一数据集中，以形成第三数据集，也即，形成的第三数据集中的图像数据均为人工分类筛选的数据，且每种数据均携带标注信息。

步骤310，在所述第三数据集上再次训练所述分类模型，直到所述分类模型的精度信息达到预设值。

在第三数据集上再次训练该分类模型，也即，可以将第三数据集中新增的新数据在步骤104，在所述第一数据集上训练分类模型，并评估所述分类模型的精度信息的基础上再次训练该分类模型，以优化该分类模型中的各个参数。进而基于第三数据集中的测试集数据获取训练后的分类模型的精度信息，精度信息也可以理解为该分类模型的对数据集中数据的测试识别率。

将获取的精度信息与预设值进行比较，若达到预设值时，则执行步骤312；若仍未达到预设值，则重复执行步骤306-步骤310，不断的向第一数据集中添加新数据，直到在新的第三数据集上训练后的分类模型的精度信息达到预设值。

步骤312，当所述精度信息达到预设值时，则基于训练后的所述分类模型筛选未标注的数据，将筛选出的数据合并至所述第一数据集以形成第二数据集；

步骤314，基于训练后的所述分类模型对所述第二数据集的数据进行分类、清洗以形成具有目标数量的目标数据集。

上述步骤312-步骤314与前述实施例中步骤106-步骤108一一对应，在此，不再赘述。

本实施例中的数据集的构建方法，可以不断地向第一数据集添加新数据，使形成的第三数据集的数据数量有增加，进而，可以在第三数据集上再次训练该分类模型，可以优化分类模型中的各个参数，提高分类模型的测试识别率，也即提高分类模型的性能。同时，可以基于训练后的分类模型来分类筛选更多的未标注的网络信息，提供分类筛选的准确性。

图4为一个实施例中根据学习任务获取具有第一预设数量且携带标注信息的第一数据集的流程图。如图4所示，根据学习任务获取具有第一预设数量且携带标注信息的第一数据集，包括步骤402至步骤406。其中：

步骤402，根据所述学习任务定义待获取数据的图像类别和对象类别。

学习任务可以理解为分类模型的终极识别目标，也即，训练分类模型的目的。在本实施例中，可以根据学习任务定义待获取数据的图像类别和对象类别。其中，图像类别为图像数据中背景区域的训练目标，例如，风景、海滩、雪景、蓝天、绿地、夜景、黑暗、背光、日出/日落、室内、烟火、聚光灯等。对象类别为图像数据中前景区域的训练目标，例如，人像、婴儿、猫、狗、美食等。另外，背景训练目标和前景训练目标还可为文本文档、微距等。

步骤404，根据所述图像类别和对象类别获取数据。

根据定义的图像类别和对象类别获取大量的图像数据。具体地，可以根据图像类别和对象类别的关键词，利用网络爬虫技术，在各个搜索引擎上搜索各个图像类别和对象类别的图像数据，并完成相应的下载。

可选的，还可以查找并下载可使用的开源数据集，例如：MNIT，手写数字识别，深度学习入门级数据集；MS-COCO，可用于图像分割，边缘检测，关键点检测及图像捕获；ImageNet，最有名的图像数据集之一，比较常用的模型如VGG、Inception、Resnet都是基于它训练的；Open Image Dataset，一个包含近900万个图像URL的数据集。这些图像拥有数千个类别及边框进行了注释等。可以基于各开源数据集获取与学习任务相关联的图像数据。

另外，可以根据学习任务下载不同的开源数据集，开源数据集还可以为自然语言处理类、语音类、Analytics Vidhya实践问题等。

可选的，还可以同时利用网络爬虫技术和下载的开源数据集来获取与学习任务相关联的图像数据，这样可以提高获取数据的效率。其中，获取的图像数据中，每种图像类别的图像数据的数量与每种对象类别的图像数据的数量都比较均衡，各个类别的图像数据的数量在预设范围内，该预设范围可以设为2000-2500之间，或其他范围内，在此不做进一步的限定。这样可以保证每种类别的图像数据经过分类模型训练后的综合质量，避免第一数据集中某个类别的图像数据相对较多或较少，出现对自身类别或其他类别训练效果影响的结果。

可选的，还可以对获取的数据进行数据清洗，以删除原始数据中的无关数据、重复数据，平滑噪声数据，例如删掉与学习任务无关的数据，处理缺失值、异常值，以获取高质量的数据。

步骤406，基于人工标注方式对获取的数据进行标注，以获取具有第一预设数量且携带标注信息的第一数据集。

可以对利用网络爬虫技术和/或开源数据集获取的大量图像数据进行标注，也可以理解为对获取的数据进行标注，设定标签，使每种数据携带标注信息。其中，标注信息包括图像类别和/或对象类别。也即，若图像数据中，仅包括人像区域，则该图像数据的标注信息为人像；若图像数据中全景区域为海滩，则该图像数据的标注信息为海滩；若图像数据中，背景区域为日出，前景区域为人像，则该图像数据的标注信息为日出和人像。

在对图像数据进行标注的同时，还需要设定每类图像类别和每类对象类别的数量，使每类图像数据的数量保持在一个合适的范围内，例如，携带标注信息的每种类别的图像数据的数量可以保持在2000-2500张的范围内，这样可以保证每种类别的图像数据经过分类模型训练后的综合质量，避免第一数据集中某个类别的图像数据相对较多或较少，出现对自身类别或其他类别训练效果影响的结果。

将携带标注信息的每类图像数据进行存储，以形成具有第一预设数量的第一数据集，其中第一预设数量为每类图像数据数量之和。

图5为一个实施例中在所述第一数据集上训练所述分类模型，并评估所述分类模型的精度信息的流程图。在一个实施例中，所述分类模型为神经网络，所述标注信息包括图像类别和对象类别。如图5所示，在所述第一数据集上训练所述分类模型，并评估所述分类模型的精度信息，包括步骤502至步骤506。其中：

步骤502，将携带标注信息的第一数据集输入到神经网络，通过所述神经网络的基础网络层进行特征提取，将提取的图像特征输入到分类网络层和目标检测网络层，在所述分类网络层得到反映所述图像数据中背景图像所属指定图像类别的第一预测置信度与第一真实置信度之间的差异的第一损失函数，在所述目标检测网络层得到反映所述图像数据中前景目标所属指定对象类别的第二预测置信度与第二真实置信度之间的差异的第二损失函数。

具体地，可以将第一数据集的图像数据按照预设比例分为训练集和测试集，将训练集中的携带标注信息的图像数据输入到神经网络，得到反映该图像数据中背景区域各像素点的第一预测置信度与第一真实置信度之间的差异的第一损失函数，以及反映该图像数据中前景区域各像素点的第二预测置信度与第二真实置信度之间的差异的第二损失函数；该第一预测置信度为采用该神经网络预测出的该图像数据中背景区域某一像素点属于该背景训练目标的置信度，该第一真实置信度表示在该图像数据中预先标注的该像素点属于该背景训练目标的置信度；该第二预测置信度为采用该神经网络预测出的该图像数据中前景区域某一像素点属于该前景训练目标的置信度，该第二真实置信度表示在该图像数据中预先标注的该像素点属于该前景训练目标的置信度。

具体地，可以按照预设比例将第一数据集中的数据划分为训练集和测试集。例如，训练集中的图像数据的数量与测试集中的图像数据的数量的预设比例可以设为9:1，也即训练集的数据数量与测试集的数据数量比值为9:1。当然，可以可以根据实际需求来设置预设比例，在此，不做进一步的限定。

在神经网络训练过程中，可将训练集中的携带标注信息的图像数据输入到神经网络中，神经网络根据背景训练目标和前景训练目标进行特征提取，通过SIFT(Scale-invariant feature transform)特征、方向梯度直方图(Histogram of OrientedGradient，HOG)特征等提取特征，再通过SSD(Single Shot MultiBox Detector)、VGG(Visual Geometry Group)、卷积神经网络(Convolutional Neural Network，CNN)等目标检测算法，对背景训练目标进行检测得到第一预测置信度，对前景训练目标进行检测得到第二预测置信度。第一预测置信度为采用该神经网络预测出的该图像数据中背景区域某一像素点属于该背景训练目标的置信度。第二预测置信度为采用该神经网络预测出的该图像数据中前景区域某一像素点属于该前景训练目标的置信度。

图像数据中可以预先标注背景训练目标和前景训练目标，得到第一真实置信度和第二真实置信度。该第一真实置信度表示在该图像数据中预先标注的该像素点属于该背景训练目标的置信度。第二真实置信度表示在该图像数据中预先标注的该像素点属于该前景训练目标的置信度。针对图像中的每种像素点，真实置信度可以表示为1(或正值)和0(或负值)，分别用以表示该像素点属于训练目标和不属于训练目标。

求取第一预测置信度与第一真实置信度之间的差异得到第一损失函数，求其第二预测置信度与第二真实置信度之间的差异得到第二损失函数。第一损失函数和第二损失函数均可采用对数函数、双曲线函数、绝对值函数等。

针对图像数据中的每一个或者多个像素点，可以利用神经网络预测出一个针对训练目标的置信度。

步骤504，将所述第一损失函数和第二损失函数进行加权求和得到目标损失函数。

首先给第一损失函数和第二损失函数分别配置对应的权重值，该权重值可根据识别场景进行调整。将第一损失函数乘以对应的第一权重值a，第二损失函数乘以对应的第二权重值b，再求取两个乘积之和得到目标损失函数。

步骤506，根据所述目标损失函数调整所述神经网络的参数。

具体地，神经网络的参数是指每层网络的权重值。利用目标损失函数调整神经网络的参数，使得第一损失函数和第二损失函数均最小化，也就是使得像素点的预测置信度与真实置信度之间的差异都最小，或者使得各个像素点的预测置信度与真实置信度之间的差异之和最小化，从而得到训练好的神经网络。目标损失函数调整神经网络的参数可通过反向传播算法逐级调整每层网络的参数。

步骤508，基于第一数据集中的测试集对所述神经网络进行测试，获取所述神经网络的精度信息。

将测试集携带标注信息的图像数据输入至调整参数后的神经网络，对该神经网络进行价值评估，以获取训练后的神经网络的精度信息。该精度信息也可以理解为神经网络对测试集中各数据的测试识别率，其识别率越高，精度信息也就越高，其训练后的神经网络的性能也就越好。

本申请实施例中，通过对背景训练目标所对应的第一损失函数和前景训练目标所对应的第二损失函数的加权求和得到目标损失函数，根据目标损失函数调整神经网络的参数，使得训练的神经网络后续可以同时识别出图像类别和对象类别，获取更多的信息，且提高了识别效率。

图6为一个实施例中神经网络的架构示意图。如图6所示，神经网络的输入层接收携带标注信息的图像数据，通过基础网络(如CNN网络)进行特征提取，并将提取的图像特征输出给特征层，由该特征层进行背景训练目标的检测得到第一损失函数，以及进行前景训练目标的检测得到第二损失函数，将第一损失函数和第二损失函数进行加权求和得到目标损失函数。

图7为另一个实施例中神经网络的架构示意图。如图7所示，神经网络的输入层接收携带标注信息的图像数据，通过基础网络(如CNN网络)进行特征提取，并将提取的图像特征输出给特征层，由该特征层对背景训练目标进行类别检测得到第一损失函数，对前景训练目标根据图像特征进行类别检测得到第二损失函数，对前景训练目标根据前景区域进行位置检测得到位置损失函数，将第一损失函数、第二损失函数和位置损失函数进行加权求和得到目标损失函数。该神经网络可为卷积神经网络。卷积神经网络包括数据输入层、卷积计算层、激活层、池化层和全连接层。数据输入层用于对原始图像数据进行预处理。该预处理可包括去均值、归一化、降维和白化处理。去均值是指将输入数据各个维度都中心化为0，目的是将样本的中心拉回到坐标系原点上。归一化是将幅度归一化到同样的范围。白化是指对数据各个特征轴上的幅度归一化。卷积计算层用于局部关联和窗口滑动。卷积计算层中每种滤波器连接数据窗的权重是固定的，每种滤波器关注一个图像特征，如垂直边缘、水平边缘、颜色、纹理等，将这些滤波器合在一起得到整张图像的特征提取器集合。一个滤波器是一个权重矩阵。通过一个权重矩阵可与不同窗口内数据做卷积。激活层用于将卷积层输出结果做非线性映射。激活层采用的激活函数可为ReLU(The Rectified Linear Unit，修正线性单元)。池化层可夹在连续的卷积层中间，用于压缩数据和参数的量，减小过拟合。池化层可采用最大值法或平均值法对数据降维。全连接层位于卷积神经网络的尾部，两层之间所有神经元都有权重连接。卷积神经网络的一部分卷积层级联到第一置信度输出节点，一部分卷积层级联到第二置信度输出节点，一部分卷积层级联到位置输出节点，根据第一置信度输出节点可以检测到图像的背景分类，根据第二置信度输出节点可以检测到图像的前景目标的类别，根据位置输出节点可以检测到前景目标所对应的位置。

图8为一个实施例中基于分类模型分类筛选未标注的数据，将筛选出的数据合并至所述第一数据集以形成第二数据集的流程图。在一个实施例中，基于训练后的所述分类模型分类筛选未标注的数据，将筛选出的数据合并至所述第一数据集以形成第二数据集，包括步骤802-步骤806。

步骤802，基于训练后的所述分类模型对未标注的数据进行分类以筛选出具有预设类别的数据。

第一数据集中的图像数据均为人工标注的数据，其数据的质量高，但是其数量较少，为了使分类模型的精度达到最优，则需要更多的训练数据，也即还需要向第一数据集中填充更多的数据。

当训练后的分类模型的精度信息达到预设值时，其该分类模型基本上能够实现对大量未标注的数据的识别分类。基于在第一数据集上训练后的分类模型，可以对基于网络爬虫技术和开源数据集获取的大量数据进行分类筛选。通过筛选分类，可以筛选出具有预设类别的数据，该预设类别包括图像类别(风景、海滩、雪景、蓝天、绿地、夜景、黑暗、背光、日出/日落、室内、烟火、聚光灯等)、对象类别(人像、婴儿、猫、狗、美食等)和其他类别(文本文档、微距等)。根据训练后的分类模型，可以对大量未标注的数据进行分类，以识别出每种数据的类别信息，该类别信息也就是预设类别，而且该类别信息也可以理解为该数据的标注信息，基于该分类模型可以对数据进行自动标注，不需要人工一一标注，大大提高了筛选、分类及标注的效率。

进一步的，为了验证其训练后的分类模型对数据的自动标注的准确性，可以随机挑选若干个数据进行人工验证，并将自动标注错误的信息进行纠正，以提高携带标注信息的数据的质量。

步骤804，在筛选结果中获取包括第三预设数量的数据；其中，所述第三预设数量为每种所述预设类别的数据数量之和。

通过训练后的分类模型，可以自动识别数据的类别信息，并对其自动标注，同时筛选出各个类别的数据。在筛选结果中，根据可以预设需求量获取包括第三预设数量的数据。其中，第三预设数量为筛选出的各预设类别的数据数量之和。其中，各预设类别的数据数量均在一定的范围内，该范围可以为3000-3500，其范围可以根据目标数量来设定。其中，需要说明的是，第三预设数量与第一预设数量之和大于目标数量。

步骤806，将所述第三预设数量的数据合并至所述第一数据集以形成第二数据集。

将由训练后的分类模型筛选出的数据合并至第一数据集以形成第二数据集，也即，第二数据集的数量为第一预设数量与第二预设数量之和，这样第二数据集中的数据数量和质量都显著提高，可以避免在构建数据集的过程中耗费大量的人力去筛选数据以及标注数据，节约了成本、提高了获取数据集的。

本实施例中的数据集的构建方法，在目标构建数据集的过程中，可以基于第一数据集训练分类模型，继而通过训练后的分类模型来筛选分类未标注的大量数据，并对其自动标注，可以减少人工分类标注的数量，节约了标注成本，同时，提高了获取符合学习任务的数据集的效率和质量。

图9为一个实施例中基于训练后的所述分类模型对所述第二数据集的数据进行分类、清洗以形成具有目标数量的目标数据集的流程图。在一个实施例中，所述基于训练后的所述分类模型对所述第二数据集的数据进行分类、清洗以形成具有目标数量的目标数据集，包括步骤902-步骤910：

步骤902，基于训练后的所述分类模型对所述第二数据集的数据进行分类以筛选出与不符合预设要求的数据。

基于训练后的所述分类模型，可以理解为基于第一数据集训练后的分类模型，也可以理解为，基于第二数据集训练后的分类模型。其中，第二数据集的数据数量大于第一数据集，在本实施例中，可以基于第二数据集来再次训练分类模型。

基于第二数据集再次训练的分类模型，可以对第二数据集中的每种数据进行识别，继而获取每种数据的类别信息，该类别信息包括图像类别和对象类别。

预设要求可以为分类模型能够正确识别出该数据的类别信息，其中，正确的判断标准为，识别的类别信息与人工标注的标注信息一致。

随机挑选若干个数据，进而判断同一数据，由分类模型识别出的类别信息是否与人工标注的标注信息是否一致，若不一致，则将该数据不符合预设要求，将其筛选出来。

可选的，若分类模型未能识别出某一数据的类别信息，则将该数据不符合预设要求，将其筛选出来。

步骤904，对所述不符合预设要求的数据进行清洗。

对不符合预设要求的数据进行清洗，例如删除第二数据集中的与任务学习无关的数据、重复数据，平滑噪声数据等。同时，由分类模型识别出的类别信息是否与人工标注的标注信息不一致时；则查验该数据的标注信息是否正确，若不正确，将其纠正以实现对不符合预设要求的数据进行清洗。

步骤906，判断清洗后的数据数量是否达到目标数量。

第二数据集中，经过数据清洗，其数据数量可能会减少，为了确保清洗后的数据数量到达目标数据，需要对清洗处理后的数据数量进行统计，以判断清洗后的数据数量是否达到目标数量。

当清洗后的数据数量达到目标数量时，则执行步骤908，根据清洗后的数据形成所述目标数据集。具体的，可以保留清洗后的所有的数据，以形成目标数据集，也可以从清洗后的数据集中随机选取具有目标数量的数据，以形成目标数据集。

当清洗后的数据数量未达到目标数量时，则执行步骤910，再次基于训练后的所述分类模型分类筛选未标注的数据并形成新的第二数据集，并对所述新的第二数据集进行分类、清洗以形成具有目标数量的目标数据集。

当清洗后的数据数量未达到目标数量时，则可以重复步骤306-步骤308，知道目标数据集的数据数量达到目标数量。当清洗后的数据数量未达到目标数量时，还可以获取具有第二预设数量且携带标注信息的新数据，并将其新数据合并至第二数据集中，并对所述新的第二数据集进行分类、清洗以形成具有目标数量的目标数据集。

通过数据清洗，可以删掉第二数据集中与学习任务无关的数据，也可以对标注错误的数据进行纠正，使第二数据集中的数据都是高质量数据，也即与分类模型的训练是高度相关联的数据。同时第二数据集中的数据数量也能达到目标数据，使其第二数据集的数据可以满足训练分类模型的数量要求和质量要求，为进一步训练分类模型奠定了基础，基于目标数据集可以训练分类模型以提升分类模型性能和精度。

在一个实施例中，数据集的构建方法还包括：对在所述目标数据集上再次训练所述分类模型。

在目标数据集上在此训练该分类模型的方法可以参考上述实施例中步骤502-步骤508。根据步骤502-步骤508在此训练该分类模型时，仅输入至该分类模型的数据集不同，其他步骤不便。

其输入的数据集为目标数据集，目标数据集中的图像数据的数量远多于第一数据集的图像数据数量。因此，基于目标数据集可以更好的训练该分类模型，可以优化该分类模型中的各个参数，使训练后的分类模型的精度达到理想状态，提高了分类模型的性能。

应该理解的是，虽然图1-5、图8-9的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-5、图8-9的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

图10为一个实施例中数据集的构建装置的结构框图。在一个实施例中，数据集的构建装置，包括：。

数据集获取模块1010，用于根据学习任务获取具有第一预设数量且携带标注信息的第一数据集；

模型训练模块1020，用于在所述第一数据集上训练分类模型，并评估所述分类模型的精度信息；

数据集合并模块1030，用于当所述精度信息达到预设值时，则基于训练后的所述分类模型筛选未标注的数据，将筛选出的数据合并至所述第一数据集以形成第二数据集；

数据集处理模块1040，用于基于训练后的所述分类模型对所述第二数据集的数据进行分类、清洗以形成具有目标数量的目标数据集，其中，第二数据集的数据数量大于等于目标数据集的数据数量。

上述数据集的构建装置，能够根据学习任务获取具有第一预设数量且携带标注信息的第一数据集；在第一数据集上训练分类模型，并评估分类模型的精度信息；当精度信息达到预设值时，则基于训练后的分类模型分类筛选未标注的数据，将筛选出数据合并至第一数据集以形成第二数据集；基于训练后的分类模型对第二数据集的数据进行分类、清洗以形成具有目标数量的目标数据集；可以通过实现半自动化的数据采集和筛选标注，可在花费较小人力的基础上获取大量高质量的训练分类模型的数据，大大节约了人力成本，同时提高了构成数据集的效率。

在一个实施例中，数据集的构建装置，还包括：

新数据获取模块，用于当所述精度信息未达到预设值时，则获取具有第二预设数量且携带标注信息的新数据；用于将所述新数据合并至所述第一数据集中，形成第三数据集；

模型训练模块，还用于在所述第三数据集上再次训练所述分类模型，直到所述分类模型的精度信息达到预设值。

本实施例中的数据集的构建装置，可以不断地向第一数据集添加新数据，使形成的第三数据集的数据数量有增加，进而，可以在第三数据集上再次训练该分类模型，可以优化分类模型中的各个参数，提高分类模型的测试识别率，也即提高分类模型的性能。同时，可以基于训练后的分类模型来分类筛选更多的未标注的网络信息，提供分类筛选的准确性。

在一个实施例中，数据集获取模块，包括：

定义单元，用于根据所述学习任务定义待获取数据的图像类别和对象类别；

第一获取单元，用于根据所述图像类别和对象类别获取数据；

第二获取单元，用于基于人工标注方式对获取的数据进行标注，以获取具有第一预设数量且携带标注信息的第一数据集。

在一个实施例中，所述分类模型为神经网络，所述标注信息包括图像类别和对象类别；模型训练模块模块，包括：

输入单元，用于将携带标注信息的第一数据集输入到神经网络，通过所述神经网络的基础网络层进行特征提取，将提取的图像特征输入到分类网络层和目标检测网络层，在所述分类网络层得到反映所述图像数据中背景图像所属指定图像类别的第一预测置信度与第一真实置信度之间的差异的第一损失函数，在所述目标检测网络层得到反映所述图像数据中前景目标所属指定对象类别的第二预测置信度与第二真实置信度之间的差异的第二损失函数；

处理单元，用于将所述第一损失函数和第二损失函数进行加权求和得到目标损失函数；

调整单元，用于根据所述目标损失函数调整所述神经网络的参数；

评估单元，用于基于第一数据集中的测试集对所述神经网络进行测试，获取所述神经网络的精度信息。

本申请实施例中的数据集的构建方法，通过对背景训练目标所对应的第一损失函数和前景训练目标所对应的第二损失函数的加权求和得到目标损失函数，根据目标损失函数调整神经网络的参数，使得训练的神经网络后续可以同时识别出背景类别和前景目标，获取更多的信息，且提高了识别效率。

在一个实施例中，数据集合并模块，包括：

筛选单元，用于基于训练后的所述分类模型对未标注的数据进行分类以筛选出具有预设类别的数据；

标注单元，用于在筛选结果中获取包括第三预设数量的数据；其中，所述第三预设数量为每种所述预设类别的数据数量之和；

第三获取单元，用于将所述第三预设数量的数据合并至所述第一数据集以形成第二数据集。

本实施例中的数据集的构建装置，在目标构建数据集的过程中，可以基于第一数据集训练分类模型，继而通过训练后的分类模型来筛选分类未标注的大量数据，并对其自动标注，可以减少人工分类标注的数量，节约了标注成本，同时，提高了获取符合学习任务的数据集的效率和质量。

在一个实施例中，数据集处理模块，包括：

筛选单元，用于基于训练后的所述分类模型对所述第二数据集的数据进行分类以筛选出与不符合预设要求的数据；

清洗单元，用于对所述不符合预设要求的数据进行清洗；

判断单元，判断清洗后的数据数量是否达到目标数量；若是，则根据清洗后的数据形成所述目标数据集；若否，则再次基于训练后的所述分类模型分类筛选未标注的数据并形成新的第二数据集，并对所述新的第二数据集进行分类、清洗以形成具有目标数量的目标数据集。

上述数据集的构建装置中各个模块的划分仅用于举例说明，在其他实施例中，可将神经网络处理装置或图像处理装置按照需要划分为不同的模块，以完成上述数据集的构建装置的全部或部分功能。

本申请实施例还提供一种移动终端。该移动终端包括存储器及处理器，该存储器中储存有计算机程序，该计算机程序被该处理器执行时，使得该处理器执行该的数据集的构建方法的步骤。

本申请实施例还提供一种计算机可读存储介质。一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现该的数据集的构建方法的步骤。

图11为一个实施例中移动终端的内部结构示意图。如图11所示，该移动终端包括通过系统总线连接的处理器、存储器和网络接口。其中，该处理器用于提供计算和控制能力，支撑整个移动终端的运行。存储器用于存储数据、程序等，存储器上存储至少一个计算机程序，该计算机程序可被处理器执行，以实现本申请实施例中提供的适用于移动终端的无线网络通信方法。存储器可包括非易失性存储介质及内存储器。非易失性存储介质存储有操作系统和计算机程序。该计算机程序可被处理器所执行，以用于实现以下各个实施例所提供的一种数据集的构建方法。内存储器为非易失性存储介质中的操作系统计算机程序提供高速缓存的运行环境。网络接口可以是以太网卡或无线网卡等，用于与外部的移动终端进行通信。该移动终端可以是手机、平板电脑或者个人数字助理或穿戴式设备等。

本申请实施例中提供的数据集的构建装置中的各个模块的实现可为计算机程序的形式。该计算机程序可在移动终端或服务器上运行。该计算机程序构成的程序模块可存储在移动终端或服务器的存储器上。该计算机程序被处理器执行时，实现本申请实施例中所描述方法的步骤。

一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行数据集的构建方法。

本申请实施例还提供一种移动终端。上述移动终端中包括图像处理电路，图像处理电路可以利用硬件和/或软件组件实现，可包括定义ISP(Image Signal Processing，图像信号处理)管线的各种处理单元。图12为一个实施例中图像处理电路的示意图。如图12所示，为便于说明，仅示出与本申请实施例相关的图像处理技术的各个方面。

如图12所示，图像处理电路包括ISP处理器1240和控制逻辑器1250。成像设备1210捕捉的图像数据首先由ISP处理器1240处理，ISP处理器1240对图像数据进行分析以捕捉可用于确定和/或成像设备1210的一个或多个控制参数的图像统计信息。成像设备1210可包括具有一个或多个透镜1212和图像传感器1214的照相机。图像传感器1214可包括色彩滤镜阵列(如Bayer滤镜)，图像传感器1214可获取用图像传感器1214的每种成像像素捕捉的光强度和波长信息，并提供可由ISP处理器1240处理的一组原始图像数据。传感器1220(如陀螺仪)可基于传感器1220接口类型把采集的图像处理的参数(如防抖参数)提供给ISP处理器1240。传感器1220接口可以利用SMIA(Standard Mobile Imaging Architecture，标准移动成像架构)接口、其它串行或并行照相机接口或上述接口的组合。

此外，图像传感器1214也可将原始图像数据发送给传感器1220，传感器1220可基于传感器1220接口类型把原始图像数据提供给ISP处理器1240，或者传感器1220将原始图像数据存储到图像存储器1230中。

ISP处理器1240按多种格式逐个像素地处理原始图像数据。例如，每种图像像素可具有8、10、12或14比特的位深度，ISP处理器1240可对原始图像数据进行一个或多个图像处理操作、收集关于图像数据的统计信息。其中，图像处理操作可按相同或不同的位深度精度进行。

ISP处理器1240还可从图像存储器1230接收图像数据。例如，传感器1220接口将原始图像数据发送给图像存储器1230，图像存储器1230中的原始图像数据再提供给ISP处理器1240以供处理。图像存储器1230可为存储器装置的一部分、存储设备、或移动终端内的独立的专用存储器，并可包括DMA(Direct Memory Access，直接直接存储器存取)特征。

当接收到来自图像传感器1214接口或来自传感器1220接口或来自图像存储器1230的原始图像数据时，ISP处理器1240可进行一个或多个图像处理操作，如时域滤波。处理后的图像数据可发送给图像存储器1230，以便在被显示之前进行另外的处理。ISP处理器1240从图像存储器1230接收处理数据，并对所述处理数据进行原始域中以及RGB和YCbCr颜色空间中的图像数据处理。ISP处理器1240处理后的图像数据可输出给显示器1270，以供用户观看和/或由图形引擎或GPU(Graphics Processing Unit，图形处理器)进一步处理。此外，ISP处理器1240的输出还可发送给图像存储器1230，且显示器1270可从图像存储器1230读取图像数据。在一个实施例中，图像存储器1230可被配置为实现一个或多个帧缓冲器。此外，ISP处理器1240的输出可发送给编码器/解码器1260，以便编码/解码图像数据。编码的图像数据可被保存，并在显示于显示器1270设备上之前解压缩。编码器/解码器1260可由CPU或GPU或协处理器实现。

ISP处理器1240确定的统计数据可发送给控制逻辑器1250单元。例如，统计数据可包括自动曝光、自动白平衡、自动聚焦、闪烁检测、黑电平补偿、透镜1212阴影校正等图像传感器1214统计信息。控制逻辑器1250可包括执行一个或多个例程(如固件)的处理器和/或微控制器，一个或多个例程可根据接收的统计数据，确定成像设备1210的控制参数及ISP处理器1240的控制参数。例如，成像设备1210的控制参数可包括传感器1220控制参数(例如增益、曝光控制的积分时间、防抖参数等)、照相机闪光控制参数、透镜1212控制参数(例如聚焦或变焦用焦距)、或这些参数的组合。ISP控制参数可包括用于自动白平衡和颜色调整(例如，在RGB处理期间)的增益水平和色彩校正矩阵，以及透镜1212阴影校正参数。

以下为运用图12中图像处理技术实现上述的数据集的构建方法的步骤。

本申请所使用的对存储器、存储、数据库或其它介质的任何引用可包括非易失性和/或易失性存储器。合适的非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)，它用作外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDR SDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

Claims

1.一种数据集的构建方法，其特征在于，包括：

基于训练后的所述分类模型对所述第二数据集的数据进行分类、清洗以形成具有目标数量的目标数据集，其中，第二数据集的数据数量大于等于目标数据集的数据数量；

其中，所述基于训练后的所述分类模型对所述第二数据集的数据进行分类、清洗以形成具有目标数量的目标数据集，包括：

基于训练后的所述分类模型对所述第二数据集的数据进行分类以筛选出不符合预设要求的数据；

对所述不符合预设要求的数据进行清洗；

判断清洗后的数据数量是否达到目标数量；

若是，则根据清洗后的数据形成所述目标数据集；

若否，则再次基于训练后的所述分类模型分类筛选未标注的数据并形成新的第二数据集，并对所述新的第二数据集进行分类、清洗以形成具有目标数量的目标数据集。

2.根据权利要求1所述的方法，其特征在于，还包括：

当所述精度信息未达到预设值时，则获取具有第二预设数量且携带标注信息的新数据；

将所述新数据合并至所述第一数据集中，形成第三数据集；

在所述第三数据集上再次训练所述分类模型，直到所述分类模型的精度信息达到预设值。

3.根据权利要求1所述的方法，其特征在于，所述根据学习任务获取具有第一预设数量且携带标注信息的第一数据集，包括：

根据所述学习任务定义待获取数据的图像类别和对象类别；

根据所述图像类别和对象类别获取数据；

基于人工标注方式对获取的数据进行标注，以获取具有第一预设数量且携带标注信息的第一数据集。

4.根据权利要求1所述的方法，其特征在于，所述分类模型为神经网络，所述标注信息包括图像类别和对象类别；

所述在所述第一数据集上训练所述分类模型，并评估所述分类模型的精度信息，包括：

将携带标注信息的第一数据集输入到神经网络，通过所述神经网络的基础网络层进行特征提取，将提取的图像特征输入到分类网络层和目标检测网络层，在所述分类网络层得到反映所述数据中背景图像所属指定图像类别的第一预测置信度与第一真实置信度之间的差异的第一损失函数，在所述目标检测网络层得到反映所述数据中前景目标所属指定对象类别的第二预测置信度与第二真实置信度之间的差异的第二损失函数；

将所述第一损失函数和第二损失函数进行加权求和得到目标损失函数；

根据所述目标损失函数调整所述神经网络的参数；

基于第一数据集中的测试集对所述神经网络进行测试，获取所述神经网络的精度信息。

5.根据权利要求1所述的方法，其特征在于，基于训练后的所述分类模型分类筛选未标注的数据，将筛选出的数据合并至所述第一数据集以形成第二数据集，包括：

基于训练后的所述分类模型对未标注的数据进行分类以筛选出具有预设类别的数据；

在筛选结果中获取包括第三预设数量的数据；其中，所述第三预设数量为每种所述预设类别的数据数量之和；

将所述第三预设数量的数据合并至所述第一数据集以形成第二数据集。

6.根据权利要求4任一项所述的方法，其特征在于，还包括：

在所述目标数据集上再次训练所述分类模型。

7.一种数据集的构建装置，其特征在于，包括：

数据集处理模块，用于基于训练后的所述分类模型对所述第二数据集的数据进行分类、清洗以形成具有目标数量的目标数据集，其中，第二数据集的数据数量大于等于目标数据集的数据数量；

其中，所述数据集处理模块，包括：

筛选单元，用于基于训练后的所述分类模型对所述第二数据集的数据进行分类以筛选出不符合预设要求的数据；

清洗单元，用于对所述不符合预设要求的数据进行清洗；

8.一种移动终端，包括存储器及处理器，所述存储器中储存有计算机程序，其特征在于，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法的步骤。