CN115730094A

CN115730094A - 一种图片数据集获得方法、装置、设备及存储介质

Info

Publication number: CN115730094A
Application number: CN202110983765.1A
Authority: CN
Inventors: 许云中; 王雄; 郜振锋
Original assignee: Sangfor Technologies Co Ltd
Current assignee: Sangfor Technologies Co Ltd
Priority date: 2021-08-25
Filing date: 2021-08-25
Publication date: 2023-03-03

Abstract

本申请公开了一种图片数据集获得方法，该方法包括以下步骤：根据接收到的图片需求，确定核心关键词；生成核心关键词的扩展关键词；基于核心关键词和扩展关键词，进行主题图片的爬取操作，获得源图片数据集；对源图片数据集进行数据增强处理，获得目标图片数据集。应用本申请所提供的技术方案，基于核心关键词和扩展关键词进行主题图片的爬取，并对源图片数据集进行数据增强处理，使得可以快速获得满足图片需求的大规模目标图片数据集，提高了数据获取效率。本申请还公开了一种图片数据集获得装置、设备及存储介质，具有相应技术效果。

Description

一种图片数据集获得方法、装置、设备及存储介质

技术领域

本申请涉及计算机应用技术领域，特别是涉及一种图片数据集获得方法、装置、设备及存储介质。

背景技术

随着计算机技术的快速发展，深度学习网络模型的应用越来越广泛，如可以应用在图像分类、目标检测、图像检索、文字识别等定制化场景中。要想获得较好的应用效果，需要较大规模的数据集来支撑深度学习网络模型的训练和优化。

但是，对于定制化场景，没有公开的数据集。目前，多是通过人工在互联网上搜集相关数据，并对搜集到的数据进行分类，以获得相应的数据集来支撑深度学习网络模型的训练和优化。

这种方式将耗费较多人力资源，很难在较短时间内获取到较大规模的数据集，数据获取效率较低。

发明内容

本申请的目的是提供一种图片数据集获得方法、装置、设备及存储介质，以提高数据获取效率。

为解决上述技术问题，本申请提供如下技术方案：

一种图片数据集获得方法，包括：

根据接收到的图片需求，确定核心关键词；

生成所述核心关键词的扩展关键词；

基于所述核心关键词和所述扩展关键词，进行主题图片的爬取操作，获得源图片数据集；

对所述源图片数据集进行数据增强处理，获得目标图片数据集。

在本申请的一种具体实施方式中，所述获得源图片数据集，包括：

对爬取到的图片进行去重和去噪处理后，获得源图片数据集。

在本申请的一种具体实施方式中，所述生成所述核心关键词的扩展关键词，包括：

通过预先训练获得的扩展模型，生成所述核心关键词的扩展关键词。

在本申请的一种具体实施方式中，所述对所述源图片数据集进行数据增强处理，获得目标图片数据集，包括：

对所述源图片数据集中的图片进行学习，基于学习到的特征，生成与所述源图片数据集中的图片具有相同主题的图片；

基于所述源图片数据集中的图片和生成的与所述源图片数据集中的图片具有相同主题的图片，确定目标图片数据集。

在本申请的一种具体实施方式中，所述图片需求为文字识别场景下的图片需求，所述对所述源图片数据集进行数据增强处理，获得目标图片数据集，包括：

根据预先获得的文本信息，生成包含所述文本信息的图片；

基于所述源图片数据集中的图片和生成的包含所述文本信息的图片，确定目标图片数据集。

在本申请的一种具体实施方式中，生成的包含所述文本信息的图片有多张，包含所述文本信息的每两张图片中的文本字体、文本位置、背景中的至少一种不同。

在本申请的一种具体实施方式中，所述图片需求为针对目标模型训练的图片需求，在所述获得目标图片数据集之后，还包括：

利用所述目标图片数据集对所述目标模型进行训练优化，以利用训练优化后的所述目标模型进行任务处理；

获得利用训练优化后的所述目标模型进行任务处理的过程中的输入图片及相应的处理结果；

基于获得的所述输入图片及相应的处理结果，扩充所述目标图片数据集，重复执行所述利用所述目标图片数据集对所述目标模型进行训练优化的步骤。

一种图片数据集获得装置，包括：

核心关键词确定模块，用于根据接收到的图片需求，确定核心关键词；

扩展关键词生成模块，用于生成所述核心关键词的扩展关键词；

源图片数据集获得模块，用于基于所述核心关键词和所述扩展关键词，进行主题图片的爬取操作，获得源图片数据集；

目标图片数据集获得模块，用于对所述源图片数据集进行数据增强处理，获得目标图片数据集。

一种图片数据集获得设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现上述任一项所述的图片数据集获得方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一项所述的图片数据集获得方法的步骤。

应用本申请实施例所提供的技术方案，在根据接收到的图片需求，确定出核心关键词，并生成核心关键词的扩展关键词后，基于核心关键词和扩展关键词，爬取主题图片，获得源图片数据集，对源图片数据集进行数据增强处理，得到目标图片数据集。一方面通过对核心关键词进行扩展，得到扩展关键词，再基于核心关键词和扩展关键词进行主题图片的爬取，可以爬取到更多的图片，可以获得较大规模的源图片数据集，另一方面，对源图片数据集进行数据增强处理，可以在源图片数据集的基础上获得更多的图片，获得更大规模的目标图片数据集，使得可以快速获得满足图片需求的大规模目标图片数据集，提高了数据获取效率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例中一种图片数据集获得方法的实施流程图；

图2为本申请实施例中一种图片数据集建设过程示意图；

图3为本申请实施例中一种图片数据集获得装置的结构示意图；

图4为本申请实施例中一种图片数据集获得设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

参见图1所示，为本申请实施例所提供的一种图片数据集获得方法的实施流程图，该方法可以包括以下步骤：

S110：根据接收到的图片需求，确定核心关键词。

在图像分类、目标检测、图像检索、文字识别等定制化场景中，需要对深度学习网络模型进行训练优化才能进行实际应用。而要训练深度学习网络模型则需要利用较大规模的数据集。不同定制化场景需要不同类型的图片数据集进行相应深度学习网络模型的训练优化，可以根据实际的定制化场景提出相应的图片需求。

在接收到图片需求后，可以根据接收到的图片需求，确定核心关键词。如在图像分类场景中要区分输入图片是否为红头文件，则其相应的图片需求即为获得红头文件图片，根据该图片需求，可以确定核心关键词为：红头文件。

S120：生成核心关键词的扩展关键词。

在上一个步骤中，根据接收到的图片需求，确定的核心关键词可以有一个或多个，不同核心关键词可以归属于不同类别。因为核心关键词是根据接收到的图片需求直接确定的，数量较少，如果直接按照核心关键词进行主题图片的爬取，爬取到的图片数量也会较少，无法满足较大规模图片数据集的需求。所以，本申请实施例中，在确定出核心关键词后，进一步生成核心关键词的扩展关键词。扩展关键词可以是与核心关键词相似的关键词。

如果确定出的核心关键词有多个，则针对每个核心关键词都可以生成与其对应的扩展关键词。如敏感图像分类检测任务的图片需求为搜集红头文件，则确定的核心关键词可以为：红头文件，其扩展关键词可以是：企业文件、政府文件等。

具体的，可以通过预先训练获得的扩展模型，如word2vec模型，生成核心关键词的扩展关键词。可以预先获得多个训练数据对，每个训练数据对包括一个关键词和与该关键词对应的相似词，利用预先获得的多个训练数据对训练获得扩展模型，在根据接收到的图片需求，确定出核心关键词后，可以将核心关键词输入到扩展模型中，扩展模型生成并输出核心关键词的扩展关键词。通过扩展模型对核心关键词进行扩展，可以得到较为准确的核心关键词的扩展关键词。

还可以预先建立关键词库，关键词库中可以包括多组关键词，同一组关键词的相似度均高于设定相似度阈值，同一组关键词中的每个关键词均可作为该组关键词中的其他关键词的扩展关键词。在根据接收到的图片需求，确定出核心关键词后，可以在关键词库中查找该核心关键词，并将查找到的该核心关键词所在组中的其他关键词确定为该核心关键词的扩展关键词。通过预先建立关键词库可以获得较为准确的核心关键词的扩展关键词。

当然，关键词库可以是从已有词库中选择出来的，通过调用相应的接口可以直接对关键词库进行查询。

再有，还可以通过现有搜索引擎等工具生成核心关键词的扩展关键词。

S130：基于核心关键词和扩展关键词，进行主题图片的爬取操作，获得源图片数据集。

在本申请实施例中，根据接收到的图片需求，确定出核心关键词，并生成核心关键词的扩展关键词后，可以基于核心关键词和扩展关键词，进行主题图片的爬取操作。主题图片是指一种用于描述信息资源的知识结构的元数据格式，可以定位某一知识概念所在的资源位置，也可表示知识概念间的相互联系。

具体的，可以分别针对每个核心关键词和每个扩展关键词，在搜索引擎、门户网站等网络资源中爬取相应的主题图片，以丰富图片数据的多样性。如核心关键词为红头文件，则爬取的主题图片即为具有红头文件主题的图片。对主题图片的爬取操作可以为并行操作，以提高爬取效率，在爬取过程中，可以通过变换IP地址、账号信息等方式提高爬取成功率。

爬取到的图片构成的集合可以作为源图片数据集。

S140：对源图片数据集进行数据增强处理，获得目标图片数据集。

基于核心关键词和扩展关键词，爬取到的图片的数量仍然有限，可以对源图片数据集进行数据增强处理，以在源图片数据集的基础上，获得更多图片，从而获得更大规模的目标图片数据集。

应用本申请实施例所提供的方法，在根据接收到的图片需求，确定出核心关键词，并生成核心关键词的扩展关键词后，基于核心关键词和扩展关键词，爬取主题图片，获得源图片数据集，对源图片数据集进行数据增强处理，得到目标图片数据集。一方面通过对核心关键词进行扩展，得到扩展关键词，再基于核心关键词和扩展关键词进行主题图片的爬取，可以爬取到更多的图片，可以获得较大规模的源图片数据集，另一方面，对源图片数据集进行数据增强处理，可以在源图片数据集的基础上获得更多的图片，获得更大规模的目标图片数据集，使得可以快速获得满足图片需求的大规模目标图片数据集，提高了数据获取效率。

在本申请的一个实施例中，获得源图片数据集，可以包括以下步骤：

在本申请实施例中，基于核心关键词和扩展关键词，进行主题图片的爬取操作，爬取到的图片可能存在重复图片或者噪声图片。重复图片是指亮度、边沿锐化、模糊、色度、旋转角度等只有些许变化的图片。噪声图片是指图片内容与其所在类别或主题不一致的图片。

如果源图片数据集中包括较多的重复图片和噪声图片，则在利用源图片数据集进行深度学习网络模型的训练时，将会影响训练效果。所以，本申请实施例中，在基于核心关键词和扩展关键词，进行主题图片的爬取操作之后，可以先对爬取到的图片进行去重和去噪处理，将对爬取到的图片进行去重和去噪处理后的图片构成的集合可以作为源图片数据集。

具体的，可以采用哈希算法进行去重处理，采用聚类算法进行去噪处理。

对爬取到的图片进行去重和去噪处理后，获得源图片数据集，可以使得源图片数据集中的图片具有较高质量，为后续的模型训练提供较好的数据基础。

在本申请的一个实施例中，对源图片数据集进行数据增强处理，获得目标图片数据集，可以包括以下步骤：

步骤一：对源图片数据集中的图片进行学习，基于学习到的特征，生成与源图片数据集中的图片具有相同主题的图片；

步骤二：基于源图片数据集中的图片和生成的与源图片数据集中的图片具有相同主题的图片，确定目标图片数据集。

为便于描述，将上述两个步骤结合起来进行说明。

在本申请实施例中，获得的源图片数据集的规模可能仍无法较好地满足图片需求，所以，在获得源图片数据集后，可以对源图片数据集进行数据增强处理。具体的，可以对源图片数据集中的图片进行学习，基于学习到的特征，生成与源图片数据集中的图片具有相同主题的图片。如可以利用GAN(Generative Adversarial Networks，生成式对抗网络)生成与源图片数据集中的图片具有相同主题的图片。

基于源图片数据集中的图片和生成的与源图片数据集中的图片具有相同主题的图片，可以确定目标图片数据集。目标图片数据集中可以包括源图片数据集中的图片和生成的与源图片数据集中的图片具有相同主题的图片。

对源图片数据集中的图片进行学习，生成更多的具有相同主题的图片，可以获得更大规模的目标图片数据集，以更好地满足图片需求。

在本申请的一个实施例中，图片需求为文字识别场景下的图片需求，对源图片数据集进行数据增强处理，获得目标图片数据集，可以包括以下步骤：

第一个步骤：根据预先获得的文本信息，生成包含文本信息的图片；

第二个步骤：基于源图片数据集中的图片和生成的包含文本信息的图片，确定目标图片数据集。

为便于描述，将上述两个步骤结合起来进行说明。

在本申请实施例中，可以预先获得文本信息，如可以基于核心关键词或者扩展关键词等获得文本信息。根据预先获得的文本信息，可以生成包含文本信息的图片。生成的包含文本信息的图片可以有多张，包含文本信息的每两张图片中的文本字体、文本位置、背景中的至少一种不同。以使得生成的包含文本信息的图片可以更好地用于模型训练。生成的包含文本信息的图片与爬取到的图片的主题相关。

基于源图片数据集中的图片和生成的包含文本信息的图片，可以确定目标图片数据集。目标图片数据集中可以包括源图片数据集中的图片和生成的包含文本信息的图片。对源图片数据集进行数据增强处理，可以获得更大规模的目标图片数据集，以便后续模型训练时可以获得更好的训练效果。

在本申请的一个实施例中，图片需求为针对目标模型训练的图片需求，在获得目标图片数据集之后，还可以包括以下步骤：

步骤一：利用目标图片数据集对目标模型进行训练优化，以利用训练优化后的目标模型进行任务处理；

步骤二：获得利用训练优化后的目标模型进行任务处理的过程中的输入图片及相应的处理结果；

步骤三：基于获得的输入图片及相应的处理结果，扩充目标图片数据集，重复执行利用目标图片数据集对目标模型进行训练优化的步骤。

为便于描述，将上述三个步骤结合起来进行说明。

在本申请实施例中，图片需求为针对目标模型训练的图片需求。目标模型可以是图像分类场景下需要使用的深度学习网络模型，还可以是目标检测场景下需要使用的深度学习网络模型。

在获得目标图片数据集后，可以利用目标图片数据集对目标模型进行训练优化，得到训练优化后的目标模型后，可以利用该目标模型进行相应的任务处理。

如，在目标检测场景中，获得待检测图片后，可以将待检测图片输入到利用目标图片数据集进行训练优化后的目标模型中，作为目标模型的输入图片，目标模型可以输出相应的处理结果。

获得利用训练优化后的目标模型进行任务处理的过程中的输入图片及相应的处理结果后，可以基于获得的输入图片及相应的处理结果，扩充目标图片数据集。这样可以动态扩大目标图片数据集的规模。重复执行利用目标图片数据集对目标模型进行训练优化的步骤，可以达到更好的优化效果，提高目标模型的准确性。

如图2所示，本申请实施例的图片数据集建设过程可以包括：图片需求发起方提出图片需求、根据图片需求确定核心关键词、生成核心关键词的扩展关键词、基于核心关键词和扩展关键词进行主题图片的爬取、对爬取到的图片进行去重和去噪处理、对源图片数据集进行增强处理、获得目标图片数据集、利用目标图片数据集对目标模型进行训练优化、将训练优化后的目标模型提供给图片需求发起方进行任务处理，形成一个闭环，可以在短时间内提供一批规模大、质量高的图片支持后续目标模型的开发。同时，利用目标模型进行任务处理时，还可以基于获得的输入图片和相应的处理结果，动态扩充目标图片数据集，再利用扩充后的目标图片数据集中的图片对目标模型进行训练优化，得到更好的训练效果。

相应于上面的方法实施例，本申请实施例还提供了一种图片数据集获得装置，下文描述的图片数据集获得装置与上文描述的图片数据集获得方法可相互对应参照。

参见图3所示，该装置可以包括以下模块：

核心关键词确定模块310，用于根据接收到的图片需求，确定核心关键词；

扩展关键词生成模块320，用于生成核心关键词的扩展关键词；

源图片数据集获得模块330，用于基于核心关键词和扩展关键词，进行主题图片的爬取操作，获得源图片数据集；

目标图片数据集获得模块340，用于对源图片数据集进行数据增强处理，获得目标图片数据集。

应用本申请实施例所提供的装置，在根据接收到的图片需求，确定出核心关键词，并生成核心关键词的扩展关键词后，基于核心关键词和扩展关键词，爬取主题图片，获得源图片数据集，对源图片数据集进行数据增强处理，得到目标图片数据集。一方面通过对核心关键词进行扩展，得到扩展关键词，再基于核心关键词和扩展关键词进行主题图片的爬取，可以爬取到更多的图片，可以获得较大规模的源图片数据集，另一方面，对源图片数据集进行数据增强处理，可以在源图片数据集的基础上获得更多的图片，获得更大规模的目标图片数据集，使得可以快速获得满足图片需求的大规模目标图片数据集，提高了数据获取效率。

在本申请的一种具体实施方式中，源图片数据集获得模块330，用于：

在本申请的一种具体实施方式中，扩展关键词生成模块320，用于：

通过预先训练获得的扩展模型，生成核心关键词的扩展关键词。

在本申请的一种具体实施方式中，目标图片数据集获得模块340，用于：

对源图片数据集中的图片进行学习，基于学习到的特征，生成与源图片数据集中的图片具有相同主题的图片；

基于源图片数据集中的图片和生成的与源图片数据集中的图片具有相同主题的图片，确定目标图片数据集。

在本申请的一种具体实施方式中，图片需求为文字识别场景下的图片需求，目标图片数据集获得模块340，用于：

根据预先获得的文本信息，生成包含文本信息的图片；

基于源图片数据集中的图片和生成的包含文本信息的图片，确定目标图片数据集。

在本申请的一种具体实施方式中，生成的包含文本信息的图片有多张，包含文本信息的每两张图片中的文本字体、文本位置、背景中的至少一种不同。

在本申请的一种具体实施方式中，图片需求为针对目标模型训练的图片需求，还包括数据集扩充模块，用于：

在获得目标图片数据集之后，利用目标图片数据集对目标模型进行训练优化，以利用训练优化后的目标模型进行任务处理；

获得利用训练优化后的目标模型进行任务处理的过程中的输入图片及相应的处理结果；

基于获得的输入图片及相应的处理结果，扩充目标图片数据集，重复执行利用目标图片数据集对目标模型进行训练优化的步骤。

相应于上面的方法实施例，本申请实施例还提供了一种图片数据集获得设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序时实现上述图片数据集获得方法的步骤。

如图4所示，为图片数据集获得设备的组成结构示意图，图片数据集获得设备可以包括：处理器10、存储器11、通信接口12和通信总线13。处理器10、存储器11、通信接口12均通过通信总线13完成相互间的通信。

在本申请实施例中，处理器10可以为中央处理器(Central Processing Unit，CPU)、特定应用集成电路、数字信号处理器、现场可编程门阵列或者其他可编程逻辑器件等。

处理器10可以调用存储器11中存储的程序，具体的，处理器10可以执行图片数据集获得方法的实施例中的操作。

存储器11中用于存放一个或者一个以上程序，程序可以包括程序代码，程序代码包括计算机操作指令，在本申请实施例中，存储器11中至少存储有用于实现以下功能的程序：

根据接收到的图片需求，确定核心关键词；

生成核心关键词的扩展关键词；

基于核心关键词和扩展关键词，进行主题图片的爬取操作，获得源图片数据集；

对源图片数据集进行数据增强处理，获得目标图片数据集。

在一种可能的实现方式中，存储器11可包括存储程序区和存储数据区，其中，存储程序区可存储操作系统，以及至少一个功能(比如图片爬取功能、数据增强功能)所需的应用程序等；存储数据区可存储使用过程中所创建的数据，如关键词数据、图片数据等。

此外，存储器11可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件或其他易失性固态存储器件。

通信接口12可以为通信模块的接口，用于与其他设备或者系统连接。

当然，需要说明的是，图4所示的结构并不构成对本申请实施例中图片数据集获得设备的限定，在实际应用中图片数据集获得设备可以包括比图4所示的更多或更少的部件，或者组合某些部件。

相应于上面的方法实施例，本申请实施例还提供了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述图片数据集获得方法的步骤。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的技术方案及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

Claims

1.一种图片数据集获得方法，其特征在于，包括：

根据接收到的图片需求，确定核心关键词；

生成所述核心关键词的扩展关键词；

2.根据权利要求1所述的图片数据集获得方法，其特征在于，所述获得源图片数据集，包括：

3.根据权利要求1所述的图片数据集获得方法，其特征在于，所述生成所述核心关键词的扩展关键词，包括：

4.根据权利要求1所述的图片数据集获得方法，其特征在于，所述对所述源图片数据集进行数据增强处理，获得目标图片数据集，包括：

5.根据权利要求1所述的图片数据集获得方法，其特征在于，所述图片需求为文字识别场景下的图片需求，所述对所述源图片数据集进行数据增强处理，获得目标图片数据集，包括：

根据预先获得的文本信息，生成包含所述文本信息的图片；

6.根据权利要求5所述的图片数据集获得方法，其特征在于，生成的包含所述文本信息的图片有多张，包含所述文本信息的每两张图片中的文本字体、文本位置、背景中的至少一种不同。

7.根据权利要求1至6之中任一项所述的图片数据集获得方法，其特征在于，所述图片需求为针对目标模型训练的图片需求，在所述获得目标图片数据集之后，还包括：

8.一种图片数据集获得装置，其特征在于，包括：

9.一种图片数据集获得设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序时实现如权利要求1至7任一项所述的图片数据集获得方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的图片数据集获得方法的步骤。