CN111882508A

CN111882508A - 一种包含多目标的图片数据集的生成方法及系统

Info

Publication number: CN111882508A
Application number: CN202010556085.7A
Authority: CN
Inventors: 程德心; 周风明; 郝江波; 周昭晖
Original assignee: Wuhan Kotei Informatics Co Ltd
Current assignee: Wuhan Kotei Informatics Co Ltd
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2020-11-03

Abstract

本发明涉及一种包含多目标的图片数据集的生成方法及系统，基于网络爬虫爬取获得包含目标对象的各个目标图片；查找目标图片中的目标对象的轮廓，通过像素运算将目标对象从目标图片进行区分；根据需求图片的目标对象的数量进行图片合成结合计算机视觉技术，设定好识别目标图片的算法条件下，利用图片处理方法进行相应的图片预处理，提取和合成，生成对应的多目标图片数据集，相比于人工采集识别，提升了效率，降低了行业成本，针对不同环境下的图片都能灵活处理。

Description

一种包含多目标的图片数据集的生成方法及系统

技术领域

本发明涉及计算机视觉领域，尤其涉及一种包含多目标的图片数据集的生成方法及系统。

背景技术

目前在计算机视觉领域中，已有很多开放的数据集，例如人脸数据集、车牌数据集合交通标志牌数据集，但是只能根据现有数据集进行选择和使用，无法做到根据各种时刻方便的获取数据集。

比如想要获取单张图片包含多目标的数据集，可能需要利用双目摄像头单独去特定场景获取图片数据集。需要大量人工操作达到目的，同时也增加了行业成本。

发明内容

本发明针对现有技术中存在的技术问题，提供一种包含多目标的图片数据集的生成方法，解决现有技术中无法方便获取多目标图片的数据集的问题。

本发明解决上述技术问题的技术方案如下：一种包含多目标的图片数据集的生成方法，包括：

步骤1，基于网络爬虫爬取获得包含目标对象的各个目标图片；

步骤2，查找所述目标图片中的目标对象的轮廓，通过像素运算将所述目标对象从所述目标图片进行区分；

步骤3，根据需求图片的目标对象的数量进行图片合成。

一种包含多目标的图片数据集的生成系统，包括：目标图片查找模块、目标图片处理模块和图片合成模块；

所述目标图片查找模块，用于基于网络爬虫爬取获得包含目标对象的各个目标图片；

所述目标图片处理模块，用于查找所述目标图片中的目标对象的轮廓，通过像素运算将所述目标对象从所述目标图片进行区分；

所述图片合成模块，用于根据需求图片的目标对象的数量进行图片合成。

本发明的有益效果是：本发明提供的一种包含多目标的图片数据集的生成方法及系统，结合计算机视觉技术，设定好识别目标图片的算法条件下，利用图片处理方法进行相应的图片预处理，提取和合成，生成对应的多目标图片数据集，相比于人工采集识别，提升了效率，降低了行业成本，针对不同环境下的图片都能灵活处理。

在上述技术方案的基础上，本发明还可以做如下改进。

进一步，所述步骤1包括：

步骤101，采用广度优先的爬虫策略去爬取包含目标对象的图片；

步骤102，采用密度聚类算法对爬取的图片进行无监督簇聚类；

步骤103，采用特征识别的方法判断图片是否包含目标对象。

进一步，所述步骤1之后还包括使用计算机视觉库对图片进行预处理，包括：高斯模糊、图片灰度化、图片的边缘划分、二值化处理、膨胀腐蚀操作以及中值滤波。

进一步，所述利用sobel边缘检测方法进行图片的边缘划分，根据邻点加权差，在边缘处达到极值时进行检测。

进一步，所述步骤2中采用轮廓检测查找所述目标图片中的目标对象的轮廓轮廓，通过PIL将所述目标对象从所述目标图片进行区分，使所述目标图片中除了所述目标对象之外的区域的像素点的RGB值均为0。

进一步，所述步骤2还包括所述目标图片不需要保留多角度图片数据时对所述目标图片进行透视变换，将其他角度的所述目标对象进行平面化处理。

进一步，所述步骤3中，使用PIL进行图片合成后，对所述合成后的图片进行标签信息整合。

采用上述进一步方案的有益效果是：采用层级的目标图片检测方法，根据所需要目标对象进行相应的网络爬虫获取目标图片，通过简单的图片预处理之后判断图片中是否包含期望目标，保证了获取目标图片的速度和精度；获取目标图片后还包括使用计算机视觉库对图片进行预处理，包括：高斯模糊、图片灰度化、图片的边缘划分、二值化处理、膨胀腐蚀操作以及中值滤波，高斯模糊可以降低图片噪声点。将图片灰度化便于后续的sobel算子进行边缘检测；对检测完成的图片进行二值化处理，消除无关像素点的干扰，强调目标图片像素点区域。对二值化图片进行膨胀腐蚀操作，提高目标区域像素点的连通性；使用图形学处理的方法对图片进行预处理和轮廓提取，提取出图片中对应的目标图像，同时记录下标签信息。通过图像处理标准库进行图像拼接和整合处理，自动合成目标图像数据集，并且整合标签，实现图片的多目标整合和需求图片的生成。

附图说明

图1为本发明提供的一种包含多目标的图片数据集的生成方法的流程图；

图2为本发明提供的一种包含多目标的图片数据集的生成方法的实施例的流程图；

图3为本发明提供的一种包含多目标的图片数据集的生成系统的实施例的结构框图；

图4为本发明实施例提供的一种电子设备的实体结构示意图。

附图中，各标号所代表的部件列表如下：

101、目标图片查找模块，102、目标图片处理模块，103、图片合成模块，201、处理器，202、通信接口，203、存储器，204、通信总线。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

如图1所示为本发明提供的一种包含多目标的图片数据集的生成方法的的流程图，由图1可知，该方法包括：

步骤1，基于网络爬虫爬取获得包含目标对象的各个目标图片。

步骤2，查找目标图片中的目标对象的轮廓，通过像素运算将目标对象从目标图片进行区分。

步骤3，根据需求图片的目标对象的数量进行图片合成。

本发明提供的一种包含多目标的图片数据集的生成方法，结合计算机视觉技术，设定好识别目标图片的算法条件下，利用图片处理方法进行相应的图片预处理，提取和合成，生成对应的多目标图片数据集，相比于人工采集识别，提升了效率，降低了行业成本，针对不同环境下的图片都能灵活处理。

实施例1

本发明提供的实施例1为本发明提供的一种包含多目标的图片数据集的生成方法的实施例，如图2所示为本发明提供的一种包含多目标的图片数据集的生成方法的实施例的流程图，由图2可知，该方法的实施例包括：

优选的，步骤1包括：

步骤101，采用广度优先的爬虫策略去爬取包含目标对象的图片，这样可以获取大量的图片。

步骤102，采用密度聚类算法对爬取的图片进行无监督簇聚类。

具体地，密度聚类算法包括DBSCAN算法、FDBSCAN算法、RDBClustering算法、FRDBClustering算法、OPTICS算法、DENCLUE算法等。

步骤103，采用特征识别的方法判断图片是否包含目标对象。

进行特征识别之前还可以包括为对页面进行消除噪音，索引处理，提取图片等操作。

采用层级的目标图片检测方法，根据所需要目标对象进行相应的网络爬虫获取目标图片，通过简单的图片预处理之后判断图片中是否包含期望目标，保证了获取目标图片的速度和精度。

步骤1之后还包括：

使用计算机视觉库对图片进行预处理。

使用计算机视觉库对图片进行预处理的过程包括：高斯模糊、图片灰度化、图片的边缘划分、二值化处理、膨胀腐蚀操作以及中值滤波。

高斯模糊可以降低图片噪声点。将图片灰度化便于后续的sobel算子进行边缘检测。对检测完成的图片进行二值化处理，消除无关像素点的干扰，强调目标图片像素点区域。对二值化图片进行膨胀腐蚀操作，提高目标区域像素点的连通性。

具体的，利用sobel边缘检测方法进行图片的边缘划分，根据邻点加权差，在边缘处达到极值时进行检测。

优选的，采用轮廓检测查找目标图片中的目标对象的轮廓轮廓，通过PIL(PythonImaging Library，图像处理标准库)将目标对象从目标图片进行区分，使目标图片中除了目标对象之外的区域的像素点的RGB值均为0。

轮廓检测findcontour是通过颜色寻找图像中物体的轮廓。

步骤2还包括目标图片不需要保留多角度图片数据时对目标图片进行透视变换，将其他角度的目标对象进行平面化处理。

若需保留多角度图像数据可不进行此操作。

步骤3，根据需求图片的目标对象的数量进行图片合成。

使用PIL进行图片合成后，对合成后的图片进行标签信息整合。

使用图形学处理的方法对图片进行预处理和轮廓提取，提取出图片中对应的目标图像，同时记录下标签信息。通过图像处理标准库进行图像拼接和整合处理，自动合成目标图像数据集，并且整合标签，实现图片的多目标整合和需求图片的生成。

实施例2

本发明提供的实施例2为本发明提供的一种包含多目标的图片数据集的生成系统的实施例，如图3所示为本发明提供的一种包含多目标的图片数据集的生成系统的实施例的结构框图，由图3可知，该系统包括：目标图片查找模块101、目标图片处理模块102和图片合成模块103。

目标图片查找模块101，用于基于网络爬虫爬取获得包含目标对象的各个目标图片。

目标图片处理模块102，用于查找目标图片中的目标对象的轮廓，通过像素运算将目标对象从目标图片进行区分。

图片合成模块103，用于根据需求图片的目标对象的数量进行图片合成。

图4为本发明实施例提供的一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器201、通信接口202、存储器203和通信总线204，其中，处理器201，通信接口202，存储器203通过通信总线204完成相间互的通信。处理器201可以调用存储在存储器203上并可在处理器201上运行的计算机程序，以执行上述各实施例提供的包含多目标的图片数据集的生成方法，例如包括：步骤1，基于网络爬虫爬取获得包含目标对象的各个目标图片；步骤2，查找目标图片中的目标对象的轮廓，通过像素运算将目标对象从目标图片进行区分；步骤3，根据需求图片的目标对象的数量进行图片合成。

本发明实施例还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的包含多目标的图片数据集的生成方法，例如包括：步骤1，基于网络爬虫爬取获得包含目标对象的各个目标图片；步骤2，查找目标图片中的目标对象的轮廓，通过像素运算将目标对象从目标图片进行区分；步骤3，根据需求图片的目标对象的数量进行图片合成。

以上仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种包含多目标的图片数据集的生成方法，其特征在于，所述方法包括：

步骤3，根据需求图片的目标对象的数量进行图片合成。

2.根据权利要求1所述的方法，其特征在于，所述步骤1包括：

步骤103，采用特征识别的方法判断图片是否包含目标对象。

3.根据权利要求1所述的方法，其特征在于，所述步骤1之后还包括使用计算机视觉库对图片进行预处理，包括：高斯模糊、图片灰度化、图片的边缘划分、二值化处理、膨胀腐蚀操作以及中值滤波。

4.根据权利要求3所述的方法，其特征在于，所述利用sobel边缘检测方法进行图片的边缘划分，根据邻点加权差，在边缘处达到极值时进行检测。

5.根据权利要求1所述的方法，其特征在于，所述步骤2中采用轮廓检测查找所述目标图片中的目标对象的轮廓轮廓，通过PIL将所述目标对象从所述目标图片进行区分，使所述目标图片中除了所述目标对象之外的区域的像素点的RGB值均为0。

6.根据权利要求1所述的方法，其特征在于，所述步骤2还包括所述目标图片不需要保留多角度图片数据时对所述目标图片进行透视变换，将其他角度的所述目标对象进行平面化处理。

7.根据权利要求1所述的方法，其特征在于，所述步骤3中，使用PIL进行图片合成后，对所述合成后的图片进行标签信息整合。

8.一种包含多目标的图片数据集的生成系统，其特征在于，所述系统包括：目标图片查找模块、目标图片处理模块和图片合成模块；

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述包含多目标的图片数据集的生成方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至7任一项所述包含多目标的图片数据集的生成方法的步骤。