CN108492343B - 一种扩充目标识别的训练数据的图像合成方法 - Google Patents

一种扩充目标识别的训练数据的图像合成方法 Download PDF

Info

Publication number
CN108492343B
CN108492343B CN201810260915.4A CN201810260915A CN108492343B CN 108492343 B CN108492343 B CN 108492343B CN 201810260915 A CN201810260915 A CN 201810260915A CN 108492343 B CN108492343 B CN 108492343B
Authority
CN
China
Prior art keywords
image
foreground
calculating
coordinates
objects
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810260915.4A
Other languages
English (en)
Other versions
CN108492343A (zh
Inventor
毛克明
张维益
崔培楠
宋杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenyang Mingran Technology Co ltd
Original Assignee
Northeastern University China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northeastern University China filed Critical Northeastern University China
Priority to CN201810260915.4A priority Critical patent/CN108492343B/zh
Publication of CN108492343A publication Critical patent/CN108492343A/zh
Application granted granted Critical
Publication of CN108492343B publication Critical patent/CN108492343B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/194Segmentation; Edge detection involving foreground-background segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种扩充目标识别的训练数据的图像合成方法,涉及计算机视觉技术领域。该方法针对特定生产场景中的图像数据,进行规模和种类统计,采用K‑Means聚类区分前景图像与底图,将前景与底图以及带有标记的特定场景数据集进行合成,用合成数据来扩充图像数据集。本发明的方法能够自动爬取相关素材图片并将所需素材提取并合成到指定的用户特定场景下,从而在短时间、低成本下获得一定规模的合成数据集达到扩充数据集从而提高其鲁棒性,为增强深度学习模型识别能力提供辅助。

Description

一种扩充目标识别的训练数据的图像合成方法
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种扩充目标识别的训练数据的图像合成方法。
背景技术
近年来,随着硬件计算能力的不断发展以及高性能的GPU不断升级,人工智能技术的前景又变得明朗起来。其中,尤其以深度学习的计算机视觉领域受此次改变而获益良多。像人脸识别、图像识别、图像分类、人脸检测、图像分割等基本的图像处理算法都隶属于计算机视觉领域的技术。另一方面,随着信息时代的快速发展,海量数据的产生也为深度学习的飞速前进奠定基础。影响深度学习模型效果好坏的最重要的一个因素便是数据。海量的数据代表着模型的强泛化能力,相反,少量的数据会使得模型面临过拟合或者欠拟合的常见问题。使得模型在实际应用场景的表现差强人意。
然而,虽然大数据时代产生了海量的视频图片数据,但是随之而来的是内容的复杂性,多样性,冗余性。并且远远达不到作为深度学习可用的数据集标准,现在流行的主流深度学习框架都是以监督学习为基础的。这就意味着无论是分类问题还是回归问题,训练数据集的数据是需要标注的,在即使是清洗过的海量数据集里仍然没有标记信息。而这一部分是需要人工来完成。比如比较著名的ImageNet数据库。面对海量的未标记图像视频数据,其数量级一般在数亿级别以上,如果全部用人工来完成标记,所耗费的人工成本就是一个天文数字,对于任何一家公司来说都是难以承受的,即使抛开人工成本不算,人工标记所花费的时间成本都是完全超过大多数的科技研发公司开发的迭代周期,而超过项目的生命周期对于任何公司来说意味着亏损,这是无法容忍的。所以目前行业的主要的训练数据构成是大部分来源于开源数据库,少部分由人工标注(特定的应用场景除外)。然而开源数据库的数据的分布与特征往往与特定的应用场景相差甚远,模型效果自然相差很多。
因此,针对目前深度学习领域的现状,由于对标注且准确的训练数据的极度匮乏,急需要一种可以针对指定应用场景的快速扩充合成训练数据集的方法。
发明内容
本发明要解决的技术问题是针对上述现有技术的不足,提供一种扩充目标识别的训练数据的图像合成方法,在短时间内辅助深度学习的各种框架以及算法在缺少特定的训练数据集时,可以进行数据的快速合成达到大规模的数据扩充,从而提升深度学习的开发效率,并使得训练得到的模型在特定的应用场景具有更好的泛化性和鲁棒性,从而为识别技术可以在用户场景具有一定的实用性奠定基础。
为解决上述技术问题,本发明所采取的技术方案是:一种扩充目标识别的训练数据的图像合成方法,包括以下步骤:
步骤1、根据实际生产场景,进行如下定义:
生产场景:具有在实际环境(背景信息)和所需要识别的物体并带有标记的图像的集合;
原始图像:通过各种方式获取的带有生产场景信息的图像;
图像尺寸:训练数据中,图像的具体尺寸:宽*高);
底图:含有生产场景的主要背景信息的图像;
对象:需要检测并识别的物体;
前景图像:从原始图像中分离并提取带有对象并具有标记的图像;
合成图像:含有带有标记信息的对象的底图;
根据需求分别确定底图、图像尺寸、对象,并获得原始图像;
步骤2、遍历生产场景,统计待识别的对象种类总数,按种类获取含带有各个种类信息的原始图像,并分类保存;
步骤3、遍历原始图像,获取图片的尺寸并对图片(三通道)以像素级别进行处理计算得到相应的特征值,根据每个像素计算得到的一组特征值采用K-Means聚类区分前景图像与底图,返回坐标确定前景位置,生成标注文件完成标注,并保存;
步骤4、遍历生产场景,判断生产场景是否为空集,若为空集,则直接进行步骤7,否则获取每张图像中对象的种类以及每个种类的对象总数,并获取对象的标记信息来作为合成图像的输入,同时从生产场景移除该图像,执行步骤5;
步骤5、根据步骤4获取每个对象的位置坐标Atop-left(X,Y)、Abottom-right(X,Y),即左上角顶点和右下角顶点的坐标,并计算中心坐标
Figure BDA0001610255680000021
同时计算每个对象的面积Sobject
步骤6、根据步骤4、步骤5,计算前景图像在底图的空间占比,生成合成图像,返回步骤4;
步骤7、当生产场景为空集时,随机挑选步骤3生成的前景图像在底图中进行任意位置的摆放;根据步骤3生成的前景图像数据规模、步骤2确定的种类总数以及步骤1确定的合成图像的尺寸,确定每张合成图像内对象的种类个数以及对象总数来生成合成图像。
所述步骤3的具体方法为:
步骤3.1、按照种类顺序遍历原始图像,以原始图片作为输入;记录所属种类以及文件名;
步骤3.2、采用图片处理库获取图片的尺寸W*H,即宽*高,并进行均值滤波;
步骤3.3、记录当前输入图像的每个像素点的灰度值,在RGB通道下,分别记录像素点(w,h)的灰度值为Rw,h、Gw,h、Bw,h,w∈W,h∈H;
步骤3.4、针对每一个像素点进行显著值计算,即计算该像素点与所有像素点间颜色的距离,
Figure BDA0001610255680000031
其中,Iw*h是任一像素点,S(Iw*h)表示该像素点的显著值,
Figure BDA0001610255680000032
表示该像素点与任一像素点间的颜色距离,通过计算该像素点与所有像素点间的距离之后求和即为该像素点的显著值;
步骤3.5、通过下式计算每个像素点Iw*h的灰度值,
L(Iw*h)=0.299×Rw*h+0.587×Gw*h+0.114×Bw*h
步骤3.6、对每一个像素建立特征向量
Figure BDA0001610255680000034
根据此特征向量进行K-means聚类,K根据图像复杂度选取;
步骤3.7、经过聚类后在原始图像中分离前景图像和底图,提取前景图像信息并记录坐标位置信息,按照种类进行保存;
步骤3.8、根据步骤3.7获取的前景图像的坐标,选取其中横坐标、纵坐标最大最小值作为目标的BoundingBox标记,以项目需求的文本格式保存成标记文件。
所述步骤6中生成合成图像的具体方法为:
步骤6.1、根据步骤1确定的图像尺寸,生成底图图像;
步骤6.2、根据步骤4获取的对象的种类及每个种类的对象的数目,从步骤3.7提取相应的前景图像,计算前景图像的面积Sforeground
步骤6.3、比较对应的前景图像与对象的面积大小,如果Sforeground>2.5Sobject,则缩小Sforeground,使Sforeground=Sobject,并获取处理后的前景图像的左上角和右下角的坐标Btop-left(X,Y)、Bbottom-right(X,Y),计算前景图像的中心坐标
Figure BDA0001610255680000033
步骤6.4、将步骤5中的中心坐标Acenter标记在步骤6.1的底图中,令前景图像的中心坐标Bcenter位于坐标Acenter位置上;依次完成各个对象中心坐标与前景图像中心坐标的对应;
步骤6.5、记录合成后图像的左上角和右下角的坐标B`top-left(X,Y)、B`bottom-right(X,Y),进行标记信息与图片的保存。
所述步骤7的具体方法为:
步骤7.1、根据步骤1确定的图像尺寸,生成底图图像,计算底图面积Sbackground
步骤7.2、根据确定的对象的种类总数以及个数总数随机选取步骤3.7处理好的前景图像,计算前景图像的面积Sforeground
步骤7.3、比较对应的前景图像与对象的面积大小,如果Sforeground>Sbackgroundt/3,则缩小Sforeground,使Sforeground<Sforeground/5,并获取缩放后的前景图像的左上角和右下角的坐标Btop-left(X,Y)、Bbottom-right(X,Y),以及前景图像的中心坐标
Figure BDA0001610255680000041
步骤7.4、将步骤7.3处理后的前景图像任意摆放在步骤7.1的底图中,并确保Btop-left(X,Y)和Bbottom-right(X,Y)不超过底图的边界;重新计算左上角和右下角的坐标B`top-left(X,Y)和B`bottom-right(X,Y),进行标记信息与图片的保存。
采用上述技术方案所产生的有益效果在于:本发明提供的扩充目标识别的训练数据的图像合成方法,针对在现阶段对特定的应用场景下实验或者开发时,缺少大量的符合场景的标注数据,同时又不能完全依靠人工标注的方法对数据进行扩充的情况时,在满足标注数据一定的准确度以及拥有少量特定场景的标注数据的前提下,以一种短时间内,低人工成本的方法来对数据集进行合成并对其完成标注,从而完成对数据集的扩充,提升深度学习的开发效率并使得训练的得到的模型在特定的应用场景具有更好的泛化性和鲁棒性,为增强深度学习模型识别能力提供辅助。
附图说明
图1为本发明实施例提供的具体关系类图;
图2为本发明实施例提供的扩充目标识别的训练数据的图像合成方法流程图;
图3为本发明实施例提供的区分前景背景的流程图.
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
以水果盘为底图的水果识别这一特定用户场景作为研究和实验对象,如图1所示的关系类图,分别按步骤实现数据收集类、目标图像提取类、图像合成类以及图像扩充类,具体实施步骤的流程图如图2所示,本实施例的具体方法如下所述。
步骤1、根据实际生产场景,进行如下定义:
生产场景:具有在实际环境(背景信息)和所需要识别的物体并带有标记的图像的集合;
原始图像:通过各种方式获取的带有生产场景信息的图像;
图像尺寸:训练数据中,图像的具体尺寸(宽*高);
底图:含有生产场景的主要背景信息的图像;
对象:需要检测并识别的物体;
前景图像:从原始图像中分离并提取带有对象并具有标记的图像;
合成图像:含有带有标记信息的对象的底图;
根据需求分别确定底图、图像尺寸、对象,并获得原始图像。
本实施例中,生产场景即盛有水果的果盘的带有标记的图像集合,确定需要识别的物体种类是98类(97类+背景),图像尺寸为1920*1080,对象为水果,底图为以果盘为主要背景信息的图片,原始图像指含有单一种类且有标记的水果图片。
步骤2、遍历生产场景,统计待识别的对象种类总数,按种类获取含带有各个种类信息的原始图像,并分类保存。该步骤为图1所示的数据收集类的具体实现。
本实施例中,共需识别97类水果,所以按照97类进行数据图片的爬取,生成原始图像集。
步骤3、遍历原始图像集,获取图片的尺寸并对图片(三通道)以像素级别进行处理计算得到相应的特征值,根据每个像素计算得到的一组特征值采用K-Means聚类区分前景与背景,返回坐标确定前景位置,生成标注文件完成标注,并保存。该步骤为图1所示的目标图像提取类的具体实现,具体流程图如图3所示,具体方法如下。
步骤3.1、按照种类顺序遍历原始图像,以原始图片作为输入;记录所属种类以及文件名。
本实施例中,从目录中第一个文件开始,读取图片并记录其所属种类,以及文件名,进行图像的处理。
步骤3.2、采用图片处理库获取图片的尺寸即宽*高(W*H),并进行均值滤波。
本实施例中,采用OpenCV库来对图片进行处理,获取图像的尺寸并对图片采用blur()方法进行均值滤波。
步骤3.3、记录当前输入图像的每个像素点的灰度值,以RGB通道为例,记为Rw,h、Gw,h、Bw,h,w∈W,h∈H。
本实施例中,在使用OpenCV读取图片的方法时就会对三通道进行记录,存在一个矩阵中。
步骤3.4、针对每一个像素点进行显著值计算,即计算该像素点与所有像素点间颜色的距离,
Figure BDA0001610255680000051
其中,Iw*h是任一像素点,该像素点的显著值记为S(Iw*h),
Figure BDA0001610255680000052
表示该像素点与任一像素点间的颜色距离,通过计算该像素点与所有像素点间的距离之后求和即是该像素点的显著值。
本实施例中,由于RGB颜色的空间是线性的并且相互正交,对于不是线性的人眼的视觉系统,对该空间的颜色的感知并不理想,因此直接计算RGB的颜色距离也不能很好的反映颜色的特征。所以本实施例中,先将RGB通道使用cvtColor(image,im,CV_BGR2Lab)方法进行转换成LAB颜色空间,通过计算该通道三个分量来计算颜色的距离反应具体的特征,如下式所示,
Figure BDA0001610255680000061
其中,ΔL表示颜色的亮度,Δa表示红绿颜色通道的色差,Δb表示蓝黄颜色的色差。
步骤3.5、通过以下公式计算每个像素点Iw*h的灰度值,
L(Iw*h)=0.299×Rw*h+0.587×Gw*h+0.114×Bw*h
本实施例中,根据步骤3.3记录的RGB三通道的值进行计算。
步骤3.6、对每一个像素建立特征向量
Figure BDA0001610255680000062
根据此特征向量进行K-means聚类,K根据图像复杂度选取。
本实施例中,根据步骤3.4以及步骤3.5得到的像素的两个特征进行k-means聚类,本实施例中由于每张爬取的图像种类单一,所以K设定在2~4左右选取效果最好的进行保留,通过统计具有前K个相同的像素点数的特征像素点作为聚类中心,分配其他像素点到距离最近的中心,直至收敛。
步骤3.7、经过聚类后在原始图像中分离前景图像和底图,提取前景图像信息并记录坐标位置信息,按照种类进行保存。
本实施例中,对前景图像进行保存同时记录坐标信息。
步骤3.8、根据步骤3.7获取的前景图像的坐标,选取其中横坐标、纵坐标最大最小值作为目标的BoundingBox标记,以项目需求的文本格式保存成标记文件。
本实施例中,对前景图像与标记信息文件一一对应保存。
步骤4、遍历生产场景,判断生产场景是否为空集,若为空集,则直接进行步骤7,否则获取每张图像中对象的种类及每个种类的对象总数,并且获取对象的标记信息来作为合成图像的输入,同时从生产场景移除该图像,执行步骤5。
本实施例中,使用Opencv读取生产场景集的每一张图片,并读取标记信息,确定水果的种类总数以及各种类的数量。以读取的一张图片为例,该图片只有一个苹果,即种类为1,对象总数为1。
步骤5、根据步骤4获取每个对象的位置坐标Atop-left(X,Y)、Abottom-right(X,Y),即左上角顶点以及右下角顶点的坐标,并计算中心坐标
Figure BDA0001610255680000071
同时计算每个对象的面积Sobject
本实施例中,由于步骤4读取的图片对象只有一个苹果,获取该苹果的位置坐标Atop-left(X,Y)、Abottom-right(X,Y),计算该苹果的面积为Sobject
步骤6、根据步骤4、步骤5,计算前景图像在底图的空间占比,生成合成图像,返回步骤4。
步骤4、5、6为图1所示的图像合成类、图像扩充类的具体实现。生成合成图像的具体方法如下。
步骤6.1、根据步骤1确定的图像尺寸,生成底图图像。
本实施例中,生成一张1920*1080的以果盘为背景的底图。
步骤6.2、根据步骤4获取的对象的种类及每个种类的对象的数目,从步骤3.7提取相应的前景图像,计算前景图像的面积Sforeground
本实施例中,以步骤4中获取的只有一类一个苹果,则在步骤3.7中处理后的前景图像集中取出苹果一个,计算其Sforeground
步骤6.3、比较对应的前景图像与对象的面积大小,如果Sforeground>2.5Sobject,则缩小Sforeground,使Sforeground=Sobject,并获取处理后的前景图像的左上角右下角的坐标Btop-left(X,Y)、Bbottom-right(X,Y),计算前景图像的中心坐标
Figure BDA0001610255680000072
本实施例中,Sforeground<2.5Sobject,所以不必缩小处理,直接获取前景图像的Btop-left(X,Y)、Bbottom-right(X,Y),计算前景图像的中心坐标
Figure BDA0001610255680000073
步骤6.4、将步骤5中的Acenter坐标标记在步骤6.1的底图中,令前景图像的中心坐标Bcenter位于该坐标位置上。依次完成各个对象中心坐标与前景图像中心坐标的对应。
本实施例中,要把步骤5的苹果的Acenter标记在底图中,令步骤6.3的前景图像的Bcenter位于该坐标之上即可。
步骤6.5、记录合成后图像的左上角和右下角的坐标B`top-left(X,Y),B`bottom-right(X,Y),进行标记信息与图片的保存。
本实施例中,重新计算在步骤6.4中已经合成的苹果的位置坐标B`top-left(X,Y)、B`bottom-right(X,Y),并对该标记信息与合成图像进行对应保存。
步骤7、当生产场景为空集时,随机挑选步骤3.7生成的前景图像在底图中进行任意位置的摆放。根据3.7的前景图像数据规模以及步骤2确定的种类总数、步骤1确地的合成图像的尺寸,确定每张合成图像内对象的种类个数以及每个种类的对象总数来生成合成图像。该步骤为图1所示的图像合成类、图像扩充类的具体实现,具体方法如下。
步骤7.1、根据步骤1确定的图像尺寸,生成底图图像,计算底图面积Sbackground
本实施例中,生成一张1920*1080的以果盘为背景的底图,面积为Sbackground=1920*1080。
步骤7.2、根据确定的对象的种类总数以及个数总数随机选取步骤3.7处理好的前景图像,计算前景图像的面积Sforeground
本实施例中,此处随机选取为一类一个水果即一个香蕉,则在步骤3.7中处理后的前景图像集中取出香蕉一个,计算其Sforeground
步骤7.3、比较对应的前景图像与对象的面积大小,如果Sforeground>Sbackgroundt/3,缩小Sforeground,使Sforeground<Sforeground/5。并获取缩放后的前景图像的左上角和右下角的坐标Btop-left(X,Y)、Bbottom-right(X,Y),以及前景图像的中心坐标
Figure BDA0001610255680000081
本实施例中,
Figure BDA0001610255680000082
所以不必缩小处理,直接获取前景图像(香蕉)的Btop-left(X,Y)、Bbottom-right(X,Y),计算前景图像的中心坐标
Figure BDA0001610255680000083
步骤7.4、将步骤7.3处理后的前景图像任意摆放在步骤7.1的底图中,并确保Btop-left(X,Y)、Bbottom-right(X,Y)不超过底图的边界;重新计算图像左上角和右下角的坐标B`top-left(X,Y)、B`bottom-right(X,Y),进行标记信息与图片的保存。
本实施例中,在确保Btop-left(X,Y)、Bbottom-right(X,Y)不超过底图边界的情况下,随机挑选一个位置放置BCenter,重新计算坐标B`top-left(X,Y)、B`bottom-right(X,Y),进行标记信息与图片的保存。
本实施例只是针对合成一幅图像进行详细过程的描述,具体实施中应该是一个循环来完成这一套的处理流程,循环的次数与实验或生产环境所需要的数据集规模来决定。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明权利要求所限定的范围。

Claims (4)

1.一种扩充目标识别的训练数据的图像合成方法,其特征在于:该方法包括以下步骤:
步骤1、根据实际生产场景,进行如下定义:
生产场景:具有在实际环境和所需要识别的物体并带有标记的图像的集合;所述实际环境包括背景信息;
原始图像:通过各种方式获取的带有生产场景信息的图像;
图像尺寸:训练数据中,图像的具体尺寸:宽*高;
底图:含有生产场景的主要背景信息的图像;
对象:需要检测并识别的物体;
前景图像:从原始图像中分离并提取带有对象并具有标记的图像;
合成图像:含有带有标记信息的对象的底图;
根据需求分别确定底图、图像尺寸、对象,并获得原始图像;
步骤2、遍历生产场景,统计待识别的对象种类总数,按种类获取含带有各个种类信息的原始图像,并分类保存;
步骤3、遍历原始图像,获取图片的尺寸并对图片以像素级别进行处理计算得到相应的特征值,所述图片为三通道的,根据每个像素计算得到的一组特征值采用K-Means聚类区分前景图像与底图,返回坐标确定前景位置,生成标注文件完成标注,并保存;
步骤4、遍历生产场景,判断生产场景是否为空集,若为空集,则直接进行步骤7,否则获取每张图像中对象的种类以及每个种类的对象总数,并获取对象的标记信息来作为合成图像的输入,同时从生产场景移除该图像,执行步骤5;
步骤5、根据步骤4获取每个对象的位置坐标Atop-left(X,Y)、Abottom-right(X,Y),即左上角顶点和右下角顶点的坐标,并计算中心坐标
Figure FDA0003094466170000011
同时计算每个对象的面积Sobject
步骤6、根据步骤4、步骤5,计算前景图像在底图的空间占比,生成合成图像,返回步骤4;
步骤7、当生产场景为空集时,随机挑选步骤3生成的前景图像在底图中进行任意位置的摆放;根据步骤3生成的前景图像数据规模、步骤2确定的种类总数以及步骤1确定的合成图像的尺寸,确定每张合成图像内对象的种类个数以及对象总数来生成合成图像。
2.根据权利要求1所述的扩充目标识别的训练数据的图像合成方法,其特征在于:所述步骤3的具体方法为:
步骤3.1、按照种类顺序遍历原始图像,以原始图片作为输入;记录所属种类以及文件名;
步骤3.2、采用图片处理库获取图片的尺寸W*H,即宽*高,并进行均值滤波;
步骤3.3、记录当前输入图像的每个像素点的灰度值,在RGB通道下,分别记录像素点(w,h)的灰度值为Rw,h、Gw,h、Bw,h,w∈W,h∈H;
步骤3.4、针对每一个像素点进行显著值计算,即计算该像素点与所有像素点间颜色的距离,
Figure FDA0003094466170000021
其中,Iw*h是任一像素点,S(Iw*h)表示该像素点的显著值,
Figure FDA0003094466170000022
表示该像素点与任一像素点间的颜色距离,通过计算该像素点与所有像素点间的距离之后求和即为该像素点的显著值;
步骤3.5、通过下式计算每个像素点Iw*h的灰度值,
L(Iw*h)=0.299×Rw*h+0.587×Gw*h+0.114×Bw*h
步骤3.6、对每一个像素建立特征向量
Figure FDA0003094466170000023
根据此特征向量进行K-means聚类,K根据图像复杂度选取;
步骤3.7、经过聚类后在原始图像中分离前景图像和底图,提取前景图像信息并记录坐标位置信息,按照种类进行保存;
步骤3.8、根据步骤3.7获取的前景图像的坐标,选取其中横坐标、纵坐标最大最小值作为目标的BoundingBox标记,以项目需求的文本格式保存成标记文件。
3.根据权利要求2所述的扩充目标识别的训练数据的图像合成方法,其特征在于:所述步骤6中生成合成图像的具体方法为:
步骤6.1、根据步骤1确定的图像尺寸,生成底图图像;
步骤6.2、根据步骤4获取的对象的种类及每个种类的对象的数目,从步骤3.7提取相应的前景图像,计算前景图像的面积Sforeground
步骤6.3、比较对应的前景图像与对象的面积大小,如果Sforeground>2.5Sobject,则缩小Sforeground,使Sforeground=Sobject,并获取处理后的前景图像的左上角和右下角的坐标Btop-left(X,Y)、Bbottom-right(X,Y),计算前景图像的中心坐标
Figure FDA0003094466170000024
步骤6.4、将步骤5中的中心坐标Acenter标记在步骤6.1的底图中,令前景图像的中心坐标Bcenter位于坐标Acenter位置上;依次完成各个对象中心坐标与前景图像中心坐标的对应;
步骤6.5、记录合成后图像的左上角和右下角的坐标B`top-left(X,Y)、B`bottom-right(X,Y),进行标记信息与图片的保存。
4.根据权利要求2所述的扩充目标识别的训练数据的图像合成方法,其特征在于:所述步骤7的具体方法为:
步骤7.1、根据步骤1确定的图像尺寸,生成底图图像,计算底图面积Sbackground
步骤7.2、根据确定的对象的种类总数以及个数总数随机选取步骤3.7处理好的前景图像,计算前景图像的面积Sforeground
步骤7.3、比较对应的前景图像与对象的面积大小,如果Sforeground>Sbackgroundt/3,则缩小Sforeground,使Sforeground<Sforeground/5,并获取缩放后的前景图像的左上角和右下角的坐标Btop-left(X,Y)、Bbottom-right(X,Y),以及前景图像的中心坐标
Figure FDA0003094466170000031
步骤7.4、将步骤7.3处理后的前景图像任意摆放在步骤7.1的底图中,并确保Btop-left(X,Y)和Bbottom-right(X,Y)不超过底图的边界;重新计算左上角和右下角的坐标B`top-left(X,Y)和B`bottom-right(X,Y),进行标记信息与图片的保存。
CN201810260915.4A 2018-03-28 2018-03-28 一种扩充目标识别的训练数据的图像合成方法 Active CN108492343B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810260915.4A CN108492343B (zh) 2018-03-28 2018-03-28 一种扩充目标识别的训练数据的图像合成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810260915.4A CN108492343B (zh) 2018-03-28 2018-03-28 一种扩充目标识别的训练数据的图像合成方法

Publications (2)

Publication Number Publication Date
CN108492343A CN108492343A (zh) 2018-09-04
CN108492343B true CN108492343B (zh) 2021-09-21

Family

ID=63316762

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810260915.4A Active CN108492343B (zh) 2018-03-28 2018-03-28 一种扩充目标识别的训练数据的图像合成方法

Country Status (1)

Country Link
CN (1) CN108492343B (zh)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109492522B (zh) * 2018-09-17 2022-04-01 中国科学院自动化研究所 特定目标检测模型训练程序、设备及计算机可读存储介质
CN109523507B (zh) * 2018-09-26 2023-09-19 苏州六莲科技有限公司 一种病变图像生成的方法、装置及计算机可读存储介质
CN109614983B (zh) * 2018-10-26 2023-06-16 创新先进技术有限公司 训练数据的生成方法、装置及系统
CN109583302B (zh) * 2018-10-29 2020-09-18 杭州电子科技大学 一种移动机器人可行区域训练数据集扩充方法
CN109544496A (zh) * 2018-11-19 2019-03-29 南京旷云科技有限公司 训练数据的生成方法、对象检测模型的训练方法和装置
CN109544529A (zh) * 2018-11-19 2019-03-29 南京信息工程大学 面向深度学习模型训练和学习的病理图像数据增强方法
CN109583509B (zh) * 2018-12-12 2020-11-03 南京旷云科技有限公司 数据生成方法、装置及电子设备
CN109829454A (zh) * 2019-01-17 2019-05-31 柳州康云互联科技有限公司 一种基于预训练标识的图像特征采集方法
CN109902577A (zh) * 2019-01-25 2019-06-18 华中科技大学 一种轻量级手势检测卷积神经网络模型的构建方法及应用
CN110309713A (zh) * 2019-05-22 2019-10-08 深圳壹账通智能科技有限公司 表情识别模型训练方法、装置、设备和存储介质
CN110503612B (zh) * 2019-07-31 2022-01-14 东北大学 一种基于位平面分离重组合数据增强方法
CN110503159B (zh) * 2019-08-28 2022-10-11 北京达佳互联信息技术有限公司 文字识别方法、装置、设备及介质
CN110991220B (zh) * 2019-10-15 2023-11-07 京东科技信息技术有限公司 禽蛋检测、图像处理方法,装置、电子设备及存储介质
CN110930360A (zh) * 2019-10-21 2020-03-27 北京海益同展信息科技有限公司 禽蛋检测、图像处理方法、装置、电子设备及存储介质
CN111062862A (zh) * 2019-12-19 2020-04-24 北京澎思科技有限公司 基于颜色的数据增强方法和系统及计算机设备和存储介质
CN111369518B (zh) * 2020-02-28 2022-11-01 创新奇智(合肥)科技有限公司 样本扩充方法、装置、电子设备及可读存储介质
CN111091167B (zh) * 2020-03-25 2020-07-28 同盾控股有限公司 标志识别训练数据合成方法、装置、电子设备及存储介质
CN111882508A (zh) * 2020-06-17 2020-11-03 武汉光庭信息技术股份有限公司 一种包含多目标的图片数据集的生成方法及系统
CN111860387B (zh) * 2020-07-27 2023-08-25 平安科技(深圳)有限公司 扩充数据的方法、装置和计算机设备
CN112488974B (zh) * 2020-12-09 2024-07-05 广州品唯软件有限公司 图像合成方法、装置、计算机设备和存储介质
CN112633392A (zh) * 2020-12-29 2021-04-09 博微太赫兹信息科技有限公司 一种太赫兹人体安检图像目标检测模型训练数据增广方法
CN112560998A (zh) * 2021-01-19 2021-03-26 德鲁动力科技(成都)有限公司 针对目标检测的少样本数据扩增方法
CN112802049B (zh) * 2021-03-04 2022-10-11 山东大学 一种家庭物品检测数据集构建方法及系统
CN114529705B (zh) * 2022-04-22 2022-07-19 山东捷瑞数字科技股份有限公司 一种三维引擎编辑器的界面布局处理方法
CN115034962A (zh) * 2022-08-11 2022-09-09 中科开创(广州)智能科技发展有限公司 通道可视化训练数据合成方法、装置、设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324937A (zh) * 2012-03-21 2013-09-25 日电(中国)有限公司 标注目标的方法和装置
CN107451950A (zh) * 2016-05-30 2017-12-08 北京旷视科技有限公司 人脸图像生成方法、人脸识别模型训练方法及相应装置
CN107833280A (zh) * 2017-11-09 2018-03-23 交通运输部天津水运工程科学研究所 一种基于地理网格与图像识别相结合的户外移动增强现实方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101845318B1 (ko) * 2010-11-29 2018-05-18 포토내이션 리미티드 핸드헬드 장치상에서 캡처된 다수의 이미지로부터의 인물사진 이미지 합성

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103324937A (zh) * 2012-03-21 2013-09-25 日电(中国)有限公司 标注目标的方法和装置
CN107451950A (zh) * 2016-05-30 2017-12-08 北京旷视科技有限公司 人脸图像生成方法、人脸识别模型训练方法及相应装置
CN107833280A (zh) * 2017-11-09 2018-03-23 交通运输部天津水运工程科学研究所 一种基于地理网格与图像识别相结合的户外移动增强现实方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《An Efficient Feature-based Non-rigid Registration of Multiphase Liver CT Images using Matching Region Partition》;Cao, Y 等;《ICIEA 2010: PROCEEDINGS OF THE 5TH IEEE CONFERENCE ON INDUSTRIAL ELECTRONICS AND APPLICATIONS》;20100617;全文 *
《样本扩充的稀疏表示单样本人脸识别》;甘俊英 等;《信号处理》;20141231;第30卷(第7期);全文 *

Also Published As

Publication number Publication date
CN108492343A (zh) 2018-09-04

Similar Documents

Publication Publication Date Title
CN108492343B (zh) 一种扩充目标识别的训练数据的图像合成方法
CN110837870B (zh) 基于主动学习的声呐图像目标识别方法
Wang et al. Joint learning of visual attributes, object classes and visual saliency
CN109583483B (zh) 一种基于卷积神经网络的目标检测方法和系统
CN110648322B (zh) 一种子宫颈异常细胞检测方法及系统
CN112132058B (zh) 一种头部姿态估计方法及其实现系统、存储介质
Wang et al. Background-driven salient object detection
US11704357B2 (en) Shape-based graphics search
CN107527054B (zh) 基于多视角融合的前景自动提取方法
CN107622280B (zh) 基于场景分类的模块化处方式图像显著性检测方法
CN110866896A (zh) 基于k-means与水平集超像素分割的图像显著性目标检测方法
US8429163B1 (en) Content similarity pyramid
TWI637325B (zh) 使用多顏色通道無記號偵測之便箋辨識與管理
CN110598715A (zh) 图像识别方法、装置、计算机设备及可读存储介质
CN112541922A (zh) 基于数字图像的试卷布局分割方法、电子设备及存储介质
CN108647703B (zh) 一种基于显著性的分类图像库的类型判断方法
CN111667491A (zh) 基于深度对抗网络的带边界标注信息乳腺肿块图生成方法
CN107358189A (zh) 一种基于多视目标提取的室内环境下物体检测方法
CN113705579A (zh) 一种视觉显著性驱动的图像自动标注方法
CN110956184A (zh) 一种基于hsi-lbp特征的抽象图方向确定方法
CN105338335B (zh) 一种立体图像显著图提取方法
CN108765384B (zh) 一种联合流形排序和改进凸包的显著性检测方法
CN108460406B (zh) 基于最小单纯形融合特征学习的场景图像属性识别方法
Visalatchi et al. Intelligent Vision with TensorFlow using Neural Network Algorithms
CN111881732B (zh) 一种基于svm的人脸质量评价方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230118

Address after: Room 430, Building F7, No. 860-2, Shangshengou Village, Dongling District, Shenyang, Liaoning Province, 110000

Patentee after: Shenyang Mingran Technology Co.,Ltd.

Address before: 110819 No. 3 lane, Heping Road, Heping District, Shenyang, Liaoning 11

Patentee before: Northeastern University

TR01 Transfer of patent right