CN110135458A - 图像数据集增广方法、系统、计算机设备和存储介质 - Google Patents
图像数据集增广方法、系统、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN110135458A CN110135458A CN201910298357.5A CN201910298357A CN110135458A CN 110135458 A CN110135458 A CN 110135458A CN 201910298357 A CN201910298357 A CN 201910298357A CN 110135458 A CN110135458 A CN 110135458A
- Authority
- CN
- China
- Prior art keywords
- loss function
- data
- target
- image
- style
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003416 augmentation Effects 0.000 title claims abstract description 51
- 238000000034 method Methods 0.000 title claims abstract description 40
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 87
- 230000006870 function Effects 0.000 claims description 166
- 238000013507 mapping Methods 0.000 claims description 62
- 239000011159 matrix material Substances 0.000 claims description 28
- 238000004590 computer program Methods 0.000 claims description 18
- 230000003190 augmentative effect Effects 0.000 claims description 9
- 238000012546 transfer Methods 0.000 abstract description 11
- 239000000284 extract Substances 0.000 description 10
- 238000013527 convolutional neural network Methods 0.000 description 8
- 238000000605 extraction Methods 0.000 description 8
- 239000000463 material Substances 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000013135 deep learning Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000003475 lamination Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000009467 reduction Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 238000013434 data augmentation Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 210000004218 nerve net Anatomy 0.000 description 2
- 230000001537 neural effect Effects 0.000 description 2
- 230000000149 penetrating effect Effects 0.000 description 2
- 230000004888 barrier function Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种图像数据集增广方法、系统、计算机设备和存储介质,图像数据集增广方法包括:获取具有目标内容数据的第一类图像和具有目标风格特征数据的第二类图像;通过预设卷积算法获取目标内容数据和目标风格特征数据;确定与目标内容数据和目标风格特征数据相关的目标损失函数,通过目标损失函数进行迭代计算,以生成具有目标内容数据和目标风格特征数据的第三类图像。应用了本发明提供的技术方案,依据图像风格迁移思想,可将不同样本图像中的目标内容数据和目标风格特征数据进行组合,进而得到同时具备两个样本特征的第三类图像,实现了简单有效的图像数据集增广。
Description
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种图像数据集增广方法、一种图像数据集增广系统、一种计算机设备和一种计算机可读存储介质。
背景技术
基于深度学习的夜间图像还原任务神经网络训练阶段需要白天至黑夜的图像集对。其中图像还原是逐像素对比还原,即图像最小粒度像素级对齐还原。现场的工业环境通常依靠摄像头采集同一拍摄主体(如煤堆)在白天/黑夜时的成对图像,但白天采集某一场景(如煤堆)的图像后,随着施工进程,到了夜间煤堆可能会减小,或存在其他障碍物(车辆或行人)遮挡,使得煤堆白天-黑夜相同内容和位置的图像在采集时十分困难。
常用的数据增广方法,如水平翻转、一定程度的位移、裁剪、旋转、颜色抖动、增加噪声等数据增广方法大多适用于分类和检测任务,针对图像还原任务并不适用。
因此,目前亟需一种可以用于图像还原任务的图像数据集增广方法。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的第一方面提出一种图像数据集增广方法。
本发明的第二方面提出一种图像数据集增广系统。
本发明的第三方面提出一种计算机设备。
本发明的第四方面提出一种计算机可读存储介质。
有鉴于此,本发明的第一方面提供了一种图像数据集增广方法,包括:获取具有目标内容数据的第一类图像和具有目标风格特征数据的第二类图像;通过预设卷积算法获取目标内容数据和目标风格特征数据;确定与目标内容数据和目标风格特征数据相关的目标损失函数,通过目标损失函数进行迭代计算,以生成具有目标内容数据和目标风格特征数据的第三类图像。
在该技术方案中,首先获取具有目标内容数据的第一类图像,同时获取具有目标风格特征数据的第二类图像。其中第一类图像的数量可大于第二类图像的数量。以第一类图像作为内容图像,以第二类图像为风格图像,根据图像风格迁移思想,通过深度学习算法,即预设卷积算法获取第一类图像的目标内容数据,并获取第二类图像的目标风格特征数据。在完成目标内容数据和目标风格特征数据的提取后,进一步确定与目标内容数据和目标风格特征数据相关的目标损失函数,并通过目标损失函数进行迭代计算,最终得到的计算结果为同时具有目标内容数据和目标风格特征数据的第三类图像,实现了图像数据集的增广。应用了本发明提供的技术方案,依据图像风格迁移思想,可将不同样本图像中的目标内容数据和目标风格特征数据进行组合,进而得到同时具备两个样本特征的第三类图像,实现了简单有效的图像数据集增广。
具体地,以应用场景为对煤堆的夜间图像样本进行增广为例。煤堆的白天图像的采集比较容易实现,因此可获得大量煤堆的白天图像。而相同位置的煤堆的夜间图像的采集较为困难,可采集一部分煤堆的夜间图像。通过提取白天图像中的目标内容数据,即拍摄主体“煤堆”,同时提取夜间图像中的目标风格特征数据,即“夜间”,通过损失函数迭代计算,将“夜间”的风格迁移“煤堆”的内容上,进而生成了一张“夜间的煤堆”的新的图像,从而实现了对煤堆的夜间图像的数据集增广。
另外,本发明提供的上述技术方案中的图像数据集增广方法还可以具有如下附加技术特征:
在上述技术方案中,进一步地,确定与目标内容数据和目标风格特征数据相关的损失函数的步骤,具体包括:根据预设卷积算法和内容数据确定与目标内容数据相关的第一相似度损失函数;根据预设卷积算法和风格特征数据确定与目标风格特征数据相关的第二相似度损失函数;根据第一相似度损失函数和第二相似度损失函数确定目标损失函数。
在该技术方案中,首先根据预设卷积算法和内容数据确定与目标内容数据相关的第一相似度损失函数,然后根据预设卷积算法和风格特征数据确定与目标风格特征数据相关的第二相似度损失函数,最后根据第一相似度损失函数和第二相似度损失函数确定目标损失函数。具体地,卷积神经网络有很强的特征提取功能,通过预设卷积算法中高层神经网络提取图像的风格,比如色彩和排列。低层神经网络提取图像的内容,也就是图像的细节,由此可将图像“内容”和“风格”,即目标内容数据和目标风格特征数据分别提取出来,然后进一步生成具有目标内容数据和目标风格特征数据的目标图像。其中,为了使最终得到的目标图像与第一类图像的内容相似,因此需要定义与内容数据相关的第一相似度损失函数,而为了使目标图像与第二类图像的风格相似,需要定义与风格特征数据相关的第二相似度损失函数,最后结合第一相似度损失函数和第二相似度损失函数,以确定目标损失函数,通过目标损失函数实现图像数据集增广。
在上述任一技术方案中,进一步地,目标内容数据为第一类图像在预设卷积算法中预设卷积层的特征映射;目标风格特征数据通过预设卷积算法中每一个卷积层的特征映射之间的格拉姆矩阵表示。
在该技术方案中,目标内容数据具体为第一类图像在预设卷积算法中预设卷积层的特征映射。具体地,第一类图像的尺寸选用1280×720的像素密度图像,在预设卷积算法为VGG-19(一种由牛津大学提供的卷积神经网络结构)算法时,卷积层越深,池化(pooling)的次数越多,其特征映射(feature map)的尺寸越小,感受野越大,因此选该网络conv5_1层的特征映射作为图像内容表示,即目标内容数据可以获得较好的效果。同时,目标风格特征数据通过预设卷积算法中每一个卷积层的特征映射之间的格拉姆矩阵表示。具体地,图像的风格由不同卷积层的不同特征映射的相关性进行表示。仍以VGG-19算法为例,不同特征映射的相关性,具体由卷积层conv1_1、卷积层conv2_1、卷积层conv3_1、卷积层conv4_1和卷积层conv5_1中每一层输出的特征映射所得到的格拉姆(Gram)矩阵表示,格拉姆矩阵的元素为特征映射相量之间的内积,其具体计算公式为:
其中,G为格拉姆矩阵,l为预设卷积算法中的第l个卷积层,Fi为第i个卷积层中特征映射的向量,Fj为第j个卷积层中特征映射的向量,k=1,2,3,4...。
在上述任一技术方案中,进一步地,第一相似度损失函数具体为:
第二相似度损失函数具体为:
目标损失函数具体为:
其中,Ltotal为目标损失函数,为第一相似度损失函数,为第二相似度损失函数,L为预设卷积算法的卷积层数,l为预设卷积算法中的第l个卷积层,I为目标内容数据,Fl为第l个卷积层中的特征映射的向量,Nl为第l个卷积层中特征映射的数量,Dl为特征映射的尺寸,G为格拉姆矩阵,O为第三类图像,S为目标风格特征数据,αl为第一相似度损失函数中每一个卷积层的第一权重比例,βl为第二相似度损失函数中每一个卷积层的第二权重比例。
在该技术方案中,通过目标损失函数可最终计算得到第三类图像O,实现对图像数据集的增广。其中,设置αl和βl作为第一相似度损失函数和第二相似度损失函数中每一个卷积层的第二权重比例,使得最终得到的第三类图像O更加贴近需求,并根据实际需要灵活调整。
本发明的第二方面提供了一种图像数据集增广系统,包括:存储器和处理器,存储器用于存储计算机程序;处理器用于执行计算机程序以实现:获取具有目标内容数据的第一类图像和具有目标风格特征数据的第二类图像;通过预设卷积算法获取目标内容数据和目标风格特征数据;确定与目标内容数据和目标风格特征数据相关的目标损失函数,通过目标损失函数进行迭代计算,以生成具有目标内容数据和目标风格特征数据的第三类图像。
在该技术方案中,首先获取具有目标内容数据的第一类图像,同时获取具有目标风格特征数据的第二类图像。其中第一类图像的数量可大于第二类图像的数量。以第一类图像作为内容图像,以第二类图像为风格图像,根据图像风格迁移思想,通过深度学习算法,即预设卷积算法获取第一类图像的目标内容数据,并获取第二类图像的目标风格特征数据。在完成目标内容数据和目标风格特征数据的提取后,进一步确定与目标内容数据和目标风格特征数据相关的目标损失函数,并通过目标损失函数进行迭代计算,最终得到的计算结果为同时具有目标内容数据和目标风格特征数据的第三类图像,实现了图像数据集的增广。应用了本发明提供的技术方案,依据图像风格迁移思想,可将不同样本图像中的目标内容数据和目标风格特征数据进行组合,进而得到同时具备两个样本特征的第三类图像,实现了简单有效的图像数据集增广。
在上述技术方案中,进一步地,处理器执行计算机程序以实现确定与目标内容数据和目标风格特征数据相关的损失函数的步骤,具体包括:根据预设卷积算法和内容数据确定与目标内容数据相关的第一相似度损失函数;根据预设卷积算法和风格特征数据确定与目标风格特征数据相关的第二相似度损失函数;根据第一相似度损失函数和第二相似度损失函数确定目标损失函数。
在该技术方案中,首先根据预设卷积算法和内容数据确定与目标内容数据相关的第一相似度损失函数,然后根据预设卷积算法和风格特征数据确定与目标风格特征数据相关的第二相似度损失函数,最后根据第一相似度损失函数和第二相似度损失函数确定目标损失函数。具体地,卷积神经网络有很强的特征提取功能,通过预设卷积算法中高层神经网络提取图像的风格,比如色彩和排列。低层神经网络提取图像的内容,也就是图像的细节,由此可将图像“内容”和“风格”,即目标内容数据和目标风格特征数据分别提取出来,然后进一步生成具有目标内容数据和目标风格特征数据的目标图像。其中,为了使最终得到的目标图像与第一类图像的内容相似,因此需要定义与内容数据相关的第一相似度损失函数,而为了使目标图像与第二类图像的风格相似,需要定义与风格特征数据相关的第二相似度损失函数,最后结合第一相似度损失函数和第二相似度损失函数,以确定目标损失函数,通过目标损失函数实现图像数据集增广。
在上述任一技术方案中,进一步地,目标内容数据为第一类图像在预设卷积算法中预设卷积层的特征映射;目标风格特征数据通过预设卷积算法中每一个卷积层的特征映射之间的格拉姆矩阵表示。
在该技术方案中,目标内容数据具体为第一类图像在预设卷积算法中预设卷积层的特征映射。具体地,第一类图像的尺寸选用1280×720的像素密度图像,在预设卷积算法为VGG-19(一种由牛津大学提供的卷积神经网络结构)算法时,卷积层越深,池化(pooling)的次数越多,其特征映射(feature map)的尺寸越小,感受野越大,因此选该网络conv5_1层的特征映射作为图像内容表示,即目标内容数据可以获得较好的效果。同时,目标风格特征数据通过预设卷积算法中每一个卷积层的特征映射之间的格拉姆矩阵表示。具体地,图像的风格由不同卷积层的不同特征映射的相关性进行表示。仍以VGG-19算法为例,不同特征映射的相关性,具体由卷积层conv1_1、卷积层conv2_1、卷积层conv3_1、卷积层conv4_1和卷积层conv5_1中每一层输出的特征映射所得到的格拉姆(Gram)矩阵表示,格拉姆矩阵的元素为特征映射相量之间的内积,其具体计算公式为:
其中,G为格拉姆矩阵,l为预设卷积算法中的第l个卷积层,Fi为第i个卷积层中特征映射的向量,Fj为第j个卷积层中特征映射的向量,k=1,2,3,4...。
在上述任一技术方案中,进一步地,第一相似度损失函数具体为:
第二相似度损失函数具体为:
目标损失函数具体为:
其中,Ltotal为目标损失函数,为第一相似度损失函数,为第二相似度损失函数,L为预设卷积算法的卷积层数,l为预设卷积算法中的第l个卷积层,I为目标内容数据,Fl为第l个卷积层中的特征映射的向量,Nl为第l个卷积层中特征映射的数量,Dl为特征映射的尺寸,G为格拉姆矩阵,O为第三类图像,S为目标风格特征数据,αl为第一相似度损失函数中每一个卷积层的第一权重比例,βl为第二相似度损失函数中每一个卷积层的第二权重比例。
在该技术方案中,通过目标损失函数可最终计算得到第三类图像O,实现对图像数据集的增广。其中,设置αl和βl作为第一相似度损失函数和第二相似度损失函数中每一个卷积层的第二权重比例,使得最终得到的第三类图像O更加贴近需求,并根据实际需要灵活调整。
本发明的第三方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述任一技术方案中的图像数据集增广方法,因此该计算机设备包括如上述任一技术方案中的图像数据集增广方法的全部有益效果。
本发明的第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一技术方案中的图像数据集增广方法,因此该计算机可读存储介质包括如上述任一技术方案中的图像数据集增广方法的全部有益效果。
附图说明
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
图1示出了根据本发明的一个实施例的图像数据集增广方法的流程图;
图2示出了根据本发明的另一个实施例的图像数据集增广方法的流程图;
图3示出了根据本发明的又一个实施例的图像数据集增广方法的流程图;
图4示出了根据本发明的一个实施例的图像数据集增广方法中VGG-19卷积神经网络模型的示意图;
图5示出了根据本发明的一个实施例的图像数据集增广系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
下面参照图1至图5描述根据本发明一些实施例所述
如图1所示,在本发明第一方面的实施例中,提供了一种图像数据集增广方法,包括:
S102,获取具有目标内容数据的第一类图像和具有目标风格特征数据的第二类图像;
S104,通过预设卷积算法获取目标内容数据和目标风格特征数据;
S106,确定与目标内容数据和目标风格特征数据相关的目标损失函数,通过目标损失函数进行迭代计算,以生成具有目标内容数据和目标风格特征数据的第三类图像。
在该实施例中,首先获取具有目标内容数据的第一类图像,同时获取具有目标风格特征数据的第二类图像。其中第一类图像的数量可大于第二类图像的数量。以第一类图像作为内容图像,以第二类图像为风格图像,根据图像风格迁移思想,通过深度学习算法,即预设卷积算法获取第一类图像的目标内容数据,并获取第二类图像的目标风格特征数据。在完成目标内容数据和目标风格特征数据的提取后,进一步确定与目标内容数据和目标风格特征数据相关的目标损失函数,并通过目标损失函数进行迭代计算,最终得到的计算结果为同时具有目标内容数据和目标风格特征数据的第三类图像,实现了图像数据集的增广。应用了本发明提供的技术方案,依据图像风格迁移思想,可将不同样本图像中的目标内容数据和目标风格特征数据进行组合,进而得到同时具备两个样本特征的第三类图像,实现了简单有效的图像数据集增广。
具体地,以应用场景为对煤堆的夜间图像样本进行增广为例。煤堆的白天图像的采集比较容易实现,因此可获得大量煤堆的白天图像。而相同位置的煤堆的夜间图像的采集较为困难,可采集一部分煤堆的夜间图像。通过提取白天图像中的目标内容数据,即拍摄主体“煤堆”,同时提取夜间图像中的目标风格特征数据,即“夜间”,通过损失函数迭代计算,将“夜间”的风格迁移“煤堆”的内容上,进而生成了一张“夜间的煤堆”的新的图像,从而实现了对煤堆的夜间图像的数据集增广。
在本发明的一个实施例中,进一步地,如图2所示,确定与目标内容数据和目标风格特征数据相关的损失函数的步骤,具体包括:
S202,根据预设卷积算法和内容数据确定与目标内容数据相关的第一相似度损失函数;
S204,根据预设卷积算法和风格特征数据确定与目标风格特征数据相关的第二相似度损失函数;
S206,根据第一相似度损失函数和第二相似度损失函数确定目标损失函数。
在该实施例中,首先根据预设卷积算法和内容数据确定与目标内容数据相关的第一相似度损失函数,然后根据预设卷积算法和风格特征数据确定与目标风格特征数据相关的第二相似度损失函数,最后根据第一相似度损失函数和第二相似度损失函数确定目标损失函数。具体地,卷积神经网络有很强的特征提取功能,通过预设卷积算法中高层神经网络提取图像的风格,比如色彩和排列。低层神经网络提取图像的内容,也就是图像的细节,由此可将图像“内容”和“风格”,即目标内容数据和目标风格特征数据分别提取出来,然后进一步生成具有目标内容数据和目标风格特征数据的目标图像。其中,为了使最终得到的目标图像与第一类图像的内容相似,因此需要定义与内容数据相关的第一相似度损失函数,而为了使目标图像与第二类图像的风格相似,需要定义与风格特征数据相关的第二相似度损失函数,最后结合第一相似度损失函数和第二相似度损失函数,以确定目标损失函数,通过目标损失函数实现图像数据集增广。
在本发明的一个实施例中,进一步地,目标内容数据为第一类图像在预设卷积算法中预设卷积层的特征映射;目标风格特征数据通过预设卷积算法中每一个卷积层的特征映射之间的格拉姆矩阵表示。
在该实施例中,目标内容数据具体为第一类图像在预设卷积算法中预设卷积层的特征映射。具体地,第一类图像的尺寸选用1280×720的像素密度图像,在预设卷积算法为VGG-19(一种由牛津大学提供的卷积神经网络结构)算法时,卷积层越深,池化(pooling)的次数越多,其特征映射(feature map)的尺寸越小,感受野越大,因此选该网络conv5_1层的特征映射作为图像内容表示,即目标内容数据可以获得较好的效果。同时,目标风格特征数据通过预设卷积算法中每一个卷积层的特征映射之间的格拉姆矩阵表示。具体地,图像的风格由不同卷积层的不同特征映射的相关性进行表示。仍以VGG-19算法为例,不同特征映射的相关性,具体由卷积层conv1_1、卷积层conv2_1、卷积层conv3_1、卷积层conv4_1和卷积层conv5_1中每一层输出的特征映射所得到的格拉姆(Gram)矩阵表示,格拉姆矩阵的元素为特征映射相量之间的内积,其具体计算公式为:
其中,G为格拉姆矩阵,l为预设卷积算法中的第l个卷积层,Fi为第i个卷积层中特征映射的向量,Fj为第j个卷积层中特征映射的向量,k=1,2,3,4...。
在本发明的一个实施例中,进一步地,第一相似度损失函数具体为:
第二相似度损失函数具体为:
目标损失函数具体为:
其中,Ltotal为目标损失函数,为第一相似度损失函数,为第二相似度损失函数,L为预设卷积算法的卷积层数,l为预设卷积算法中的第l个卷积层,I为目标内容数据,Fl为第l个卷积层中的特征映射的向量,Nl为第l个卷积层中特征映射的数量,Dl为特征映射的尺寸,G为格拉姆矩阵,O为第三类图像,S为目标风格特征数据,αl为第一相似度损失函数中每一个卷积层的第一权重比例,βl为第二相似度损失函数中每一个卷积层的第二权重比例。
在该实施例中,通过目标损失函数可最终计算得到第三类图像O,实现对图像数据集的增广。其中,设置αl和βl作为第一相似度损失函数和第二相似度损失函数中每一个卷积层的第二权重比例,使得最终得到的第三类图像O更加贴近需求,并根据实际需要灵活调整。
如图3所示,具体实施过程中,首先需要收集数据,并选取合适的预设卷积算法,优选使用VGG-19网络,确定需要的目标内容数据和目标风格特征数据,进一步定义第一相似度损失函数(内容相似度损失函数)和第二相似度损失函数(风格相似度损失函数),最后通过迭代求解生成最终的增广图像。具体应用的流程如下:
S302,收集数据,现场采集大量白天图像和部分夜间图像,选取内容图像和风格图像;
S304,选取ImageNet上预训练的VGG-19网络;
S306,选取图像的目标内容数据和目标风格特征数据;
S308,定义图像内容相似性损失函数和风格相似性损失函数;
S310,迭代求解,生成具有夜间风格的白天图像。
具体地,运用如图4所示的VGG-19网络中卷积层conv 5_1作为图片的内容表示,然后选取图像风格表示、定义相似性损失函数,进行迭代求解目标图像。图像尺寸选用像素密度为1280×720的图像,选用卷积层conv 5_1可加速迭代过程。
一般来说,现有技术中往往采用伽马校正方法由白天图像生成对应的黑夜图像的技术方案,其中由于伽马校正是对图像的伽马曲线进行编辑,以对图像进行非线性色调编辑的方法,检出图像信号中的深色部分和浅色部分,并使两者比例增大,从而提高图像对比度效果。但该技术方案中其由白天图片生成黑夜图片的过程中只考虑白天图片自身的结构特点,没有参照任何黑夜图片的信息,由白天生成的黑夜图片集分布单一,导致后续图像还原训练的模型泛化能力弱。在本申请中,以煤堆图像为例,由摄像头采集大量白天煤堆图片和一部分夜间煤堆图片,选取煤堆一张夜间图像s和一张白天图像i,夜间图像s经过VGG-19算法的时候在每个卷积层会得到很多feature maps,这些feature maps组成一个集合S,同样的,白天图像i通过VGG-19算法的时候也会得到很多feature maps,这些feature maps组成一个集合I,然后生成一张随机噪声图像o,随机噪声图像o通过VGG-19算法的时候也会生成很多feature maps,这些feature maps构成集合G和F分别对应集合S和I,最终的优化函数是让随机噪声生成的图像O最后看起来既保持白天图像i的内容,又有一定的夜间图像s的风格,由此生成和白天图像完全对应的夜间图像,完成夜间图像还原任务图片数据集的增广。
如图5所示,在本发明第二方面的实施例中,提供了一种图像数据集增广系统500,包括:存储器502和处理器504,存储器502用于存储计算机程序;处理器504用于执行计算机程序以实现:获取具有目标内容数据的第一类图像和具有目标风格特征数据的第二类图像;通过预设卷积算法获取目标内容数据和目标风格特征数据;确定与目标内容数据和目标风格特征数据相关的目标损失函数,通过目标损失函数进行迭代计算,以生成具有目标内容数据和目标风格特征数据的第三类图像。
在该实施例中,首先获取具有目标内容数据的第一类图像,同时获取具有目标风格特征数据的第二类图像。其中第一类图像的数量可大于第二类图像的数量。以第一类图像作为内容图像,以第二类图像为风格图像,根据图像风格迁移思想,通过深度学习算法,即预设卷积算法获取第一类图像的目标内容数据,并获取第二类图像的目标风格特征数据。在完成目标内容数据和目标风格特征数据的提取后,进一步确定与目标内容数据和目标风格特征数据相关的目标损失函数,并通过目标损失函数进行迭代计算,最终得到的计算结果为同时具有目标内容数据和目标风格特征数据的第三类图像,实现了图像数据集的增广。应用了本发明提供的技术方案,依据图像风格迁移思想,可将不同样本图像中的目标内容数据和目标风格特征数据进行组合,进而得到同时具备两个样本特征的第三类图像,实现了简单有效的图像数据集增广。
在本发明的一个实施例中,进一步地,如图5所示,处理器504执行计算机程序以实现确定与目标内容数据和目标风格特征数据相关的损失函数的步骤,具体包括:根据预设卷积算法和内容数据确定与目标内容数据相关的第一相似度损失函数;根据预设卷积算法和风格特征数据确定与目标风格特征数据相关的第二相似度损失函数;根据第一相似度损失函数和第二相似度损失函数确定目标损失函数。
在该实施例中,首先根据预设卷积算法和内容数据确定与目标内容数据相关的第一相似度损失函数,然后根据预设卷积算法和风格特征数据确定与目标风格特征数据相关的第二相似度损失函数,最后根据第一相似度损失函数和第二相似度损失函数确定目标损失函数。具体地,卷积神经网络有很强的特征提取功能,通过预设卷积算法中高层神经网络提取图像的风格,比如色彩和排列。低层神经网络提取图像的内容,也就是图像的细节,由此可将图像“内容”和“风格”,即目标内容数据和目标风格特征数据分别提取出来,然后进一步生成具有目标内容数据和目标风格特征数据的目标图像。其中,为了使最终得到的目标图像与第一类图像的内容相似,因此需要定义与内容数据相关的第一相似度损失函数,而为了使目标图像与第二类图像的风格相似,需要定义与风格特征数据相关的第二相似度损失函数,最后结合第一相似度损失函数和第二相似度损失函数,以确定目标损失函数,通过目标损失函数实现图像数据集增广。
在本发明的一个实施例中,进一步地,目标内容数据为第一类图像在预设卷积算法中预设卷积层的特征映射;目标风格特征数据通过预设卷积算法中每一个卷积层的特征映射之间的格拉姆矩阵表示。
在该实施例中,目标内容数据具体为第一类图像在预设卷积算法中预设卷积层的特征映射。具体地,第一类图像的尺寸选用1280×720的像素密度图像,在预设卷积算法为VGG-19(一种由牛津大学提供的卷积神经网络结构)算法时,卷积层越深,池化(pooling)的次数越多,其特征映射(feature map)的尺寸越小,感受野越大,因此选该网络conv5_1层的特征映射作为图像内容表示,即目标内容数据可以获得较好的效果。同时,目标风格特征数据通过预设卷积算法中每一个卷积层的特征映射之间的格拉姆矩阵表示。具体地,图像的风格由不同卷积层的不同特征映射的相关性进行表示。仍以VGG-19算法为例,不同特征映射的相关性,具体由卷积层conv1_1、卷积层conv2_1、卷积层conv3_1、卷积层conv4_1和卷积层conv5_1中每一层输出的特征映射所得到的格拉姆(Gram)矩阵表示,格拉姆矩阵的元素为特征映射相量之间的内积,其具体计算公式为:
其中,G为格拉姆矩阵,l为预设卷积算法中的第l个卷积层,Fi为第i个卷积层中特征映射的向量,Fj为第j个卷积层中特征映射的向量,k=1,2,3,4...。
在本发明的一个实施例中,进一步地,第一相似度损失函数具体为:
第二相似度损失函数具体为:
目标损失函数具体为:
其中,Ltotal为目标损失函数,为第一相似度损失函数,为第二相似度损失函数,L为预设卷积算法的卷积层数,l为预设卷积算法中的第l个卷积层,I为目标内容数据,Fl为第l个卷积层中的特征映射的向量,Nl为第l个卷积层中特征映射的数量,Dl为特征映射的尺寸,G为格拉姆矩阵,O为第三类图像,S为目标风格特征数据,αl为第一相似度损失函数中每一个卷积层的第一权重比例,βl为第二相似度损失函数中每一个卷积层的第二权重比例。通过目标损失函数可最终计算得到第三类图像,实现对图像数据集的增广。
在该实施例中,通过目标损失函数可最终计算得到第三类图像O,实现对图像数据集的增广。其中,设置αl和βl作为第一相似度损失函数和第二相似度损失函数中每一个卷积层的第二权重比例,使得最终得到的第三类图像O更加贴近需求,并根据实际需要灵活调整。
在本发明第三方面的实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现如上述任一实施例中的图像数据集增广方法,因此该计算机设备包括如上述任一实施例中的图像数据集增广方法的全部有益效果。
在本发明第四方面的实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现如上述任一实施例中的图像数据集增广方法,因此该计算机可读存储介质包括如上述任一实施例中的图像数据集增广方法的全部有益效果。
本发明的描述中,术语“多个”则指两个或两个以上,除非另有明确的限定,术语“上”、“下”等指示的方位或位置关系为基于附图所述的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制;术语“连接”、“安装”、“固定”等均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本发明中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种图像数据集增广方法,其特征在于,包括:
获取具有目标内容数据的第一类图像和具有目标风格特征数据的第二类图像;
通过预设卷积算法获取所述目标内容数据和所述目标风格特征数据;
确定与所述目标内容数据和所述目标风格特征数据相关的目标损失函数,通过所述目标损失函数进行迭代计算,以生成具有所述目标内容数据和所述目标风格特征数据的第三类图像。
2.根据权利要求1所述的图像数据集增广方法,其特征在于,所述确定与所述目标内容数据和所述目标风格特征数据相关的损失函数的步骤,具体包括:
根据所述预设卷积算法和所述内容数据确定与所述目标内容数据相关的第一相似度损失函数;
根据所述预设卷积算法和所述风格特征数据确定与所述目标风格特征数据相关的第二相似度损失函数;
根据所述第一相似度损失函数和所述第二相似度损失函数确定所述目标损失函数。
3.根据权利要求2所述的图像数据集增广方法,其特征在于,所述目标内容数据为所述第一类图像在所述预设卷积算法中预设卷积层的特征映射;
所述目标风格特征数据通过所述预设卷积算法中每一个卷积层的所述特征映射之间的格拉姆矩阵表示。
4.根据权利要求3所述的图像数据集增广方法,其特征在于,所述第一相似度损失函数具体为:
所述第二相似度损失函数具体为:
所述目标损失函数具体为:
其中,Ltotal为所述目标损失函数,为所述第一相似度损失函数,为所述第二相似度损失函数,L为所述预设卷积算法的卷积层数,l为所述预设卷积算法中的第l个卷积层,I为所述目标内容数据,Fl为第l个卷积层中的所述特征映射的向量,Nl为第l个卷积层中所述特征映射的数量,Dl为所述特征映射的尺寸,G为所述格拉姆矩阵,O为所述第三类图像,S为所述目标风格特征数据,αl为所述第一相似度损失函数中每一个卷积层的第一权重比例,βl为所述第二相似度损失函数中每一个卷积层的第二权重比例。
5.一种图像数据集增广系统,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序以实现:
获取具有目标内容数据的第一类图像和具有目标风格特征数据的第二类图像;
通过预设卷积算法获取所述目标内容数据和所述目标风格特征数据;
确定与所述目标内容数据和所述目标风格特征数据相关的目标损失函数,通过所述目标损失函数进行迭代计算,以生成具有所述目标内容数据和所述目标风格特征数据的第三类图像。
6.根据权利要求5所述的图像数据集增广系统,其特征在于,所述处理器执行所述计算机程序以实现所述确定与所述目标内容数据和所述目标风格特征数据相关的损失函数的步骤,具体包括:
根据所述预设卷积算法和所述内容数据确定与所述目标内容数据相关的第一相似度损失函数;
根据所述预设卷积算法和所述风格特征数据确定与所述目标风格特征数据相关的第二相似度损失函数;
根据所述第一相似度损失函数和所述第二相似度损失函数确定所述目标损失函数。
7.根据权利要求6所述的图像数据集增广系统,其特征在于,所述目标内容数据为所述第一类图像在所述预设卷积算法中预设卷积层的特征映射;
所述目标风格特征数据通过所述预设卷积算法中每一个卷积层的所述特征映射之间的格拉姆矩阵表示。
8.根据权利要求7所述的图像数据集增广系统,其特征在于,所述第一相似度损失函数具体为:
所述第二相似度损失函数具体为:
所述目标损失函数具体为:
其中,Ltotal为所述目标损失函数,为所述第一相似度损失函数,为所述第二相似度损失函数,L为所述预设卷积算法的卷积层数,l为所述预设卷积算法中的第l个卷积层,I为所述目标内容数据,Fl为第l个卷积层中的所述特征映射的向量,Nl为第l个卷积层中所述特征映射的数量,Dl为所述特征映射的尺寸,G为所述格拉姆矩阵,O为所述第三类图像,S为所述目标风格特征数据,αl为所述第一相似度损失函数中每一个卷积层的第一权重比例,βl为所述第二相似度损失函数中每一个卷积层的第二权重比例。
9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4中任一项所述的图像数据集增广方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1至4中任一项所述的图像数据集增广方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910298357.5A CN110135458A (zh) | 2019-04-15 | 2019-04-15 | 图像数据集增广方法、系统、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910298357.5A CN110135458A (zh) | 2019-04-15 | 2019-04-15 | 图像数据集增广方法、系统、计算机设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110135458A true CN110135458A (zh) | 2019-08-16 |
Family
ID=67569914
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910298357.5A Pending CN110135458A (zh) | 2019-04-15 | 2019-04-15 | 图像数据集增广方法、系统、计算机设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110135458A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191503A (zh) * | 2019-11-25 | 2020-05-22 | 浙江省北大信息技术高等研究院 | 一种行人属性识别方法、装置、存储介质及终端 |
CN116385813A (zh) * | 2023-06-07 | 2023-07-04 | 南京隼眼电子科技有限公司 | Isar图像分类方法、装置及存储介质 |
WO2024174348A1 (zh) * | 2023-02-24 | 2024-08-29 | 季华实验室 | 基于风格迁移正样本生成的oled干膜缺陷检测方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107977414A (zh) * | 2017-11-22 | 2018-05-01 | 西安财经学院 | 基于深度学习的图像风格迁移方法及其系统 |
CN108470320A (zh) * | 2018-02-24 | 2018-08-31 | 中山大学 | 一种基于cnn的图像风格化方法及系统 |
CN108711137A (zh) * | 2018-05-18 | 2018-10-26 | 西安交通大学 | 一种基于深度卷积神经网络的图像色彩表达模式迁移方法 |
-
2019
- 2019-04-15 CN CN201910298357.5A patent/CN110135458A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107977414A (zh) * | 2017-11-22 | 2018-05-01 | 西安财经学院 | 基于深度学习的图像风格迁移方法及其系统 |
CN108470320A (zh) * | 2018-02-24 | 2018-08-31 | 中山大学 | 一种基于cnn的图像风格化方法及系统 |
CN108711137A (zh) * | 2018-05-18 | 2018-10-26 | 西安交通大学 | 一种基于深度卷积神经网络的图像色彩表达模式迁移方法 |
Non-Patent Citations (2)
Title |
---|
LEON A. GATYS等: "Image Style Transfer Using Convolutional Neural Networks" * |
王坤峰等: "平行图像:图像生成的一个新型理论框架" * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111191503A (zh) * | 2019-11-25 | 2020-05-22 | 浙江省北大信息技术高等研究院 | 一种行人属性识别方法、装置、存储介质及终端 |
WO2024174348A1 (zh) * | 2023-02-24 | 2024-08-29 | 季华实验室 | 基于风格迁移正样本生成的oled干膜缺陷检测方法 |
CN116385813A (zh) * | 2023-06-07 | 2023-07-04 | 南京隼眼电子科技有限公司 | Isar图像分类方法、装置及存储介质 |
CN116385813B (zh) * | 2023-06-07 | 2023-08-29 | 南京隼眼电子科技有限公司 | 基于无监督对比学习的isar图像空间目标分类方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111798400B (zh) | 基于生成对抗网络的无参考低光照图像增强方法及系统 | |
CN111292264B (zh) | 一种基于深度学习的图像高动态范围重建方法 | |
CN107784642B (zh) | 一种红外视频和可见光视频自适应融合方法 | |
Ge et al. | Development and testing of a subpixel mapping algorithm | |
CN110135458A (zh) | 图像数据集增广方法、系统、计算机设备和存储介质 | |
CN108596108B (zh) | 基于三元组语义关系学习的航拍遥感图像变化检测方法 | |
CN111915525B (zh) | 基于改进深度可分离生成对抗网络的低照度图像增强方法 | |
US20060020563A1 (en) | Supervised neural network for encoding continuous curves | |
CN107578390A (zh) | 一种使用神经网络进行图像白平衡校正的方法及装置 | |
WO2006137826A2 (en) | System and method for creating a high resolution material image | |
Cheng et al. | Zero-shot image super-resolution with depth guided internal degradation learning | |
CN106981080A (zh) | 基于红外图像和雷达数据的夜间无人车场景深度估计方法 | |
US20060018565A1 (en) | System and method for infrared sensor simulation | |
WO2006020356A2 (en) | Diurnal variation of geo-specific terrain temperatures in real-time infrared sensor simulation | |
CN111625608A (zh) | 一种基于gan模型根据遥感影像生成电子地图的方法、系统 | |
CN112581379A (zh) | 图像增强方法以及装置 | |
CN110570363A (zh) | 基于带有金字塔池化与多尺度鉴别器的Cycle-GAN的图像去雾方法 | |
Liu et al. | Single satellite imagery simultaneous super-resolution and colorization using multi-task deep neural networks | |
CN109410144A (zh) | 一种基于深度学习的端到端图像去雾处理方法 | |
Wei et al. | Ship detection in remote sensing image based on faster R-CNN with dilated convolution | |
CN110223240A (zh) | 基于颜色衰减先验的图像去雾方法、系统及存储介质 | |
CN109447897A (zh) | 一种真实场景图像合成方法及系统 | |
CN111507416B (zh) | 一种基于深度学习的吸烟行为实时检测方法 | |
WO2006098750A2 (en) | System and method for adding spatial frequency into an image | |
CN112884893A (zh) | 基于非对称卷积网络和注意力机制的跨视角图像生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190816 |