CN115115509A - 图像生成方法、装置、电子设备及存储介质 - Google Patents
图像生成方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115115509A CN115115509A CN202210390061.8A CN202210390061A CN115115509A CN 115115509 A CN115115509 A CN 115115509A CN 202210390061 A CN202210390061 A CN 202210390061A CN 115115509 A CN115115509 A CN 115115509A
- Authority
- CN
- China
- Prior art keywords
- image
- edge
- target
- scene
- images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 87
- 238000012545 processing Methods 0.000 claims abstract description 131
- 238000012549 training Methods 0.000 claims description 133
- 230000000875 corresponding effect Effects 0.000 claims description 132
- 239000011159 matrix material Substances 0.000 claims description 65
- 230000007704 transition Effects 0.000 claims description 55
- 238000003708 edge detection Methods 0.000 claims description 33
- 239000000463 material Substances 0.000 claims description 30
- 230000009466 transformation Effects 0.000 claims description 30
- 230000000694 effects Effects 0.000 claims description 22
- 230000002194 synthesizing effect Effects 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 18
- 238000001914 filtration Methods 0.000 claims description 17
- 230000015572 biosynthetic process Effects 0.000 claims description 11
- 230000009467 reduction Effects 0.000 claims description 11
- 238000003786 synthesis reaction Methods 0.000 claims description 11
- 239000013077 target material Substances 0.000 claims description 9
- 238000006243 chemical reaction Methods 0.000 claims description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 15
- 238000010586 diagram Methods 0.000 description 26
- 230000008569 process Effects 0.000 description 21
- 238000005516 engineering process Methods 0.000 description 18
- 230000006870 function Effects 0.000 description 9
- 238000012015 optical character recognition Methods 0.000 description 9
- 241000282414 Homo sapiens Species 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 5
- 238000005286 illumination Methods 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 230000001629 suppression Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000001815 facial effect Effects 0.000 description 2
- 230000001965 increasing effect Effects 0.000 description 2
- 230000005764 inhibitory process Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005315 distribution function Methods 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000009191 jumping Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000013522 software testing Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/40—Scaling of whole images or parts thereof, e.g. expanding or contracting
- G06T3/4038—Image mosaicing, e.g. composing plane images from plane sub-images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/73—Deblurring; Sharpening
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/13—Edge detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20112—Image segmentation details
- G06T2207/20132—Image cropping
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Processing (AREA)
Abstract
本申请实施例公开了一种图像生成方法、装置、电子设备及存储介质,该图像生成方法通过先对参考场景图像进行边缘检测得到第一边缘图像,通过图像变换处理快捷地得到多个第二边缘图像,相应地可以基于场景图像生成模型调整第二边缘图像的图像类型得到多个目标场景图像,进而可生成多个目标样本图像。因此,只需采集少量的参考场景图像和基准图像即可生成大量的目标样本图像,相较于采集大量的基准图像的方式,在生成相同数量的目标样本图像的前提下,本申请实施例提供的图像生成方法能够有效降低图像采集数量,降低目标样本图像的生成成本,提高目标样本图像的生成效率,可以广泛应用于人工智能、图像处理、云计算等技术领域。
Description
技术领域
本申请涉及人工智能技术领域,特别是涉及一种图像生成方法、装置、电子设备及存储介质。
背景技术
随着人工智能技术的快速发展,各类图像处理模型的应用也变得越来越广泛。在模型应用前需要对该图像处理模型进行训练,以使得图像处理模型的性能达到最佳。为了提高模型的训练效果,一般需要大量的训练图像来对图像处理模型进行训练。除了上述场景以外,其他场景也可能有大量的图像需求,例如在进行图像处理软件测试时也需要使用到大量的测试图像。
目前,目标样本图像(例如训练图像或者测试图像等)可以基于采集真实的基准图像生成,相比于人工收集,可以在一定程度上降低图像的采集成本。然而,相关技术中,基准图像与目标样本图像之间一般是一一对应的关系,生成目标样本图像时仍然需要采集大量的基准图像,目标样本图像的生成效率仍有待提高。
发明内容
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。
本申请实施例提供了一种图像生成方法、装置、电子设备及存储介质,能够提高目标样本图像的生成效率。
一方面,本申请实施例提供了一种图像生成方法,包括:
获取参考场景图像,对所述参考场景图像进行边缘检测,得到所述参考场景图像对应的第一边缘图像;
对所述第一边缘图像进行图像变换处理,得到所述第一边缘图像对应的多个第二边缘图像;
将所述第二边缘图像输入至预设的场景图像生成模型,基于所述场景图像生成模型调整所述第二边缘图像的图像类型,得到所述第二边缘图像对应的目标场景图像;
获取基准图像,将所述基准图像与各个所述目标场景图像进行合成处理,生成多个目标样本图像。
另一方面,本申请实施例还提供了一种图像生成装置,包括:
边缘检测模块,用于获取参考场景图像,对所述参考场景图像进行边缘检测,得到所述参考场景图像对应的第一边缘图像;
变换模块,用于对所述第一边缘图像进行图像变换处理,得到所述第一边缘图像对应的多个第二边缘图像;
模型处理模块,用于将所述第二边缘图像输入至预设的场景图像生成模型,基于所述场景图像生成模型调整所述第二边缘图像的图像类型,得到所述第二边缘图像对应的目标场景图像;
合成模块,用于获取基准图像,将所述基准图像与各个所述目标场景图像进行合成处理,生成多个目标样本图像。
进一步,所述场景图像生成模型包括多个依次连接的卷积层和多个依次连接的反卷积层,上述模型处理模块具体用于:
基于多个所述卷积层对所述第二边缘图像进行卷积处理,得到目标卷积图像;
基于多个所述反卷积层对所述目标卷积图像进行反卷积处理,得到所述第二边缘图像对应的目标场景图像。
进一步,所述卷积层的数量和所述反卷积层的数量相同,上述模型处理模块具体用于:
获取待输入至目标反卷积层的第一过渡图像;其中,所述目标反卷积层为多个所述反卷积层中当前待进行反卷积处理的反卷积层;
从多个所述卷积层中确定与所述目标反卷积层对应的目标卷积层,获取所述目标卷积层进行卷积处理后输出的第二过渡图像;
将所述第一过渡图像与所述第二过渡图像进行拼接处理,得到拼接图像;
基于所述目标反卷积层对所述拼接图像进行反卷积处理,直至得到所述第二边缘图像对应的目标场景图像。
进一步,上述图像生成装置还包括模型训练模块,上述模型训练模块用于:
获取训练边缘图像集合和标签场景图像集合;其中,所述训练边缘图像集合包括多个训练边缘图像,所述标签场景图像集合包括多个标签场景图像,所述训练边缘图像集合的图像类型与标签场景图像集合的图像类型不同;
基于所述场景图像生成模型调整目标训练边缘图像的图像类型,得到所述目标训练边缘图像对应的训练场景图像;其中,所述目标训练边缘图像为多个所述训练边缘图像中的其中一个图像;
将所述训练场景图像输入至第一判断模型中,得到第一判断结果,将所述标签场景图像输入至所述第一判断模型中,得到第二判断结果,根据所述第一判断结果和所述第二判断结果计算所述场景图像生成模型对应的第一损失值;
根据所述第一损失值对所述场景图像生成模型的参数进行调整。
进一步,上述模型训练模块具体用于:
基于边缘图像生成模型调整所述训练场景图像的图像类型,得到所述训练场景图像对应的还原边缘图像;
计算所述训练边缘图像集合中除了所述目标训练边缘图像以外任意一个训练边缘图像与所述还原边缘图像之间的范数,根据所述范数计算还原损失值;
基于第二判断模型计算所述边缘图像生成模型对应的第二损失值;
根据所述第一损失值、所述第二损失值和所述还原损失值之和得到目标损失值,根据所述目标损失值对所述场景图像生成模型的参数进行调整。
进一步,上述边缘检测模块具体用于:
对所述参考场景图像进行灰度化处理,得到所述参考场景图像对应的灰度图像;
对所述灰度图像进行高斯滤波处理,得到滤波图像;
计算所述滤波图像的像素梯度强度矩阵,遍历所述像素梯度强度矩阵中的各个图像像素点,将当前遍历的目标像素点的梯度强度与各个邻接像素点的梯度强度进行比较,根据比较结果从所述图像像素点中确定边缘像素点;
根据所述边缘像素点得到所述参考场景图像对应的第一边缘图像。
进一步,上述边缘检测模块具体用于:
若所述目标像素点的梯度强度大于各个所述邻接像素点的梯度强度,将所述目标像素点的梯度强度与预设第一强度阈值、第二强度阈值进行比较;其中,所述第一强度阈值大于所述第二强度阈值;
若所述目标像素点的梯度强度大于或者等于所述第一强度阈值,将所述目标像素点确定为边缘像素点;
若所述目标像素点的梯度强度小于所述第一强度阈值,且大于或者等于所述第二强度阈值,确定所述目标像素点对应的邻域像素点,当所述邻域像素点的梯度强度大于或者等于所述第一强度阈值,将所述目标像素点确定为边缘像素点。
进一步,上述变换模块具体用于:
对所述第一边缘图像进行旋转处理,得到所述第一边缘图像对应的多个第二边缘图像;
对所述第一边缘图像进行裁剪处理,得到所述第一边缘图像对应的多个第二边缘图像;
对所述第一边缘图像进行翻转处理,得到所述第一边缘图像对应的多个第二边缘图像;
对所述第一边缘图像进行高斯滤波处理,得到所述第一边缘图像对应的多个第二边缘图像。
进一步,所述基准图像为文档图像,上述边缘检测模块具体用于:
获取参考纸张图像,从所述参考纸张图像中裁剪出纸张材质图像、纸张阴影图像或者纸张光线图像中的至少一种;
对所述纸张材质图像、所述纸张阴影图像或者所述纸张光线图像中的至少一种进行尺寸调整;
将进行尺寸调整后的所述纸张材质图像、所述纸张阴影图像或者所述纸张光线图像中的至少一种作为参考场景图像。
进一步,多个所述目标场景图像包括与所述纸张材质图像对应的目标材质图像、与所述纸张阴影图像对应的目标阴影图像、与所述纸张光线图像对应的目标光线图像,上述合成模块具体用于:
对所述文档图像进行分离处理,得到所述文档图像对应的内容图像和原始背景图像;
将所述原始背景图像与所述目标材质图像、所述目标阴影图像、所述目标光线图像分别进行合成处理,得到多个效果背景图像;
将所述内容图像与各个所述效果背景图像进行合成处理,生成多个目标样本图像。
进一步,上述合成模块具体用于:
获取所述原始背景图像的第一图像矩阵和各个所述目标场景图像的第二图像矩阵;其中,所述第一图像矩阵和所述第二图像矩阵的尺寸相同;
将所述第一图像矩阵和各个所述第二图像矩阵中对应的矩阵元素相乘,得到多个目标样本图像矩阵;
根据多个所述目标样本图像矩阵生成对应的效果背景图像。
另一方面,本申请实施例还提供了一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的图像生成方法。
另一方面,本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现上述的图像生成方法。
另一方面,本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行实现上述的图像生成方法。
本申请实施例至少包括以下有益效果:通过对参考场景图像进行边缘检测,得到第一边缘图像,对第一边缘图像进行图像变换处理,得到第一边缘图像对应的多个第二边缘图像,基于预设的场景图像生成模型调整第二边缘图像的图像类型,得到第二边缘图像对应的目标场景图像,可见,本申请实施例并非直接调整基准图像的显示风格来得到目标样本图像,而是先对参考场景图像进行边缘检测得到第一边缘图像,由于第一边缘图像结构简单,因此可以通过图像变换处理快捷地得到多个第二边缘图像,相应地可以基于场景图像生成模型调整第二边缘图像的图像类型得到多个目标场景图像,后续再将基准图像与各个目标场景图像进行合成处理,进而可生成多个目标样本图像。因此,本申请实施例提供的图像生成方法只需采集少量的参考场景图像和基准图像即可生成大量的目标样本图像,相较于采集大量的基准图像的方式,在生成相同数量的目标样本图像的前提下,本申请实施例提供的图像生成方法能够有效降低图像采集数量,降低目标样本图像的生成成本,提高目标样本图像的生成效率。
本申请的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本申请实施例提供的相关技术中训练图像的生成示意图;
图2为本申请实施例提供的一种实施环境的示意图;
图3为本申请实施例提供的另一种实施环境的示意图;
图4为本申请实施例提供的图像生成方法的流程示意图;
图5为本申请实施例提供的对参考场景图像进行边缘检测的总体流程示意图;
图6为本申请实施例提供的场景图像生成模型的一种结构示意图;
图7为本申请实施例提供的场景图像生成模型的一种处理流程示意图;
图8为本申请实施例提供的图像生成方法的一个例子的整体流程示意图;
图9为本申请实施例提供的场景图像生成模型的一种训练架构示意图;
图10为本申请实施例提供的场景图像生成模型的另一种训练架构示意图;
图11为本申请实施例提供的场景图像生成模型的另一种结构示意图;
图12为本申请实施例提供的添加随机噪声的示意图;
图13为本申请实施例提供的文档图像合成流程示意图;
图14为本申请实施例提供的图像生成装置的结构示意图;
图15为本申请实施例提供的终端的部分结构框图;
图16为本申请实施例提供的服务器的部分结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本申请,并不用于限定本申请。
为便于理解本申请实施例提供的技术方案,这里先对本申请实施例使用的一些关键名词进行解释:
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习、自动驾驶、智慧交通等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
计算机视觉技术(CV,Computer Vision)是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、OCR、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
随着人工智能技术的快速发展,各类图像处理模型的应用也变得越来越广泛。在模型应用前需要对该图像处理模型进行训练,以使得图像处理模型的性能达到最佳。为了提高模型的训练效果,一般需要大量的训练图像来对图像处理模型进行训练。例如,图像处理模型可以为OCR(Optical Character Recognition,光学字符识别)相关的模型,或者各类图像特效添加模型、图像识别模型等等,本申请实施例不做限定。
除了上述场景以外,其他场景也可能有大量的图像需求,例如在进行图像处理软件测试时也需要使用到大量的测试图像。
目前,目标样本图像(例如训练图像或者测试图像等)可以基于采集真实的基准图像生成,相比于人工收集,可以在一定程度上降低图像的采集成本。然而,相关技术中,基准图像与目标样本图像之间一般是一一对应的关系,生成目标样本图像时仍然需要采集大量的基准图像,目标样本图像的生成效率仍有待提高。
以目标样本图像为训练图像、图像处理模型为OCR相关的模型作为例子进行说明,参照图1,图1为本申请实施例提供的相关技术中训练图像的生成示意图,其中,A与A’为两个相同分布的图像数据集(相同分布即图像类型相同,只是显示风格有所差异),图像数据集A中包括多个真实采集的基准图像(例如使用具备拍照功能的终端采集、或者在互联网上下载等方式),图像数据集A’中包括多个基于图像生成模型对基准图像进行处理后得到的训练图像,图像数据集A中的基准图像和图像数据集A’中的训练图像是一一对应的,即图像数据集A中的基准图像的数量与图像数据集A’中的训练图像的数量相同,因此,假设需要生成100张训练图像,那么需要采集100张基准图像输入至图像生成模型,基准图像的采集成本依然较高,训练图像的生成效率仍有待提高。
基于此,本申请实施例提供了一种图像生成方法、装置、电子设备及存储介质,能够提高目标样本图像的生成效率。
参照图2,图2为本申请实施例提供的一种实施环境的示意图,该实施环境包括第一服务器201。示例性地,服务器201用于对OCR模型进行训练时,可以先获取参考场景图像,对参考场景图像进行边缘检测,得到参考场景图像对应的第一边缘图像,对第一边缘图像进行图像变换处理,得到第一边缘图像对应的多个第二边缘图像,将第二边缘图像输入至预设的场景图像生成模型,基于场景图像生成模型调整第二边缘图像的图像类型,得到第二边缘图像对应的目标场景图像,获取基准图像,将基准图像与各个目标场景图像进行合成处理,生成多个目标样本图像,再利用多个目标样本图像对该OCR模型进行训练。
参照图3,图3为本申请实施例提供的另一种实施环境的示意图,该实施环境包括第二服务器301和多个终端302。其中,多个终端302和第二服务器301构成分布式的架构,具体地,服务器201用于对OCR模型进行训练时,各个终端302获取参考场景图像,对参考场景图像进行边缘检测,得到参考场景图像对应的第一边缘图像,对第一边缘图像进行图像变换处理,得到第一边缘图像对应的多个第二边缘图像,将第二边缘图像输入至预设的场景图像生成模型,基于场景图像生成模型调整第二边缘图像的图像类型,得到第二边缘图像对应的目标场景图像,获取基准图像,将基准图像与各个目标场景图像进行合成处理,生成多个目标样本图像,然后将目标样本图像发送至第二服务器301,第二服务器301再利用各个终端302发送的目标样本图像对该OCR模型进行训练。
上述第一服务器201和第二服务器301可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content DeliveryNetwork,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
另外,第一服务器201和第二服务器301还可以是区块链网络中的一个节点服务器。
终端302可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表、车载终端等,但并不局限于此。终端302以及第二服务器301可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例在此不做限制。
本申请实施例提供的方法可应用于各种技术领域,包括但不限于云技术、人工智能、图像处理等技术领域。
参照图4,图4为本申请实施例提供的图像生成方法的流程示意图,该图像生成方法可以由服务器执行,也可以由终端和服务器配合执行,该图像生成方法包括但不限于以下步骤401至步骤404。
步骤401:获取参考场景图像,对参考场景图像进行边缘检测,得到参考场景图像对应的第一边缘图像。
在一种可能的实现方式中,参考场景图像为真实采集的图像,参考场景图像可以根据需要生成的目标样本图像的类型而定。示例性地,若需要生成的目标样本图像为文档图像,则参考场景图像可以是室内灯光下的阴影图像、室外灯光下的阴影图像、室外阳光下的阴影图像、室内光照图像、室外光照图像、纸张纹理图像、纸张材质图像等等;若需要生成的目标样本图像为脸部图像,则参考场景图像可以是参考场景图像可以是室内灯光下的阴影图像、室外灯光下的阴影图像、室外阳光下的阴影图像、室内光照图像、室外光照图像、脸部背景图像、脸部纹理图像等等。可以理解的是,本申请实施例不对参考场景图像的具体类型做限定。其中,参考场景图像的获取方式可以是通过终端的摄像头对真实场景进行拍摄,或者从互联网上进行下载等等,本申请实施例不做限定。
在一种可能的实现方式中,对参考场景图像进行边缘检测即提取参考场景图像的图像边缘,图像边缘为灰度值变化比较剧烈的位置,通过对参考场景图像进行边缘检测,得到的第一边缘图像只包含参考场景图像的边缘信息,因而具有结构简单的优点,有利于提高后续进行图像变换处理的可行性以及进行图像变换处理的效率。
可以理解的是,对一个参考场景图像进行边缘检测后可以得到该参考场景图像对应的第一边缘图像,当参考场景图像的数量为多个时,得到的是各个参考场景图像对应的第一边缘图像。
步骤402:对第一边缘图像进行图像变换处理,得到第一边缘图像对应的多个第二边缘图像。
其中,第二边缘图像的数量大于第一边缘图像的数量,即,图像变换处理主要用于大量生成第二边缘图像,对一个第一边缘图像进行图像变换处理可以得到多个第二边缘图像,也即是一个参考场景图像可以对应得到多个第二边缘图像。在一种可能的实现方式中,可以通过改变图像变换处理的变换参数来获得不同的第二边缘图像。
在一种可能的实现方式中,对第一边缘图像进行图像变换处理,得到第一边缘图像对应的多个第二边缘图像,具体可以有以下几种方式:
一种方式是对第一边缘图像进行旋转处理,得到第一边缘图像对应的多个第二边缘图像。其中,进行旋转处理后得到的第二边缘图像中的边缘信息与第一边缘图像的边缘信息不同,此时变换参数可以为旋转参数,例如旋转方向、旋转角度等,不同的旋转参数可以得到不同的第二边缘图像,旋转处理可以是顺时针旋转或者逆时针旋转,旋转角度可以是90度、180度等等,本申请实施例不做限定。
另一种方式是对第一边缘图像进行裁剪处理,得到第一边缘图像对应的多个第二边缘图像;其中,进行裁剪处理后得到的第二边缘图像中的边缘信息与第一边缘图像的边缘信息不同,此时变换参数可以为裁剪参数,例如裁剪位置、裁剪尺寸等,不同的裁剪参数可以得到不同的第二边缘图像,裁剪的标准可以根据实际情况而定,例如可以以第一边缘图像的中心点作为基准,根据预设的裁剪尺寸来对第一边缘图像进行裁剪;又或者可以以第一边缘图像的顶点作为基准,根据预设的裁剪尺寸来对第一边缘图像进行裁剪,具体的裁剪尺寸可以根据实际需求而定,本申请实施例不做限定。
另一种方式是对第一边缘图像进行翻转处理,得到第一边缘图像对应的多个第二边缘图像;其中,进行翻转处理后得到的第二边缘图像中的边缘信息与第一边缘图像的边缘信息不同,此时变换参数可以为翻转参数,例如翻转方向等,不同的翻转参数可以得到不同的第二边缘图像,翻转处理后第一边缘图像和第二边缘图像基于翻转轴相互对称。翻转处理可以是水平翻转或者垂直翻转,本申请实施例不做限定。
另一种方式对第一边缘图像进行高斯滤波处理,得到第一边缘图像对应的多个第二边缘图像,其中,进行高斯滤波处理后得到的第二边缘图像中的边缘信息与第一边缘图像的边缘信息不同,此时变换参数可以为高斯滤波参数,例如高斯核尺寸等,不同的高斯滤波参数可以得到不同的第二边缘图像,具体可以通过预设的高斯核来对第一边缘图像进行卷积运算,即可得到第二边缘图像,高斯核的具体结构可以根据实际需求而定,本申请实施例不做限定。
通过图像变换处理后得到的第二边缘图像,其包含的边缘信息与第一边缘图像边缘信息不相同,因此便于后续生成多个不同的目标样本图像。另外,考虑到后续生成多个目标样本图像的尺寸匹配问题,可以对图像变换处理后第二边缘图像进行尺寸调整,以使得第二边缘图像的尺寸达到目标值。例如,第二边缘图像可以与目标样本图像的尺寸相同,若后续要生成的目标样本图像的尺寸为640*640,则第二边缘图像的尺寸也需要调整为640*640,可以理解的是,调整的方式可以是放大或者缩小。
可以理解的是,上述四种对第一边缘图像进行图像变换处理的方式可以根据任意的组合执行,即,既可以选择其中一种方式执行,也可以选择多种方式执行,当选择多种方式执行时,有利于提高得到的第二边缘图像的多样性,使得后续生成的目标样本图像种类更多。
步骤403:将第二边缘图像输入至预设的场景图像生成模型,基于场景图像生成模型调整第二边缘图像的图像类型,得到第二边缘图像对应的目标场景图像。
其中,不同的图像类型包含有不同类型的图像特征信息,在本申请实施例中,场景图像生成模型用于将边缘图像转化为场景图像,即建立边缘图像和场景图像之间的映射关系。场景图像生成模型为预先训练好的模型,第二边缘图像为场景图像生成模型的输入,目标场景图像为场景图像生成模型的输出,第二边缘图像和目标场景图像可以为一一对应的关系,因此将多个第二边缘图像输入至场景图像生成模型时可以得到多个目标场景图像,也即是一个参考场景图像可以对应得到多个目标场景图像。
在一种可能的实现方式中,目标场景图像可以是纹理图像、光照图像、阴影图像、材质图像等类型的图像中的一种或者多种,其中,目标场景图像的图像类型由参考场景图像确定,例如,当参考场景图像为纹理图像时,相应地目标场景图像也为纹理图像,只是目标场景图像的与参考场景图像的显示风格不同。
可见,本申请实施例并非直接调整基准图像的显示风格来得到目标样本图像,而是先对参考场景图像进行边缘检测得到第一边缘图像,由于第一边缘图像结构简单,因此可以通过图像变换处理快捷地得到多个第二边缘图像,相应地可以基于场景图像生成模型调整第二边缘图像的图像类型得到多个目标场景图像。
步骤404:获取基准图像,将基准图像与各个目标场景图像进行合成处理,生成多个目标样本图像。
其中,基准图像为真实采集的图像,基准图像的类型可以根据实际的需求而定,例如若要对OCR模型进行训练,则基准图像可以为文档图像;若要对脸部识别模型进行训练,则基准图像可以为脸部图像;若要对美颜软件进行测试,则基准图像可以为脸部图像,以此类推。将基准图像与各个目标场景图像进行合成处理,可以生成与基准图像显示风格不同的目标样本图像,例如,目标样本图像的显示风格可以类似于图1所示的图像数据集A’中的图像的显示风格。
在一种可能的实现方式中,合成处理可以是利用基准图像的像素值矩阵和目标场景图像的像素值矩阵进行运算得到目标样本图像的像素值矩阵,进而生成目标样本图像,具体的运算方式可以是相加、相乘等等,本申请实施例不做限定。
由于目标场景图像的数量为多个,因此一个基准图像可以生成多个目标样本图像。综上,本申请实施例提供的图像生成方法只需采集少量的参考场景图像和基准图像即可生成大量的目标样本图像,相较于采集大量的基准图像的方式,在生成相同数量的目标样本图像的前提下,本申请实施例提供的图像生成方法能够有效降低图像采集数量,降低目标样本图像的生成成本,提高目标样本图像的生成效率。
另外,由于目标场景图像为纹理图像、光照图像、阴影图像、材质图像等类型的图像,在于基准图像进行合成处理之后,得到的目标样本图像具有较高的真实性,使得目标样本图像更加接近人工采集的数据,有利于提高后续的模型训练、软件测试等应用场景下的使用效果。
在一种可能的实现方式中,上述步骤401中,对参考场景图像进行边缘检测,得到参考场景图像对应的第一边缘图像,具体可以对参考场景图像进行灰度化处理,得到参考场景图像对应的灰度图像;对灰度图像进行高斯滤波处理,得到滤波图像;计算滤波图像的像素梯度强度矩阵,遍历像素梯度强度矩阵中的各个图像像素点,将当前遍历的目标像素点的梯度强度与各个邻接像素点的梯度强度进行比较,根据比较结果从图像像素点中确定边缘像素点;根据边缘像素点得到参考场景图像对应的第一边缘图像。
具体地,参照图5,图5为本申请实施例提供的对参考场景图像进行边缘检测的总体流程示意图,参考场景图像可以为阴影、光照、纹理等材质图像,由于图像边缘为灰度值变化比较剧烈的位置,因而先对参考场景图像进行灰度化处理,将得到的灰度图像作为边缘检测的基础。在一种可能的实现方式中,对参考场景图像进行灰度化处理,可以是先提取参考场景图像的RGB通道的采样值,根据参考场景图像的RGB通道的采样值进行加权平均,即可得到参考场景图像的灰度矩阵,进而得到灰度图像。
接着,对灰度图像进行高斯滤波处理,可以达到去噪的效果,有利于提高后续边缘检测的准确性。其中,可以采用预设尺寸的二维高斯核与灰度图像进行卷积运算,高斯核是对连续高斯函数的离散近似,可以通过对高斯曲面进行离散采样和归一化得到。高斯滤波处理使用的高斯核可以是具有x和y两个维度的高斯函数,且两个维度上标准差一般取相同,具体可以表示为:
其中,G(x,y)表示高斯核,(x,y)表示像素点的像素值,σ为高斯分布的标准差。
接着,得到滤波图像以后,进一步计算滤波图像的像素梯度强度矩阵,在一种可能的实现方式中,可以使用目标算子来计算滤波图像的像素梯度强度矩阵,目标算子可以为Sobel算子,Sobel算子可以是两个3*3的矩阵,分别为矩阵Sx和矩阵Sy。矩阵Sx用于计算滤波图像x方向像素梯度矩阵Gx,矩阵Sy用于计算滤波图像y方向像素梯度矩阵Gy,具体可以表示为:
其中,I为滤波图像的灰度值矩阵,滤波图像的像素强度矩阵的坐标系原点可以在滤波图像的左上角,x正方向为从左到右,y正方向为从上到下。
根据像素梯度矩阵Gx和像素梯度矩阵Gy即可得到滤波图像的像素梯度强度矩阵,具体地,可以根据像素梯度矩阵Gx计算x方向的梯度幅值,根据像素梯度矩阵Gy计算y方向的梯度幅值,即可得到滤波图像的像素梯度强度矩阵。
接着,基于像素梯度强度矩阵进行非极大值像素梯度抑制处理,具体可以将像素梯度强度矩阵中当前遍历的目标像素点的梯度强度与各个邻接像素点的梯度强度进行比较,若目标像素点的梯度强度为最大值,则保留该目标像素点作为边缘像素点,若目标像素点的梯度强度不是最大值,则对该目标像素点进行抑制处理,抑制处理即将该目标像素点的像素值置零。其中,目标像素点的邻接像素点,即该目标像素点沿x的正负方向和y的正负方向上相邻的像素点,简而言之即目标像素点上下左右相邻的像素点,目标像素点的邻接像素点的数量为四个。将当前遍历的目标像素点的梯度强度与各个邻接像素点的梯度强度进行比较,根据比较结果从图像像素点中确定边缘像素点,可以消除边缘检测所带来的杂散响应,起到对边缘的“瘦身”作用。
遍历像素梯度强度矩阵中的各个图像像素点进行梯度强度的比较后,即可得到多个边缘像素点,根据这些边缘像素点即可得到参考场景图像对应的第一边缘图像。
在此基础上,在一种可能的实现方式中,根据梯度强度的比较结果从图像像素点中确定边缘像素点时,还可以进一步进行阈值滞后处理,具体地,若目标像素点的梯度强度大于各个邻接像素点的梯度强度,还可以进一步将目标像素点的梯度强度与预设第一强度阈值、第二强度阈值进行比较,若目标像素点的梯度强度大于或者等于第一强度阈值,可以认为该目标像素点为强边缘像素点,此时可以将目标像素点确定为最终的边缘像素点,其中,第一强度阈值大于第二强度阈值,第一强度阈值和第二强度阈值的取值可以根据实际需求而定,本申请实施例不做限定,另外,第一强度阈值和第二强度阈值之间的比例可以在2:1到3:1之间,有利于提高第一强度阈值和第二强度阈值的合理性。
若目标像素点的梯度强度小于第一强度阈值,且大于或者等于第二强度阈值,可以认为该目标像素点为弱边缘像素点,此时可以进一步进行孤立弱边缘抑制处理,具体可以确定目标像素点对应的邻域像素点,当邻域像素点的梯度强度大于或者等于第一强度阈值,将目标像素点确定为边缘像素点。其中,对于以目标像素点为中心的九宫格而言,目标像素点对应的邻域像素点即九宫格里除了目标像素点以外的其余八个像素点,可见,目标像素点对应的邻域像素点包含了目标像素点对应的邻接像素点。一般来说,若目标像素点为由真实边缘引起的弱边缘像素点,则该目标像素点会连接到强边缘像素点,若目标像素点为噪声响应点,则该目标像素点不会连接到强边缘像素点。因此,通过判断目标像素点的邻域像素点的梯度强度是否大于或者等于第一强度阈值,可以确定该目标像素点是否连接到强边缘像素点,只要该目标像素点连接到一个强边缘像素点,即可将该目标像素点保留为最终的边缘像素点。
若目标像素点的梯度强度小于第二强度阈值,则可以对该目标像素点进行抑制处理。
通过进一步将目标像素点的梯度强度与预设第一强度阈值、第二强度阈值进行比较,可以提高确定边缘像素点的准确性和合理性,并且,在将目标像素点的梯度强度与预设第一强度阈值、第二强度阈值进行比较时,通过引入目标像素点的邻域像素点来进行更加精细化的比较,有利于提高将目标像素点的梯度强度与预设第一强度阈值、第二强度阈值进行比较的层次性,进而从整体上提高确定边缘像素点的精细化程度。
最后,根据上述非极大值像素梯度抑制处理、阈值滞后处理以及孤立弱边缘抑制处理后保留下来的边缘像素点,即可得到上述材质图像的材质边缘信息。
下面详细说明本申请实施例提供的场景图像生成模型的一种处理过程。
参照图6,图6为本申请实施例提供的场景图像生成模型的一种结构示意图,在一种可能的实现方式中,该场景图像生成模型包括多个依次连接的卷积层和多个依次连接的反卷积层,卷积层用于对输入至该场景图像生成模型的图像进行卷积处理,在本申请实施例中卷积层用于缩小第二边缘图像的尺寸,反卷积层用于对输入至该场景图像生成模型的图像进行反卷积处理,反卷积处理为卷积处理的逆过程,在本申请实施例中反卷积层用于增大第二边缘图像的尺寸。
基于图6所示的场景图像生成模型,上述步骤403中,将第二边缘图像输入至预设的场景图像生成模型,基于场景图像生成模型调整第二边缘图像的图像类型,得到第二边缘图像对应的目标场景图像,具体可以基于多个卷积层对第二边缘图像进行卷积处理,得到目标卷积图像;基于多个反卷积层对目标卷积图像进行反卷积处理,得到第二边缘图像对应的目标场景图像。
其中,基于多个卷积层对第二边缘图像进行卷积处理时,当前卷积层的输入为前一个卷积层的输出,当前反卷积层的输入为前一个反卷积层的输出。例如,假设图6所示的场景图像生成模型中设置有三个卷积层和三个反卷积层,则第一个卷积层的输入为第二边缘图像,第二个卷积层的输入为第一个卷积层输出的过渡图像,第三个卷积层的输入为第一个卷积层输出的过渡图像,第一个反卷积层的输入为第三个卷积层输出的过渡图像,第二个反卷积层的输入为第一个反卷积层输出的过渡图像,第三个反卷积层的输入为第二个反卷积层输出的过渡图像。
通过多个卷积层对第二边缘图像进行卷积处理,再通过多个反卷积层对卷积处理后的第二边缘图像进行反卷积,可以使得目标场景图像具有较大的视野域,提升目标场景图像的生成质量。并且,通过多个卷积层缩小第二边缘图像的尺寸,可以减小后续反卷积层的运算量,提升反卷积处理的效率。
可以理解的是,场景图像生成模型中卷积层和反卷积层的数量可以根据实际需求而定,并且,卷积层和反卷积层的数量可以相同也可以不相同,本申请实施例中仅以卷积层和反卷积层的数量均为三个进行说明,实际上本申请实施例并不对卷积层和反卷积层的数量进行限定。
在一种可能的实现方式中,当卷积层的数量和反卷积层的数量相同时(例如图6所示的场景图像生成模型中卷积层和反卷积层的数量均为三个),在这种情况下,在基于多个反卷积层对目标卷积图像进行反卷积处理,得到第二边缘图像对应的目标场景图像时,可以获取待输入至目标反卷积层的第一过渡图像;从多个卷积层中确定与目标反卷积层对应的目标卷积层,获取目标卷积层进行卷积处理后输出的第二过渡图像;将第一过渡图像与第二过渡图像进行拼接处理,得到拼接图像;基于目标反卷积层对拼接图像进行反卷积处理,直至得到第二边缘图像对应的目标场景图像。
具体地,基于图6所示的场景图像生成模型,参照图7,图7为本申请实施例提供的场景图像生成模型的一种处理流程示意图,其中,目标反卷积层为多个反卷积层中当前待进行反卷积处理的反卷积层,过渡图像为卷积处理或者反卷积处理过程中生成的中间图像,即过渡图像为除了输入至场景图像生成模型的图像和场景图像生成模型输出的图像以外的图像。当目标反卷积层为反卷积层一时,第一过渡图像为卷积层三输出的过渡图像;当目标反卷积层为反卷积层二时,第一过渡图像为反卷积层一输出的过渡图像;当目标反卷积层为反卷积层三时,第一过渡图像为反卷积层二输出的过渡图像。
由于卷积层的数量和反卷积层的数量相同,因此卷积层与反卷积层存在一一对应的关系,例如,当目标反卷积层为反卷积层一时,目标卷积层为卷积层三,相应地,第二过渡图像为卷积层三输出的过渡图像;当目标反卷积层为反卷积层二时,目标卷积层为卷积层二,第二过渡图像为卷积层二输出的过渡图像;当目标反卷积层为反卷积层三时,目标卷积层为卷积层一,第二过渡图像为卷积层一输出的过渡图像。
其中,当目标反卷积层为反卷积层一时,第一过渡图像与第二过渡图像实际上为同一个图像,属于特殊情况,这里不作进一步的解释;当目标反卷积层为反卷积层二时,拼接图像由反卷积层一输出的过渡图像与卷积层二输出的过渡图像拼接得到;当目标反卷积层为反卷积层三时,拼接图像由反卷积层二输出的过渡图像与卷积层一输出的过渡图像拼接得到。各个目标反卷积层如此对对应的拼接图像进行反卷积处理,最后由反卷积层三输出第二边缘图像对应的目标场景图像。
在一种可能的实现方式中,第一过渡图像与第二过渡图像的尺寸相同,将第一过渡图像与第二过渡图像进行拼接处理,可以是将第一过渡图像对应的灰度值矩阵和第二过渡图像对应的灰度值矩阵进行残差连接处理,又或者,可以是将第一过渡图像对应的灰度值矩阵和第二过渡图像对应的灰度值矩阵直接相加,本申请实施例不做限定。
在利用反卷积层进行反卷积操作时,通过将第一过渡图像与对应的卷积层输出的第二过渡图像进行拼接,使得输出至反卷积层的图像可以携带第二边缘图像中更多的图像信息,有利于提升第二边缘图像的图像类型调整效果,使得后续生成的目标场景图像更加准确。
下面以文档图像为例说明本申请实施例提供的图像生成方法的整体流程。
参照图8,图8为本申请实施例提供的图像生成方法的一个例子的整体流程示意图,其中,图像B为实际采集的真实场景图像,首先,对图像B进行边缘检测,得到图像C,图像C为真实场景图像的边缘信息;接着,对图像C进行图像变换处理,得到大量的图像C’;接着,将图像C’输入至场景图像生成模型,得到大量的图像B’;最后,将图像A和图像B’进行合成处理,最终可以得到大量的图像A’。可见,本申请实施例通过对真实场景图像进行边缘检测,并对得到的真实边缘信息进行变换处理,能够大大提高边缘图像的数量,进而通过场景图像生成模型得到大量的场景图像,再将这些场景图像与基准文档图像进行合成即可得到大量的样本文档图像,因此,只需要采集少量的真实场景图像和少量的基准文档图像即可生成大量的样本文档图像,相较于采集大量的基准文档图像的方式,在生成相同数量的样本文档图像的前提下,能够有效降低图像采集数量,降低样本文档图像的生成成本,提高样本文档图像的生成效率。
可以理解的是,由于图像A的采集成本较高,本申请实施例提供的图像生成方法实际上将采集图像A的任务转化为采集图像B的任务,通过生成图像B’来得到最终的图像A’。为了进一步降低图像B的收集难度,将图像B转换为结构简单的图像C,图像C可以通过简单的变换处理进行大量的复制,得到图像C’,然后通过场景图像生成模型得到图像B’,最终图像B’与少量的图像A合成即可得到大量的图像A’。可见,本申请实施例提供的图像生成方法将复杂的图像A转换为图像A’的任务转化为若干个子任务,将采集大量图像A的任务转化为采集少量图像A以及少量的图像B的任务,有效降低图像采集数量,降低图像A’的生成成本,提高图像A’的生成效率。
下面详细说明上述场景图像生成模型的训练原理。
在一种可能的实现方式中,参照图9,图9为本申请实施例提供的场景图像生成模型的一种训练架构示意图,图像数据集合X为训练边缘图像集合,图像数据集合Y为标签场景图像集合,G为场景图像生成模型,DY为第一判断模型,对场景图像生成模型进行训练时,可以获取训练边缘图像集合和标签场景图像集合;基于场景图像生成模型调整目标训练边缘图像的图像类型,得到目标训练边缘图像对应的训练场景图像;将训练场景图像输入至第一判断模型中,得到第一判断结果,将标签场景图像输入至第一判断模型中,得到第二判断结果,根据第一判断结果和第二判断结果计算场景图像生成模型对应的第一损失值;根据第一损失值对场景图像生成模型的参数进行调整。
其中,训练边缘图像集合包括多个训练边缘图像,训练边缘图像作为该场景图像生成模型的训练样本;标签场景图像集合包括多个标签场景图像,标签场景图像作为对该场景图像生成模型进行训练的标签;并且,训练边缘图像集合的图像类型与标签场景图像集合的图像类型不同。
在一种可能的实现方式中,训练边缘图像集合中的训练边缘图像和标签场景图像集合中的标签场景图像可以是一一对应的,这种情况下输入至第一判断模型中的标签场景图像为训练边缘图像对应的标签场景图像。
在一种可能的实现方式中,训练边缘图像集合中的训练边缘图像和标签场景图像集合中的标签场景图像可以不需要一一对应,只需要训练边缘图像集合中的训练边缘图像属于一种图像类型、标签场景图像集合中的标签场景图像属于另一种图像类型即可,属于一种图像风格迁移式的模型训练,有利于降低训练成本,提高训练效率。
其中,对场景图像生成模型进行训练的目的在于使得场景图像生成模型生成的训练场景图像与标签场景图像尽可能接近,即第一判断模型将训练场景图像判别为真实的场景图像。通过第一判断结果和第二判断结果可以得到场景图像生成模型生成的第一损失值,进而根据第一损失值调整场景图像生成模型的参数。其中,调整场景图像生成模型的参数,可以是调整场景图像生成模型中卷积层或者反卷积层的卷积参数。
其中,第一损失值可以表示为:
L(G,DY,X,Y)=Ey~pdata(y)[logDY(y)]+Ex~pdata(x)[log(1-DY(G(x)))]
其中,L(G,DY,X,Y)表示第一损失值,G表示场景图像生成模型,DY表示第一判断模型,X表示训练边缘图像集合,x表示训练边缘图像,Y表示标签场景图像集合,y表示训练边缘图像,E表示分布函数的期望值,pdata表示图像分布。
其中,目标训练边缘图像为多个训练边缘图像中的其中一个图像,即在训练场景图像生成模型的过程中,基于训练场景图像生成模型生成各个训练边缘图像对应的训练场景图像。在训练过程中,同样可以调整第一判断模型的参数,使得场景图像生成模型生成的训练场景图像越来越真实,第一判断模型的判别能力越来越强,有利于提高训练效果。
在一种可能的实现方式中,第一判断模型可以设置有卷积层和全连接层,将训练场景图像输入至第一判断模型后,第一判断模型先通过卷积层对训练场景图像进行卷积处理,然后将卷积处理后的图像通过全连接层进行全连接处理,得到第一判断结果。第一判断模型得到第二判断模型的原理相类似,在此不再赘述。
在一种可能的实现方式中,参照图10,图10为本申请实施例提供的场景图像生成模型的另一种训练架构示意图,在利用第一判断模型对场景图像生成模型进行训练的基础上,还可以进一步引入边缘图像生成模型和第二判断模型来对场景图像生成模型进行训练,其中,图像数据集合X为训练边缘图像集合,图像数据集合Y为标签场景图像集合,G为场景图像生成模型,DY为第一判断模型,DX为第二判断模型,F为边缘图像生成模型,G、F分别为X到Y和Y到X的映射,第一判断模型DY和第二判断模型DX可以分别对映射后的图像进行判断处理。其中,图像数据集合X中的图像x通过场景图像生成模型G映射得到图像Y′,并通过第一判断模型DY进行判断处理,并且,图像Y′也通过边缘图像生成模型F映射回图像数据集合X的分布,得到图像x′;而图像数据集合Y中的图像y通过边缘图像生成模型F映射得到图像X′,并通过第二判断模型DX进行判断处理,并且,图像X′也通过场景图像生成模型G映射回图像数据集合Y的分布,得到图像y′。
具体地,在根据第一损失值对场景图像生成模型的参数进行调整时,可以基于边缘图像生成模型调整训练场景图像的图像类型,得到训练场景图像对应的还原边缘图像;计算训练边缘图像集合中除了目标训练边缘图像以外任意一个训练边缘图像与还原边缘图像之间的范数,根据范数计算还原损失值;基于第二判断模型计算边缘图像生成模型对应的第二损失值;根据第一损失值、第二损失值和还原损失值之和得到目标损失值,根据目标损失值对场景图像生成模型的参数进行调整。
具体地,边缘图像生成模型的作用与场景图像生成模型的作用相反,即边缘图像生成模型的输入为场景图像,输出为边缘图像,边缘图像生成模型的处理过程实际上为场景图像生成模型的处理过程的逆过程,具体可以参见前述对边缘图像生成模型的工作原理的说明,在此不再对边缘图像生成模型的工作原理进行赘述。另外,第二判断模型与第一判断模型的工作原理相类似,在此不再赘述。
当模型网络容量足够大时,模型可以将相同的图像集合映射到目标域中的任何图像的随机排列,因此,单靠第一损失值来进行模型训练,最终得到的模型性能有待提高。通过边缘图像生成模型将场景图像生成模型生成的训练场景图像映射为还原边缘图像,可以判断场景图像生成模型生成的训练场景图像能否较为准确地还原为原来的训练边缘图像,以此来评判场景图像生成模型的模型性能。并且,本申请实施例中是利用目标训练边缘图像以外任意一个训练边缘图像来计算还原损失值,相较于利用目标训练边缘图像本身来计算还原损失值,可以避免出现数据过拟合的情况,达到数据增强的效果,提升场景图像生成模型的训练效果,使得场景图像生成模型在不同的应用场景下具有更好的鲁棒性。
同理,为了提高边缘图像生成模型的性能,也可以利用场景图像生成模型将边缘图像生成模型生成的边缘图像映射为场景图像,基于此,还原损失值可以表示为:
L(G,F)=Ex~pdata(x)[‖F(G(x))-x‖1]+Ey~pdata(y)[‖G(F(y))-y‖1]
其中,L(G,F)表示还原损失值,F表示边缘图像生成模型。
另外,还可以基于第二判断模型计算边缘图像生成模型对应的第二损失值,第二损失值的计算方式与第一损失值的计算方式相类似,第二损失值可以表示为:
L(F,Dx,Y,X)=Ex~pdata(x)[logDx(x)]+Ey~pdata(y)[log(1-Dx(F(y)))]
其中,Dx表示第二判断模型。
综上,目标损失值可以表示为:
L(G,F,Dx,DY)=L(G,DY,X,Y)+L(F,Dx,Y,X)+L(G,F)
其中,L(G,F,Dx,DY)表示目标损失值。
在利用第一判断模型对场景图像生成模型进行训练的基础上,通过进一步引入边缘图像生成模型和第二判断模型,进而得到第一损失值、第二损失值和还原损失值,可以使得最终得到的目标损失值包含更多的损失信息,有利于提升场景图像生成模型的训练效果,提升场景图像生成模型的性能。
前述的场景图像生成模型在应用时,第二边缘图像和目标场景图像可以为一一对应的关系,即输入一个第二边缘图像至场景图像生成模型,输出的为一个与第二边缘图像对应的目标场景图像。在此基础上,为了进一步提高生成的目标场景图像的数量,场景图像生成模型还可以增加编码层来产生随机噪声。
基于此,下面详细说明本申请实施例提供的场景图像生成模型的另一种处理过程。
参照图11,图11为本申请实施例提供的场景图像生成模型的另一种结构示意图,其中,该场景图像生成模型包括多个依次连接的卷积层、多个依次连接的反卷积层和编码层,其中,多个依次连接的卷积层、多个依次连接的反卷积层的处理原理可以参见针对图6所示的模型结构的解释,在此不再赘述。在此基础上,进一步增加编码层,其中,编码层用于产生随机噪声,在利用场景图像生成模型生成目标场景图像时,编码层会重复生成不同的随机噪声,将这些不同的随机噪声分别添加至第二边缘图像中,再利用场景图像生成模型生成目标场景图像,如此一来,向场景图像生成模型输入一个第二边缘图像,通过添加不同的随机噪声,场景图像生成模型可以生成不同的目标场景图像,有利于增加生成的目标场景图像的数量,相应地,在目标场景图像的数量需求一定的前提下,可以相应降低参考场景图像的采集数量,降低目标样本图像的生成成本,提高目标样本图像的生成效率。
具体地,参照图12,图12为本申请实施例提供的添加随机噪声的示意图,编码层产生随机噪声以后,可以在将第二边缘图像输入至场景图像生成模型之间,先将随机噪声添加至第二边缘图像中,因此,可以得到添加了不同随机噪声的第二边缘图像,再将添加了不同随机噪声的第二边缘图像输入至场景图像生成模型,即可得到多个不同的目标场景图像。除此以外,还可以将随机噪声分别添加至各个卷积层输出的过渡图像中,例如,可以将随机噪声只添加至卷积层一输出的过渡图像中,或者,将随机噪声只添加至卷积层一、卷积层二输出的过渡图像中,或者将随机噪声均添加至卷积层一、卷积层二、卷积层三输出的过渡图像中。
本申请实施例提供的图像生成方法可以应用于不同的场景,下面以基准图像为文档图像作为例子进行说明。
在一种可能的实现方式中,在获取参考场景图像时,可以获取参考纸张图像,从参考纸张图像中裁剪出纸张材质图像、纸张阴影图像或者纸张光线图像中的至少一种;对纸张材质图像、纸张阴影图像或者纸张光线图像中的至少一种进行尺寸调整;将进行尺寸调整后的纸张材质图像、纸张阴影图像或者纸张光线图像中的至少一种作为参考场景图像。
由于基准图像为文档图像,因此基于参考纸张图像来获取参考场景图像,可以使得最终生成的目标样本图像更加接近真实的文档图像,提升目标样本图像的图像质量。
其中,对参考纸张图像进行裁剪时可以有多种不同的裁剪组合方式,即可以从参考纸张图像中裁剪出纸张材质图像、纸张阴影图像或者纸张光线图像中一种或者多种的组合,例如从参考纸张图像中裁剪出纸张材质图像,或者从参考纸张图像中裁剪出纸张材质图像和纸张阴影图像,或者从参考纸张图像中裁剪出纸张材质图像、纸张阴影图像和纸张光线图像,等等。
在一种可能的实现方式中,通过从参考纸张图像中裁剪出纸张材质图像、纸张阴影图像和纸张光线图像三种不同类型的图像,再对纸张材质图像、纸张阴影图像和纸张光线图像进行尺寸调整,只需要采集一个参考纸张图像即可通过裁剪和尺寸调整得到多种不同类型的场景图像,有利于进一步降低图像采集数量,降低目标样本图像的生成成本,提高目标样本图像的生成效率。
在此基础上,相应地,场景图像生成模型生成的目标场景图像包括与纸张材质图像对应的目标材质图像、与纸张阴影图像对应的目标阴影图像、与纸张光线图像对应的目标光线图像,上述步骤404中,将基准图像与各个目标场景图像进行合成处理,生成多个目标样本图像,具体可以对文档图像进行分离处理,得到文档图像对应的内容图像和原始背景图像;将原始背景图像与目标材质图像、目标阴影图像、目标光线图像分别进行合成处理,得到多个效果背景图像;将内容图像与各个效果背景图像进行合成处理,生成多个目标样本图像。
其中,内容图像可以为文字图像、图标图像等,内容图像所包含的图像信息根据文档图像的实际内容而定,本申请实施例不做限定。
具体地,参照图13,图13为本申请实施例提供的文档图像合成流程示意图,通过先将文档图像分离成对应的内容图像和原始背景图像,再将原始背景图像与目标材质图像、目标阴影图像、目标光线图像分别进行合成处理,可以降低在合成处理时对文档图像中的内容进行干扰,后续再将内容图像与各个效果背景图像进行合成处理,可以极大限度地提高文档图像中的内容的显示质量,使得生成的目标样本图像的质量与基准图像更加接近。
在一种可能的实现方式中,对文档图像进行分离处理,可以使用预先训练好的图像分割模型实现。
在一种可能的实现方式中,在将原始背景图像与各个目标场景图像进行合成处理,得到多个效果背景图像时,可以获取原始背景图像的第一图像矩阵和各个目标场景图像的第二图像矩阵;将第一图像矩阵和各个第二图像矩阵中对应的矩阵元素相乘,得到多个目标样本图像矩阵;根据多个目标样本图像矩阵生成对应的效果背景图像。
其中,在对纸张材质图像、纸张阴影图像和纸张光线图像进行尺寸调整时,将纸张材质图像、纸张阴影图像和纸张光线图像的尺寸调整至与文档图像相同,使得第一图像矩阵和第二图像矩阵的尺寸相同,便于对第一图像矩阵和第二图像矩阵进行运算。
在一种可能的实现方式中,基准图像除了是文档图像以外,还可以是动物图像,相应地,得到的目标样本图像可以用于图像识别模型的训练,例如该图像识别模型的功能是识别图像中的动物种类,则可以采用本申请实施例提供的图像生成方法来生成大量的样本动物图像,以提升图像识别模型在不同的光线、阴影、背景等风格下的识别准确率。
在一种可能的实现方式中,基准图像除了是文档图像以外,还可以是脸部图像,相应地,得到的目标样本图像可以用于脸部识别模型的训练,例如该脸部识别模型的功能是进行脸部识别解锁、脸部识别支付、脸部识别车辆启动等等,则可以采用本申请实施例提供的图像生成方法来生成大量的样本脸部图像,以提升脸部识别模型在不同的光线、阴影、背景等风格下的识别准确率。
可以理解的是,虽然上述各个流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本实施例中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时间执行完成,而是可以在不同的时间执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
需要说明的是,在本申请的各个具体实施方式中,当涉及到需要根据目标对象属性信息或属性信息集合等与目标对象特性相关的数据进行相关处理时,都会先获得目标对象的许可或者同意,而且,对这些数据的收集、使用和处理等,都会遵守相关国家和地区的相关法律法规和标准。此外,当本申请实施例需要获取目标对象属性信息时,会通过弹窗或者跳转到确认页面等方式获得目标对象的单独许可或者单独同意,在明确获得目标对象的单独许可或者单独同意之后,再获取用于使本申请实施例能够正常运行的必要的目标对象相关数据。
参照图14,图14为本申请实施例提供的图像生成装置的结构示意图,该图像生成装置1400包括:
边缘检测模块1401,用于获取参考场景图像,对参考场景图像进行边缘检测,得到参考场景图像对应的第一边缘图像;
变换模块1402,用于对第一边缘图像进行图像变换处理,得到第一边缘图像对应的多个第二边缘图像;
模型处理模块1403,用于将第二边缘图像输入至预设的场景图像生成模型,基于场景图像生成模型调整第二边缘图像的图像类型,得到第二边缘图像对应的目标场景图像;
合成模块1404,用于获取基准图像,将基准图像与各个目标场景图像进行合成处理,生成多个目标样本图像。
进一步,场景图像生成模型包括多个依次连接的卷积层和多个依次连接的反卷积层,上述模型处理模块1403具体用于:
基于多个卷积层对第二边缘图像进行卷积处理,得到目标卷积图像;
基于多个反卷积层对目标卷积图像进行反卷积处理,得到第二边缘图像对应的目标场景图像。
进一步,卷积层的数量和反卷积层的数量相同,上述模型处理模块1403具体用于:
获取待输入至目标反卷积层的第一过渡图像;其中,目标反卷积层为多个反卷积层中当前待进行反卷积处理的反卷积层;
从多个卷积层中确定与目标反卷积层对应的目标卷积层,获取目标卷积层进行卷积处理后输出的第二过渡图像;
将第一过渡图像与第二过渡图像进行拼接处理,得到拼接图像;
基于目标反卷积层对拼接图像进行反卷积处理,直至得到第二边缘图像对应的目标场景图像。
进一步,上述图像生成装置还包括模型训练模块,上述模型训练模块用于:
获取训练边缘图像集合和标签场景图像集合;其中,训练边缘图像集合包括多个训练边缘图像,标签场景图像集合包括多个标签场景图像,训练边缘图像集合的图像类型与标签场景图像集合的图像类型不同;
基于场景图像生成模型调整目标训练边缘图像的图像类型,得到目标训练边缘图像对应的训练场景图像;其中,目标训练边缘图像为多个训练边缘图像中的其中一个图像;
将训练场景图像输入至第一判断模型中,得到第一判断结果,将标签场景图像输入至第一判断模型中,得到第二判断结果,根据第一判断结果和第二判断结果计算场景图像生成模型对应的第一损失值;
根据第一损失值对场景图像生成模型的参数进行调整。
进一步,上述模型训练模块具体用于:
基于边缘图像生成模型调整训练场景图像的图像类型,得到训练场景图像对应的还原边缘图像;
计算训练边缘图像集合中除了目标训练边缘图像以外任意一个训练边缘图像与还原边缘图像之间的范数,根据范数计算还原损失值;
基于第二判断模型计算边缘图像生成模型对应的第二损失值;
根据第一损失值、第二损失值和还原损失值之和得到目标损失值,根据目标损失值对场景图像生成模型的参数进行调整。
进一步,上述边缘检测模块1401具体用于:
对参考场景图像进行灰度化处理,得到参考场景图像对应的灰度图像;
对灰度图像进行高斯滤波处理,得到滤波图像;
计算滤波图像的像素梯度强度矩阵,遍历像素梯度强度矩阵中的各个图像像素点,将当前遍历的目标像素点的梯度强度与各个邻接像素点的梯度强度进行比较,根据比较结果从图像像素点中确定边缘像素点;
根据边缘像素点得到参考场景图像对应的第一边缘图像。
进一步,上述边缘检测模块1401具体用于:
若目标像素点的梯度强度大于各个邻接像素点的梯度强度,将目标像素点的梯度强度与预设第一强度阈值、第二强度阈值进行比较;其中,第一强度阈值大于第二强度阈值;
若目标像素点的梯度强度大于或者等于第一强度阈值,将目标像素点确定为边缘像素点;
若目标像素点的梯度强度小于第一强度阈值,且大于或者等于第二强度阈值,确定目标像素点对应的邻域像素点,当邻域像素点的梯度强度大于或者等于第一强度阈值,将目标像素点确定为边缘像素点。
进一步,上述变换模块1402具体用于:
对第一边缘图像进行旋转处理,得到第一边缘图像对应的多个第二边缘图像;
对第一边缘图像进行裁剪处理,得到第一边缘图像对应的多个第二边缘图像;
对第一边缘图像进行翻转处理,得到第一边缘图像对应的多个第二边缘图像;
对第一边缘图像进行高斯滤波处理,得到第一边缘图像对应的多个第二边缘图像。
进一步,基准图像为文档图像,上述边缘检测模块1401具体用于:
获取参考纸张图像,从参考纸张图像中裁剪出纸张材质图像、纸张阴影图像或者纸张光线图像中的至少一种;
对纸张材质图像、纸张阴影图像或者纸张光线图像中的至少一种进行尺寸调整;
将进行尺寸调整后的纸张材质图像、纸张阴影图像或者纸张光线图像中的至少一种作为参考场景图像。
进一步,多个目标场景图像包括与纸张材质图像对应的目标材质图像、与纸张阴影图像对应的目标阴影图像、与纸张光线图像对应的目标光线图像,上述合成模块1404具体用于:
对文档图像进行分离处理,得到文档图像对应的内容图像和原始背景图像;
将原始背景图像与目标材质图像、目标阴影图像、目标光线图像分别进行合成处理,得到多个效果背景图像;
将内容图像与各个效果背景图像进行合成处理,生成多个目标样本图像。
进一步,上述合成模块1404具体用于:
获取原始背景图像的第一图像矩阵和各个目标场景图像的第二图像矩阵;其中,第一图像矩阵和第二图像矩阵的尺寸相同;
将第一图像矩阵和各个第二图像矩阵中对应的矩阵元素相乘,得到多个目标样本图像矩阵;
根据多个目标样本图像矩阵生成对应的效果背景图像。
本申请实施例提供的图像生成装置1400与图像生成方法基于相同的发明构思,因此基于上述图像生成装置1400,只需采集少量的参考场景图像和基准图像即可生成大量的目标样本图像,相较于采集大量的基准图像的方式,在生成相同数量的目标样本图像的前提下,本申请实施例提供的图像生成方法能够有效降低图像采集数量,降低目标样本图像的生成成本,提高目标样本图像的生成效率。
本申请实施例提供的用于执行上述图像生成方法的电子设备可以是终端,参照图15,图15为本申请实施例提供的终端的部分结构框图,该终端包括:射频(RadioFrequency,简称RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(wireless fidelity,简称WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解,图15中示出的终端结构并不构成对终端的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
RF电路1510可用于收发信息或通话过程中,信号的接收和发送,特别地,将基站的下行信息接收后,给处理器1580处理;另外,将设计上行的数据发送给基站。
存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而执行终端的各种功能应用以及数据处理。
输入单元1530可用于接收输入的数字或字符信息,以及产生与终端的设置以及功能控制有关的键信号输入。具体地,输入单元1530可包括触控面板1531以及其他输入装置1532。
显示单元1540可用于显示输入的信息或提供的信息以及终端的各种菜单。显示单元1540可包括显示面板1541。
音频电路1560、扬声器1561,传声器1562可提供音频接口。
在本实施例中,该终端所包括的处理器1580可以执行前面实施例的图像生成方法。
本申请实施例提供的用于执行上述图像生成方法的电子设备也可以是服务器,参照图16,图16为本申请实施例提供的服务器的部分结构框图,服务器1600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central ProcessingUnits,简称CPU)1622(例如,一个或一个以上处理器)和存储器1632,一个或一个以上存储应用程序1642或数据1644的存储介质1630(例如一个或一个以上海量存储装置)。其中,存储器1632和存储介质1630可以是短暂存储或持久存储。存储在存储介质1630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器1600中的一系列指令操作。更进一步地,中央处理器1622可以设置为与存储介质1630通信,在服务器1600上执行存储介质1630中的一系列指令操作。
服务器1600还可以包括一个或一个以上电源1626,一个或一个以上有线或无线网络接口1650,一个或一个以上输入输出接口1658,和/或,一个或一个以上操作系统1641,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
服务器1600中的处理器可以用于执行图像生成方法。
本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行前述各个实施例的图像生成方法。
本申请实施例还提供了一种计算机程序产品,该计算机程序产品包括计算机程序,该计算机程序存储在计算机可读存介质中。计算机设备的处理器从计算机可读存储介质读取该计算机程序,处理器执行该计算机程序,使得该计算机设备执行实现上述的图像生成方法。
本申请的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或装置不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或装置固有的其它步骤或单元。
应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“A和/或B”可以表示:只存在A,只存在B以及同时存在A和B三种情况,其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。
应了解,在本申请实施例的描述中,多个(或多项)的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是个人计算机,服务器,或者网络装置等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
还应了解,本申请实施例提供的各种实施方式可以任意进行组合,以实现不同的技术效果。
以上是对本申请的较佳实施进行了具体说明,但本申请并不局限于上述实施方式,熟悉本领域的技术人员在不违背本申请精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本申请权利要求所限定的范围内。
Claims (15)
1.一种图像生成方法,其特征在于,包括:
获取参考场景图像,对所述参考场景图像进行边缘检测,得到所述参考场景图像对应的第一边缘图像;
对所述第一边缘图像进行图像变换处理,得到所述第一边缘图像对应的多个第二边缘图像;
将所述第二边缘图像输入至预设的场景图像生成模型,基于所述场景图像生成模型调整所述第二边缘图像的图像类型,得到所述第二边缘图像对应的目标场景图像;
获取基准图像,将所述基准图像与各个所述目标场景图像进行合成处理,生成多个目标样本图像。
2.根据权利要求1所述的图像生成方法,其特征在于,所述场景图像生成模型包括多个依次连接的卷积层和多个依次连接的反卷积层,所述基于所述场景图像生成模型调整所述第二边缘图像的图像类型,得到所述第二边缘图像对应的目标场景图像,包括:
基于多个所述卷积层对所述第二边缘图像进行卷积处理,得到目标卷积图像;
基于多个所述反卷积层对所述目标卷积图像进行反卷积处理,得到所述第二边缘图像对应的目标场景图像。
3.根据权利要求2所述的图像生成方法,其特征在于,所述卷积层的数量和所述反卷积层的数量相同,所述基于多个所述反卷积层对所述目标卷积图像进行反卷积处理,得到所述第二边缘图像对应的目标场景图像,包括:
获取待输入至目标反卷积层的第一过渡图像;其中,所述目标反卷积层为多个所述反卷积层中当前待进行反卷积处理的反卷积层;
从多个所述卷积层中确定与所述目标反卷积层对应的目标卷积层,获取所述目标卷积层进行卷积处理后输出的第二过渡图像;
将所述第一过渡图像与所述第二过渡图像进行拼接处理,得到拼接图像;
基于所述目标反卷积层对所述拼接图像进行反卷积处理,直至得到所述第二边缘图像对应的目标场景图像。
4.根据权利要求1至3任意一项所述的图像生成方法,其特征在于,所述场景图像生成模型根据以下步骤训练得到:
获取训练边缘图像集合和标签场景图像集合;其中,所述训练边缘图像集合包括多个训练边缘图像,所述标签场景图像集合包括多个标签场景图像,所述训练边缘图像集合的图像类型与标签场景图像集合的图像类型不同;
基于所述场景图像生成模型调整目标训练边缘图像的图像类型,得到所述目标训练边缘图像对应的训练场景图像;其中,所述目标训练边缘图像为多个所述训练边缘图像中的其中一个图像;
将所述训练场景图像输入至第一判断模型中,得到第一判断结果,将所述标签场景图像输入至所述第一判断模型中,得到第二判断结果,根据所述第一判断结果和所述第二判断结果计算所述场景图像生成模型对应的第一损失值;
根据所述第一损失值对所述场景图像生成模型的参数进行调整。
5.根据权利要求4所述的图像生成方法,其特征在于,所述根据所述第一损失值对所述场景图像生成模型的参数进行调整,包括:
基于边缘图像生成模型调整所述训练场景图像的图像类型,得到所述训练场景图像对应的还原边缘图像;
计算所述训练边缘图像集合中除了所述目标训练边缘图像以外任意一个训练边缘图像与所述还原边缘图像之间的范数,根据所述范数计算还原损失值;
基于第二判断模型计算所述边缘图像生成模型对应的第二损失值;
根据所述第一损失值、所述第二损失值和所述还原损失值之和得到目标损失值,根据所述目标损失值对所述场景图像生成模型的参数进行调整。
6.根据权利要求1所述的图像生成方法,其特征在于,所述对所述参考场景图像进行边缘检测,得到所述参考场景图像对应的第一边缘图像,包括:
对所述参考场景图像进行灰度化处理,得到所述参考场景图像对应的灰度图像;
对所述灰度图像进行高斯滤波处理,得到滤波图像;
计算所述滤波图像的像素梯度强度矩阵,遍历所述像素梯度强度矩阵中的各个图像像素点,将当前遍历的目标像素点的梯度强度与各个邻接像素点的梯度强度进行比较,根据比较结果从所述图像像素点中确定边缘像素点;
根据所述边缘像素点得到所述参考场景图像对应的第一边缘图像。
7.根据权利要求6所述的图像生成方法,其特征在于,所述根据比较结果从所述图像像素点中确定边缘像素点,包括:
若所述目标像素点的梯度强度大于各个所述邻接像素点的梯度强度,将所述目标像素点的梯度强度与预设第一强度阈值、第二强度阈值进行比较;其中,所述第一强度阈值大于所述第二强度阈值;
若所述目标像素点的梯度强度大于或者等于所述第一强度阈值,将所述目标像素点确定为边缘像素点;
若所述目标像素点的梯度强度小于所述第一强度阈值,且大于或者等于所述第二强度阈值,确定所述目标像素点对应的邻域像素点,当所述邻域像素点的梯度强度大于或者等于所述第一强度阈值,将所述目标像素点确定为边缘像素点。
8.根据权利要求1所述的图像生成方法,其特征在于,所述对所述第一边缘图像进行图像变换处理,得到所述第一边缘图像对应的多个第二边缘图像,包括以下至少之一:
对所述第一边缘图像进行旋转处理,得到所述第一边缘图像对应的多个第二边缘图像;
对所述第一边缘图像进行裁剪处理,得到所述第一边缘图像对应的多个第二边缘图像;
对所述第一边缘图像进行翻转处理,得到所述第一边缘图像对应的多个第二边缘图像;
对所述第一边缘图像进行高斯滤波处理,得到所述第一边缘图像对应的多个第二边缘图像。
9.根据权利要求1所述的图像生成方法,其特征在于,所述基准图像为文档图像,所述获取参考场景图像,包括:
获取参考纸张图像,从所述参考纸张图像中裁剪出纸张材质图像、纸张阴影图像或者纸张光线图像中的至少一种;
对所述纸张材质图像、所述纸张阴影图像或者所述纸张光线图像中的至少一种进行尺寸调整;
将进行尺寸调整后的所述纸张材质图像、所述纸张阴影图像或者所述纸张光线图像中的至少一种作为参考场景图像。
10.根据权利要求9所述的图像生成方法,其特征在于,多个所述目标场景图像包括与所述纸张材质图像对应的目标材质图像、与所述纸张阴影图像对应的目标阴影图像、与所述纸张光线图像对应的目标光线图像,所述将所述基准图像与各个所述目标场景图像进行合成处理,生成多个目标样本图像,包括:
对所述文档图像进行分离处理,得到所述文档图像对应的内容图像和原始背景图像;
将所述原始背景图像与所述目标材质图像、所述目标阴影图像、所述目标光线图像分别进行合成处理,得到多个效果背景图像;
将所述内容图像与各个所述效果背景图像进行合成处理,生成多个目标样本图像。
11.根据权利要求10所述的图像生成方法,其特征在于,所述将所述原始背景图像与各个所述目标场景图像进行合成处理,得到多个效果背景图像,包括:
获取所述原始背景图像的第一图像矩阵和各个所述目标场景图像的第二图像矩阵;其中,所述第一图像矩阵和所述第二图像矩阵的尺寸相同;
将所述第一图像矩阵和各个所述第二图像矩阵中对应的矩阵元素相乘,得到多个目标样本图像矩阵;
根据多个所述目标样本图像矩阵生成对应的效果背景图像。
12.一种图像生成装置,其特征在于,包括:
边缘检测模块,用于获取参考场景图像,对所述参考场景图像进行边缘检测,得到所述参考场景图像对应的第一边缘图像;
变换模块,用于对所述第一边缘图像进行图像变换处理,得到所述第一边缘图像对应的多个第二边缘图像;
模型处理模块,用于将所述第二边缘图像输入至预设的场景图像生成模型,基于所述场景图像生成模型调整所述第二边缘图像的图像类型,得到所述第二边缘图像对应的目标场景图像;
合成模块,用于获取基准图像,将所述基准图像与各个所述目标场景图像进行合成处理,生成多个目标样本图像。
13.一种电子设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11任意一项所述的图像生成方法。
14.一种计算机可读存储介质,所述存储介质存储有程序,其特征在于,所述程序被处理器执行时实现权利要求1至11任意一项所述的图像生成方法。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11任意一项所述的图像生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210390061.8A CN115115509A (zh) | 2022-04-14 | 2022-04-14 | 图像生成方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210390061.8A CN115115509A (zh) | 2022-04-14 | 2022-04-14 | 图像生成方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115115509A true CN115115509A (zh) | 2022-09-27 |
Family
ID=83325391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210390061.8A Pending CN115115509A (zh) | 2022-04-14 | 2022-04-14 | 图像生成方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115115509A (zh) |
-
2022
- 2022-04-14 CN CN202210390061.8A patent/CN115115509A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111488865B (zh) | 图像优化方法、装置、计算机存储介质以及电子设备 | |
CN110659582A (zh) | 图像转换模型训练方法、异质人脸识别方法、装置及设备 | |
CN111476306A (zh) | 基于人工智能的物体检测方法、装置、设备及存储介质 | |
CN111444826A (zh) | 视频检测方法、装置、存储介质及计算机设备 | |
CN112581370A (zh) | 人脸图像的超分辨率重建模型的训练及重建方法 | |
CN112651333B (zh) | 静默活体检测方法、装置、终端设备和存储介质 | |
CN113808277B (zh) | 一种图像处理方法及相关装置 | |
CN112381707B (zh) | 图像生成方法、装置、设备以及存储介质 | |
CN112614110B (zh) | 评估图像质量的方法、装置及终端设备 | |
CN112115900B (zh) | 图像处理方法、装置、设备及存储介质 | |
CN114359225A (zh) | 图像检测方法、装置、计算机设备及存储介质 | |
CN113569607A (zh) | 动作识别方法、装置、设备以及存储介质 | |
CN117496019B (zh) | 一种驱动静态图像的图像动画处理方法及系统 | |
CN110570375A (zh) | 一种图像处理方法、装置、电子设置以及存储介质 | |
CN114283152A (zh) | 图像处理、图像处理模型的训练方法、装置、设备及介质 | |
CN111539434B (zh) | 基于相似度的红外弱小目标检测方法 | |
CN115690934A (zh) | 基于批量人脸识别的师生考勤打卡方法及装置 | |
CN115311152A (zh) | 图像处理方法、装置、电子设备以及存储介质 | |
CN115131291A (zh) | 对象计数模型的训练方法、装置、设备以及存储介质 | |
CN115115509A (zh) | 图像生成方法、装置、电子设备及存储介质 | |
CN116883770A (zh) | 深度估计模型的训练方法、装置、电子设备及存储介质 | |
CN116758390B (zh) | 一种图像数据处理方法、装置、计算机设备以及介质 | |
CN112329606B (zh) | 一种活体检测方法、装置、电子设备及可读存储介质 | |
CN116863470A (zh) | 图像处理模型的训练方法、图像处理方法以及电子设备 | |
CN113392865A (zh) | 一种图片处理方法、装置、计算机设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |