CN116863470A - 图像处理模型的训练方法、图像处理方法以及电子设备 - Google Patents
图像处理模型的训练方法、图像处理方法以及电子设备 Download PDFInfo
- Publication number
- CN116863470A CN116863470A CN202310606326.8A CN202310606326A CN116863470A CN 116863470 A CN116863470 A CN 116863470A CN 202310606326 A CN202310606326 A CN 202310606326A CN 116863470 A CN116863470 A CN 116863470A
- Authority
- CN
- China
- Prior art keywords
- image
- sub
- sample
- training
- target
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 251
- 238000012545 processing Methods 0.000 title claims abstract description 223
- 238000000034 method Methods 0.000 title claims abstract description 100
- 238000003672 processing method Methods 0.000 title claims abstract description 18
- 238000005070 sampling Methods 0.000 claims abstract description 19
- 238000011156 evaluation Methods 0.000 claims description 61
- 238000003909 pattern recognition Methods 0.000 claims description 31
- 230000008569 process Effects 0.000 claims description 25
- 230000011218 segmentation Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 17
- 230000003213 activating effect Effects 0.000 claims description 5
- 238000003709 image segmentation Methods 0.000 claims description 5
- 238000005096 rolling process Methods 0.000 claims description 5
- 230000006870 function Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 10
- 230000002093 peripheral effect Effects 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 8
- 230000000694 effects Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 6
- 230000003287 optical effect Effects 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 3
- 230000002779 inactivation Effects 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000001994 activation Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 2
- 230000015572 biosynthetic process Effects 0.000 description 2
- 239000003086 colorant Substances 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000012804 iterative process Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000012916 structural analysis Methods 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000012010 growth Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 230000033001 locomotion Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0475—Generative networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/094—Adversarial learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Image Analysis (AREA)
Abstract
本说明书公开了一种图像处理模型的训练方法、图像处理方法以及电子设备,方法包括:获取训练图像,所述训练图像包括目标图形;在所述训练图像中进行采样,得到第一样本图像和第二样本图像,所述第一样本图像包括所述目标图形,所述第二样本图像不包括所述目标图形;基于所述第一样本图像和所述第二样本图像,利用生成对抗的方式训练图像处理模型,所述图像处理模型用于去除输入的图像中的目标图形。
Description
技术领域
本说明书实施例涉及计算机技术领域,特别涉及一种图像处理模型的训练方法、图像处理方法以及电子设备。
背景技术
随着计算机技术的发展,对图像进行文字识别和结构解析的应用场景越来越多,比如,对于一个文档图像来说,用户可能存在编辑文档图像中文本的需求,但是在文档图像中并不能直接对文本进行编辑。
相关技术中,往往会对文档图像进行文字识别,将文档图像转化为可编辑的文本,从而实现文本编辑的目的。
但是,文档图像中可能存在印章等图形,这些图形的存在会影响文字识别的效果。因此,亟需一种智能化的去除图像中图形的方法。
发明内容
本说明书实施例提供了一种图像处理模型的训练方法、图像处理方法以及电子设备,可以训练一个图像处理模型来智能化的去除图像中的图形,技术方案如下:
一方面,提供了一种图像处理模型的训练方法,所述方法包括:
获取训练图像,所述训练图像包括目标图形;
在所述训练图像中进行采样,得到第一样本图像和第二样本图像,所述第一样本图像包括所述目标图形,所述第二样本图像不包括所述目标图形;
基于所述第一样本图像和所述第二样本图像,利用生成对抗的方式训练图像处理模型,所述图像处理模型用于去除输入的图像中的目标图形。
一方面,提供了一种图像处理方法,所述方法包括:
获取目标图像中的第一子图像,所述第一子图像包括目标图形;
将所述第一子图像输入图像处理模型,通过所述图像处理模型去除所述第一子图像中的所述目标图形,得到第二子图像;
采用所述第二子图像替换所述目标图像中所述第一子图像对应的区域;
其中,所述图像处理模型是采用上述图像处理模型的训练方法训练得到的。
一方面,提供了一种图像处理模型的训练装置,所述装置包括:
训练图像获取模块,用于获取训练图像,所述训练图像包括目标图形;
采样模块,用于在所述训练图像中进行采样,得到第一样本图像和第二样本图像,所述第一样本图像包括所述目标图形,所述第二样本图像不包括所述目标图形;
训练模块,用于基于所述第一样本图像和所述第二样本图像,利用生成对抗的方式训练图像处理模型,所述图像处理模型用于去除输入的图像中的目标图形。
在一种可能的实施方式中,所述采样模块,用于对所述训练图像进行图像分割,得到所述第一样本图像;基于所述第一样本图像,从所述训练图像中获取所述第二样本图像。
在一种可能的实施方式中,所述采样模块,用于将所述训练图像输入图形识别模型,通过所述图形识别模型对所述训练图像进行图形识别,得到所述训练图像中的目标区域,所述目标区域包括所述目标图形;以所述目标区域为中心,从所述训练图像中分割出所述第一样本图像,所述第一样本图像包括所述目标区域,所述第一样本图像的尺寸大于所述目标区域。
在一种可能的实施方式中,所述采样模块,用于基于所述第一样本图像,在所述训练图像中确定参考区域,所述参考区域与所述第一样本图像在所述训练图像中对应的区域不重合,所述参考区域的尺寸与所述第一样本图像在所述训练图像中对应的区域相同;从所述训练图像中裁剪所述参考区域,得到所述第二样本图像。
在一种可能的实施方式中,所述训练模块,用于将所述第一样本图像输入所述图像处理模型的第一生成器,通过所述第一生成器,基于所述第一样本图像进行图像生成,得到第一参考图像,所述第一生成器用于去除输入的图像中的目标图形;将所述第一参考图像输入所述图像处理模型的第一判别器,通过所述第一判别器对所述第一参考图像进行评价,得到第一评价值,所述第一判别器用于评价所述第一生成器生成的图像的质量;将所述第二样本图像输入所述图像处理模型的第二生成器,通过所述第二生成器,基于所述第二样本图像进行图像生成,得到第二参考图像,所述第二生成器用于在输入的图像中生成目标图形;将所述第二参考图像输入所述图像处理模型的第二判别器,通过所述第二判别器对所述第二参考图像进行评价,得到第二评价值,所述第二判别器用于评价所述第二生成器生成的图像的质量;基于所述第一样本图像、所述第一参考图像、所述第二样本图像、所述第二参考图像、所述第一评价值以及所述第二评价值,对所述图像处理模型进行训练。
在一种可能的实施方式中,所述训练模块,用于通过所述第一生成器,对所述第一样本图像进行编码,得到所述第一样本图像的第一图像编码;对所述第一图像编码进行特征提取,得到所述第一样本图像的第一样本图像特征;对所述第一样本图像特征进行解码,得到所述第一参考图像。
在一种可能的实施方式中,所述训练模块,用于对所述第一样本图像进行至少一次卷积,得到所述第一样本图像的第一图像编码;所述对所述第一图像编码进行特征提取,得到所述第一样本图像的第一样本图像特征包括:对所述第一图像编码进行至少一次卷积和残差连接,得到所述第一样本图像的第一样本图像特征;所述对所述第一样本图像特征进行解码,得到所述第一参考图像包括:对所述第一样本图像特征进行至少一次反卷积和至少一次卷积,得到所述第一参考图像。
在一种可能的实施方式中,所述训练模块,用于通过所述第一判别器对所述第一参考图像进行至少一次卷积和激活处理,得到所述第一评价值。
在一种可能的实施方式中,所述训练模块,用于将所述第一参考图像输入所述第二生成器,通过所述第二生成器,基于所述第一参考图像进行图像生成,得到第三参考图像;将所述第二参考图像输入所述第一生成器,通过所述第一生成器,基于所述第二参考图像进行图像生成,得到第四参考图像;基于所述第一样本图像、所述第二样本图像、所述第一样本图像与所述第三参考图像之间的第一差异信息、所述第二样本图像与所述第四参考图像之间的第二差异信息、所述第一评价值以及所述第二评价值,对所述图像处理模型进行训练。
在一种可能的实施方式中,所述训练模块,用于基于所述第一样本图像,对所述第二判别器进行训练;基于所述第一差异信息和所述第一评价值,对所述第一生成器进行训练;基于所述第二样本图像,对所述第一判别器进行训练;基于所述第二差异信息和所述第二评价值,对所述第二生成器进行训练。
一方面,提供了一种图像处理装置,所述装置包括:
第一子图像获取模块,用于获取目标图像中的第一子图像,所述第一子图像包括目标图形;
第二子图像获取模块,用于将所述第一子图像输入图像处理模型,通过所述图像处理模型去除所述第一子图像中的所述目标图形,得到第二子图像;
替换模块,用于采用所述第二子图像替换所述目标图像中所述第一子图像对应的区域;
其中,所述图像处理模型是采用上述图像处理模型的训练方法训练得到的。
在一种可能的实施方式中,所述第二子图像获取模块,用于通过所述图像处理模型,对所述第一子图像进行编码,得到所述第一子图像的第一图像编码;对所述第一图像编码进行特征提取,得到所述第一子图像的第一子图像特征;对所述第一子图像特征进行解码,得到所述第二子图像。
在一种可能的实施方式中,所述第二子图像获取模块,用于对所述第一子图像进行至少一次卷积,得到所述第一子图像的第一图像编码;所述对所述第一图像编码进行特征提取,得到所述第一子图像的第一子图像特征包括:对所述第一图像编码进行至少一次卷积和残差连接,得到所述第一子图像的第一子图像特征;所述对所述第一子图像特征进行解码,得到所述第二子图像包括:对所述第一子图像特征进行至少一次反卷积和至少一次卷积,得到所述第二子图像。
在一种可能的实施方式中,所述装置还包括:
预处理模块,用于确定所述第一子图像的第一背景区域和所述第二子图像的第二背景区域;确定所述第一背景区域在不同颜色通道下的第一平均通道值;确定所述第二背景区域在不同颜色通道下的第二平均通道值;采用所述第一平均通道值和所述第二平均通道值更新所述第二子图像中多个像素点的像素值。
在一种可能的实施方式中,所述预处理模块,用于对所述第一子图像进行灰度化和二值化,得到所述第一子图像的第一背景分割图像;从所述第一背景分割图像中确定所述第一子图像的第一背景区域;对所述第二子图像进行灰度化和二值化,得到所述第二子图像的第二背景分割图像;从所述第二背景分割图像中确定所述第二子图像的第二背景区域。
在一种可能的实施方式中,所述预处理模块,用于对于所述多个像素点中的任一像素点,将所述像素点在不同颜色通道下的通道值与所述第二平均通道值相除后与所述第一平均通道值相乘,得到所述像素点在不同颜色通道下的目标通道值;将所述像素点在不同颜色通道下的目标通道值进行融合,得到所述像素点的目标像素值;采用所述目标像素值更新所述像素点的像素值。
一方面,提供了一种计算机设备,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述计算机程序由所述一个或多个处理器加载并执行以实现所述图像处理模型的训练方法或实现所述图像处理方法。
一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现所述图像处理模型的训练方法或实现所述图像处理方法。
一方面,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括程序代码,该程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该程序代码,处理器执行该程序代码,使得该计算机设备执行所述图像处理模型的训练方法或所述图像处理方法。
通过本说明书实施例提供的技术方案,在去除目标图像中目标图形的过程中,获取目标图像中的第一子图像,该第一子图像包括目标图形。将该第一子图像输入图像处理模型,通过该图像处理模型对该第一子图像进行处理,以去除该第一子图像中的目标图形,得到第二子图像。采用该第二子图像替换该目标图像中该第一子图像对应的区域,从而实现去除该目标图像中目标图形的目的。
附图说明
为了更清楚地说明本说明书实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本说明书实施例提供的一种图像处理模型的训练方法的实施环境的示意图;
图2是本说明书实施例提供的一种图像处理模型的训练方法的流程图;
图3是本说明书实施例提供的一种图像处理方法的流程图;
图4是本说明书实施例提供的另一种图像处理模型的训练方法的流程图;
图5是本说明书实施例提供的一种获取第一样本图像和第二样本图像的示意图;
图6是本说明书实施例提供的一种图像处理模型的结构示意图;
图7是本说明书实施例提供的另一种图像处理方法的流程图;
图8是本说明书实施例提供的一种去除印章前后的对比图;
图9是本说明书实施例提供的一种图像处理模型的训练装置的结构示意图;
图10是本说明书实施例提供的一种图像处理装置的结构示意图;
图11本说明书实施例提供的一种终端的结构示意图;
图12是本说明书实施例提供的一种服务器的结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合附图对本说明书实施方式做进一步的详细描述。
本说明书中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得较佳结果的理论、方法、技术及应用系统。
机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
生成对抗网络(Generative Adversarial Network,GAN)是基于神经网络结构的生成模型,是深度学习中的一种主流方法。该模型在各种问题场景,比如数据生成、艺术造作、图像修复、图像风格转换、语音合成、文本图像互相转换等中均有十分广泛的应用。生成对抗网络模型主要包含两个网络结构:一是捕获数据分布的生成模型,也称为生成器(通常用G表示),二是估计来自训练数据(而不是G)样本的概率的判别模型,也称为判别器(通常用D表示)。生成器G的训练步骤是要最大化判别器D做出错误判断的概率。这个框架对应于最小最大化两人博弈。在生成器G和判别器D的任意函数的解空间中,存在一个解,生成器还原训练数据分布,判别器处处等于1/2。
Cycle-GAN:循环生成对抗网络,是一种能够无监督地实现图像风格转换功能的生成对抗网络。
归一化:将取值范围不同的数列映射到(0,1)区间上,便于数据的处理。在一些情况下,归一化后的数值可以直接被实现为概率。
随机失活(Dropout):是对具有深度结构的人工神经网络进行优化的方法,在学习过程中通过将隐含层的部分权重或输出随机归零,降低节点间的相互依赖性从而实现神经网络的正则化,降低其结构风险。例如在模型训练过程中,存在一个向量(1,2,3,4),将该向量输入随机失活层后,随机失活层可以随机将向量(1,2,3,4)中的一个数字转化为0,比如将2转化为0,那么向量就变成了(1,0,3,4)。
学习率(Learning Rate):用于控制模型的学习进度,学习率可以指导模型在梯度下降法中,如何使用损失函数的梯度调整网络权重。学习率如果过大,可能会使损失函数直接越过全局目标点,此时表现为损失过大;学习率如果过小,损失函数的变化速度很慢,会大大增加网络的收敛复杂度,并且很容易被困在局部最小值或者鞍点。
嵌入编码(Embedded Coding):嵌入编码在数学上表示一个对应关系,即通过一个函数F将X空间上的数据映射到Y空间上,其中该函数F是单射函数,映射的结果是结构保存,单射函数表示映射后的数据与映射前的数据唯一对应,结构保存表示映射前数据的大小关系后映射后数据的大小关系相同,例如映射前存在数据X1以及X2,映射后得到X1对应的Y1以及X2对应的Y2。若映射前的数据X1>X2,那么相应地,映射后的数据Y1大于Y2。对于词语来说,就是将词语映射到另外一个空间,便于后续的机器学习和处理。
注意力权重:可以表示训练或预测过程中某个数据的重要性,重要性表示输入的数据对输出数据影响的大小。重要性高的数据其对应的注意力权重的值较高,重要性低的数据其对应的注意力权重的值较低。在不同的场景下,数据的重要性并不相同,模型的训练注意力权重的过程也即是确定数据重要性的过程。
需要说明的是,本说明书所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
图1是本说明书实施例提供的一种图像处理模型的训练方法和图像处理方法的实施环境示意图,参见图1,该实施环境中可以包括终端110和服务器140。
终端110通过无线网络或有线网络与服务器140相连。可选的,终端110是智能手机、平板电脑、笔记本电脑、台式计算机等,但并不局限于此。终端110安装和运行有支持图像处理模型训练和图像处理的应用程序。
服务器140是独立的物理服务器,或者是多个物理服务器构成的服务器集群或者分布式系统,或者是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、分发网络(Content Delivery Network,CDN),以及大数据和人工智能平台等基础云计算服务的云服务器。服务器140为终端110上运行的应用程序提供后台服务,
本领域技术人员可以知晓,上述终端的数量可以更多或更少。比如上述终端仅为一个,或者上述终端为几十个或几百个,或者更多数量,此时上述实施环境中还包括其他终端。本说明书实施例对终端的数量和设备类型不加以限定。
在介绍完本说明书实施例的实施环境之后,下面将结合上述实施环境对本说明书实施例的应用场景进行介绍,在下述说明过程中,终端也即是上述实施环境中的终端110,服务器也即是上述实施环境中的服务器140。
本说明书实施例提供的技术方案能够应用在去除图像中指定图形的场景中,比如应用在去除图像中印章的场景下,或者应用在去除图像中签名的场景下,或者应用在去除图像中污点的场景下。
在本说明书实施例提供的技术方案应用在去除图像中印章的场景下的情况下,终端或服务器能够采用本说明书实施例提供的图像处理模型的训练方法来训练一个图像处理模型,使用该图像处理模型来对图像进行处理,以去除图像中的印章。以服务器训练该图像处理模型为例,在训练该图像处理模型的过程中,服务器获取训练图像,该训练图像包括目标图形,该目标图形也即是印章。服务器在该训练图像中进行采样,得到第一样本图像和第二样本图像,该第一样本图像包括该印章,该第二样本图像不包括该印章。服务器基于该第一样本图像和该第二样本图像,利用生成对抗的方式训练图像处理模型,使得训练完成的图像处理模型具有去除图像中印章的能力。
在使用训练完成的图像处理模型去除图像中的印章的过程中,以执行主体为终端为例,终端获取目标图像中的第一子图像,该第一子图像包括印章。终端将该第一子图像输入图像处理模型,通过该图像处理模型去除该第一子图像中的该印章,得到第二子图像。终端采用该第二子图像替换该目标图像中该第一子图像对应的区域,从而实现对目标图像中印章的去除。
印章是在文档图像中会经常遇到情况,当印章出现在文档图像中时,可能会导致关键文字信息遮挡,从而影响后续文字识别和结构解析等文档分析结果的准确性。采用本说明书实施例提供的技术方案之后,能够去除文档图像中的印章,为下一步的文档分析提供更加高质量的图像,从而提高整体结果的准确性。
当然,使用本说明书实施例提供的技术方案去除印章符合法律法规的相关要求。
需要说明的是,上述是以本说明书实施例提供的技术方案应用在去除图像中印章的场景下为例进行说明的,在本说明书实施例提供的技术方案应用在其他场景的情况下,实现过程与上述说明属于同一发明构思,在此不再赘述。
还有,目标图形除了可以为上述印章、签名以及污点之外,还可以为其他类型的图形,本说明书实施例对此不作限定。
介绍完本说明书实施例的实施环境和应用场景之后,下面对本说明书实施例提供的图像识别模型的训练方法进行介绍,参见图2,以执行主体为服务器为例,方法包括下述步骤。
202、服务器获取训练图像,该训练图像包括目标图形。
其中,该训练图像用于训练图像处理模型,目标图形为待去除的图形,训练该图像处理模型是为了去除输入图像中的目标图形。在不同应用场景下,目标图形具有不同的含义,在去除图像中印章的场景下,该目标图形为图像中的印章。在去除图像中签名的场景下,该目标图形为图像中的签名。在去除图像中污点的情况下,该目标图形为图像中的污点。
204、服务器在该训练图像中进行采样,得到第一样本图像和第二样本图像,该第一样本图像包括该目标图形,该第二样本图像不包括该目标图形。
其中,在该训练图像中进行采样是为了得到包括目标图形的第一样本图像和不包括目标图形的第二样本图像。由于该第一样本图像和该第二样本图像对应于该训练图像中的不同区域,该第一样本图像和该第二样本图像不构成正负样本对。采用这种方式能够快捷地获取包括目标图形的第一样本图像和不包括目标图形的第二样本图像,后续能够采用该第一样本图像和该第二样本图像对图像处理模型进行训练。
206、服务器基于该第一样本图像和该第二样本图像,利用生成对抗的方式训练图像处理模型,该图像处理模型用于去除输入的图像中的目标图形。
其中,利用生成对抗的方式来训练图像处理模型,使得图像处理模型具有较好的图像处理效果,也即是具有较好的去除目标图形的效果。采用该第一样本图像和该第二样本图像来训练该图像处理模型的成本较低。
通过本说明书实施例提供的技术方案,获取包括目标图形的训练图像。在该训练图像中进行采样,得到包括目标图形的第一样本图像和不包括目标图形的第二样本图像,该第一样本图像和该第二样本图像不构成正负样本对,该第一样本图像和该第二样本图像的获取成本较低。基于该第一样本图像和该第二样本图像,采用生成对抗的方式训练图像处理模型,使得训练完成的图像处理模型具有去除输入的图像中的目标图形的能力。使用该图像处理模型能够实现较为智能化的去除目标图形。
在介绍完本说明书实施例提供的图像处理模型的训练方法之后,下面对使用图像处理模型进行图像处理的方法进行说明,以执行主体为终端为例,参见图3,方法包括下述步骤。
302、终端获取目标图像中的第一子图像,该第一子图像包括目标图形。
其中,目标图像为待去除目标图形的图像。该目标图像包括目标图形,目标图形为待去除的图形,比如为目标图像中的印章。该第一子图像属于该目标图像,该第一子图像对应于该目标图像的一个区域。在一些实施例中,该第一子图像的尺寸小于该目标图像。
304、终端将该第一子图像输入图像处理模型,通过该图像处理模型去除该第一子图像中的该目标图形,得到第二子图像。
其中,该图像处理模型是采用上述202-206提供的图像处理模型的训练方法训练得到的。该第二子图像也即是去除该目标图形后的第一子图像,该第二子图像和该第一子图像具有相同的尺寸。
306、终端采用该第二子图像替换该目标图像中该第一子图像对应的区域。
其中,由于该第二子图像是去除目标图形后的第一子图像,采用该第二子图像替换该目标图像中该第一子图像对应的区域就能够实现去除目标图像中目标图形的目的。
通过本说明书实施例提供的技术方案,在去除目标图像中目标图形的过程中,获取目标图像中的第一子图像,该第一子图像包括目标图形。将该第一子图像输入图像处理模型,通过该图像处理模型对该第一子图像进行处理,以去除该第一子图像中的目标图形,得到第二子图像。采用该第二子图像替换该目标图像中该第一子图像对应的区域,从而实现去除该目标图像中目标图形的目的。
上述步骤202-206是对本说明书实施例提供的图像处理模型的训练方法的简单介绍,下面将结合一些例子,对本说明书实施例提供的图像处理模型的训练方法进行更为详细的说明,以执行主体为服务器为例,参见图4,方法包括下述步骤。
需要说明的是,训练图像处理模型需要多轮迭代过程,多轮迭代过程均属于同一发明构思,下面以一轮迭代过程为例进行说明。
402、服务器获取训练图像,该训练图像包括目标图形。
其中,该训练图像用于训练图像处理模型,目标图形为待去除的图形,训练该图像处理模型是为了去除输入图像中的目标图形。在不同应用场景下,目标图形具有不同的含义,在去除图像中印章的场景下,该目标图形为图像中的印章。在去除图像中签名的场景下,该目标图形为图像中的签名。在去除图像中污点的情况下,该目标图形为图像中的污点。目标图形用于代指一类图形,目标图形限定的是图形的类别,不限定图形的形状和颜色等属性。比如,在目标图形为印章的情况下,圆形的印章和方形的印章均可以被称为目标图形,红色的印章和蓝色的印章也可以被称为目标图形。在下述说明过程中,以去除图像中的印章为例进行说明,在这种情况下,目标图像既可以是对为有印章的文件进行拍摄得到的文档图像,也可以是合成的带有印章的文档图像,本说明书实施例对此不作限定。
在一种可能的实施方式中,服务器从训练图像库中获取该训练图像,该训练图像库中存储有多个候选训练图像,该训练图像输入该多个候选训练图像,该多个候选训练图像均包括目标图形,不同候选训练图像中的目标图形可以相同,也可以不同。
其中,该训练图像库由服务器对应维护。在对图像处理模型进行训练的过程中,每轮迭代训练从该训练图像库中获取不同的候选训练图像作为本轮迭代训练的训练图像。
在这种实施方式下,服务器能够从该训练图像库中获取该训练图像,获取该训练图像的效率较高。
在一些实施例中,服务器获取该多个候选训练图像,将该多个候选训练图像存储在该训练图像库中。在这种方式下,服务器直接获取候选训练图像就能够快速生成训练图像处理模型的训练图像库,效率较高。
或者,服务器获取多个文档图像和多个目标图形,将该多个目标图形随机合成到该多个文档图像上,得到该多个候选训练图像,将该多个候选训练图像存储在该训练图像库中。在这种实施方式下,在候选训练图像的获取难度较高的情况下,通过图像合成的方式能够快速得到候选训练图像,降低了获取候选训练图像的难度和成本。当然,服务器也能够获取一部分候选训练图像,生成一部分候选训练图像,从而丰富训练图像库的内容。
在一种可能的实施方式中,服务器获取终端上传的训练图像。
其中,该终端为技术人员使用的终端。
在这种实施方式下,训练图像由技术人员根据实际需要进行选择,模型训练的自主性更高。
404、服务器对该训练图像进行图像分割,得到第一样本图像,该第一样本图像包括该目标图形。
在一种可能的实施方式中,服务器将该训练图像输入图形识别模型,通过该图形识别模型对该训练图像进行图形识别,得到该训练图像中的目标区域,该目标区域包括该目标图形。服务器以该目标区域为中心,从该训练图像中分割出该第一样本图像,该第一样本图像包括该目标区域,该第一样本图像的尺寸大于该目标区域。
其中,该图形识别模型用于识别输入图像中目标图形所在的区域,该图形识别模型为一个目标检测模型。以该目标区域为中心,从该训练图像中分割出该第一样本图像表示该第一样本图像完整的包括该目标区域。该第一样本图像的尺寸大于该目标区域表示该第一样本图像除了包括目标区域之外,还包括该训练图像上与该目标区域相邻的其他区域。
在这种实施方式下,通过图形识别模型识别出该训练图像中包括目标图形的目标区域,再基于目标区域从训练图像中分割出第一样本图像,第一样本图像的获取效率和准确性均较高。
为了对上述实施方式进行更加清楚地说明,下面将分为两个部分对上述实施方式进行说明。
第一部分、服务器将该训练图像输入图形识别模型,通过该图形识别模型对该训练图像进行图形识别,得到该训练图像中的目标区域。
在一种可能的实施方式中,服务器将该训练图像输入图形识别模型,通过该图形识别模型对该训练图像进行特征提取,得到该训练图像的图像特征。服务器通过该图形识别模型,基于该图像特征进行分类,得到该训练图像中包括目标图形的目标区域。
举例来说,服务器将该训练图像输入图形识别模型,通过该图形识别模型对该训练图像进行卷积、全连接以及注意力编码中的任一项,得到该训练图像的图像特征。服务器基于该图像特征对训练图像中的多个像素点进行区域分类,得到该训练图像中多个像素点所属的区域,其中,对像素点进行区域分类是一个二分类的过程,分类结果为像素点属于目标区域以及像素点不属于目标区域。服务器基于该训练图像中多个像素点所述的区域,在训练图像中确定该目标区域。
在一种可能的实施方式中,服务器将该训练图像输入图形识别模型,通过该图形识别模型,采用多个图形模板在该训练图像上进行滑动,确定图形模板与该训练图像上多个区域的相似度,其中,该图形模板携带不同样式的目标图形。服务器将该训练图像上相似度符合相似度条件的区域,确定为该训练图像的目标区域。
第二部分、服务器以该目标区域为中心,从该训练图像中分割出该第一样本图像。
在一种可能的实施方式中,服务器在该训练图像上将该目标区域的宽和高向外扩充,得到扩充区域。服务器分割该扩充区域,得到该第一样本图像。
举例来说,服务器在该训练图像上将该目标区域的宽和高均向外扩展目标比例,得到扩充区域。服务器分割该扩充区域,得到该第一样本图像。其中,该目标比例由技术人员根据实际情况进行设置,比如设置为宽和高的1/4等,本说明书实施例对此不作限定。
406、服务器基于该第一样本图像,从该训练图像中获取第二样本图像,该第二样本图像不包括该目标图形。
其中,由于该第一样本图像和该第二样本图像对应于该训练图像中的不同区域,该第一样本图像和该第二样本图像不构成正负样本对。采用上述步骤404和406能够快捷地获取包括目标图形的第一样本图像和不包括目标图形的第二样本图像,后续能够采用该第一样本图像和该第二样本图像对图像处理模型进行训练,降低图像处理模型的训练成本。
在一种可能的实施方式中,服务器基于该第一样本图像,在该训练图像中确定参考区域,该参考区域与该第一样本图像在该训练图像中对应的区域不重合,该参考区域的尺寸与该第一样本图像在该训练图像中对应的区域相同。服务器从该训练图像中裁剪该参考区域,得到该第二样本图像。
其中,该参考区域与该第一样本图像在该训练图像中对应的区域不重合,也即是该参考区域与该第一样本图像在该训练图像中对应的区域没有公共部分。该参考区域的尺寸与该第一样本图像在该训练图像中对应的区域相同,保证后续训练图像处理模型时输入的图像尺寸相同。该第一样本图像在该训练图像中对应的区域为上述步骤404中的目标区域或扩充区域,为了便于描述,下面采用第一区域来代指该第一样本图像在该训练图像中对应的区域。
在这种实施方式下,在训练图像中确定与该第一区域不重合的参考区域,裁剪该参考区域就能够得到第二样本图像,第二样本图像的获取效率较高。
举例来说,服务器在该第一区域相邻的位置确定该参考区域,该第一区域与该参考区域不重合且该第一区域与该参考区域尺寸相同,其中,与该第一区域相邻的位置包括该第一区域上下左右四个方向的位置。服务器从该训练图像中采集该参考区域,得到该第二样本图像。
比如,参见图5,服务器在训练图像501中进行采样,得到第一样本图像502和第二样本图像503,该第一样本图像502包括目标图形504。
408、服务器基于该第一样本图像和该第二样本图像,利用生成对抗的方式训练图像处理模型,该图像处理模型用于去除输入的图像中的目标图形。
其中,利用生成对抗的方式来训练图像处理模型,使得图像处理模型具有较好的图像处理效果,也即是具有较好的去除目标图形的效果。采用该第一样本图像和该第二样本图像来训练该图像处理模型的成本较低。
在一种可能的实施方式中,服务器将该第一样本图像输入该图像处理模型的第一生成器,通过该第一生成器,基于该第一样本图像进行图像生成,得到第一参考图像,该第一生成器用于去除输入的图像中的目标图形。服务器将该第一参考图像输入该图像处理模型的第一判别器,通过该第一判别器对该第一参考图像进行评价,得到第一评价值,该第一判别器用于评价该第一生成器生成的图像的质量。服务器将该第二样本图像输入该图像处理模型的第二生成器,通过该第二生成器,基于该第二样本图像进行图像生成,得到第二参考图像,该第二生成器用于在输入的图像中生成目标图形。服务器将该第二参考图像输入该图像处理模型的第二判别器,通过该第二判别器对该第二参考图像进行评价,得到第二评价值,该第二判别器用于评价该第二生成器生成的图像的质量。服务器基于该第一样本图像、该第一参考图像、该第二样本图像、该第二参考图像、该第一评价值以及该第二评价值,对该图像处理模型进行训练。
其中,该第一生成器用于去除输入的图像中的目标图形,也即是该图像处理模型训练完成之后,使用该第一生成器能够实现去除图像中目标图形的目标。该第一判别器用于对该第一生成器生成的图像的质量进行评价,质量用于表示生成的无目标图形的图像与真实的无目标图形的图像之间的差异,质量越高,则生成的无目标图形的图像与真实的无目标图形的图像之间的差异越小;质量越差,则生成的无目标图形的图像与真实的无目标图形的图像之间的差异越大。训练该第一生成器是为了生成质量更高的图像来“欺骗”第一判别器,训练该第一判别器是为了更加准确地给第一生成器生成的图像进行评价,该第一生成器和该第一判别器之间形成“对抗”。该第二生成器用于在输入的图像中生成目标图形,该第一生成器和该第二生成器形成了“循环”,实现样本图像的充分利用。相应地,该第二判别器用于对该第二生成器生成的图像的质量进行评价。训练该第二生成器是为了生成质量更高的图像来“欺骗”第二判别器,训练该第二判别器是为了更加准确地给第二生成器生成的图像进行评价,该第二生成器和该第二判别器之间形成“对抗”。另外,训练该图像处理模型是指训练该第一生成器、该第二生成器、该第一判别器以及该第二判别器。该第一生成器和该第二生成器结构相同,参数不同且不共享;该第一判别器和该第二判别器结构相同,参数不同且不共享。
在这种实施方式下,通过第一生成器与第一判别器之间和第二生成器与第二判别器之间形成的对抗,以及第一生成器和第二生成器之间形成的循环,充分利用不成对的该第一样本图像和该第二样本图像,实现对图像处理模型的训练。
为了对上述实施方式进行更加清楚的说明,下面将分为几个部分对上述实施方式进行说明。
第一部分、服务器将该第一样本图像输入该图像处理模型的第一生成器,通过该第一生成器,基于该第一样本图像进行图像生成,得到第一参考图像。
在一种可能的实施方式中,服务器将该第一样本图像输入该图像处理模型的第一生成器,通过该第一生成器,对该第一样本图像进行编码,得到该第一样本图像的第一图像编码。服务器通过该第一生成器,对该第一图像编码进行特征提取,得到该第一样本图像的第一样本图像特征。服务器通过该第一生成器,对该第一样本图像特征进行解码,得到该第一参考图像。
其中,编码是为了进行序列化,以便于模型处理。特征提取是为了抽象表达,提高表达能力。解码是为了进行反序列化,将特征还原为图像。
在这种实施方式下,通过编码、特征提取以及解码,能够基于第一样本图像生成第一参考图像,第一参考图像的生成效率较高。
举例来说,服务器将该第一样本图像输入该图像处理模型的第一生成器,通过该第一生成器,对该第一样本图像进行至少一次卷积,得到该第一样本图像的第一图像编码。服务器通过该第一生成器,对该第一图像编码进行至少一次卷积和残差连接,得到该第一样本图像的第一样本图像特征。服务器通过该第一生成器,对该第一样本图像特征进行至少一次反卷积和至少一次卷积,得到该第一参考图像。
比如,服务器将该第一样本图像输入该图像处理模型的第一生成器,通过该第一生成器的编码单元,对该第一样本图像进行三次卷积,得到该第一样本图像的第一图像编码。服务器通过该第一生成器的特征提取单元,对该第一图像编码进行九次卷积和残差连接,得到该第一样本图像的第一样本图像特征。服务器通过该第一生成器的解码单元,对该第一样本图像特征进行两次卷积和一次反卷积,得到该第一参考图像。
第二部分、服务器将该第一参考图像输入该图像处理模型的第一判别器,通过该第一判别器对该第一参考图像进行评价,得到第一评价值。
在一种可能的实施方式中,服务器将该第一参考图像输入该图像处理模型的第一判别器,通过该第一判别器对该第一参考图像进行至少一次卷积和激活处理,得到该第一评价值。
其中,激活处理采用的激活函数为Sigmoid(S型生长曲线)、Softmax(软最大化)或Relu(线性整流),本说明书实施例对此不作限定。
第三部分、服务器将该第二样本图像输入该图像处理模型的第二生成器,通过该第二生成器,基于该第二样本图像进行图像生成,得到第二参考图像。
在一种可能的实施方式中,服务器将该第二样本图像输入该图像处理模型的第二生成器,通过该第二生成器,对该第二样本图像进行编码,得到该第二样本图像的第二图像编码。服务器通过该第二生成器,对该第二图像编码进行特征提取,得到该第二样本图像的第二样本图像特征。服务器通过该第二生成器,对该第二样本图像特征进行解码,得到该第二参考图像。
举例来说,服务器将该第二样本图像输入该图像处理模型的第二生成器,通过该第二生成器,对该第二样本图像进行至少一次卷积,得到该第二样本图像的第二图像编码。服务器通过该第二生成器,对该第二图像编码进行至少一次卷积和残差连接,得到该第二样本图像的第二样本图像特征。服务器通过该第二生成器,对该第二样本图像特征进行至少一次反卷积和至少一次卷积,得到该第二参考图像。
比如,服务器将该第二样本图像输入该图像处理模型的第二生成器,通过该第二生成器的编码单元,对该第二样本图像进行三次卷积,得到该第二样本图像的第二图像编码。服务器通过该第二生成器的特征提取单元,对该第二图像编码进行九次卷积和残差连接,得到该第二样本图像的第二样本图像特征。服务器通过该第二生成器的解码单元,对该第二样本图像特征进行两次卷积和一次反卷积,得到该第二参考图像。
第四部分、服务器将该第二参考图像输入该图像处理模型的第二判别器,通过该第二判别器对该第二参考图像进行评价,得到第二评价值。
在一种可能的实施方式中,服务器将该第二参考图像输入该图像处理模型的第二判别器,通过该第二判别器对该第二参考图像进行至少一次卷积和激活处理,得到该第二评价值。
第五部分、服务器基于该第一样本图像、该第一参考图像、该第二样本图像、该第二参考图像、该第一评价值以及该第二评价值,对该图像处理模型进行训练。
在一种可能的实施方式中,服务器将该第一参考图像输入该第二生成器,通过该第二生成器,基于该第一参考图像进行图像生成,得到第三参考图像。服务器将该第二参考图像输入该第一生成器,通过该第一生成器,基于该第二参考图像进行图像生成,得到第四参考图像。服务器基于该第一样本图像、该第二样本图像、该第一样本图像与该第三参考图像之间的第一差异信息、该第二样本图像与该第四参考图像之间的第二差异信息、该第一评价值以及该第二评价值,对该图像处理模型进行训练。
在这种实施方式下,通过第一生成器和第二生成器分别对第二生成器和第一生成器生成的图像进行处理,实现完整的循环过程,提高图像处理模型的训练效果。
为了对上述实施方式进行更加清楚地说明,下面将再分为几个部分对上述实施方式进行说明。
A、服务器将该第一参考图像输入该第二生成器,通过该第二生成器,基于该第一参考图像进行图像生成,得到第三参考图像。
在一种可能的实施方式中,服务器将该第一参考图像输入该图像处理模型的第二生成器,通过该第二生成器,对该第一参考图像进行编码,得到该第一参考图像的第三图像编码。服务器通过该第二生成器,对该第三图像编码进行特征提取,得到该第一参考图像的第一参考图像特征。服务器通过该第二生成器,对该第一参考图像特征进行解码,得到该第三参考图像。
举例来说,服务器将该第一参考图像输入该图像处理模型的第二生成器,通过该第二生成器,对该第一参考图像进行至少一次卷积,得到该第一参考图像的第三图像编码。服务器通过该第二生成器,对该第三图像编码进行至少一次卷积和残差连接,得到该第一参考图像的第一参考图像特征。服务器通过该第二生成器,对该第一参考图像特征进行至少一次反卷积和至少一次卷积,得到该第三参考图像。
B、服务器将该第二参考图像输入该第一生成器,通过该第一生成器,基于该第二参考图像进行图像生成,得到第四参考图像。
在一种可能的实施方式中,服务器将该第二参考图像输入该图像处理模型的第一生成器,通过该第一生成器,对该第二参考图像进行编码,得到该第二参考图像的第四图像编码。服务器通过该第一生成器,对该第四图像编码进行特征提取,得到该第二参考图像的第二参考图像特征。服务器通过该第一生成器,对该第二参考图像特征进行解码,得到该第四参考图像。
举例来说,服务器将该第二参考图像输入该图像处理模型的第一生成器,通过该第一生成器,对该第二参考图像进行至少一次卷积,得到该第二参考图像的第四图像编码。服务器通过该第一生成器,对该第四图像编码进行至少一次卷积和残差连接,得到该第二参考图像的第二参考图像特征。服务器通过该第一生成器,对该第二参考图像特征进行至少一次反卷积和至少一次卷积,得到该第四参考图像。
C、服务器基于该第一样本图像、该第二样本图像、该第一样本图像与该第三参考图像之间的第一差异信息、该第二样本图像与该第四参考图像之间的第二差异信息、该第一评价值以及该第二评价值,对该图像处理模型进行训练。
在一种可能的实施方式中,服务器基于该第一样本图像,对该第二判别器进行训练。服务器基于该第一差异信息和该第一评价值,对该第一生成器进行训练。服务器基于该第二样本图像,对该第一判别器进行训练。服务器基于该第二差异信息和该第二评价值,对该第二生成器进行训练。
在这种实施方式下,利用了第一生成器、第二生成器、第一判别器以及第二判别器产生的数据实现了对图像处理模型的训练,训练的效果较好。
举例来说,服务器将该第一样本图像输入该第二判别器,通过该第二判别器对该第一样本图像进行评价,得到第一样本图像的第一预测评价值。服务器基于该第一样本图像的第一预测评价值与标注评价值之间的第三差异信息,对该第二判别器进行训练,其中,标注评价值用于表示该第一样本图像不是生成的图像。服务器基于该第一差异信息和该第一评价值,对该第一生成器进行训练。服务器将该第二样本图像输入该第一判别器,通过该第一判别器对该第二样本图像进行评价,得到第二样本图像的第二预测评价值。服务器基于该第二样本图像的第二预测评价值与标注评价值之间的第四差异信息,对该第一判别器进行训练,其中,标注评价值用于表示该第二样本图像不是生成的图像。服务器基于该第二差异信息和该第二评价值,对该第二生成器进行训练。
比如,服务器基于该第一差异信息、该第二差异信息、该第三差异信息以及该第四差异信息构建联合损失函数。服务器基于该联合损失函数,采用梯度下降法对该图像处理模型进行训练。
下面将结合图6对上述步骤408进行说明。
参见图6,图像处理模型包括第一生成器601、第二生成器602、第一判别器603以及第二判别器604。服务器将第一样本图像A输入第一生成器601,通过该第一生成器601,基于该第一样本图像A进行图像生成,得到第一参考图像B。服务器将该第一参考图像B输入该图像处理模型的第一判别器603,通过该第一判别器603对该第一参考图像B进行评价,得到第一评价值。服务器将该第一参考图像B输入第二生成器602,通过该第二生成器602,基于该第一参考图像进行图像生成,得到第三参考图像C。服务器将第二样本图像D输入第二生成器602,通过该第二生成器602,基于该第二样本图像D进行图像生成,得到第二参考图像E。服务器将该第二参考图像E输入该图像处理模型的第一判别器603,通过该第一判别器603对该第二参考图像E进行评价,得到第二评价值。服务器将该第二参考图像E输入第一生成器601,通过该第一生成器601,基于该第一参考图像进行图像生成,得到第四参考图像F。服务器基于该第一样本图像A、该第一参考图像B、该第二样本图像D、该第二参考图像E、该第一评价值以及该第二评价值,对该图像处理模型进行训练。
上述所有可选技术方案,可以采用任意结合形成本说明书的可选实施例,在此不再一一赘述。
通过本说明书实施例提供的技术方案,获取包括目标图形的训练图像。在该训练图像中进行采样,得到包括目标图形的第一样本图像和不包括目标图形的第二样本图像,该第一样本图像和该第二样本图像不构成正负样本对,该第一样本图像和该第二样本图像的获取成本较低。基于该第一样本图像和该第二样本图像,采用生成对抗的方式训练图像处理模型,使得训练完成的图像处理模型具有去除输入的图像中的目标图形的能力。使用该图像处理模型能够实现较为智能化的去除目标图形。
上述步骤302-306是对本说明书实施例提供的图像处理模型的训练方法的简单介绍,下面将结合一些例子,对本说明书实施例提供的图像处理模型的训练方法进行更为详细的说明,以执行主体为服务器为例,参见图7,方法包括下述步骤。
702、终端获取目标图像中的第一子图像,该第一子图像包括目标图形。
其中,目标图像为待去除目标图形的图像。该目标图像包括目标图形,目标图形为待去除的图形,比如为目标图像中的印章。该第一子图像属于该目标图像,该第一子图像对应于该目标图像的一个区域。在一些实施例中,该第一子图像的尺寸小于该目标图像。
在一种可能的实施方式中,终端将该目标图像输入图形识别模型,通过该图形识别模型对该目标图像进行图形识别,得到该目标图像中的目标区域,该目标区域包括该目标图形。终端以该目标区域为中心,从该目标图像中分割出该第一子图像,该第一子图像包括该目标区域。
在这种实施方式下,通过图形识别模型识别出该目标图像中包括目标图形的目标区域,再基于目标区域从目标图像中分割出第一子图像,第一子图像的获取效率和准确性均较高。
举例来说,终端将该目标图像输入图形识别模型,通过该图形识别模型对该目标图像进行特征提取,得到该目标图像的图像特征。终端通过该图形识别模型,基于该图像特征进行分类,得到该目标图像中包括目标图形的目标区域。终端以该目标区域为中心,从该目标图像中分割出该第一子图像。
比如,终端将该目标图像输入图形识别模型,通过该图形识别模型对该目标图像进行卷积、全连接以及注意力编码中的任一项,得到该目标图像的图像特征。终端基于该图像特征对目标图像中的多个像素点进行区域分类,得到该目标图像中多个像素点所属的区域,其中,对像素点进行区域分类是一个二分类的过程,分类结果为像素点属于目标区域以及像素点不属于目标区域。终端基于该目标图像中多个像素点所述的区域,在目标图像中确定该目标区域。终端在该目标图像上将该目标区域的宽和高均向外扩展目标比例,得到扩充区域。终端分割该扩充区域,得到该第一子图像。
704、终端将该第一子图像输入图像处理模型,通过该图像处理模型去除该第一子图像中的该目标图形,得到第二子图像。
其中,该图像处理模型是采用上述402-408提供的图像处理模型的训练方法训练得到的。该第二子图像也即是去除该目标图形后的第一子图像,该第二子图像和该第一子图像具有相同的尺寸。在一些实施例中,使用该图像处理模型去除该第一子图像中的目标图形时,也即是使用该图像处理模型中的第一生成器来基于该第一子图像生成不含目标图形的第二子图像。
在一种可能的实施方式中,终端将该第一子图像输入图像处理模型,通过该图像处理模型,对该第一子图像进行编码,得到该第一子图像的第一图像编码。终端通过该图像处理模型,对该第一图像编码进行特征提取,得到该第一子图像的第一子图像特征。终端通过该图像处理模型,对该第一子图像特征进行解码,得到该第二子图像。
举例来说,终端将该第一子图像输入图像处理模型,通过该图像处理模型,对该第一子图像进行至少一次卷积,得到该第一子图像的第一图像编码。终端通过该图像处理模型,对该第一图像编码进行至少一次卷积和残差连接,得到该第一子图像的第一子图像特征。终端通过该图像处理模型,对该第一子图像特征进行至少一次反卷积和至少一次卷积,得到该第二子图像。
706、终端对第二子图像进行预处理。
在一种可能的实施方式中,终端确定该第一子图像的第一背景区域和该第二子图像的第二背景区域。终端确定该第一背景区域在不同颜色通道下的第一平均通道值。终端确定该第二背景区域在不同颜色通道下的第二平均通道值。终端采用该第一平均通道值和该第二平均通道值更新该第二子图像中多个像素点的像素值。
在这种实施方式下,能够采用第一子图像的第一背景区域在不同颜色通道下的第一平均通道值来更新第二子图像中多个像素点的像素值,使得第二子图像与第一子图像在风格上更加接近,从而在后续使用第二子图像来更新目标图像时,第二子图像与周围的区域更加贴近。
为了对上述实施方式进行更加清楚地说明,下面将分为几个部分对上述实施方式进行介绍。
第一部分、终端确定该第一子图像的第一背景区域和该第二子图像的第二背景区域。
在一种可能的实施方式中,终端对该第一子图像进行灰度化和二值化,得到该第一子图像的第一背景分割图像。终端从该第一背景分割图像中确定该第一子图像的第一背景区域。终端对该第二子图像进行灰度化和二值化,得到该第二子图像的第二背景分割图像。终端从该第二背景分割图像中确定该第二子图像的第二背景区域。
其中,灰度化用于将彩色图像转化为灰度图像,二值化用于将灰度图像转化为黑白图像,利用黑白图像能够快速区分前景图像和背景图像。
举例来说,终端对该第一子图像进行灰度化,得到第一灰度图像。终端基于目标灰度值,对该第一灰度图像进行二值化,得到第一背景分割图像,其中,该目标灰度值由技术人员根据实际情况进行设置,本说明书实施例对此不作限定。终端基于该第一背景分割图像中多个像素点的像素值,从该第一背景分割图像中获取该第一背景区域。终端对该第二子图像进行灰度化,得到第二灰度图像。终端基于目标灰度值,对该第二灰度图像进行二值化,得到第二背景分割图像。终端基于该第二背景分割图像中多个像素点的像素值,从该第二背景分割图像中获取该第二背景区域。
比如,终端基于该第一子图像中多个像素点的像素值,确定该第一子图像中多个像素点的灰度值。终端基于该第一子图像中多个像素点的灰度值,生成该第一子图像的第一灰度图像。对于该第一灰度图像中的任一像素点,在该像素点的灰度值大于或等于目标灰度值的情况下,终端将该像素点的灰度值调整为第一数值。在该像素点的灰度值小于该目标灰度值的情况下,终端将该像素点的灰度值调整为第二数值,该第一数值大于该第二数值,该第一数值对应的颜色为黑色,该第二数值对应的颜色为白色。采用上述基于目标灰度值的调整方式,终端实现对该第一灰度图像的二值化,得到第一背景分割图像。终端对该第一背景分割图像中像素值为第二数值的像素点进行分割,得到该第一子图像中的第一背景区域。终端基于该第二子图像中多个像素点的像素值,确定该第二子图像中多个像素点的灰度值。终端基于该第二子图像中多个像素点的灰度值,生成该第二子图像的第二灰度图像。对于该第二灰度图像中的任一像素点,在该像素点的灰度值大于或等于目标灰度值的情况下,终端将该像素点的灰度值调整为第一数值。在该像素点的灰度值小于该目标灰度值的情况下,终端将该像素点的灰度值调整为第二数值。采用上述基于目标灰度值的调整方式,终端实现对该第二灰度图像的二值化,得到第二背景分割图像。终端对该第二背景分割图像中像素值为第二数值的像素点进行分割,得到该第二子图像中的第二背景区域。
需要说明的是,上述像素值转化灰度值是为了确定背景区域的位置,最终确定出的第一背景区域是第一子图像中的某一区域,第二背景区域是第二子图像中的某一区域,也就是说,第一背景区域和第二背景区域均是彩色区域。
第二部分、终端确定该第一背景区域在不同颜色通道下的第一平均通道值。
其中,颜色通道是指RGB颜色通道,相应地,颜色通道的数量为三个。
在一种可能的实施方式中,终端对第一子图像进行通道分离,得到该第一子图像的第一红色通道图像、第一绿色通道图像以及第一蓝色通道图像。终端确定该第一红色通道图像中该第一背景区域的第一平均通道值、该第一绿色通道图像中该第一背景区域的第一平均通道值以及该第一蓝色通道图像中该第一背景区域的第一平均通道值。
第三部分、终端确定该第二背景区域在不同颜色通道下的第二平均通道值。
在一种可能的实施方式中,终端对第二子图像进行通道分离,得到该第二子图像的第二红色通道图像、第二绿色通道图像以及第二蓝色通道图像。终端确定该第二红色通道图像中该第二背景区域的第二平均通道值、该第二绿色通道图像中该第二背景区域的第二平均通道值以及该第二蓝色通道图像中该第二背景区域的第二平均通道值。
第四部分、终端采用该第一平均通道值和该第二平均通道值更新该第二子图像中多个像素点的像素值。
在一种可能的实施方式中,对于该多个像素点中的任一像素点,终端将该像素点在不同颜色通道下的通道值与该第二平均通道值相除后与该第一平均通道值相乘,得到该像素点在不同颜色通道下的目标通道值。终端将该像素点在不同颜色通道下的目标通道值进行融合,得到该像素点的目标像素值。终端采用该目标像素值更新该像素点的像素值。
举例来说,对于该多个像素点中的任一像素点,终端将该像素点在红色通道下的通道值与该第二红色通道图像中的第二平均通道值相除后与该第一红色通道图像中的第一平均通道值相乘,该像素点在红色通道下的目标通道值。终端将该像素点在绿色通道下的通道值与该第二绿色通道图像中的第二平均通道值相除后与该第一绿色通道图像中的第一平均通道值相乘,该像素点在绿色通道下的目标通道值。终端将该像素点在蓝色通道下的通道值与该第二蓝色通道图像中的第二平均通道值相除后与该第一蓝色通道图像中的第一平均通道值相乘,该像素点在蓝色通道下的目标通道值。终端将该像素点在红色通道下的目标通道值、在绿色通道下的目标通道值以及在蓝色通道下的目标通道值进行融合,得到该像素点的目标像素值。终端采用该目标像素值更新该像素点的像素值。
比如,终端通过下述公式(1)来确定该第二子图像中该像素点在不同颜色通道下的目标通道值。
Result_RT=(Result_R/Result_R_Avg)*R_Avg
Result_GT =(Result_G/Result_G_ Avg)*G_ Avg (1)
Result_BT=(Result_B/Result_B_Avg)*B_Avg
其中,Result_RT为该像素点在红色通道下的目标通道值,Result_R为该像素点的初始像素值,Result_R_Avg为第二红色通道图像中的第二平均通道值,R_Avg为第一红色通道图像中的第一平均通道值,Result_GT为该像素点在绿色通道下的目标通道值,Result_G为该像素点的初始像素值,Result_G_Avg为第二绿色通道图像中的第二平均通道值,G_Avg为第一绿色通道图像中的第一平均通道值,Result_BT为该像素点在蓝色通道下的目标通道值,Result_B为该像素点的初始像素值,Result_B_Avg为第二蓝色通道图像中的第二平均通道值,B_Avg为第一蓝色通道图像中的第一平均通道值。
708、终端采用预处理后的该第二子图像替换该目标图像中该第一子图像对应的区域。
其中,由于该第二子图像是去除目标图形后的第一子图像,采用该第二子图像替换该目标图像中该第一子图像对应的区域就能够实现去除目标图像中目标图形的目的。
参见图8,以目标图形为印章为例,提供了目标图像801以及处理后的目标图像802,该目标图像801包括印章803,可以看出采用本说明书实施例提供的技术方案之后,能够成功去除目标图像801中的印章803。
上述所有可选技术方案,可以采用任意结合形成本说明书的可选实施例,在此不再一一赘述。
通过本说明书实施例提供的技术方案,在去除目标图像中目标图形的过程中,获取目标图像中的第一子图像,该第一子图像包括目标图形。将该第一子图像输入图像处理模型,通过该图像处理模型对该第一子图像进行处理,以去除该第一子图像中的目标图形,得到第二子图像。采用该第二子图像替换该目标图像中该第一子图像对应的区域,从而实现去除该目标图像中目标图形的目的。
图9是本说明书实施例提供的一种图像处理模型的训练装置的结构示意图,参见图9,装置包括:训练图像获取模块901、采样模块902以及训练模块903。
训练图像获取模块901,用于获取训练图像,该训练图像包括目标图形。
采样模块902,用于在该训练图像中进行采样,得到第一样本图像和第二样本图像,该第一样本图像包括该目标图形,该第二样本图像不包括该目标图形。
训练模块903,用于基于该第一样本图像和该第二样本图像,利用生成对抗的方式训练图像处理模型,该图像处理模型用于去除输入的图像中的目标图形。
在一种可能的实施方式中,该采样模块902,用于对该训练图像进行图像分割,得到该第一样本图像。基于该第一样本图像,从该训练图像中获取该第二样本图像。
在一种可能的实施方式中,该采样模块902,用于将该训练图像输入图形识别模型,通过该图形识别模型对该训练图像进行图形识别,得到该训练图像中的目标区域,该目标区域包括该目标图形。以该目标区域为中心,从该训练图像中分割出该第一样本图像,该第一样本图像包括该目标区域,该第一样本图像的尺寸大于该目标区域。
在一种可能的实施方式中,该采样模块902,用于基于该第一样本图像,在该训练图像中确定参考区域,该参考区域与该第一样本图像在该训练图像中对应的区域不重合,该参考区域的尺寸与该第一样本图像在该训练图像中对应的区域相同。从该训练图像中裁剪该参考区域,得到该第二样本图像。
在一种可能的实施方式中,该训练模块903,用于将该第一样本图像输入该图像处理模型的第一生成器,通过该第一生成器,基于该第一样本图像进行图像生成,得到第一参考图像,该第一生成器用于去除输入的图像中的目标图形。将该第一参考图像输入该图像处理模型的第一判别器,通过该第一判别器对该第一参考图像进行评价,得到第一评价值,该第一判别器用于评价该第一生成器生成的图像的质量。将该第二样本图像输入该图像处理模型的第二生成器,通过该第二生成器,基于该第二样本图像进行图像生成,得到第二参考图像,该第二生成器用于在输入的图像中生成目标图形。将该第二参考图像输入该图像处理模型的第二判别器,通过该第二判别器对该第二参考图像进行评价,得到第二评价值,该第二判别器用于评价该第二生成器生成的图像的质量。基于该第一样本图像、该第一参考图像、该第二样本图像、该第二参考图像、该第一评价值以及该第二评价值,对该图像处理模型进行训练。
在一种可能的实施方式中,该训练模块903,用于通过该第一生成器,对该第一样本图像进行编码,得到该第一样本图像的第一图像编码。对该第一图像编码进行特征提取,得到该第一样本图像的第一样本图像特征。对该第一样本图像特征进行解码,得到该第一参考图像。
在一种可能的实施方式中,该训练模块903,用于对该第一样本图像进行至少一次卷积,得到该第一样本图像的第一图像编码。该对该第一图像编码进行特征提取,得到该第一样本图像的第一样本图像特征包括:对该第一图像编码进行至少一次卷积和残差连接,得到该第一样本图像的第一样本图像特征。该对该第一样本图像特征进行解码,得到该第一参考图像包括:对该第一样本图像特征进行至少一次反卷积和至少一次卷积,得到该第一参考图像。
在一种可能的实施方式中,该训练模块903,用于通过该第一判别器对该第一参考图像进行至少一次卷积和激活处理,得到该第一评价值。
在一种可能的实施方式中,该训练模块903,用于将该第一参考图像输入该第二生成器,通过该第二生成器,基于该第一参考图像进行图像生成,得到第三参考图像。将该第二参考图像输入该第一生成器,通过该第一生成器,基于该第二参考图像进行图像生成,得到第四参考图像。基于该第一样本图像、该第二样本图像、该第一样本图像与该第三参考图像之间的第一差异信息、该第二样本图像与该第四参考图像之间的第二差异信息、该第一评价值以及该第二评价值,对该图像处理模型进行训练。
在一种可能的实施方式中,该训练模块903,用于基于该第一样本图像,对该第二判别器进行训练。基于该第一差异信息和该第一评价值,对该第一生成器进行训练。基于该第二样本图像,对该第一判别器进行训练。基于该第二差异信息和该第二评价值,对该第二生成器进行训练。
需要说明的是:上述实施例提供的图像处理模型的训练装置在训练图像处理模型时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像处理模型的训练装置与图像处理模型的训练方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
通过本说明书实施例提供的技术方案,在去除目标图像中目标图形的过程中,获取目标图像中的第一子图像,该第一子图像包括目标图形。将该第一子图像输入图像处理模型,通过该图像处理模型对该第一子图像进行处理,以去除该第一子图像中的目标图形,得到第二子图像。采用该第二子图像替换该目标图像中该第一子图像对应的区域,从而实现去除该目标图像中目标图形的目的。
图10是本说明书实施例提供的一种图像处理装置的结构示意图,参见图10,装置包括:第一子图像获取模块1001、第二子图像获取模块1002以及替换模块1003。
第一子图像获取模块1001,用于获取目标图像中的第一子图像,该第一子图像包括目标图形。
第二子图像获取模块1002,用于将该第一子图像输入图像处理模型,通过该图像处理模型去除该第一子图像中的该目标图形,得到第二子图像。
替换模块1003,用于采用该第二子图像替换该目标图像中该第一子图像对应的区域。
其中,该图像处理模型是采用上述图像处理模型的训练方法训练得到的。
在一种可能的实施方式中,该第二子图像获取模块1002,用于通过该图像处理模型,对该第一子图像进行编码,得到该第一子图像的第一图像编码。对该第一图像编码进行特征提取,得到该第一子图像的第一子图像特征。对该第一子图像特征进行解码,得到该第二子图像。
在一种可能的实施方式中,该第二子图像获取模块1002,用于对该第一子图像进行至少一次卷积,得到该第一子图像的第一图像编码。该对该第一图像编码进行特征提取,得到该第一子图像的第一子图像特征包括:对该第一图像编码进行至少一次卷积和残差连接,得到该第一子图像的第一子图像特征。该对该第一子图像特征进行解码,得到该第二子图像包括:对该第一子图像特征进行至少一次反卷积和至少一次卷积,得到该第二子图像。
在一种可能的实施方式中,该装置还包括:
预处理模块,用于确定该第一子图像的第一背景区域和该第二子图像的第二背景区域。确定该第一背景区域在不同颜色通道下的第一平均通道值。确定该第二背景区域在不同颜色通道下的第二平均通道值。采用该第一平均通道值和该第二平均通道值更新该第二子图像中多个像素点的像素值。
在一种可能的实施方式中,该预处理模块,用于对该第一子图像进行灰度化和二值化,得到该第一子图像的第一背景分割图像。从该第一背景分割图像中确定该第一子图像的第一背景区域。对该第二子图像进行灰度化和二值化,得到该第二子图像的第二背景分割图像。从该第二背景分割图像中确定该第二子图像的第二背景区域。
在一种可能的实施方式中,该预处理模块,用于对于该多个像素点中的任一像素点,将该像素点在不同颜色通道下的通道值与该第二平均通道值相除后与该第一平均通道值相乘,得到该像素点在不同颜色通道下的目标通道值。将该像素点在不同颜色通道下的目标通道值进行融合,得到该像素点的目标像素值。采用该目标像素值更新该像素点的像素值。
需要说明的是:上述实施例提供的图像处理装置在处理图像时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将计算机设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的图像处理装置与图像处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
通过本说明书实施例提供的技术方案,在去除目标图像中目标图形的过程中,获取目标图像中的第一子图像,该第一子图像包括目标图形。将该第一子图像输入图像处理模型,通过该图像处理模型对该第一子图像进行处理,以去除该第一子图像中的目标图形,得到第二子图像。采用该第二子图像替换该目标图像中该第一子图像对应的区域,从而实现去除该目标图像中目标图形的目的。
本说明书实施例提供了一种计算机设备,用于执行上述方法,该计算机设备可以实现为终端或者服务器,下面先对终端的结构进行介绍:
图11是本说明书实施例提供的一种终端的结构示意图。该终端1100可以是:智能手机、平板电脑、笔记本电脑或台式电脑。终端1100还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
通常,终端1100包括有:一个或多个处理器1101和一个或多个存储器1102。
处理器1101可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器1101可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器1101也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器1101可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器1101还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
存储器1102可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器1102还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器1102中的非暂态的计算机可读存储介质用于存储至少一个计算机程序,该至少一个计算机程序用于被处理器1101所执行以实现本说明书中方法实施例提供的图像处理模型的训练方法或图像处理方法。
在一些实施例中,终端1100还可选包括有:外围设备接口1103和至少一个外围设备。处理器1101、存储器1102和外围设备接口1103之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口1103相连。具体地,外围设备包括:射频电路1104、显示屏1105、摄像头组件1106、音频电路1107和电源1108中的至少一种。
外围设备接口1103可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器1101和存储器1102。在一些实施例中,处理器1101、存储器1102和外围设备接口1103被集成在同一芯片或电路板上;在一些其他实施例中,处理器1101、存储器1102和外围设备接口1103中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不加以限定。
射频电路1104用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路1104通过电磁信号与通信网络以及其他通信设备进行通信。射频电路1104将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选的,射频电路1104包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。
显示屏1105用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏1105是触摸显示屏时,显示屏1105还具有采集在显示屏1105的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器1101进行处理。此时,显示屏1105还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。
摄像头组件1106用于采集图像或视频。可选的,摄像头组件1106包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端的前面板,后置摄像头设置在终端的背面。
音频电路1107可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器1101进行处理,或者输入至射频电路1104以实现语音通信。
电源1108用于为终端1100中的各个组件进行供电。电源1108可以是交流电、直流电、一次性电池或可充电电池。
在一些实施例中,终端1100还包括有一个或多个传感器1109。该一个或多个传感器1109包括但不限于:加速度传感器1110、陀螺仪传感器1111、压力传感器1112、光学传感器1113以及接近传感器1114。
加速度传感器1110可以检测以终端1100建立的坐标系的三个坐标轴上的加速度大小。
陀螺仪传感器1111可以终端1100的机体方向及转动角度,陀螺仪传感器1111可以与加速度传感器1110协同采集用户对终端1100的3D动作。
压力传感器1112可以设置在终端1100的侧边框和/或显示屏1105的下层。当压力传感器1112设置在终端1100的侧边框时,可以检测用户对终端1100的握持信号,由处理器1101根据压力传感器1112采集的握持信号进行左右手识别或快捷操作。当压力传感器1112设置在显示屏1105的下层时,由处理器1101根据用户对显示屏1105的压力操作,实现对UI界面上的可操作性控件进行控制。
光学传感器1113用于采集环境光强度。在一个实施例中,处理器1101可以根据光学传感器1113采集的环境光强度,控制显示屏1105的显示亮度。
接近传感器1114用于采集用户与终端1100的正面之间的距离。
本领域技术人员可以理解,图11中示出的结构并不构成对终端1100的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
上述计算机设备还可以实现为服务器,下面对服务器的结构进行介绍:
图12是本说明书实施例提供的一种服务器的结构示意图,该服务器1200可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central ProcessingUnits,CPU)1201和一个或多个的存储器1202,其中,所述一个或多个存储器1202中存储有至少一条计算机程序,所述至少一条计算机程序由所述一个或多个处理器1201加载并执行以实现上述各个方法实施例提供的方法。当然,该服务器1200还可以具有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器1200还可以包括其他用于实现设备功能的部件,在此不做赘述。
在示例性实施例中,还提供了一种计算机可读存储介质,例如包括计算机程序的存储器,上述计算机程序可由处理器执行以完成上述实施例中的图像处理模型的训练方法或图像处理方法。例如,该计算机可读存储介质可以是只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read-OnlyMemory,CD-ROM)、磁带、软盘和光数据存储设备等。
在示例性实施例中,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括程序代码,该程序代码存储在计算机可读存储介质中,计算机设备的处理器从计算机可读存储介质读取该程序代码,处理器执行该程序代码,使得该计算机设备执行上述图像处理模型的训练方法或图像处理方法。
在一些实施例中,本说明书实施例所涉及的计算机程序可被部署在一个计算机设备上执行,或者在位于一个地点的多个计算机设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算机设备上执行,分布在多个地点且通过通信网络互连的多个计算机设备可以组成区块链系统。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
上述仅为本说明书的可选实施例,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书的保护范围之内。
Claims (21)
1.一种图像处理模型的训练方法,所述方法包括:
获取训练图像,所述训练图像包括目标图形;
在所述训练图像中进行采样,得到第一样本图像和第二样本图像,所述第一样本图像包括所述目标图形,所述第二样本图像不包括所述目标图形;
基于所述第一样本图像和所述第二样本图像,利用生成对抗的方式训练图像处理模型,所述图像处理模型用于去除输入的图像中的目标图形。
2.根据权利要求1所述的方法,所述在所述训练图像中进行采样,得到第一样本图像和第二样本图像包括:
对所述训练图像进行图像分割,得到所述第一样本图像;
基于所述第一样本图像,从所述训练图像中获取所述第二样本图像。
3.根据权利要求2所述的方法,所述对所述训练图像进行图像分割,得到所述第一样本图像包括:
将所述训练图像输入图形识别模型,通过所述图形识别模型对所述训练图像进行图形识别,得到所述训练图像中的目标区域,所述目标区域包括所述目标图形;
以所述目标区域为中心,从所述训练图像中分割出所述第一样本图像,所述第一样本图像包括所述目标区域,所述第一样本图像的尺寸大于所述目标区域。
4.根据权利要求2所述的方法,所述基于所述第一样本图像,从所述训练图像中获取所述第二样本图像包括:
基于所述第一样本图像,在所述训练图像中确定参考区域,所述参考区域与所述第一样本图像在所述训练图像中对应的区域不重合,所述参考区域的尺寸与所述第一样本图像在所述训练图像中对应的区域相同;
从所述训练图像中裁剪所述参考区域,得到所述第二样本图像。
5.根据权利要求1所述的方法,所述基于所述第一样本图像和所述第二样本图像,利用生成对抗的方式训练图像处理模型包括:
将所述第一样本图像输入所述图像处理模型的第一生成器,通过所述第一生成器,基于所述第一样本图像进行图像生成,得到第一参考图像,所述第一生成器用于去除输入的图像中的目标图形;
将所述第一参考图像输入所述图像处理模型的第一判别器,通过所述第一判别器对所述第一参考图像进行评价,得到第一评价值,所述第一判别器用于评价所述第一生成器生成的图像的质量;
将所述第二样本图像输入所述图像处理模型的第二生成器,通过所述第二生成器,基于所述第二样本图像进行图像生成,得到第二参考图像,所述第二生成器用于在输入的图像中生成目标图形;
将所述第二参考图像输入所述图像处理模型的第二判别器,通过所述第二判别器对所述第二参考图像进行评价,得到第二评价值,所述第二判别器用于评价所述第二生成器生成的图像的质量;
基于所述第一样本图像、所述第一参考图像、所述第二样本图像、所述第二参考图像、所述第一评价值以及所述第二评价值,对所述图像处理模型进行训练。
6.根据权利要求5所述的方法,所述通过所述第一生成器,基于所述第一样本图像进行图像生成,得到第一参考图像包括:
通过所述第一生成器,对所述第一样本图像进行编码,得到所述第一样本图像的第一图像编码;对所述第一图像编码进行特征提取,得到所述第一样本图像的第一样本图像特征;对所述第一样本图像特征进行解码,得到所述第一参考图像。
7.根据权利要求6所述的方法,所述对所述第一样本图像进行编码,得到所述第一样本图像的第一图像编码包括:
对所述第一样本图像进行至少一次卷积,得到所述第一样本图像的第一图像编码;
所述对所述第一图像编码进行特征提取,得到所述第一样本图像的第一样本图像特征包括:
对所述第一图像编码进行至少一次卷积和残差连接,得到所述第一样本图像的第一样本图像特征;
所述对所述第一样本图像特征进行解码,得到所述第一参考图像包括:
对所述第一样本图像特征进行至少一次反卷积和至少一次卷积,得到所述第一参考图像。
8.根据权利要求5所述的方法,所述通过所述第一判别器对所述第一参考图像进行评价,得到第一评价值包括:
通过所述第一判别器对所述第一参考图像进行至少一次卷积和激活处理,得到所述第一评价值。
9.根据权利要求5所述的方法,所述基于所述第一样本图像、所述第一参考图像、所述第二样本图像、所述第二参考图像、所述第一评价值以及所述第二评价值,对所述图像处理模型进行训练包括:
将所述第一参考图像输入所述第二生成器,通过所述第二生成器,基于所述第一参考图像进行图像生成,得到第三参考图像;
将所述第二参考图像输入所述第一生成器,通过所述第一生成器,基于所述第二参考图像进行图像生成,得到第四参考图像;
基于所述第一样本图像、所述第二样本图像、所述第一样本图像与所述第三参考图像之间的第一差异信息、所述第二样本图像与所述第四参考图像之间的第二差异信息、所述第一评价值以及所述第二评价值,对所述图像处理模型进行训练。
10.根据权利要求9所述的方法,所述基于所述第一样本图像、所述第二样本图像、所述第一样本图像与所述第三参考图像之间的第一差异信息、所述第二样本图像与所述第四参考图像之间的第二差异信息、所述第一评价值以及所述第二评价值,对所述图像处理模型进行训练包括:
基于所述第一样本图像,对所述第二判别器进行训练;
基于所述第一差异信息和所述第一评价值,对所述第一生成器进行训练;
基于所述第二样本图像,对所述第一判别器进行训练;
基于所述第二差异信息和所述第二评价值,对所述第二生成器进行训练。
11.一种图像处理方法,所述方法包括:
获取目标图像中的第一子图像,所述第一子图像包括目标图形;
将所述第一子图像输入图像处理模型,通过所述图像处理模型去除所述第一子图像中的所述目标图形,得到第二子图像;
采用所述第二子图像替换所述目标图像中所述第一子图像对应的区域;
其中,所述图像处理模型是采用上述权利要求1-10中任一项所述的图像处理模型的训练方法训练得到的。
12.根据权利要求11所述的方法,所述通过所述图像处理模型去除所述第一子图像中的所述目标图形,得到第二子图像包括:
通过所述图像处理模型,对所述第一子图像进行编码,得到所述第一子图像的第一图像编码;对所述第一图像编码进行特征提取,得到所述第一子图像的第一子图像特征;对所述第一子图像特征进行解码,得到所述第二子图像。
13.根据权利要求12所述的方法,所述对所述第一子图像进行编码,得到所述第一子图像的第一图像编码包括:
对所述第一子图像进行至少一次卷积,得到所述第一子图像的第一图像编码;
所述对所述第一图像编码进行特征提取,得到所述第一子图像的第一子图像特征包括:
对所述第一图像编码进行至少一次卷积和残差连接,得到所述第一子图像的第一子图像特征;
所述对所述第一子图像特征进行解码,得到所述第二子图像包括:
对所述第一子图像特征进行至少一次反卷积和至少一次卷积,得到所述第二子图像。
14.根据权利要求11所述的方法,所述采用所述第二子图像替换所述目标图像中所述第一子图像对应的区域之前,所述方法还包括:
确定所述第一子图像的第一背景区域和所述第二子图像的第二背景区域;
确定所述第一背景区域在不同颜色通道下的第一平均通道值;
确定所述第二背景区域在不同颜色通道下的第二平均通道值;
采用所述第一平均通道值和所述第二平均通道值更新所述第二子图像中多个像素点的像素值。
15.根据权利要求14所述的方法,所述确定所述第一子图像的第一背景区域和所述第二子图像的第二背景区域包括:
对所述第一子图像进行灰度化和二值化,得到所述第一子图像的第一背景分割图像;
从所述第一背景分割图像中确定所述第一子图像的第一背景区域;
对所述第二子图像进行灰度化和二值化,得到所述第二子图像的第二背景分割图像;
从所述第二背景分割图像中确定所述第二子图像的第二背景区域。
16.根据权利要求14所述的方法,所述采用所述第一平均通道值和所述第二平均通道值更新所述第一子图像中多个像素点的像素值包括:
对于所述多个像素点中的任一像素点,将所述像素点在不同颜色通道下的通道值与所述第二平均通道值相除后与所述第一平均通道值相乘,得到所述像素点在不同颜色通道下的目标通道值;
将所述像素点在不同颜色通道下的目标通道值进行融合,得到所述像素点的目标像素值;
采用所述目标像素值更新所述像素点的像素值。
17.一种图像处理模型的训练装置,所述装置包括:
训练图像获取模块,用于获取训练图像,所述训练图像包括目标图形;
采样模块,用于在所述训练图像中进行采样,得到第一样本图像和第二样本图像,所述第一样本图像包括所述目标图形,所述第二样本图像不包括所述目标图形;
训练模块,用于基于所述第一样本图像和所述第二样本图像,利用生成对抗的方式训练图像处理模型,所述图像处理模型用于去除输入的图像中的目标图形。
18.一种图像处理装置,所述装置包括:
第一子图像获取模块,用于获取目标图像中的第一子图像,所述第一子图像包括目标图形;
第二子图像获取模块,用于将所述第一子图像输入图像处理模型,通过所述图像处理模型去除所述第一子图像中的所述目标图形,得到第二子图像;
替换模块,用于采用所述第二子图像替换所述目标图像中所述第一子图像对应的区域;
其中,所述图像处理模型是采用上述权利要求1-10中任一项所述的图像处理模型的训练方法训练得到的。
19.一种计算机设备,所述计算机设备包括一个或多个处理器和一个或多个存储器,所述一个或多个存储器中存储有至少一条计算机程序,所述计算机程序由所述一个或多个处理器加载并执行以实现如权利要求1至权利要求10任一项所述的图像处理模型的训练方法,或实现如权利要求11至权利要求16任一项所述的图像处理方法。
20.一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条计算机程序,所述计算机程序由处理器加载并执行以实现如权利要求1至权利要求10任一项所述的图像处理模型的训练方法,或实现如权利要求11至权利要求16任一项所述的图像处理方法。
21.一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1至权利要求10任一项所述的图像处理模型的训练方法,或实现如权利要求11至权利要求16任一项所述的图像处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310606326.8A CN116863470A (zh) | 2023-05-23 | 2023-05-23 | 图像处理模型的训练方法、图像处理方法以及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310606326.8A CN116863470A (zh) | 2023-05-23 | 2023-05-23 | 图像处理模型的训练方法、图像处理方法以及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116863470A true CN116863470A (zh) | 2023-10-10 |
Family
ID=88217894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310606326.8A Pending CN116863470A (zh) | 2023-05-23 | 2023-05-23 | 图像处理模型的训练方法、图像处理方法以及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116863470A (zh) |
-
2023
- 2023-05-23 CN CN202310606326.8A patent/CN116863470A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20220261960A1 (en) | Super-resolution reconstruction method and related apparatus | |
CN111598776B (zh) | 图像处理方法、图像处理装置、存储介质与电子设备 | |
CN111739035B (zh) | 基于人工智能的图像处理方法、装置、设备及存储介质 | |
CN111476783B (zh) | 基于人工智能的图像处理方法、装置、设备及存储介质 | |
CN111914812B (zh) | 图像处理模型训练方法、装置、设备及存储介质 | |
CN112749609B (zh) | 人体图像分割方法、装置、计算机设备及存储介质 | |
CN111444826B (zh) | 视频检测方法、装置、存储介质及计算机设备 | |
CN109635783A (zh) | 视频监控方法、装置、终端和介质 | |
CN111444744A (zh) | 活体检测方法、装置以及存储介质 | |
CN111062854B (zh) | 检测水印的方法、装置、终端及存储介质 | |
CN112052186A (zh) | 目标检测方法、装置、设备以及存储介质 | |
CN112699832B (zh) | 目标检测方法、装置、设备以及存储介质 | |
CN114359225A (zh) | 图像检测方法、装置、计算机设备及存储介质 | |
CN113569607A (zh) | 动作识别方法、装置、设备以及存储介质 | |
CN110795975A (zh) | 人脸误检优化方法及装置 | |
CN110910400A (zh) | 图像处理方法、装置、存储介质及电子设备 | |
CN114332553A (zh) | 图像处理方法、装置、设备以及存储介质 | |
CN111652878B (zh) | 图像检测方法、装置、计算机设备及存储介质 | |
CN111597944B (zh) | 活体检测方法、装置、计算机设备及存储介质 | |
CN113610720A (zh) | 视频去噪方法及装置、计算机可读介质和电子设备 | |
CN115035313B (zh) | 黑颈鹤识别方法、装置、设备及存储介质 | |
CN113570510A (zh) | 图像处理方法、装置、设备及存储介质 | |
CN112528760A (zh) | 图像处理方法、装置、计算机设备及介质 | |
CN112861687B (zh) | 用于门禁系统的口罩佩戴检测方法、装置、设备和介质 | |
CN115131291A (zh) | 对象计数模型的训练方法、装置、设备以及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |