CN113469878B - 一种文本擦除方法及其模型的训练方法、装置、存储介质 - Google Patents
一种文本擦除方法及其模型的训练方法、装置、存储介质 Download PDFInfo
- Publication number
- CN113469878B CN113469878B CN202111023915.0A CN202111023915A CN113469878B CN 113469878 B CN113469878 B CN 113469878B CN 202111023915 A CN202111023915 A CN 202111023915A CN 113469878 B CN113469878 B CN 113469878B
- Authority
- CN
- China
- Prior art keywords
- image
- text
- real
- erased
- predicted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012549 training Methods 0.000 title claims abstract description 37
- 238000012545 processing Methods 0.000 claims description 15
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims 2
- 239000000284 extract Substances 0.000 claims 1
- 238000004590 computer program Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 5
- 230000003287 optical effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- IQVNEKKDSLOHHK-FNCQTZNRSA-N (E,E)-hydramethylnon Chemical compound N1CC(C)(C)CNC1=NN=C(/C=C/C=1C=CC(=CC=1)C(F)(F)F)\C=C\C1=CC=C(C(F)(F)F)C=C1 IQVNEKKDSLOHHK-FNCQTZNRSA-N 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G06T3/04—
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Abstract
本公开提供一种文本擦除方法及其模型的训练方法、装置、存储介质。本公开实施例中提供的一个或多个技术方案,获取包含擦除标签的真实第一图像;确定所述真实第一图像的第一文本区域二值图,以及,确定所述真实第一图像所对应的真实第二图像的第二文本区域二值图;获取包含生成器和判别器的初始模型,以所述真实第一图像作为生成器的输入,生成被擦除了部分区域的预测第二图像;以真实第二图像叠加所述第二文本区域二值图作为正样本,以及,以所述预测第二图像叠加所述第二文本区域二值图作为负样本;根据所述正样本、负样本和所述第一文本区域二值图对所述初始模型进行训练,当所述判别器对应的损失值的波动在预设范围内时,确定目标模型。
Description
技术领域
本发明涉及计算机技术领域,尤其涉及一种文本擦除方法及其模型的训练方法、装置、存储介质。
背景技术
文本擦除技术从原理上来讲是对指定位置的像素点值进行修改,从而达到所谓“擦除”的目的。例如智能教育场景下,经常需要对学生的错误回答进行擦除后搜集,以及对一些手写的试卷进行拍照回收等等,具有广泛的应用前景。常规方式中在进行文本擦除时,通常不对图像进行处理,而是直接确定出在全局图像中需要进行修改的像素点的位置,速度较慢。
基于此,需要一种可以实现更为快速擦除的文本擦除模型的训练方案。
发明内容
有鉴于此,本公开实施例提供一种可以实现更为快速擦除的文本擦除模型的训练方案,以至少部分的解决上述问题。
根据本公开的一方面,提供了一种文本擦除模型的训练方法,包括:获取包含擦除标签的真实第一图像,其中,所述擦除标签用于指示在所述真实第一图像中被擦除的文本区域,所述真实第一图像由对真实第二图像缩小处理后得到,所述真实第一图像的分辨率低于所述真实第二图像;确定所述真实第一图像的第一文本区域二值图,以及,确定所述真实第一图像所对应的真实第二图像的第二文本区域二值图;获取包含生成器和判别器的初始模型,以所述真实第一图像作为生成器的输入,生成被擦除了部分区域的预测第二图像;以真实第二图像叠加所述第二文本区域二值图作为正样本,以及,以所述预测第二图像叠加所述第二文本区域二值图作为负样本;根据所述正样本、负样本和所述第一文本区域二值图对所述初始模型进行训练,当所述判别器对应的损失值的波动在预设范围内时,将此时的生成器确定为文本擦除目标模型。
根据本公开的第二方面,提供了一种文本擦除方法,包括:
获取待擦除的文本图像;
将待擦除的文本图像输入到第一方面方法的文本擦除目标模型中,生成擦除后的文本图像。
根据本公开的第三方面,提供了一种文本擦除模型的训练装置,包括:获取模块,获取包含擦除标签的真实第一图像,其中,所述擦除标签用于指示在所述真实第一图像中被擦除的文本区域,所述真实第一图像由对真实第二图像缩小处理后得到,所述真实第一图像的分辨率低于所述真实第二图像;二值图确定模块,确定所述真实第一图像的第一文本区域二值图,以及,确定所述真实第一图像所对应的真实第二图像的第二文本区域二值图;
预测图像生成模块,获取包含生成器和判别器的初始模型,以所述真实第一图像作为生成器的输入,生成被擦除了部分区域的预测第二图像;判别模块,以真实第二图像叠加所述第二文本区域二值图作为正样本,以及,以所述预测第二图像叠加所述第二文本区域二值图作为负样本;训练模块,根据所述正样本、负样本和所述第一文本区域二值图对所述初始模型进行训练,当所述判别器对应的损失值的波动在预设范围内时,将此时的生成器确定为文本擦除目标模型。
根据本公开的第四方面,提供了一种电子设备,包括:处理器;以及存储程序的存储器,其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行如第一方面所述的方法。
根据本公开的第五方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如第一方面所述的方法。
本公开实施例中提供的一个或多个技术方案,获取包含擦除标签的真实第一图像;确定所述真实第一图像的第一文本区域二值图,以及,确定所述真实第一图像所对应的真实第二图像的第二文本区域二值图;获取包含生成器和判别器的初始模型,以所述真实第一图像作为生成器的输入,生成被擦除了部分区域的预测第二图像;以真实第二图像叠加所述第二文本区域二值图作为正样本,以及,以所述预测第二图像叠加所述第二文本区域二值图作为负样本;根据所述正样本、负样本和所述第一文本区域二值图对所述初始模型进行训练,当所述判别器对应的损失值的波动在预设范围内时,将此时的生成器确定为文本擦除目标模型。从而实现对真实第二图像图像进行了缩小调整,降低图像分辨率得到真实第一图像及其对应的第一文本区域二值图,基于真实第一图像及其对应的第一文本区域二值图对包含了生成器和判别器的初始模型进行训练,以使得判别器最终不能区分正样本和负样本,从而保留此时的生成器做为文本擦除目标模型,用于后续图像擦除,从而实现更为快速擦除的文本擦除。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1为本公开实施例所提供的一种文本擦除模型的训练方法的流程示意图;
图2为本申请实施例所提供的文本区域二值图与原图像素点的对应示意图;
图3为本公开实施例所提供的一种文本擦除模型的训练装置的结构示意图;
图4示出了能够用于实现本公开的实施例的示例性电子设备的结构框图;
图5为本公开实施例所提供的一种文本擦除方法的流程示意图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
以下参照附图描述本公开的方案,如图1所示,图1为本公开实施例所提供的一种文本擦除模型的训练方法的流程示意图,具体包括:
S101,获取包含擦除标签的真实第一图像。
在文本擦除中,由于图像的分辨率以及图像中要擦除文本的数量对擦除速度会有很大影响,也就是要修改的像素点数量越少,则图像中文本擦除的速度越快,因此本公开认为,如果能先降低图像分辨率,然后提供要擦除文本区域信息擦除低分辨率图像中的文本,之后在恢复图像的分辨率,便能有效实现精确快速的文本擦除。
基于此,本公开采用如下方式构建训练样本集合:首先获取带有文本信息(本公开的文本信息指基于人工书写所产生的文本信息,例如,在试卷中,学生所书写的回答信息)的真实第二图像(可以包括试卷拍照、作业图像等等),接着按照文本检测的标注方式,对这些真实第二图像进行标注(例如,一个倾斜矩形的4个顶点坐标标注出需要擦除的文本信息的矩形区域),从而可以得到包含了已经指示了插值区域(即矩形区域的位置信息)的真实第二图像。
进而采用插值的方式(例如双线性插值或者三次插值)对真实第二图像进行缩小操作,同时对其需要擦除的文本信息的矩形区域也进行相应的缩小,从而得到包含擦除标签的真实第一图像,擦除标签用于指示在所述真实第一图像中被擦除的文本区域。因此,真实第一图像的分辨率低于所述真实第二图像,真实第二图像也可以称为真实高分辨率图像,真实第一图像也可以称为真实低分辨率图像。缩小操作的比例可以根据具体情况设定,例如可以中真实第二图像缩放为原图的1/4或者1/8等等。
S103,确定所述真实第一图像的第一文本区域二值图,以及,确定所述真实第一图像所对应的真实第二图像的第二文本区域二值图。
对于任意的真实第一图像和真实第二图像,由于其需要擦除的区域已经确定,因此,可以直接根据需要擦除的区域的位置信息直接生成与图像大小的文本区域二值图。
即第一文本区域二值图与真实第一图像的大小相同,第二文本区域二值图与真实第二图像的大小相同。文本区域二值图中通过与原图像中的像素点一一对应的特征值(例如,用0表示擦除,1表示未擦除)表征其对应的像素擦除或者未擦除。如图2所示,图2为本申请实施例所提供的文本区域二值图与原图像素点的对应示意图。其中的虚线框所标出的手写答案矩形区域即为擦除标签,图像中的像素点与二值图中的特征值一一对应,在擦除标签范围内的像素点对应的特征值均取值为0。
S105,获取包含生成器和判别器的初始模型,以所述真实第一图像作为生成器的输入,生成被擦除了部分区域的预测第二图像。
初始模型可以是基于条件生成-对抗网络(Conditional GenerativeAdversarial Network,CGAN)的生成式模型,其可以根据指定输入得到指定类型的输出,包括了生成器和判别器两个部分。
在生成器中,以真实第一图像作为输入,以擦除标签作为条件,生成被擦除了部分区域的预测第二图像,预测第二图像的大小与真实第二图像的大小相同。
S107,以真实第二图像叠加所述第二文本区域二值图作为正样本,以及,以所述预测第二图像叠加所述第二文本区域二值图作为负样本。
由于第二文本区域二值图是仅包含了0和1的特征图,通过真实第二图像叠加所述第二文本区域二值图即可以得到擦除了对应值为的图像,从而可以作为正样本;类似的道理,预测第二图像叠加所述第二文本区域二值图即可以作为负样本。
S109,根据所述正样本、负样本和所述第一文本区域二值图对所述初始模型进行训练,当所述判别器对应的损失值的波动在预设范围内时,将此时的生成器确定为文本擦除目标模型。
第一文本区域二值图即可以作为生成器的输入条件,用于约束生成器中提取得到的待擦除的位置信息应当趋近于第一文本区域二值图。
判别器通不仅要识别出输入样本的真假(即正样本还是负样本),还要识别出输入样本和条件(即真实第二图像中被擦除的文本区域的位置信息)是否匹配,若不匹配则给低分。从而可以使模型生成特定种类的样本。为了使生成的样本更真实,可以使用添加L1损失等方法。是输入与输出样本尽量接近。
例如,判别器可以是由8个卷积层和2个全连接层组成,最后一个全连接层的节点数量为2,每个节点的输出值在0-1之间,分别表示输入为正样本或负样本的概率。
在这个过程中,生成器的损失函数为对抗损失函数加上L1范数损失函数,而判别器的损失函数为对抗损失函数,训练过程中判别器与生成器的参数隔步迭代优化。直至判别器对应的损失值的波动在预设范围内(例如,损失值的波动范围不超过5%),即判别器对于任意的输入样本的损失值的波动趋于平稳,从而说明判别器已经难以区分正样本和负样本,生成器生成的负样本已经贴近了真实的正样本,即通过生成器所产生的预测第二图像已经贴近了真实第二图像,因此即将此时的生成器确定为文本擦除目标模型。
本公开实施例中提供的一个或多个技术方案,获取包含擦除标签的真实第一图像;确定所述真实第一图像的第一文本区域二值图,以及,确定所述真实第一图像所对应的真实第二图像的第二文本区域二值图;获取包含生成器和判别器的初始模型,以所述真实第一图像作为生成器的输入,生成被擦除了部分区域的预测第二图像;以真实第二图像叠加所述第二文本区域二值图作为正样本,以及,以所述预测第二图像叠加所述第二文本区域二值图作为负样本;根据所述正样本、负样本和所述第一文本区域二值图对所述初始模型进行训练,当所述判别器对应的损失值的波动在预设范围内时,将此时的生成器确定为文本擦除目标模型。从而实现对真实第二图像图像进行了缩小调整,降低图像分辨率得到真实第一图像及其对应的第一文本区域二值图,基于真实第一图像及其对应的第一文本区域二值图对包含了生成器和判别器的初始模型进行训练,以使得判别器最终不能区分正样本和负样本,从而保留此时的生成器做为文本擦除目标模型,用于后续图像擦除,从而实现更为快速擦除的文本擦除。
在一种实施例中,生成器的结构可以是包含有多个用于预测文本区域二值图的第一分支、用于提取被擦除的文本区域的位置信息的第二分支和包含多个残差块(残差块的数量基于缩小的比例而定)的第三分支。
在这种方式中,可以预先对生成器中的各分支进行前置训练,以得到效果更好的生成器。具体而言,可以依次包括以下两个阶段:
第一阶段,对第一分支进行训练,即以所述真实第一图像作为输入,所述真实第一图像的第一文本区域二值图作为标签对所述第一分支进行训练,直至第一分支生成的预测的第一文本区域二值图与标签的差异满足预设的条件;
第二阶段,基于已经训练好的第一分支,对第三分支进行训练。第三分支中包含了多个残差块(每一个残差块可以将输入的图像放大2倍,如果缩小比例为4,则需要2个残差块,如果缩小比例为1/(2^N),则需要N个残差块,N为自然数)。例如,可以采用诸如lapsrn的结构,采用包含8层卷积操作的N个残差块。对于第三分支的训练中,以第二分支所输出的包含了预测擦除区域的预测第一图像为输入(第二分支的特征提取中需要基于其提取得到的特征融合第一分支所输出的预测的第一文本区域二值图),以所述真实第一图像所对应的已经擦除了文本信息的真实第二图像为标签,对所述第三分支进行训练。
在一种实施例中,对于生成器中第三分支的输入,可以采用如下方式得到:
首先基于已经训练好的第一分支,基于输入的真实第一图像生成预测的第一文本区域二值图。
进而以真实第一图像作为第二分支的输入,提取得到对应的M个图像特征子映射,进而即可以融合图像特征子映射和预测的第一文本区域二值图,而生成包含了预测擦除区域的预测第一图像。
第二分支中采用诸如编解码结构,包括M层卷积层和M层反卷积层,M为自然数,同时卷积层和对应大小的反卷积层采用U-Net类似的结构,通过多个反卷积层分别。例如,可以将M个图像特征子映射串联叠加而得到对应输入的图像特征映射,并将图像特征映射与预测的第一文本区域二值图进行逐通道逐点相乘,再对乘积结果进行卷积/反卷积处理而生成包含了预测擦除区域的预测第一图像;又例如,可以将M个图像特征子映射中的部分先与预测的第一文本区域二值图进行逐点相乘,再进行串联,进而生成包含了预测擦除区域的预测第一图像。
之后,以所述预测第一图像作为第三分支的输入,生成被擦除了部分区域的预测第二图像。
在这个过程中,通过融合预测的第一文本区域二值图,相当于强行加入了在第一图像中的擦除标签所对应的文本信息的位置信息,可以提高后续的第三分支的预测输出的准确性。
在一种实施例中,对于第一分支的结构采用包含多个串联的块的形式,每一个块的输出是后一块的输入。例如,可以采用改进的Resnet18网络模型作为基础结构,Resnet18网络由K(K为自然数,例如,通常K可以取4)个块(block)串联构建,每个块可以进行若干层的卷积操作,第一个块输出的第一映射子特征大小为原图(即真实第一图像)的1/4,第二块输出的第一映射子特征大小为原图1/8,第三个为原图1/16,第四个为原图1/32,,然后串联所述多个第一映射子特征生成第一特征映射,并将多个通道的子特征映射全部通过插值的方式缩放至原图1/4大小,然后进行两次卷积和三次反卷积操作,得到与输入大小一致的1通道的预测的第一文本区域二值图。通过采用多个串联的块的形式可以提取得到更丰富的原始图像的图像特征,使得生成的预测的第一文本区域二值图更为准确。
在一种实施例中,对于第二分支中在生成包含了预测擦除区域的预测第一图像,可以采用如下方式:由于第二分支中包含了多个卷积层和对应大小的反卷积层,即采用U-Net类似的结构(即跳跃连接),使得各卷积层中两组特征映射串联在一起,同时各反卷积层所输出的图像特征子映射大小并不相同,因此,可以首先将所述预测的第一文本区域二值图缩放至图像特征子映射的相同大小,并将所述预测的第一文本区域二值图与所述图像特征子映射逐通道逐点相乘(例如,同时第一个分支的输出缩放到与第二个分支中第三、第五、第七个反卷积层大小后,与这些层的图像特征子映射逐通道逐点相乘),生成调整后的图像特征子映射,进而根据所述调整后的图像特征子映射生成包含了预测擦除区域的预测第一图像,例如,将调整后的多个图像特征子映射串联并进行卷积/反卷积从而生成包含了预测擦除区域的预测第一图像。通过该方式,可以基于实际训练的需要调整在生成其中融合位置信息的方式,提高模型训练效率。
在本公开实施例的第二方面,还提供了一种文本擦除模型的训练装置,如图3所示,图3为本公开实施例所提供的一种文本擦除模型的训练装置的结构示意图,包括:
获取模块301,获取包含擦除标签的真实第一图像,其中,所述擦除标签用于指示在所述真实第一图像中被擦除的文本区域,所述真实第一图像由对真实第二图像缩小处理后得到,所述真实第一图像的分辨率低于所述真实第二图像;
二值图确定模块303,确定所述真实第一图像的第一文本区域二值图,以及,确定所述真实第一图像所对应的真实第二图像的第二文本区域二值图;
预测图像生成模块305,获取包含生成器和判别器的初始模型,以所述真实第一图像作为生成器的输入,生成被擦除了部分区域的预测第二图像;
判别模块307,以真实第二图像叠加所述第二文本区域二值图作为正样本,以及,以所述预测第二图像叠加所述第二文本区域二值图作为负样本;
训练模块309,根据所述正样本、负样本和所述第一文本区域二值图对所述初始模型进行训练,当所述判别器对应的损失值的波动在预设范围内时,将此时的生成器确定为文本擦除目标模型。
在本公开实施例的第三方面,本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
参考图4,现将描述可以作为本公开的服务器或客户端的电子设备800的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图4所示,电子设备800包括计算单元801,其可以根据存储在只读存储器(ROM)802中的计算机程序或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。计算单元801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
电子设备800中的多个部件连接至I/O接口805,包括:输入单元806、输出单元807、存储单元808以及通信单元809。输入单元806可以是能向电子设备800输入信息的任何类型的设备,输入单元806可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元807可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元804可以包括但不限于磁盘、光盘。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理。例如,在一些实施例中,如第一方面方法的文本擦除模型的训练方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到电子设备800上。在一些实施例中,计算单元801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行如第一方面方法的文本擦除模型的训练方法。
如图5所示,图5为本公开实施例所提供的一种文本擦除方法的流程示意图,其包括:
S501、获取待擦除的文本图像;
S503、将待擦除的文本图像输入到第一方面方法的文本擦除目标模型中,生成擦除后的文本图像。
可选地,在一实施例中,所述获取待擦除的文本图像之后,所述将待擦除的文本图像输入到根据第一方面得到的文本擦除目标模型中,生成擦除后的文本图像之前,包括:
对所述待擦除的文本图像进行所述缩小处理,生成缩小后的待擦除的文本图像;
所述将待擦除的文本图像输入到根据第一方面得到的文本擦除目标模型中,生成擦除后的文本图像,包括:
将所述缩小后的待擦除的文本图像输入到根据第一方面得到的所述文本擦除目标模型中,生成擦除后的文本图像,其中擦除后的文本图像与所述待擦除的文本图像的大小相同。
即:在确定了生成器确定为文本擦除目标模型之后,即可以基于生成器对待擦除的文本图像进行擦除。即获取待擦除的文本图像;对所述待擦除的文本图像进行所述缩小处理(缩小处理的方式与在步骤S101中的方式相同),生成缩小后的待擦除的文本图像;将所述缩小后的待擦除的文本图像输入所述文本擦除目标模型,生成擦除后的文本图像,其中擦除后的文本图像与所述待擦除的文本图像的大小相同。
换言之,在这个过程中,生成器自动的完成了缩小、擦除、放大的各步骤。仍以前述包含的第一分支、第二分支和第三分支的生成器结构为例。
在输入了待擦除的文本图像之后,第一分支即可以自动的将其缩小至合适的比例而得到待擦除的第一图像,并生成对应的预测的第一文本区域二值图;
而第二分支即通过多个(假设为8)跳跃连接的卷积层与反卷积层,提取得到多个图像特征子映射,将预测的第一文本区域二值图缩放至与第三、第五、第七个反卷积层的输入大小后,与第三、第五、第七层的图像特征子映射逐通道逐点相乘,最终串联而得到多个图像特征子映射,并进行卷积/反卷积处理而生成包含了预测擦除区域的预测第一图像;
第三分支则由多个包含N层卷积操作的残差块组成,每经过一个残差块的卷积处理,预测第一图像将会被放大2倍,最终放大至与输入的待擦除的文本图像相同(即高分辨率图像),通过先降低图像分辨率,然后基于已经训练好的文本擦除目标模型擦除低分辨率图像中的文本,之后再恢复图像的分辨率,实际上大幅减少了需要擦除的像素点,有效实现精确快速的文本擦除。
本实施例中,所述待擦除的文本图像可以为用户作答的文本图像,通过将用户作答过的文本抹去,第一遍答题之后,可以找出错题,重点学习之后,去除其上的手写体,将试卷复原,针对错误问题重新练习,以巩固学习效果;而对于拍照判题应用的提供者来说,用户需要批改的题目,题库中如果没有,那么便可以去除用户作答痕迹,将这道题收录,同时引入人工答案,从而有效扩充题库。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
Claims (11)
1.一种文本擦除模型的训练方法,包括:
获取包含擦除标签的真实第一图像,其中,所述擦除标签用于指示在所述真实第一图像中被擦除的文本区域,所述真实第一图像由对真实第二图像缩小处理后得到,所述真实第一图像的分辨率低于所述真实第二图像;
确定所述真实第一图像的第一文本区域二值图,以及,确定所述真实第一图像所对应的真实第二图像的第二文本区域二值图,所述第一文本区域二值图和所述第二文本区域二值图中通过与原图像中的像素点一一对应的特征值表征其对应的像素擦除或者未擦除;
获取包含生成器和判别器的初始模型,以所述真实第一图像作为生成器的输入,生成被擦除了部分区域的预测第二图像;
以真实第二图像叠加所述第二文本区域二值图作为正样本,以及,以所述预测第二图像叠加所述第二文本区域二值图作为负样本;
根据所述正样本、负样本和所述第一文本区域二值图对所述初始模型进行训练,当所述判别器对应的损失值的波动在预设范围内时,将此时的生成器确定为文本擦除目标模型。
2.如权利要求1所述的方法,其中,所述生成器包括用于预测文本区域二值图的第一分支、用于提取被擦除的文本区域的位置信息的第二分支和包含多个残差块的第三分支;
相应的,在以所述真实第一图像作为生成器的输入之前,所述方法还包括:
以所述真实第一图像作为输入,所述真实第一图像的第一文本区域二值图作为标签对所述第一分支进行训练;以及,
以第二分支所输出的包含了预测擦除区域的预测第一图像为输入,所述真实第一图像所对应的真实第二图像为标签,对所述第三分支进行训练。
3.如权利要求2所述的方法,其中,以所述真实第一图像作为生成器的输入,生成被擦除了部分区域的预测第二图像,包括:
以所述真实第一图像作为第一分支的输入,生成预测的第一文本区域二值图;
以所述真实第一图像作为第二分支的输入,所述第二分支提取得到所述真实第一图像的多个图像特征子映射,融合所述预测的第一文本区域二值图和所述多个图像特征子映射生成包含了预测擦除区域的预测第一图像;
以所述预测第一图像作为第三分支的输入,生成被擦除了部分区域的预测第二图像。
4.如权利要求3所述的方法,其中,以所述真实第一图像作为第一分支的输入,生成预测的第一文本区域二值图,包括:
采用包含多个串联的块的分别对所述真实第一图像进行卷积,生成对应的多个第一映射子特征;
串联所述多个第一映射子特征生成第一特征映射;
对所述第一特征映射进行反卷积,生成与所述真实第一图像大小相同的预测的第一文本区域二值图。
5.如权利要求3所述的方法,其中,根据所述预测的第一文本区域二值图和所述多个图像特征子映射生成包含了预测擦除区域的预测第一图像,包括:
将所述预测的第一文本区域二值图缩放至图像特征子映射的相同大小,并将所述预测的第一文本区域二值图与所述图像特征子映射逐通道逐点相乘,生成调整后的图像特征子映射;
根据所述调整后的图像特征子映射生成包含了预测擦除区域的预测第一图像。
6.如权利要求3所述的方法,其中,所述第三分支中的残差块数量根据真实第一图像相对真实第二图像的缩小比例确定。
7.一种文本擦除方法,包括:
获取待擦除的文本图像;
将待擦除的文本图像输入到根据权利要求1-6任一项方法得到的文本擦除目标模型中,生成擦除后的文本图像。
8.根据权利要求7所述的方法,其中,所述获取待擦除的文本图像之后,所述将待擦除的文本图像输入到根据权利要求1-6任一项方法得到的文本擦除目标模型中,生成擦除后的文本图像之前,包括:
对所述待擦除的文本图像进行所述缩小处理,生成缩小后的待擦除的文本图像;
所述将待擦除的文本图像输入到根据权利要求1-6任一项方法得到的文本擦除目标模型中,生成擦除后的文本图像,包括:
将所述缩小后的待擦除的文本图像输入到根据权利要求1-6任一项方法得到的所述文本擦除目标模型中,生成擦除后的文本图像,其中擦除后的文本图像与所述待擦除的文本图像的大小相同。
9.一种文本擦除模型的训练装置,包括:
获取模块,获取包含擦除标签的真实第一图像,其中,所述擦除标签用于指示在所述真实第一图像中被擦除的文本区域,所述真实第一图像由对真实第二图像缩小处理后得到,所述真实第一图像的分辨率低于所述真实第二图像;
二值图确定模块,确定所述真实第一图像的第一文本区域二值图,以及,确定所述真实第一图像所对应的真实第二图像的第二文本区域二值图,所述第一文本区域二值图和所述第二文本区域二值图中通过与原图像中的像素点一一对应的特征值表征其对应的像素擦除或者未擦除;
预测图像生成模块,获取包含生成器和判别器的初始模型,以所述真实第一图像作为生成器的输入,生成被擦除了部分区域的预测第二图像;
判别模块,以真实第二图像叠加所述第二文本区域二值图作为正样本,以及,以所述预测第二图像叠加所述第二文本区域二值图作为负样本;
训练模块,根据所述正样本、负样本和所述第一文本区域二值图对所述初始模型进行训练,当所述判别器对应的损失值的波动在预设范围内时,将此时的生成器确定为文本擦除目标模型。
10.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。
11.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111023915.0A CN113469878B (zh) | 2021-09-02 | 2021-09-02 | 一种文本擦除方法及其模型的训练方法、装置、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111023915.0A CN113469878B (zh) | 2021-09-02 | 2021-09-02 | 一种文本擦除方法及其模型的训练方法、装置、存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113469878A CN113469878A (zh) | 2021-10-01 |
CN113469878B true CN113469878B (zh) | 2021-11-12 |
Family
ID=77867371
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111023915.0A Active CN113469878B (zh) | 2021-09-02 | 2021-09-02 | 一种文本擦除方法及其模型的训练方法、装置、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113469878B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
CN112287924A (zh) * | 2020-12-24 | 2021-01-29 | 北京易真学思教育科技有限公司 | 文本区域检测方法、装置、电子设备和计算机存储介质 |
WO2021017261A1 (zh) * | 2019-08-01 | 2021-02-04 | 平安科技(深圳)有限公司 | 识别模型训练方法、图像识别方法、装置、设备及介质 |
CN112990203A (zh) * | 2021-05-11 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
Family Cites Families (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109086709B (zh) * | 2018-07-27 | 2023-04-07 | 腾讯科技(深圳)有限公司 | 特征提取模型训练方法、装置及存储介质 |
CN109697460B (zh) * | 2018-12-05 | 2021-06-29 | 华中科技大学 | 对象检测模型训练方法、目标对象检测方法 |
CN109492627B (zh) * | 2019-01-22 | 2022-11-08 | 华南理工大学 | 一种基于全卷积网络的深度模型的场景文本擦除方法 |
US11132780B2 (en) * | 2020-02-14 | 2021-09-28 | Huawei Technologies Co., Ltd. | Target detection method, training method, electronic device, and computer-readable medium |
CN112183537B (zh) * | 2020-11-30 | 2021-03-19 | 北京易真学思教育科技有限公司 | 模型训练方法及装置、文本区域检测方法及装置 |
CN112580623B (zh) * | 2020-12-25 | 2023-07-25 | 北京百度网讯科技有限公司 | 图像生成方法、模型训练方法、相关装置及电子设备 |
CN112528976B (zh) * | 2021-02-09 | 2021-09-21 | 北京世纪好未来教育科技有限公司 | 文本检测模型的生成方法和文本检测方法 |
CN113254654B (zh) * | 2021-07-05 | 2021-09-21 | 北京世纪好未来教育科技有限公司 | 模型训练、文本识别方法、装置、设备和介质 |
CN113269280B (zh) * | 2021-07-21 | 2021-10-08 | 北京世纪好未来教育科技有限公司 | 文本检测方法、装置、电子设备及计算机可读存储介质 |
-
2021
- 2021-09-02 CN CN202111023915.0A patent/CN113469878B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020221298A1 (zh) * | 2019-04-30 | 2020-11-05 | 北京金山云网络技术有限公司 | 文本检测模型训练方法、文本区域、内容确定方法和装置 |
WO2021017261A1 (zh) * | 2019-08-01 | 2021-02-04 | 平安科技(深圳)有限公司 | 识别模型训练方法、图像识别方法、装置、设备及介质 |
CN112287924A (zh) * | 2020-12-24 | 2021-01-29 | 北京易真学思教育科技有限公司 | 文本区域检测方法、装置、电子设备和计算机存储介质 |
CN112990203A (zh) * | 2021-05-11 | 2021-06-18 | 北京世纪好未来教育科技有限公司 | 目标检测方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113469878A (zh) | 2021-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7425147B2 (ja) | 画像処理方法、テキスト認識方法及び装置 | |
WO2023035531A1 (zh) | 文本图像超分辨率重建方法及其相关设备 | |
US11257217B2 (en) | Image segmentation using neural networks | |
JP7384943B2 (ja) | 文字生成モデルのトレーニング方法、文字生成方法、装置、機器及び媒体 | |
CN113469148B (zh) | 一种文本擦除方法及模型的训练方法、装置、存储介质 | |
CN111105375A (zh) | 图像生成方法及其模型训练方法、装置及电子设备 | |
CN113344826A (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN113724128A (zh) | 一种训练样本的扩充方法 | |
CN112686243A (zh) | 智能识别图片文字的方法、装置、计算机设备及存储介质 | |
CN114022887B (zh) | 文本识别模型训练及文本识别方法、装置、电子设备 | |
CN115100659A (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN113420763B (zh) | 文本图像处理方法、装置、电子设备及可读存储介质 | |
CN113033721B (zh) | 题目批改方法及计算机存储介质 | |
CN113516697A (zh) | 图像配准的方法、装置、电子设备及计算机可读存储介质 | |
CN114332484A (zh) | 关键点检测方法、装置、计算机设备和存储介质 | |
CN113469878B (zh) | 一种文本擦除方法及其模型的训练方法、装置、存储介质 | |
CN113837157B (zh) | 题目类型识别方法、系统和存储介质 | |
CN115273057A (zh) | 文本识别方法、装置和听写批改方法、装置及电子设备 | |
CN113052156B (zh) | 光学字符识别方法、装置、电子设备和存储介质 | |
CN113850238A (zh) | 文档检测方法、装置、电子设备及存储介质 | |
CN111612714B (zh) | 图像修复方法、装置和电子设备 | |
CN112651399B (zh) | 检测倾斜图像中同行文字的方法及其相关设备 | |
CN113688809B (zh) | 一种模型训练方法、文本去除方法及相关装置 | |
CN114118075B (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN116884019A (zh) | 签名识别方法、装置、计算机设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |