CN114332150A - 手写笔迹擦除方法、装置、设备及可读存储介质 - Google Patents

手写笔迹擦除方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN114332150A
CN114332150A CN202111627955.6A CN202111627955A CN114332150A CN 114332150 A CN114332150 A CN 114332150A CN 202111627955 A CN202111627955 A CN 202111627955A CN 114332150 A CN114332150 A CN 114332150A
Authority
CN
China
Prior art keywords
handwriting
picture
detection
detection frame
segmentation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111627955.6A
Other languages
English (en)
Inventor
汤佳敏
欧阳梅
周彭滔
张新访
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Tianyu Information Industry Co Ltd
Original Assignee
Wuhan Tianyu Information Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Tianyu Information Industry Co Ltd filed Critical Wuhan Tianyu Information Industry Co Ltd
Priority to CN202111627955.6A priority Critical patent/CN114332150A/zh
Publication of CN114332150A publication Critical patent/CN114332150A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)

Abstract

本申请涉及一种手写笔迹擦除方法、装置、设备及可读存储介质,涉及图像识别处理技术领域,包括将待擦除图片输入目标检测模型得到多个笔迹区域及各个笔迹区域的顶点坐标;对顶点坐标形成的检测框集合中的每个检测框对应的图片进行切割,并基于语义分割模型对切割图片中的背景、印刷体和手写体进行语义分割得到初始三维矩阵;将初始三维矩阵中的背景和印刷体对应的像素值更新为第一预设值、手写体对应的像素值更新为第二预设值,得到二元笔迹掩膜;将二元笔迹掩膜及其对应的切割图片输入多元图像恢复模型得到去笔迹后的恢复图像;基于去笔迹后的恢复图像对待擦除图片进行覆盖得到无笔迹目标图片,有效了避免误分割和漏分割,提高文档还原准确性。

Description

手写笔迹擦除方法、装置、设备及可读存储介质
技术领域
本申请涉及图像识别处理技术领域,特别涉及一种手写笔迹擦除方法、装置、设备及可读存储介质。
背景技术
随着社会的转型和教育理念的转变,教育的功能日益社会化,教育的主体日趋多样化,使得家长对孩子学业成就的影响受到了越来越多的人关注。而在家校合作的背景之下,家长和学校的联系日益密切,家长辅导小学生家庭作业成为当下家校合作的一项重要内容,且在家长参与孩子教育的实践中,家长对家庭作业的参与也是其中一个重要组成部分。
其中,在家长辅导孩子作业的过程中,当孩子在试卷上或者练习册上写错了答案之后,需拿橡皮擦掉,若再写错,需继续擦,以此反复几次后,试卷或练习册早已不是原来的样子,被擦得面目全非,以致无法继续进行答案的书写,因此,如何擦除手写笔迹,以恢复试卷原貌成为了当前亟需解决的问题。而文档还原技术就是在此背景下应运而生的,其是对纸张上的手写笔迹进行电子去除的还原技术,被广泛应用于教育、办公等领域。
不过,由于文档还原技术是通过对整张图像直接进行语义分割实现笔迹的提取,当图像中手写笔迹很小时,会导致漏分割;且由于印刷体和背景特征差异大,在文档还原过程中,往往易将印刷体误分割成手写体,以致文档还原的准确性较差。
发明内容
本申请提供一种手写笔迹擦除方法、装置、设备及可读存储介质,以解决相关技术中文档还原技术存在漏分割和误分割而导致的文档还原准确性差的问题。
第一方面,提供了一种手写笔迹擦除方法,包括以下步骤:
将待擦除图片输入目标检测模型,得到包含手写笔迹的多个笔迹区域以及各个笔迹区域的顶点坐标;
基于多个笔迹区域的顶点坐标形成检测框集合,并对检测框集合中的每个检测框对应的图片进行切割,得到多张切割图片;
基于语义分割模型分别对每张切割图片中的背景、印刷体和手写体进行语义分割,得到每张切割图片对应的初始三维矩阵;
分别将每张切割图片对应的初始三维矩阵中的背景和印刷体对应的像素值更新为第一预设值、手写体对应的像素值更新为第二预设值,得到每张切割图片对应的二元笔迹掩膜;
将每个二元笔迹掩膜及其对应的切割图片输入多元图像恢复模型,得到去笔迹后的恢复图像;
基于去笔迹后的恢复图像对待擦除图片上的与所述去笔迹后的恢复图像对应的笔迹区域进行覆盖处理,得到无笔迹目标图片。
一些实施例中,所述基于多个笔迹区域的顶点坐标形成检测框集合,包括:
根据每个笔迹区域的顶点坐标形成对应的第一检测框;
检测相邻两个第一检测框之间的交并比以及距离是否均大于对应的合并阈值;
若是,则将相邻两个第一检测框进行合并得到第二检测框,并判断第二检测框的宽度和高度是否大于对应的切分阈值,当第二检测框的宽度大于宽度切分阈值和/或第二检测框的高度大于高度切分阈值时,对所述第二检测框进行切分,得到多个第二子检测框,当第二检测框的宽度小于或等于宽度切分阈值且第二检测框的高度小于或等于高度切分阈值时,则不对所述第二检测框进行切分处理;
若否,则不对所述相邻两个第一检测框进行合并处理,并判断第一检测框的宽度和高度是否大于对应的切分阈值,当第一检测框的宽度大于宽度切分阈值和/或第一检测框的高度大于高度切分阈值时,对所述第一检测框进行切分,得到多个第一子检测框,当第一检测框的宽度小于或等于宽度切分阈值且第一检测框的高度小于或等于高度切分阈值时,则不对所述第一检测框进行切分处理;
将未合并且未切分的第一检测框、第一子检测框、未切分的第二检测框和第二子检测框作为检测框集合。
一些实施例中,在所述检测相邻两个第一检测框之间的交并比以及距离是否均大于对应的合并阈值的步骤之前,还包括:
对所有第一检测框进行非极大值抑制处理,以删除冗余的第一检测框,所述非极大值抑制处理中的置信度阈值设为0.05,所述非极大值抑制处理中的交并比阈值设为0.95。
一些实施例中,在所述基于语义分割模型分别对每张切割图片中的背景、印刷体和手写体进行语义分割的步骤之前,还包括:
将多张切割图片合并成一个批处理数据;
将所述批处理数据输入所述语义分割模型。
一些实施例中,所述多元图像恢复模型包括表达网络和生成网络,所述生成网络中的第二解码模块的输出层的输入为第二解码模块的残差上采样单元的输出与表达网络中的第一编码模块的输出形成的拼接图;所述生成网络中的第三解码模块的输出层的输入为第三解码模块的残差上采样单元的输出与表达网络中的初始残差模块的输出形成的拼接图。
一些实施例中,所述生成网络中的长短期注意力模块用于:
计算所述生成网络中的第一解码模块输出的解码特征的短期层间注意力特征;
计算所述表达网络中的第二编码模块输出的编码特征的长期层间注意力特征;
将所述短期层间注意力特征和所述长期层间注意力特征进行聚合并作为第二解码模块的残差上采样单元的输入。
一些实施例中,在所述基于去笔迹后的恢复图像对待擦除图片上的与所述去笔迹后的恢复图像对应的笔迹区域进行覆盖处理,得到无笔迹目标图片的步骤之后,还包括:
对无笔迹目标图片进行二值化处理,得到无笔迹的二值化图片。
第二方面,提供了一种手写笔迹擦除装置,包括:
笔迹检测单元,其用于将待擦除图片输入目标检测模型,得到包含手写笔迹的多个笔迹区域以及各个笔迹区域的顶点坐标;基于多个笔迹区域的顶点坐标形成检测框集合,并对检测框集合中的每个检测框对应的图片进行切割,得到多张切割图片;
笔迹分割单元,其用于基于语义分割模型分别对每张切割图片中的背景、印刷体和手写体进行语义分割,得到每张切割图片对应的初始三维矩阵;分别将每张切割图片对应的初始三维矩阵中的背景和印刷体对应的像素值更新为第一预设值、手写体对应的像素值更新为第二预设值,得到每张切割图片对应的二元笔迹掩膜;
图像恢复单元,其用于将每个二元笔迹掩膜及其对应的切割图片输入多元图像恢复模型,得到去笔迹后的恢复图像;
图像拼接单元,其用于基于去笔迹后的恢复图像对待擦除图片上的与所述去笔迹后的恢复图像对应的笔迹区域进行覆盖处理,得到无笔迹目标图片。
第三方面,提供了一种手写笔迹擦除设备,包括:存储器和处理器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现前述的手写笔迹擦除方法。
第四方面,提供了一种计算机可读存储介质,其特征在于:所述计算机存储介质存储有计算机程序,当所述计算机程序被处理器执行时,以实现前述的手写笔迹擦除方法。
本申请提供的技术方案带来的有益效果包括:可有效避免误分割和漏分割,进而提高文档还原的准确性。
本申请提供了一种手写笔迹擦除方法、装置、设备及可读存储介质,包括将待擦除图片输入目标检测模型,得到包含手写笔迹的多个笔迹区域以及各个笔迹区域的顶点坐标;基于多个笔迹区域的顶点坐标形成检测框集合,并对检测框集合中的每个检测框对应的图片进行切割,得到多张切割图片;基于语义分割模型分别对每张切割图片中的背景、印刷体和手写体进行语义分割,得到每张切割图片对应的初始三维矩阵;分别将每张切割图片对应的初始三维矩阵中的背景和印刷体对应的像素值更新为第一预设值、手写体对应的像素值更新为第二预设值,得到每张切割图片对应的二元笔迹掩膜;将每个二元笔迹掩膜及其对应的切割图片输入多元图像恢复模型,得到去笔迹后的恢复图像;基于去笔迹后的恢复图像对待擦除图片上的与去笔迹后的恢复图像对应的笔迹区域进行覆盖处理,得到无笔迹目标图片。本申请通过对待擦除图片中的笔迹进行检测定位,并对定位到的检测框对应的图片进行切割,得到多张尺寸较小的切割图片,而尺寸较小的图片干扰项更少,且手写笔迹在该图片中的特征会更为明显,同时还对尺寸更小的图片进行了包括背景、印刷体和手写体三种目标的语义分割,有效避免了误分割和漏分割,进而提高文档还原的准确性。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种手写笔迹擦除方法的流程示意图;
图2为本申请实施例提供的图像恢复模型结构示意图;
图3为本申请实施例提供的一种手写笔迹擦除装置的结构示意图;
图4为本申请实施例提供的一种手写笔迹擦除设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种手写笔迹擦除方法、装置、设备及可读存储介质,其能解决相关技术中文档还原技术存在漏分割和误分割而导致的文档还原准确性差的问题。
图1是本申请实施例提供的一种手写笔迹擦除方法,包括以下步骤:
步骤S10:将待擦除图片输入目标检测模型,得到包含手写笔迹的多个笔迹区域以及各个笔迹区域的顶点坐标;
示范性的,在本申请实施例中,先获取手写笔迹擦除的请求,对请求数据进行解码得到待还原文档对应的待还原图像,并判断待还原图像是否存在异常,若待还原图像无法由Base64(Base64是最常见的用于传输8Bit字节码的编码方式之一,其是一种基于64个可打印字符来表示二进制数据的方法)格式转为OpenCV(OpenCV是一个跨平台计算机视觉和机器学习软件库,可以运行在不同的操作系统上)可用的格式,则认为图像异常,此时将直接返回原图,不再进行分割、图像复原和图像拼接等操作;而若待还原图像可以由Base64格式转为OpenCV可用的格式,则认为图像不存在异常,得到待擦除图片,此时将对待擦除图片进行手写笔迹的检测。
由于手写笔迹尺寸多变、内容长宽比多变,因此本实施例采用基于Anchor-Free(无锚点)的目标检测算法VFNet(VarifocalNet,单阶段目标检测新网络)作为目标检测模型并进行训练。VFNet是基于FCOS(一阶全卷积目标检测)的改进算法,不仅是Pixel-based(基于像素级别的语义分割)预测,而且预测的同时会考虑目标置信度和定位精度,以使得本申请在对检测框进行非极大值抑制(Non-Maximum Suppression,NMS)处理时,可以避免“定位更准确,但置信度较低”而将预测框去掉的问题,因此VFNet不仅召回率高,而且准确率也高。
VFNet与FCOS相比,具有以下几个优化的地方:FCOS算法只预测目标置信度,而VFNet预测时,会采用Varifocal Loss(变焦损失)来预测IACS(IoU-awareclassifification scores,IoU感知分类评分),即同时考虑目标置信度和位置精度,以使得定位更加准确;采用星形的框特征表示(Star-Shaped Box Feature Representation)可以同时捕获边界框的几何信息和附近的上下文信息,比如对于图像上的某像素点(x,y),此位置到边界框上下左右的距离分别为(l,t,r,b),则星形的边界框特征表示为(x,y)、(x-l,y)、(x,y-t)、(x+r,y)、(x,y+b)、(x-l,y-t)、(x+l,y-t)、(x-l,y+b)和(x+r,y+b);VFNet还在FCOS算法回归分支上增加了“边界框微调”子分支,即在回归分支(l,t,r,b)上增加一个子分支,此子分支使用“星形的框特征表示”,采用可变性卷积来学习4个距离缩放因子(Δl,Δt,Δr,Δb),最后得到微调后的边界框:(l*,t*,r*,b*)=(Δl×l,Δt×t,Δr×r,Δb×b)。
本实施例在创建VFNet模型时,为了增强模型泛化能力,在训练时,还采用了灰度图、旋转、翻转、随机裁剪、平滑、噪声、色彩抖动等数据增强方法。因此,当本实施例将待擦除图片输入VFNet模型时,可手写笔迹的位置进行定位,得到待擦除图片中各个手写笔迹所在区域以及该区域的顶点坐标,即得到包含手写笔迹的多个笔迹区域以及各个笔迹区域的顶点坐标。
步骤S20:基于多个笔迹区域的顶点坐标形成检测框集合,并对检测框集合中的每个检测框对应的图片进行切割,得到多张切割图片;
进一步的,所述基于多个笔迹区域的顶点坐标形成检测框集合,具体包括以下步骤:
根据每个笔迹区域的顶点坐标形成对应的第一检测框;
检测相邻两个第一检测框之间的交并比以及距离是否均大于对应的合并阈值;
若是,则将相邻两个第一检测框进行合并得到第二检测框,并判断第二检测框的宽度和高度是否大于对应的切分阈值,当第二检测框的宽度大于宽度切分阈值和/或第二检测框的高度大于高度切分阈值时,对所述第二检测框进行切分,得到多个第二子检测框,当第二检测框的宽度小于或等于宽度切分阈值且第二检测框的高度小于或等于高度切分阈值时,则不对所述第二检测框进行切分处理;
若否,则不对所述相邻两个第一检测框进行合并处理,并判断第一检测框的宽度和高度是否大于对应的切分阈值,当第一检测框的宽度大于宽度切分阈值和/或第一检测框的高度大于高度切分阈值时,对所述第一检测框进行切分,得到多个第一子检测框,当第一检测框的宽度小于或等于宽度切分阈值且第一检测框的高度小于或等于高度切分阈值时,则不对所述第一检测框进行切分处理;
将未合并且未切分的第一检测框、第一子检测框、未切分的第二检测框和第二子检测框作为检测框集合。
示范性的,在本申请实施例中,VFNet模型会基于顶点坐标形成检测框,具体的,根据每个笔迹区域的顶点坐标形成对应的第一检测框,即有几个笔迹区域就会得到几个第一检测框;然后检测相邻两个第一检测框之间的交并比以及距离是否均大于对应的合并阈值,比如交并比合并阈值为0,两相邻第一检测框之间的距离合并阈值为5,表示交并比大于0且距离大于5的两个相邻的第一检测框需要进行合并,否则不需要进行合并;将需要合并的相邻两个第一检测框进行合并得到第二检测框,并判断第二检测框的宽度和高度是否大于对应的切分阈值,比如宽度切分阈值为800,高度切分阈值为800,表示只要第二检测框中的宽和高至少一个大于800,就需要对第二检测框进行切分,该切分可以为均等切分,也可以为非均等切分,可根据实际需求确定,在此不作限定;因此当第二检测框的宽度大于宽度切分阈值和/或第二检测框的高度大于高度切分阈值时,对第二检测框进行切分,就可以得到多个第二子检测框,当第二检测框的宽度小于或等于宽度切分阈值且第二检测框的高度小于或等于高度切分阈值时,则不对第二检测框进行切分处理;
另外,还需要对未进行合并的第一检测框则是否需要进行切分进行判断,判断的方式与第二检测框是否需要进行切分的方法相同,因此当第一检测框的宽度大于宽度切分阈值和/或第一检测框的高度大于高度切分阈值时,对第一检测框进行切分,就可以得到多个第一子检测框,当第一检测框的宽度小于或等于宽度切分阈值且第一检测框的高度小于或等于高度切分阈值时,则不对第一检测框进行切分处理;由此可见,整个过程中,将可能生成未合并且未切分的第一检测框、第一子检测框、未切分的第二检测框和第二子检测框这四种类型的检测框,进而形成检测框集合;然后再对检测框集合中的每个检测框对应的图片进行切割,就可以得到多张尺寸较小的切割图片,而由于尺寸较小的图片干扰项更少,且手写笔迹在该图片中的特征会更为明显,因此,可以有效避免语义分割模型的漏分割和误分割,进而提高分割精度。
进一步的,在所述检测相邻两个第一检测框之间的交并比以及距离是否均大于对应的合并阈值的步骤之前,还包括:
对所有第一检测框进行非极值抑制处理,以删除冗余的第一检测框,所述非极值抑制处理中的置信度阈值设为0.05,所述非极值抑制处理中的交并比阈值设为0.95。
示范性的,在本申请实施例中,可以在判断是否需要对第一检测框进行合并前,先对第一检测框进行非极值抑制处理,以删除冗余的第一检测框,且在这过程中,可以将非极值抑制处理中的置信度阈值设为较低,比如0.05,非极值抑制处理中的交并比阈值设为较高,比如0.95,进而可以有效防止漏检,当然也可根据实际需求确定置信度阈值和交并比阈值,在此不作限定。
步骤S30:基于语义分割模型分别对每张切割图片中的背景、印刷体和手写体进行语义分割,得到每张切割图片对应的初始三维矩阵;
示范性的,在本申请实施例中,采用OCRnet(基于物体区域的上下文信息的语义分割模型)作为语义分割模型并进行相应的训练,其输入为归一化后的三通道图像张量,输出与输入长宽相同的二元掩膜,输出的二元掩膜中每个位置的值代表该位置对应像素是否为“手写笔迹”一部分,比如某个像素值为255,则此像素点为手写笔迹,而若某个像素值为0,则此像素点是背景或印刷体。
由于印刷体特征和背景特征差异大,而印刷体特征与手写体特征的差异又较小,因此往往容易误将印刷体识别为手写体,进而出现误分割的问题。于是本实施例将现有分成背景和手写体两类目标的方案,分割成背景、印刷体和手写体三类目标,并给交叉熵(代价函数)赋予权重因子(0.1,0.3,0.6),即背景的权重因子为0.1,印刷体的权重因子为0.3,手写体的权重因子为0.6,以突出手写体的重要性,进而提高OCRnet模型的手写体分割精度。同时,为了增强OCRnet模型的泛化能力,本实施例还采用了灰度图、旋转、翻转、随机裁剪、平滑、色彩抖动等数据增强方法。因此,将分割图片输入OCRnet模型,OCRnet模型对该分割图片进行背景、印刷体和手写体的分割,得到该分割图片对应的包含背景、印刷体和手写体3类目标的初始三维矩阵。
进一步的,在所述基于语义分割模型分别对每张切割图片中的背景、印刷体和手写体进行语义分割的步骤之前,还包括:
将多张切割图片合并成一个批处理数据;
将所述批处理数据输入所述语义分割模型。
示范性的,在本申请实施例中,为了充分利用GPU(Graphics Processing Unit,图形处理器)计算能力,在OCRnet模型的推理预测阶段,可以将几张分割图片合并成一个batch(即批处理数据),作为OCRnet模型的输入,这样的方式利用了并行计算方式速度快的优点,可以减少OCRnet模型推理预测时间,进而提高OCRnet模型的分割效率。
步骤S40:分别将每张切割图片对应的初始三维矩阵中的背景和印刷体对应的像素值更新为第一预设值、手写体对应的像素值更新为第二预设值,得到每张切割图片对应的二元笔迹掩膜;
示范性的,在本申请实施例中,根据不同目标类别对初始三维矩阵进行处理,比如将背景和印刷体处的像素值改为第一预设值,该第一预设值可以设为0,手写体处的像素值改为第二预设值,该第二预设值可以设为255,最终得到二元笔迹掩膜(即二元手写笔迹mask)。其中,需要说明的是,第一预设值和第二预设值可根据实际需求进行确定,在此不作限定。
步骤S50:将每个二元笔迹掩膜及其对应的切割图片输入多元图像恢复模型,得到去笔迹后的恢复图像;
进一步的,所述多元图像恢复模型包括表达网络和生成网络,所述生成网络中的第二解码模块的输出层的输入为第二解码模块的残差上采样单元的输出与表达网络中的第一编码模块的输出形成的拼接图;所述生成网络中的第三解码模块的输出层的输入为第三解码模块的残差上采样单元的输出与表达网络中的初始残差模块的输出形成的拼接图。
示范性的,在本申请实施例中,通过前述手写笔迹分割后,得到了较准确的二元手写笔迹mask;再将二元手写笔迹mask及其对应的分割图片共同输入到多元图像恢复模型中,即可输出填充像素后的去除手写字迹后的恢复图像。其中,本实施例中对PIC(Pluralistic Image Completion,多元图像复原模型)模型进行改进得到多元图像恢复模型。
具体的,PIC模型是一种基于生成性对抗网络的多元图像恢复算法,该模型包括表达网络、推理网络和生成网络,具有两条并行的路线:其中一条是重构路线(图2中的上半部),它利用唯一给定的地面真值获得缺失部分的先验分布,并根据该分布重建原始图像,该路线仅在训练阶段使用;另一个是生成路线(图2中的下半部),其中条件先验与重构路径中获得的分布相耦合,该路线在训练和测试阶段使用。在保证模型输出图像质量的前提下,为了降低模型对于输入mask的依赖性,本实施例对PIC模型结构和输入进行了改进并生成多元图像恢复模型(参见图2所示),其中,图2中的虚线箭头部分代表重构路线,仅在训练过程中使用;实现箭头部分代表生成路线,在训练和测试过程中使用。
重构路线和生成路线上的表达网络、推理网络和生成网络结构基本相同,其中,重构路线和生成路线上的表达网络均包括1个初始残差模块和多个编码模块;重构路线中的推理网络包括1个残差模块和获取分布模块,而生成路线中的推理网络包括7个残差模块和获取分布模块;重构路线和生成路线上的生成网络均包括1个残差上采样模块、4个解码模块和1个长短期注意力模块。
在将数据输入多元图像恢复模型前,需要对输入的切割图片和二元手写笔迹mask进行处理得到模型的输入数据。具体处理过程如下:1)将二元手写笔迹mask与对应的切割图片在图像通道维度上进行拼接,得到模型输入Im,作为生成路线的输入;2)对二元手写笔迹mask进行取反操作后与对应的切割图片在图像通道维度上进行拼接,得到模型输入Ic,作为重构路线的输入,使得网络在测试阶段对输入的二元手写笔迹mask的依赖性降低。
多元图像恢复模型处于训练阶段时:在表达网络中,使用多个由残差下采样模块组成的编码模块进行多尺度特征提取;在推理网络中,使用残差网络来推断输入数据的潜在分布;对分布进行采样并与生成路线的推理网络中的最后一个编码器得到的非mask区域特征相加,得到生成网络的初始输入;在生成网络中,使用多个由上采样残差模块和输出层组成的解码模块和长短期注意力模块进行图像生成操作,在这一过程中还加入了lowlevel(低层语义)特征来提升输出图像质量,最终得到重构图像和生成图像。多元图像恢复模型处于测试阶段时:与训练阶段基本类似,但只进行生成路线上的操作,最终得到生成图像。
其中,在表达网络中使用的初始残差模块包含两个并行的流程结构,流程1的结构为:1)卷积核为3ⅹ3的卷积层,2)LeakyRelu(0.1)激活层,其中,0.1代表LeakyRelu中超参数的取值,3)卷积核为3ⅹ3的卷积层,4)平均池化层;流程2的结构为:1)平均池化层,2)卷积核为1ⅹ1的卷积层;最后将这两个流程的输出相加得到该初始残差模块的输出。表达网络中的编码模块的作用是获得不同尺度下的特征,其主要由残差下采样模块组成,包含两个并行流程,流程1的结构为:1)LeakyRelu(0.1)激活层,2)卷积核为3ⅹ3的卷积层,3)LeakyRelu(0.1)激活层,4)卷积核为3ⅹ3的卷积层;流程2的结构为卷积核为1ⅹ1的卷积层,最后将两个流程的输出相加作为该编码模块的输出。编码模块结构与初始残差模块相似,只是在卷积核为3ⅹ3的卷积层与卷积核为1ⅹ1的卷积层后加入了平均池化层,不同编码模块输出不同尺寸的特征图。
推理网络的作用是推断输入数据的潜在分布,便于后续采样,从而得到多元输出结果。为了获得多元输出,本实施例基于CVAE(条件变分自动编码器)的思想,对分布进行采样,这涉及到需要监督训练实例的条件对数似然的变分下限,本实施例中要求缺失的部分图像(作为完整图像的超集)也来自潜在空间分布,具有平滑的先验概率p(Zc),Zc为潜在向量。对于Ic,与像素较少的缺失部分图像潜在向量相比,像素较多的缺失部分图像潜在向量应具有更大的潜在先验方差。然后将表达网络中的第四编码模块输出的特征fm和推理网络输出的采样特征进行拼接后作为生成网络的输入。
生成网络中的解码模块由残差上采样模块和输出层组成,其中,残差上采样模块结构包含两个并行流程,流程1的结构为:1)归一化层,2)LeakyRelu(0.1)激活层,3)卷积核为3ⅹ3的卷积层,4)归一化层,5)LeakyRelu(0.1)激活层,6)卷积核为3ⅹ3的反卷积层;流程2的结构为:卷积核为3ⅹ3的反卷积层,最后将两个流程的输出相加后作为该模块的输出;输出层则是由LeakyReLU(0.1)激活层、卷积核为3ⅹ3的卷积层和Tanh函数激活层构成。
为了避免在生成过程中mask区域外信息丢失过多造成生成图像质量较差,本实施例基于原始PIC网络将生成网络中的第二解码模块的残差上采样模块的输出与表达网络中的第一编码模块的输出进行拼接(Cancat)形成拼接图,并将该拼接图生成网络中的第二解码模块的输出层的输入;将生成网络中的第三解码模块的残差上采样模块的输出与表达网络中的初始残差模块的输出进行拼接(Cancat)形成拼接图,并将该拼接图作为生成网络中的第三解码模块的输出层的输入,进而可在生成网络中引入更多的low level特征,使得生成网络在训练过程中学到更多非mask区域信息,提高生成图像的质量。
进一步的,所述生成网络中的长短期注意力模块用于:计算所述生成网络中的第一解码模块输出的解码特征的短期层间注意力特征;计算所述表达网络中的第二编码模块输出的编码特征的长期层间注意力特征;将所述短期层间注意力特征和所述长期层间注意力特征进行聚合并作为第二解码模块的残差上采样单元的输入。
示范性的,生成网络中的长短期注意力模块的作用是使得网络可以根据具体情况选择关注编码器中更小细粒度的特征或解码器中更具语义生成性的特征。首先,使用注意力分数计算生成网络中的第一解码模块的输出的解码特征fd的短期层间注意力特征和输出yd;为了关注表达网络中的第二编码模块输出的编码特征fe,本实施例计算了第二编码模块的输出的编码特征fe的长期层间注意力特征和输出ye,其与具有生成完整图像信息的解码特征fd不同,编码特征fe仅表示可见部分Im,最后,短期和长期注意力特征被聚合并反馈到下一步的解码器层。
步骤S60:基于去笔迹后的恢复图像对待擦除图片上的与所述去笔迹后的恢复图像对应的笔迹区域进行覆盖处理,得到无笔迹目标图片。
进一步的,在所述基于去笔迹后的恢复图像对待擦除图片上的与所述去笔迹后的恢复图像对应的笔迹区域进行覆盖处理,得到无笔迹目标图片的步骤之后,还包括以下步骤:
对无笔迹目标图片进行二值化处理,得到无笔迹的二值化图片。
示范性的,在本申请实施例中,根据目标检测模型得到的笔迹区域的顶点坐标,将经过图像恢复后得到的去笔迹后的恢复图像覆盖到对应的位置上,得到擦除手写笔迹后的完整图像,即无笔迹目标图片;然后再使用scikit-image(一款图像处理包)对擦除手写笔迹后的完整图像进行二值化处理,最终得到一张擦除手写笔迹后的二值化图片。
由此可见,本申请通过对待擦除图片中的笔迹进行检测定位,并对定位到的检测框对应的图片进行切割,得到多张尺寸较小的切割图片,而尺寸较小的图片干扰项更少,且手写笔迹在该图片中的特征会更为明显,同时还对尺寸更小的图片进行了包括背景、印刷体和手写体三种目标的语义分割,有效避免了误分割和漏分割,进而提高文档还原的准确性。
参见图3所示,本申请实施例还提供了一种手写笔迹擦除装置,包括:
笔迹检测单元,其用于将待擦除图片输入目标检测模型,得到包含手写笔迹的多个笔迹区域以及各个笔迹区域的顶点坐标;基于多个笔迹区域的顶点坐标形成检测框集合,并对检测框集合中的每个检测框对应的图片进行切割,得到多张切割图片;
笔迹分割单元,其用于基于语义分割模型分别对每张切割图片中的背景、印刷体和手写体进行语义分割,得到每张切割图片对应的初始三维矩阵;分别将每张切割图片对应的初始三维矩阵中的背景和印刷体对应的像素值更新为第一预设值、手写体对应的像素值更新为第二预设值,得到每张切割图片对应的二元笔迹掩膜;
图像恢复单元,其用于将每个二元笔迹掩膜及其对应的切割图片输入多元图像恢复模型,得到去笔迹后的恢复图像;
图像拼接单元,其用于基于去笔迹后的恢复图像对待擦除图片上的与所述去笔迹后的恢复图像对应的笔迹区域进行覆盖处理,得到无笔迹目标图片。
本申请的装置作为云端服务,主要由Docker(Docker是一个开源的应用容器引擎)构建的、基于Flask(Flask是一个使用Python编写的轻量级Web应用框架)/Gunicorn(Gunicorn是一种高性能的服务器)的微服务框架部署;其中,笔迹检测单元用于创建目标检测模型并训练,笔迹分割单元用于创建语义分割模型并训练,图像恢复单元用于创建多元图像恢复模型并训练。
本申请通过笔迹检测单元对待擦除图片中的笔迹进行检测定位,并对定位到的检测框对应的图片进行切割,得到多张尺寸较小的切割图片,而尺寸较小的图片干扰项更少,且手写笔迹在该图片中的特征会更为明显,同时通过笔迹分割单元对尺寸更小的图片进行了包括背景、印刷体和手写体三种目标的语义分割,再通过图像恢复单元对分割后的结果进行图像恢复,有效避免了误分割和漏分割,进而提高文档还原的准确性。
进一步的,在本申请实施例中,所述笔迹检测单元具体用于:
根据每个笔迹区域的顶点坐标形成对应的第一检测框;
检测相邻两个第一检测框之间的交并比以及距离是否均大于对应的合并阈值;
若是,则将相邻两个第一检测框进行合并得到第二检测框,并判断第二检测框的宽度和高度是否大于对应的切分阈值,当第二检测框的宽度大于宽度切分阈值和/或第二检测框的高度大于高度切分阈值时,对所述第二检测框进行切分,得到多个第二子检测框,当第二检测框的宽度小于或等于宽度切分阈值且第二检测框的高度小于或等于高度切分阈值时,则不对所述第二检测框进行切分处理;
若否,则不对所述相邻两个第一检测框进行合并处理,并判断第一检测框的宽度和高度是否大于对应的切分阈值,当第一检测框的宽度大于宽度切分阈值和/或第一检测框的高度大于高度切分阈值时,对所述第一检测框进行切分,得到多个第一子检测框,当第一检测框的宽度小于或等于宽度切分阈值且第一检测框的高度小于或等于高度切分阈值时,则不对所述第一检测框进行切分处理;
将未合并且未切分的第一检测框、第一子检测框、未切分的第二检测框和第二子检测框作为检测框集合。
进一步的,在本申请实施例中,所述笔迹检测单元还用于:
对所有第一检测框进行非极大值抑制处理,以删除冗余的第一检测框,所述非极大值抑制处理中的置信度阈值设为0.05,所述非极大值抑制处理中的交并比阈值设为0.95。
进一步的,在本申请实施例中,所述笔迹检测单元还用于:
将多张切割图片合并成一个批处理数据;
将所述批处理数据输入所述语义分割模型。
进一步的,在本申请实施例中,所述多元图像恢复模型包括表达网络和生成网络,所述生成网络中的第二解码模块的输出层的输入为第二解码模块的残差上采样单元的输出与表达网络中的第一编码模块的输出形成的拼接图;所述生成网络中的第三解码模块的输出层的输入为第三解码模块的残差上采样单元的输出与表达网络中的初始残差模块的输出形成的拼接图。
进一步的,在本申请实施例中,所述生成网络中的长短期注意力模块用于:
计算所述生成网络中的第一解码模块输出的解码特征的短期层间注意力特征;
计算所述表达网络中的第二编码模块输出的编码特征的长期层间注意力特征;
将所述短期层间注意力特征和所述长期层间注意力特征进行聚合并作为第二解码模块的残差上采样单元的输入。
进一步的,在本申请实施例中,图像拼接单元还用于:对无笔迹目标图片进行二值化处理,得到无笔迹的二值化图片。
需要说明的是,所属本领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各单元的具体工作过程,可以参考前述手写笔迹擦除方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图4所示的手写笔迹擦除设备上运行。
本申请实施例还提供了一种手写笔迹擦除设备,包括:通过系统总线连接的存储器、处理器和网络接口,存储器中存储有至少一条指令,至少一条指令由处理器加载并执行,以实现前述的手写笔迹擦除方法的全部步骤或部分步骤。
其中,网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
处理器可以是CPU,还可以是其他通用处理器、数字信号处理器(Digital SignalProcessor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程逻辑门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件分立硬件组件等。通用处理器可以是微处理器,或者该处理器也可以是任何常规的处理器等,处理器是计算机装置的控制中心,利用各种接口和线路连接整个计算机装置的各个部分。
存储器可用于存储计算机程序和/或模块,处理器通过运行或执行存储在存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现计算机装置的各种功能。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如视频播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如视频数据、图像数据等)等。此外,存储器可以包括高速随存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件或其他易失性固态存储器件。
本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时,实现前述的手写笔迹擦除方法的全部步骤或部分步骤。
本申请实施例实现前述的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法的步骤。其中,计算机程序包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read-Only memory,ROM)、随机存取存储器(Random Accessmemory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、服务器或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所申请的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种手写笔迹擦除方法,其特征在于,包括以下步骤:
将待擦除图片输入目标检测模型,得到包含手写笔迹的多个笔迹区域以及各个笔迹区域的顶点坐标;
基于多个笔迹区域的顶点坐标形成检测框集合,并对检测框集合中的每个检测框对应的图片进行切割,得到多张切割图片;
基于语义分割模型分别对每张切割图片中的背景、印刷体和手写体进行语义分割,得到每张切割图片对应的初始三维矩阵;
分别将每张切割图片对应的初始三维矩阵中的背景和印刷体对应的像素值更新为第一预设值、手写体对应的像素值更新为第二预设值,得到每张切割图片对应的二元笔迹掩膜;
将每个二元笔迹掩膜及其对应的切割图片输入多元图像恢复模型,得到去笔迹后的恢复图像;
基于去笔迹后的恢复图像对待擦除图片上的与所述去笔迹后的恢复图像对应的笔迹区域进行覆盖处理,得到无笔迹目标图片。
2.如权利要求1所述的手写笔迹擦除方法,其特征在于,所述基于多个笔迹区域的顶点坐标形成检测框集合,包括:
根据每个笔迹区域的顶点坐标形成对应的第一检测框;
检测相邻两个第一检测框之间的交并比以及距离是否均大于对应的合并阈值;
若是,则将相邻两个第一检测框进行合并得到第二检测框,并判断第二检测框的宽度和高度是否大于对应的切分阈值,当第二检测框的宽度大于宽度切分阈值和/或第二检测框的高度大于高度切分阈值时,对所述第二检测框进行切分,得到多个第二子检测框,当第二检测框的宽度小于或等于宽度切分阈值且第二检测框的高度小于或等于高度切分阈值时,则不对所述第二检测框进行切分处理;
若否,则不对所述相邻两个第一检测框进行合并处理,并判断第一检测框的宽度和高度是否大于对应的切分阈值,当第一检测框的宽度大于宽度切分阈值和/或第一检测框的高度大于高度切分阈值时,对所述第一检测框进行切分,得到多个第一子检测框,当第一检测框的宽度小于或等于宽度切分阈值且第一检测框的高度小于或等于高度切分阈值时,则不对所述第一检测框进行切分处理;
将未合并且未切分的第一检测框、第一子检测框、未切分的第二检测框和第二子检测框作为检测框集合。
3.如权利要求2所述的手写笔迹擦除方法,其特征在于,在所述检测相邻两个第一检测框之间的交并比以及距离是否均大于对应的合并阈值的步骤之前,还包括:
对所有第一检测框进行非极大值抑制处理,以删除冗余的第一检测框,所述非极大值抑制处理中的置信度阈值设为0.05,所述非极大值抑制处理中的交并比阈值设为0.95。
4.如权利要求1所述的手写笔迹擦除方法,其特征在于,在所述基于语义分割模型分别对每张切割图片中的背景、印刷体和手写体进行语义分割的步骤之前,还包括:
将多张切割图片合并成一个批处理数据;
将所述批处理数据输入所述语义分割模型。
5.如权利要求1所述的手写笔迹擦除方法,其特征在于:所述多元图像恢复模型包括表达网络和生成网络,所述生成网络中的第二解码模块的输出层的输入为第二解码模块的残差上采样单元的输出与表达网络中的第一编码模块的输出形成的拼接图;所述生成网络中的第三解码模块的输出层的输入为第三解码模块的残差上采样单元的输出与表达网络中的初始残差模块的输出形成的拼接图。
6.如权利要求5所述的手写笔迹擦除方法,其特征在于,所述生成网络中的长短期注意力模块用于:
计算所述生成网络中的第一解码模块输出的解码特征的短期层间注意力特征;
计算所述表达网络中的第二编码模块输出的编码特征的长期层间注意力特征;
将所述短期层间注意力特征和所述长期层间注意力特征进行聚合并作为第二解码模块的残差上采样单元的输入。
7.如权利要求1所述的手写笔迹擦除方法,其特征在于,在所述基于去笔迹后的恢复图像对待擦除图片上的与所述去笔迹后的恢复图像对应的笔迹区域进行覆盖处理,得到无笔迹目标图片的步骤之后,还包括:
对无笔迹目标图片进行二值化处理,得到无笔迹的二值化图片。
8.一种手写笔迹擦除装置,其特征在于,包括:
笔迹检测单元,其用于将待擦除图片输入目标检测模型,得到包含手写笔迹的多个笔迹区域以及各个笔迹区域的顶点坐标;基于多个笔迹区域的顶点坐标形成检测框集合,并对检测框集合中的每个检测框对应的图片进行切割,得到多张切割图片;
笔迹分割单元,其用于基于语义分割模型分别对每张切割图片中的背景、印刷体和手写体进行语义分割,得到每张切割图片对应的初始三维矩阵;分别将每张切割图片对应的初始三维矩阵中的背景和印刷体对应的像素值更新为第一预设值、手写体对应的像素值更新为第二预设值,得到每张切割图片对应的二元笔迹掩膜;
图像恢复单元,其用于将每个二元笔迹掩膜及其对应的切割图片输入多元图像恢复模型,得到去笔迹后的恢复图像;
图像拼接单元,其用于基于去笔迹后的恢复图像对待擦除图片上的与所述去笔迹后的恢复图像对应的笔迹区域进行覆盖处理,得到无笔迹目标图片。
9.一种手写笔迹擦除设备,其特征在于,包括:存储器和处理器,所述存储器中存储有至少一条指令,所述至少一条指令由所述处理器加载并执行,以实现权利要求1至7中任一项所述的手写笔迹擦除方法。
10.一种计算机可读存储介质,其特征在于:所述计算机存储介质存储有计算机程序,当所述计算机程序被处理器执行时,以实现权利要求1至7中任一项所述的手写笔迹擦除方法。
CN202111627955.6A 2021-12-28 2021-12-28 手写笔迹擦除方法、装置、设备及可读存储介质 Pending CN114332150A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111627955.6A CN114332150A (zh) 2021-12-28 2021-12-28 手写笔迹擦除方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111627955.6A CN114332150A (zh) 2021-12-28 2021-12-28 手写笔迹擦除方法、装置、设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN114332150A true CN114332150A (zh) 2022-04-12

Family

ID=81014664

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111627955.6A Pending CN114332150A (zh) 2021-12-28 2021-12-28 手写笔迹擦除方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114332150A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114937274A (zh) * 2022-05-31 2022-08-23 平安科技(深圳)有限公司 基于人工智能的手写字体擦除方法、装置、设备及介质
CN115100656A (zh) * 2022-08-25 2022-09-23 江西风向标智能科技有限公司 空白答题卡识别方法、系统、存储介质及计算机设备
CN116486312A (zh) * 2023-06-21 2023-07-25 苏州浪潮智能科技有限公司 一种视频图像的处理方法、装置、电子设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114937274A (zh) * 2022-05-31 2022-08-23 平安科技(深圳)有限公司 基于人工智能的手写字体擦除方法、装置、设备及介质
CN115100656A (zh) * 2022-08-25 2022-09-23 江西风向标智能科技有限公司 空白答题卡识别方法、系统、存储介质及计算机设备
CN116486312A (zh) * 2023-06-21 2023-07-25 苏州浪潮智能科技有限公司 一种视频图像的处理方法、装置、电子设备和存储介质
CN116486312B (zh) * 2023-06-21 2023-09-08 苏州浪潮智能科技有限公司 一种视频图像的处理方法、装置、电子设备和存储介质

Similar Documents

Publication Publication Date Title
US10614574B2 (en) Generating image segmentation data using a multi-branch neural network
CN114332150A (zh) 手写笔迹擦除方法、装置、设备及可读存储介质
CN111814794B (zh) 文本检测方法、装置、电子设备及存储介质
CN110895695B (zh) 用于文本图片字符切分的深度学习网络、切分方法
CN111369581A (zh) 图像处理方法、装置、设备及存储介质
Xiao et al. Single image dehazing based on learning of haze layers
CN105740876A (zh) 一种图像预处理方法及装置
CN112308866B (zh) 图像处理方法、装置、电子设备及存储介质
CN109815931B (zh) 一种视频物体识别的方法、装置、设备以及存储介质
CN111914654B (zh) 一种文本版面分析方法、装置、设备和介质
CN113052188A (zh) 一种遥感图像目标检测方法、系统、设备以及存储介质
CN110427946A (zh) 一种文档图像二值化方法、装置和计算设备
US20220076119A1 (en) Device and method of training a generative neural network
CN114429637B (zh) 一种文档分类方法、装置、设备及存储介质
CN113902913A (zh) 图片语义分割方法及装置
US20220392025A1 (en) Restoring degraded digital images through a deep learning framework
CN112700460A (zh) 图像分割方法及系统
CN114581710A (zh) 图像识别方法、装置、设备、可读存储介质及程序产品
CN114549369B (zh) 数据修复方法、装置、计算机及可读存储介质
CN111597845A (zh) 一种二维码检测方法、装置、设备及可读存储介质
CN115909378A (zh) 单据文本检测模型的训练方法及单据文本检测方法
CN115205624A (zh) 一种跨维度注意力聚合的云雪辩识方法、设备及存储介质
US11488020B2 (en) Adaptive high-resolution digital image processing with neural networks
CN112052863A (zh) 一种图像检测方法及装置、计算机存储介质、电子设备
US20240169541A1 (en) Amodal instance segmentation using diffusion models

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination