CN112597925A - 手写字迹的识别/提取、擦除方法及擦除系统、电子设备 - Google Patents
手写字迹的识别/提取、擦除方法及擦除系统、电子设备 Download PDFInfo
- Publication number
- CN112597925A CN112597925A CN202011581322.1A CN202011581322A CN112597925A CN 112597925 A CN112597925 A CN 112597925A CN 202011581322 A CN202011581322 A CN 202011581322A CN 112597925 A CN112597925 A CN 112597925A
- Authority
- CN
- China
- Prior art keywords
- handwriting
- neural network
- convolutional neural
- convolution
- network model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/36—Matching; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/40—Filling a planar surface by adding surface attributes, e.g. colour or texture
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
一种手写字迹的识别/提取、擦除方法及擦除系统、电子设备。所述擦除方法通过单阶段或双阶段的卷积神经网络模型技术对手写笔迹进行识别和擦除;其中,所述卷积神经网络模型采用像素级别的分类方法,将待识别图像中的像素逐个点分类为手写和背景。本发明通过多个尺度的融合来构造堆叠结构的特征金字塔,可以将底层局部特征与高层语义特征相结合,更好的利用上下文与空间结构信息,通过内置转置卷积以及降低卷积步长的方式,可以提升分割网络整体的细节分辨力,通过引入注意力机制,可以使网络自适应对手写区域给予更多的特征表达。
Description
技术领域
本发明属于图像识别和处理技术领域,尤其是人工智能辅助图像识别技术领域,更具体的是涉及一种手写字迹的识别/提取方法、擦除方法及擦除系统、电子设备、计算机可读介质。
背景技术
在对纸张进行拍照并处理的场景中,对纸张上的手写笔迹照片进行电子去除是一种文档还原技术,在教育、办公等领域有非常广泛的应用。现有技术中对于这种场景往往包括两个环节,首先是对照片中的手写笔迹的提取,之后是对照片中手写笔迹区域进行像素值填充,从而达到和背景一致的效果。但是,这一传统方法存在如下技术局限:对于手写笔迹的提取,可以通过颜色空间变换以及连通域分析的方法来提取手写笔迹,但是在手写笔迹和印刷字灰度接近时,就难以将手写笔迹和印刷像素进行较好的区分;对于像素值填充,可以选择背景像素的均值,或从手写区域的周围背景中随机采样像素值作为填充值,但是在手写和印刷发生重叠的场景,此类填充像素的方法会去除掉部分的印刷像素。
由此可见,现有的手写笔迹识别技术和擦除技术均存在一些不足,迫切需要对此研究开发出一套手写笔迹识别和擦除方法及系统。
发明内容
有鉴于此,本发明的主要目的在于提出一种手写字迹的识别/提取方法、擦除方法及识别和/或擦除系统,以期至少部分地解决上述技术问题中的至少之一。
为了实现上述目的,作为本发明的一个方面,提供了一种手写笔迹的识别/提取方法,包括如下步骤:
建立并训练卷积神经网络模型,所述卷积神经网络模型采用像素级别的分类方法,将待识别图像中的像素逐个点分类为手写和背景。
使用所述卷积神经网络模型对待识别图像中的手写笔迹进行识别/提取。
本发明第二方面提出一种手写笔迹的擦除方法,包括如下步骤:
先通过如上所述的手写笔迹识别/提取步骤,得到准确的手写笔迹识别结果;
再在像素填充环节,使用生成对抗网络技术,将上述步骤中识别得到的手写笔迹的区域以及原始图像共同输入到对抗网络中,输出填充像素后的去除手写字迹的图像。
本发明第三方面提出一种手写笔迹的擦除方法,包括以下步骤:
向生成对抗网络中输入原始图像,直接输出填充好背景像素后的图像。
本发明第四方面提出一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机可执行程序被所述处理器执行时,所述处理器执行如上所述的手写笔迹的识别/提取方法或擦除方法。
本发明第五方面还提出一种计算机可读介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现如上所述的手写笔迹的识别/提取方法或擦除方法。
基于上述技术方案可知,本发明的手写字迹的识别/提取方法、擦除方法及识别和/或擦除系统相对于现有技术至少具有如下有益效果之一:
本发明通过采用全卷积神经网络,可使网络兼容任意尺度输入,对于图像长宽比多样的场景相对于固定尺寸输入有更强的鲁棒性;
本发明通过多个尺度的融合来构造堆叠结构的特征金字塔,可以将底层局部特征与高层语义特征相结合,更好的利用上下文与空间结构信息;
本发明通过使用语义分割技术,例如采用转置卷积和向上池化层(up-poolinglayer),可以实现图像分类的相关性,提高分类准确度;
本发明通过内置转置卷积以及降低卷积步长的方式,可以提升分割网络整体的细节分辨力;
本发明通过引入注意力机制,可以使网络自适应对手写区域给予更多的特征表达,从而可以改变原有特征的分布,增强有效特征,抑制无效的特征或者是噪音。
本发明通过采用对抗网络,能够更加准确地区分手写笔迹与印刷字体之间的边界,使识别和擦除效果更优异。
附图说明
图1是本发明实施例1的手写笔迹的识别/提取方法的方框流程图;
图2是本发明实施例2的手写笔迹的擦除方法的方框流程图;
图3是本发明实施例2的电子设备的结构示意图;
图4是本发明实施例2的计算机可读记录介质的示意图;
图5是本发明实施例3的手写笔迹的擦除方法的方框流程图;
图6是本发明实施例2、3的待处理照片;
图7是本发明实施例2的实际处理效果照片;
图8是本发明实施例3的实际处理效果照片。
具体实施方式
在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。
附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。
附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。
各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。
本发明是针对在对纸张上的包括手写笔迹的内容拍照时如何识别/去除手写笔迹的技术难题而提出来的,能够克服传统方法中在手写笔迹和印刷字灰度接近时难以将手写笔迹和印刷像素进行较好的区分,在手写和印刷发生重叠的场景时,填充像素的方法会去除掉部分的印刷像素的缺陷。
具体地,本发明提出了一种手写笔迹的识别/提取方法,具体包括如下步骤:
建立并训练卷积神经网络(CNN)模型,所述卷积神经网络模型采用像素级别的分类方法,将待识别图像中的像素逐个点分类为手写和背景;
使用所述卷积神经网络模型对待识别图像中的手写笔迹进行识别/提取。
其中,上述步骤也可以直接利用已经训练好的卷积神经网络(CNN)模型对待识别图像中的手写笔迹进行识别/提取,而不需要每次使用时都临时再训练模型。
其中,所述卷积神经网络是全卷积神经网络(FCN,Fully ConvolutionalNetwork)。该模型网络中所有的层都是卷积层,故称为全卷积网络,由此可以克服传统CNN的几个缺点:存储开销大,滑动窗口较大,每个窗口都需要存储空间来保存特征和判别类别,而且使用全连接结构,最后几层将近指数级存储递增;计算效率低,大量重复计算;滑动窗口大小是相对独立的,末端使用全连接只能约束局部特征。相对于全连接层,由于全连接不会学习过滤,只会给每个连接分权重,而并不会修改连接关系;替换成卷积之后,则是会学习有用的关系,没用的关系它会弱化或者直接dropout,这样卷积块可以共用一套权重,减少重复计算,还可以降低模型复杂度。此外,去除了全连接层,使得网络的输入大小可以变化,更适用于图像长宽比多样的场景。
其中,所述卷积神经网络模型通过多个尺度的融合构造堆叠结构的特征金字塔,例如主要通过卷积、池化、转置卷积和跨层堆叠等运算组成卷积神经网络模型,使该卷积神经网络模型具备多种感受野(Receptive Field)分辨力。
其中,所述卷积神经网络模型使用语义分割技术来构造,具体例如采用转置卷积和向上池化层(up-pooling layer)构成卷积神经网络来实现。
其中,所述卷积神经网络模型通过内置转置卷积以及降低卷积步长的方式来提升分割网络整体的细节分辨力。其中,所述内置转置卷积是通过如下方式来实现的:将全连接层替换为卷积层,以输出一种空间域映射,而非简单输出类别的概率,从而将图像分割问题转换为端对端的图像处理问题。
其中,所述卷积神经网络模型通过引入注意力机制(attention机制)使网络自适应对手写区域给予更多的特征表达。具体来说,就是从特征中学习或者提取出权重分布,再拿这个权重分布施加在原来的特征之上,改变原有特征的分布,增强有效特征,抑制无效的特征或者是噪音。注意力可以作用在原图上,也可以作用在特征图上;可以在空间尺度上,也可以在channel尺度上加权。
其中,所述卷积神经网络模型包括输入层、隐含层和输出层,其中隐含层例如包括卷积层、池化层和全连接层,或者也可以是全部都是卷积层(即全卷积神经网络)。
其中,输入层例如接收一维或多维数组,其中优选输入层接收4维数组,分别是图像的个数、通道数、高度和宽度,网络也可以同时处理多张图像。由此,训练使用的pair对数据包含2部分:原始图片以及原始图片中的手写笔迹区域mask。
与其它神经网络算法类似,由于使用梯度下降算法进行学习,卷积神经网络的输入特征需要进行标准化处理。具体地,在将学习数据输入卷积神经网络前,需在通道或时间/频率维对输入数据进行归一化,若输入数据为像素,也可将分布于[0,255]的原始像素值归一化至[0,1]区间。输入特征的标准化有利于提升卷积神经网络的学习效率和表现。
隐含层中主要讨论卷积层,涉及卷积核、卷积层参数(如卷积核大小、步长和填充等)和激励函数。卷积核大小、步长和填充三者共同决定了卷积层输出特征图的尺寸,是卷积神经网络的超参数。其中卷积核大小可以指定为小于输入图像尺寸的任意值,卷积核越大,可提取的输入特征越复杂。本发明中卷积核优选主要使用3*3及1*1卷积,3*3转置卷积。卷积步长定义了卷积核相邻两次扫过特征图时位置的距离,卷积步长为1时,卷积核会逐个扫过特征图的元素,步长为n时会在下一次扫描跳过n-1个像素。填充是在特征图通过卷积核之前人为增大其尺寸以抵消计算中尺寸收缩影响的方法。常见的填充方法为按0填充和重复边界值填充(replication padding)。类似于其它深度学习算法,卷积神经网络通常使用线性整流函数(Rectified Linear Unit,ReLU)、Sigmoid函数和双曲正切函数(hyperbolic tangent)作为激励函数(activation function),其它类似ReLU的变体包括有斜率的ReLU(Leaky ReLU,LReLU)、参数化的ReLU(Parametric ReLU,PReLU)、随机化的ReLU(Randomized ReLU,RReLU)、指数线性单元(Exponential Linear Unit,ELU)等,其中优选使用ReLU函数。
在本发明中,因为是图像分类问题,输出层使用逻辑函数或归一化指数函数(softmax function)输出分类标签。在图像语义分割时,输出层还可以直接输出每个像素的分类结果。
在本发明中,输入层采样的分辨率越高,手写区域提取越准确,速度越会下降,此时可以根据对方法的时效性要求调节输入的分辨率。
通过对构建的所述卷积神经网络模型进行训练之后,即可对待识别图像中的手写笔迹进行识别/提取,由此得到准确的手写笔迹识别结果。
本发明还公开了一种手写笔迹的擦除方法,包括如下步骤:
先通过如上所述的手写笔迹识别/提取步骤,得到准确的手写笔迹识别结果;
再在像素填充环节,使用生成对抗网络技术,将上述步骤中识别得到的手写笔迹的区域以及原始图像共同输入到对抗网络中,输出填充像素后的去除手写字迹的图像。
其中,所述对抗网络例如可以使用Pix2pix、cycleGAN等,其包括生成器与判别器两部分,生成器部分例如可以采用U型结构网络,主要包含3*3卷积及1*1卷积、3*3转置卷积等。
此方法相较于传统的像素填充方法,填充像素的效果更为逼真,在手写笔迹覆盖了印刷字体的场景,也能较好的还原印刷字体的轨迹,使其不被破坏。该对抗网络训练时使用的pair对数据包括3部分:原始图像、原始图像中的手写区域mask以及最终填充完好的图像。
本发明还公开了一种基于生成对抗网络(GAN,Generative AdversarialNetworks)的单阶段手写笔迹的擦除方法,包括以下步骤:
向生成对抗网络中输入原始图像,直接输出填充好背景像素后的图像。
此方法基于生成对抗网络,端到端地完成手写字迹的去除与像素的填充任务,该生成对抗网络例如可以使用Pix2pix、cycleGAN等,包括生成器与判别器两部分,生成器负责生成最终的输出图片,可以采用U型结构网络,主要包含3*3卷积以1*1卷积、3*3转置卷积等,判别器负责判断生成器的生成效果,网络中同样嵌入了注意力模块,以自适应提取手写字迹的区域以及上下文的关键特征。该生成对抗网络训练时使用的pair数据包括两部分:原始图像以及无手写字迹的图像。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步的详细说明。需要注意的是,下述实施例仅是用于说明本发明,而不是用于对本发明作出限制。
实施例1手写笔迹的识别/提取方法
图1是本发明实施例1的手写笔迹的识别/提取方法的方框流程图。如图1所示,本实施例的手写笔迹的识别/提取方法,具体包括如下步骤:
建立并训练全卷积神经网络模型,所述全卷积神经网络模型引入注意力机制使网络自适应对手写区域给予更多的特征表达,并采用像素级别的分类方法,将待识别图像中的像素逐个点分类为手写和背景。
具体地,所述全卷积神经网络模型由卷积、池化、转置卷积和跨层堆叠等运算组成,输入层接收4维数组,分别是图像的个数、通道数、高度和宽度,训练使用的pair对数据包含2部分:原始图片以及原始图片中的手写笔迹区域mask。隐含层包括卷积层和池化层,卷积层的卷积核主要使用3*3卷积、1*1卷积、3*3转置卷积。激励函数采用ReLU函数。输出层直接输出每个像素的分类结果。
使用训练好的所述全卷积神经网络模型对待识别图像中的手写笔迹进行识别/提取。
实施例2双阶段擦除法
图2是本发明实施例2的手写笔迹的擦除方法的方框流程图,如图2所示,实施例2的双阶段法的手写笔迹的擦除方法,具体包括如下步骤:
先通过实施例1所述的手写笔迹识别/提取步骤,得到准确的手写笔迹识别结果;
再在像素填充环节,使用对抗网络技术,将上述步骤中识别得到的手写笔迹的区域以及原始图像共同输入到对抗网络中,输出填充像素后的去除手写字迹的图像。该对抗网络训练时使用的pair对数据包括3部分:原始图像、原始图像中的手写区域mask以及最终填充完好的图像。
其中,所述对抗网络使用Pix2pix对抗网络,Pix2pix是一种有监督学习,给定语义标签图和对应的真实照片集,包括生成器与判别器(鉴别器)两部分,其中生成器采用U-Net全卷积架构,用于从语义标签图生成出真实图像,本发明中的U型结构网络主要包含3*3卷积及1*1卷积、3*3转置卷积等;判别器用于区分真实图像和生成的图像,本发明中还是采用PatchGAN架构。
所述对抗网络中采用的损失函数包括生成器损失函数与判别器损失函数两部分,生成器损失函数为针对手写提取场景针对性设计的自适应均衡L1损失函数,此损失函数相对于普通的L1损失函数对于不同面积的手写区域提取均有良好的鲁棒性。同时为了使网络专注于填充手写区域的像素任务,将手写区域之外的loss权重置为0。判别器损失函数使用二进制交叉熵损失。
图6是待处理照片,图7是本实施例的实际处理效果照片,由此实施例2实施后的效果可以参见图7。从图7可以看出,该实施例的方法相较于传统的像素填充方法,填充像素的效果更为逼真,像填空题和判断题的答题区域都填充得较完整,几乎没有留下手写痕迹;此外,在手写笔迹覆盖了印刷字体的场景,也能较好的还原印刷字体的轨迹,使其不被破坏。
图3是本发明实施例2的电子设备的结构示意图,该电子设备包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机可执行程序被所述处理器执行时,所述处理器执行所述手写笔迹的擦除方法。
如图3所示,电子设备以通用计算设备的形式表现。其中处理器可以是一个,也可以是多个并且协同工作。本发明也不排除进行分布式处理,即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体,也可以是多个实体设备的总和。
所述存储器存储有计算机可执行程序,通常是机器可读的代码。所述计算机可执行程序可以被所述处理器执行,以使得电子设备能够执行本发明的方法,或者方法中的至少部分步骤。
所述存储器包括易失性存储器,例如随机存取存储单元(RAM)和/或高速缓存存储单元,还可以是非易失性存储器,如只读存储单元(ROM)。
可选的,该实施例中,电子设备还包括有I/O接口,其用于电子设备与外部的设备进行数据交换。I/O接口可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
应当理解,图3显示的电子设备仅仅是本发明的一个示例,本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如,有些电子设备中还包括有显示屏等显示单元,有些电子设备还包括人机交互元件,例如按扭、键盘等。只要该电子设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤,均可认为是本发明所涵盖的电子设备。
图4是本发明实施例2的计算机可读记录介质的示意图,如图4所示,计算机可读记录介质中存储有计算机可执行程序,所述计算机可执行程序被执行时,实现本发明上述的手写笔迹的擦除方法。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Python、Java、C++、C#等,还包括常规的过程式程序设计语言—诸如C语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
通过以上对实施方式的描述,本领域的技术人员易于理解,本发明可以由能够执行特定计算机程序的硬件来实现,例如本发明的系统,以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等,本发明也可以由包含上述系统或部件的至少一部分的车辆来实现。本发明也可以由执行本发明的方法的计算机软件来实现,例如由机车端的微处理器、电子控制单元,客户端、服务器端等执行的控制软件来实现。但需要说明的是,执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行,其也可以是由不特定具体硬件的以分布式的方式来实现,例如计算机程序执行的某些方法步骤可以在机车端执行,另一部分可以在移动终端或智能头盔等中执行。对于计算机软件,软件产品可以存储在一个计算机可读的存储介质(可以是CD-ROM,U盘,移动硬盘等)中,也可以分布式存储于网络上,只要其能使得电子设备执行根据本发明的方法。
实施例3单阶段擦除法
图5是本发明实施例3的手写笔迹的擦除方法的方框流程图,如图5所示,本发明的基于生成对抗网络(GAN,Generative Adversarial Networks)的单阶段法手写笔迹的擦除方法,具体包括以下步骤:
向生成对抗网络中输入原始图像,直接输出填充好背景像素后的图像。
此方法基于生成对抗网络,端到端地完成手写字迹的去除与像素的填充任务,该生成对抗网络包括生成器与判别器(鉴别器)两部分,生成器负责生成最终的输出图片,判别器负责判断生成器的生成效果,网络中同样嵌入了注意力模块,以自适应提取手写字迹的区域以及上下文的关键特征。该注意力模块主要基于二维空间注意力机制,通过1*1的卷积层的堆叠以及sigmoid函数得到和特征图相同大小的二维概率图,其值为注意力得分,将此模块嵌入到解码器每一个尺度的特征图中。
该生成对抗网络训练时使用的pair数据包括两部分:原始图像以及无手写字迹的图像。
该生成对抗网络具体算法及参数如下:使用Pix2pix对抗网络,其包括生成器与判别器(鉴别器)两部分,其中生成器采用U-Net全卷积架构,用于从语义标签图生成出真实图像,本发明中的U型结构网络主要包含3*3卷积及1*1卷积、3*3转置卷积等;判别器用于区分真实图像和生成的图像,本发明中还是采用PatchGAN架构。
所述对抗网络中采用的损失函数包括生成器损失函数与判别器损失函数两部分,针对手写提取场景针对性设计的自适应均衡L1损失函数,此损失函数相对于普通的L1损失函数对于不同面积的手写区域提取均有良好的鲁棒性。判别器损失函数使用二进制交叉熵损失。
图6是待处理照片,图8是本实施例的实际处理效果照片,由此实施例3实施后的效果可以参见图8。从图8可以看出,该实施例的方法相较于传统的像素填充方法,填充像素的效果也较为逼真,在手写笔迹覆盖了印刷字体的场景,也能较好的还原印刷字体的轨迹,使其不被破坏。但是该方法相对于实施例2,容易受到纸面污渍的影响,例如判断题最下面一题的“√”没有完全填充覆盖,选择题中的“③”也残留小部分。
实施例3的方法同样适用于在电子设备上存储和运行,以及以计算机可执行程序的方式被执行。
通过对上述实施方式的描述,本领域的技术人员易于理解,本发明公开了两套完整的手写笔迹擦除方法的方案,两套方案均有良好效果,其中双阶段法精度更高,但是速度稍慢,单阶段法流程简单,速度较快,效果稍逊于双阶段法。两套方法可以根据具体场景进行方案的选择。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种手写笔迹的识别/提取方法,其特征在于,包括如下步骤:
使用训练好的卷积神经网络模型对待识别图像中的手写笔迹进行识别/提取;
其中,所述卷积神经网络模型采用像素级别的分类方法,将待识别图像中的像素逐个点分类为手写和背景。
2.根据权利要求1所述的方法,其特征在于,
所述卷积神经网络模型通过多个尺度的融合构造堆叠结构的特征金字塔,所述卷积神经网络模型中包括卷积、池化、转置卷积和跨层堆叠运算;和/或
所述卷积神经网络是全卷积神经网络。
3.根据权利要求1或2所述的方法,其特征在于,所述卷积神经网络模型的输入层接收设定维度的数组,所述维度至少包括:图像的个数、通道数、高度和宽度。
4.根据权利要求1-3任一所述的方法,其特征在于,所述卷积神经网络模型的卷积层中的卷积核主要使用3*3卷积、1*1卷积和3*3转置卷积。
5.根据权利要求1-4任一所述的方法,其特征在于,所述卷积神经网络模型使用语义分割技术来构造。
6.根据权利要求1-5任一所述的方法,其特征在于,所述语义分割技术通过转置卷积和向上池化层构成卷积神经网络来实现。
7.根据权利要求1-6任一所述的方法,其特征在于,所述卷积神经网络模型通过内置转置卷积以及降低卷积步长的方式来提升分割网络整体的细节分辨力。
8.根据权利要求1-7任一所述的方法,其特征在于,所述卷积神经网络模型通过引入注意力机制使网络自适应对手写笔迹区域给予特征表达。
9.根据权利要求1-8任一所述的方法,其特征在于,所述卷积神经网络模型训练使用的pair对数据包含2部分:原始图片以及原始图片中的手写笔迹区域mask。
10.根据权利要求1-9任一所述的方法,其特征在于,所述卷积神经网络模型使用ReLu函数作为激励函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011581322.1A CN112597925B (zh) | 2020-12-28 | 2020-12-28 | 手写字迹的识别/提取、擦除方法及擦除系统、电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011581322.1A CN112597925B (zh) | 2020-12-28 | 2020-12-28 | 手写字迹的识别/提取、擦除方法及擦除系统、电子设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112597925A true CN112597925A (zh) | 2021-04-02 |
CN112597925B CN112597925B (zh) | 2023-08-29 |
Family
ID=75203644
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011581322.1A Active CN112597925B (zh) | 2020-12-28 | 2020-12-28 | 手写字迹的识别/提取、擦除方法及擦除系统、电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112597925B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113781356A (zh) * | 2021-09-18 | 2021-12-10 | 北京世纪好未来教育科技有限公司 | 图像去噪模型的训练方法、图像去噪方法、装置及设备 |
CN113781356B (zh) * | 2021-09-18 | 2024-06-04 | 北京世纪好未来教育科技有限公司 | 图像去噪模型的训练方法、图像去噪方法、装置及设备 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106803082A (zh) * | 2017-01-23 | 2017-06-06 | 重庆邮电大学 | 一种基于条件式生成对抗网络的在线笔迹识别方法 |
CN110189334A (zh) * | 2019-05-28 | 2019-08-30 | 南京邮电大学 | 基于注意力机制的残差型全卷积神经网络的医学图像分割方法 |
CN110991439A (zh) * | 2019-12-09 | 2020-04-10 | 南京红松信息技术有限公司 | 一种基于像素级多特征联合分类的手写体字符的提取方法 |
CN111612017A (zh) * | 2020-07-07 | 2020-09-01 | 中国人民解放军国防科技大学 | 一种基于信息增强的目标检测方法 |
CN111626284A (zh) * | 2020-05-26 | 2020-09-04 | 广东小天才科技有限公司 | 一种手写字体去除的方法、装置、电子设备和存储介质 |
US20200285916A1 (en) * | 2019-03-06 | 2020-09-10 | Adobe Inc. | Tag-based font recognition by utilizing an implicit font classification attention neural network |
CN111967470A (zh) * | 2020-08-20 | 2020-11-20 | 华南理工大学 | 一种基于解耦注意力机制的文本识别方法及系统 |
-
2020
- 2020-12-28 CN CN202011581322.1A patent/CN112597925B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106803082A (zh) * | 2017-01-23 | 2017-06-06 | 重庆邮电大学 | 一种基于条件式生成对抗网络的在线笔迹识别方法 |
US20200285916A1 (en) * | 2019-03-06 | 2020-09-10 | Adobe Inc. | Tag-based font recognition by utilizing an implicit font classification attention neural network |
CN110189334A (zh) * | 2019-05-28 | 2019-08-30 | 南京邮电大学 | 基于注意力机制的残差型全卷积神经网络的医学图像分割方法 |
CN110991439A (zh) * | 2019-12-09 | 2020-04-10 | 南京红松信息技术有限公司 | 一种基于像素级多特征联合分类的手写体字符的提取方法 |
CN111626284A (zh) * | 2020-05-26 | 2020-09-04 | 广东小天才科技有限公司 | 一种手写字体去除的方法、装置、电子设备和存储介质 |
CN111612017A (zh) * | 2020-07-07 | 2020-09-01 | 中国人民解放军国防科技大学 | 一种基于信息增强的目标检测方法 |
CN111967470A (zh) * | 2020-08-20 | 2020-11-20 | 华南理工大学 | 一种基于解耦注意力机制的文本识别方法及系统 |
Non-Patent Citations (3)
Title |
---|
BRIAN DAVIS等: "Text and Style Conditioned GAN for Generation of Offline Handwriting Lines", ARXIV:2009.00678V1[CS.CV], pages 1 - 32 * |
RIKTIM MONDAL等: "tsegGAN: A Generative Adversarial Network for Segmenting Touching Nontext Components From Text Ones in Handwriting", IEEE TRANSACTIONS ON INSTRUMENTATION AND MEASUREMENT, pages 1 - 10 * |
李农勤等: "基于生成式对抗神经网络的手写文字图像补全", 图学学报, pages 878 - 884 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113781356A (zh) * | 2021-09-18 | 2021-12-10 | 北京世纪好未来教育科技有限公司 | 图像去噪模型的训练方法、图像去噪方法、装置及设备 |
CN113781356B (zh) * | 2021-09-18 | 2024-06-04 | 北京世纪好未来教育科技有限公司 | 图像去噪模型的训练方法、图像去噪方法、装置及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN112597925B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Lei et al. | Coupled adversarial training for remote sensing image super-resolution | |
CN112232149B (zh) | 一种文档多模信息和关系提取方法及系统 | |
CN111160343B (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
CN110647829A (zh) | 一种票据的文本识别方法及系统 | |
CN116258719B (zh) | 基于多模态数据融合的浮选泡沫图像分割方法和装置 | |
CN110175248B (zh) | 一种基于深度学习和哈希编码的人脸图像检索方法和装置 | |
Naseer et al. | Meta features-based scale invariant OCR decision making using LSTM-RNN | |
CN112069900A (zh) | 基于卷积神经网络的票据文字识别方法及系统 | |
CN111738169A (zh) | 一种基于端对端网络模型的手写公式识别方法 | |
CN112037239B (zh) | 基于多层次显式关系选择的文本指导图像分割方法 | |
CN114596566A (zh) | 文本识别方法及相关装置 | |
CN111985525A (zh) | 基于多模态信息融合处理的文本识别方法 | |
Sethy et al. | Off-line Odia handwritten numeral recognition using neural network: a comparative analysis | |
Bose et al. | Light Weight Structure Texture Feature Analysis for Character Recognition Using Progressive Stochastic Learning Algorithm | |
CN111242114B (zh) | 文字识别方法及装置 | |
CN112036290A (zh) | 一种基于类标编码表示的复杂场景文字识别方法及系统 | |
Al Ghamdi | A novel approach to printed Arabic optical character recognition | |
CN114092931B (zh) | 场景文字识别方法、装置、电子设备及存储介质 | |
CN115862015A (zh) | 文字识别系统的训练方法及装置、文字识别方法及装置 | |
CN112597925B (zh) | 手写字迹的识别/提取、擦除方法及擦除系统、电子设备 | |
CN115909378A (zh) | 单据文本检测模型的训练方法及单据文本检测方法 | |
CN113688864B (zh) | 一种基于分裂注意力的人-物交互关系分类方法 | |
CN113609355A (zh) | 一种基于动态注意力与图网络推理的视频问答系统、方法、计算机及存储介质 | |
CN113807218A (zh) | 版面分析方法、装置、计算机设备和存储介质 | |
CN116612466B (zh) | 基于人工智能的内容识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20230606 Address after: 6001, 6th Floor, No.1 Kaifeng Road, Shangdi Information Industry Base, Haidian District, Beijing, 100085 Applicant after: Beijing Baige Feichi Technology Co.,Ltd. Address before: 100085 4002, 4th floor, No.1 Kaifa Road, Shangdi Information Industry base, Haidian District, Beijing Applicant before: ZUOYEBANG EDUCATION TECHNOLOGY (BEIJING) CO.,LTD. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |