CN113177556A - 一种文本图像增强模型、训练方法、增强方法及电子设备 - Google Patents

一种文本图像增强模型、训练方法、增强方法及电子设备 Download PDF

Info

Publication number
CN113177556A
CN113177556A CN202110403094.7A CN202110403094A CN113177556A CN 113177556 A CN113177556 A CN 113177556A CN 202110403094 A CN202110403094 A CN 202110403094A CN 113177556 A CN113177556 A CN 113177556A
Authority
CN
China
Prior art keywords
text image
image enhancement
enhancement model
image
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110403094.7A
Other languages
English (en)
Inventor
李霄鹏
田宝亮
胡亚龙
王岩
袁景伟
黄宇飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baige Feichi Technology Co ltd
Original Assignee
Zuoyebang Education Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zuoyebang Education Technology Beijing Co Ltd filed Critical Zuoyebang Education Technology Beijing Co Ltd
Publication of CN113177556A publication Critical patent/CN113177556A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/28Quantising the image, e.g. histogram thresholding for discrimination between background and foreground patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/32Normalisation of the pattern dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Editing Of Facsimile Originals (AREA)
  • Image Processing (AREA)

Abstract

本发明涉及图像处理处理技术领域,公开了一种文本图像增强模型、训练方法、增强方法及电子设备,所述文本图像增强模型包括生成器和判别器,通过生成器和判别器的对抗学习,将待处理的原始彩色文本图像增强生成不含图像噪声、水印的二值化图像。本发明的文本图像增强模型通过生成器和判别器的对抗学习,将待处理的原始彩色文本图像增强生成不含图像噪声、水印的二值化图像,实现了对原始彩色文本图像的去除图像噪声、水印等干扰及图像二值化的同时处理,提升读者观感,而且具有更好的图像处理效果,鲁棒性高。同时,通过采用本发明的文本图像增强模型处理过的原始彩色文本图像,更加突出文本区域,可极大的提升OCR的检测和识别准确率。

Description

一种文本图像增强模型、训练方法、增强方法及电子设备
技术领域
本发明涉及图像处理技术领域,具体的涉及一种文本图像增强模型、训练方法、增强方法及电子设备。
背景技术
OCR---Optical Character Recognition,光学字符识别,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
OCR的检测和识别的准确率和输入图像的质量有很大关系,假如输入图像存在很多图像噪声和水印,OCR的难度会非常大。在实际场景中,有很多情况会导致输入图像质量较差,如:用户通过手机拍摄的照片由于光照、相机参数等影响,会在文本图像上产生阴影;用户拍摄书籍或试卷时,因为纸张太薄使得页面下的内容也有所展示;图像本身就存在斑点、水印等。
因此,在OCR之前对文本图像进行图像增强,去除各类图像噪声和水印,突出文本部分是必不可少的前处理步骤。文本图像:指包含有文本的图像,可以是试卷、书籍纸张或者封面等任何包含文本的图像;可以通过扫描仪和相机获取。图像增强:增强图像中的有用信息,有目的地强调图像的整体或局部特性,将原来不清晰的图像变得清晰或强调某些感兴趣的特征,扩大图像中不同物体特征之间的差别,抑制不感兴趣的特征,使之改善图像质量、丰富信息量,加强图像判读和识别效果,满足某些特殊分析的需要。
当前的文本图像增强主要通过传统的图像处理方法,如使用各类滤波操作去除图像噪声,使用otsu来对图像二值化,使用模板匹配方法去除水印。这类传统图像处理方法想要完成去图像噪声、去水印、二值化的处理需要不同模块来完成对应任务,处理过程过于繁琐,并且往往效果一般,不具有很强的鲁棒性。
有鉴于此,特提出本发明。
发明内容
本发明的目的在于:如何实现文本图像的去除图像噪声、水印等干扰及图像二值化的同时处理,提升读者观感和提高OCR的检测和识别的准确率。
为了实现上述发明目的,本发明提供了一种文本图像增强模型,具体地,采用了以下技术方案:
一种文本图像增强模型,包括生成器和判别器,通过生成器和判别器的对抗学习,将待处理的原始彩色文本图像增强生成不含图像噪声、水印的二值化图像。
作为本发明的一种可选实施方式,所述的生成器包括编码模块,所述的编码模块包括r个卷积层级,每个层级都是由卷积层、IN归一化层和PReLU激活层组成;
可选地,r个所述卷积层级的第一层的卷积核多于其余r-1层的卷积核。
作为本发明的一种可选实施方式,所述的生成器包括残差网络模块,所述的残差网络模块包括s个残差模块,每个残差模块包括至少三层卷积层,至少一个中间层卷积层的卷积核多于其它层卷积层的卷积核。
作为本发明的一种可选实施方式,所述的生成器包括与编码模块结构对称的解码模块,所述的解码模块包括r个反卷积层级,各个反卷积层级的卷积核与编码模块的各个卷积层级的卷积核分别对应。
作为本发明的一种可选实施方式,所述判别器采用卷积神经网络,包括t个卷积层和1个全连接层,所述全连接层输出生成图片和真实图像的接近程度,用于优化生成器的效果。
本发明同时提供了一种文本图像增强模型的训练方法,具体地,采用了以下技术方案:
一种文本图像增强模型的训练方法,包括:
获取含有各类图像噪声和/或水印的彩色文本图像样集A和不含图像噪声、水印的二值化图像样集B,并分别输入到文本图像增强模型中,通过反向传播的方法对文本图像增强模型的参数进行回归,模型训练完成后,提取出所述生成器GAB
作为本发明的一种可选实施方式,将彩色文本图像样集输入到文本图像增强模型中包括:
将彩色文本图像样集的彩色文本图像随机剪裁成不同尺寸规格,将不同尺寸规格的图像调整至同一设定尺寸规格输入到文本图像增强模型中;
可选地,将彩色文本图像等比例随机剪裁成至少两种尺寸规格;
进一步可选地,通过采用crop的方式将彩色文本图像进行剪裁,crop后的图像resize到设定尺寸规格输入到文本图像增强模型中。
作为本发明的一种可选实施方式,所述文本图像增强模型的损失函数包括:
对抗损失:
从A→B对抗损失
LGAN(G,DB,A,B)=E[logDB(b)]+E[log(1-DB(G(a))]
从B→A对抗损失
LGAN(G,DA,A,B)=E[logDA(b)]+E[log(1-DA(G(b))]
循环一致性损失:
Leyc(GA,GB)=E[||GB(GA(a))-a]||]+E[||GA(GB(b))-b]||]
总体损失:
Ltatel=LGAN(G,DB,A,B)+LGAN(G,DA,A,B)+Leyc(GA,GB)。
本发明同时还提供一种文本图像增强方法,具体地,采用了如下的技术方案:
一种文本图像增强方法,将接收到的待增强处理的原始彩色文本图像输入到文本图像增强模型中,文本图像增强模型包括生成器和判别器,通过生成器和判别器的对抗学习,将待增强处理的原始彩色文本图像增强生成不含图像噪声、水印的二值化图像。
本发明同时还提供一种电子设备,具体地,采用了如下的技术方案:
一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行所述的文本图像增强模型的训练方法和所述的文本图像增强方法。
本发明同时还提供一种计算机可读介质,具体地,采用了如下的技术方案:
一种计算机可读介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现所述的文本图像增强模型的训练方法和所述的文本图像增强方法。
与现有技术相比,本发明的有益效果:
本发明的文本图像增强模型通过生成器和判别器的对抗学习,将待处理的原始彩色文本图像增强生成不含图像噪声、水印的二值化图像,实现了对原始彩色文本图像的去除图像噪声、水印等干扰及图像二值化的同时处理,提升读者观感,而且具有更好的图像处理效果,鲁棒性高。同时,通过采用本发明的文本图像增强模型处理过的原始彩色文本图像,更加突出文本区域,可极大的提升OCR的检测和识别准确率。
本发明的文本图像增强模型的训练方法,通过将彩色文本图像样集的彩色文本图像随机剪裁成不同尺寸规格,将不同尺寸规格的图像调整至同一设定尺寸规格输入到文本图像增强模型中;实现了训练图像的多尺度输入,生成的文本图像增强模型可适应各种尺寸的图像,提高模型的鲁棒性和稳定性。
本发明的文本图像增强模型的训练方法可训练出对原始彩色文本图像的去除图像噪声、水印等干扰及图像二值化同时处理的文本图像增强模型,训练出的文本图像增强模型适应性强,处理效率高,处理效果好,具有较高的鲁棒性和稳定性。
本发明的文本图像增强方法,将接收到的待增强处理的原始彩色文本图像输入到文本图像增强模型中,实现对原始彩色文本图像的去除图像噪声、水印等干扰及图像二值化同时处理,具有更好的图像处理效果,鲁棒性高。同时,通过采用本发明的文本图像增强模型处理过的原始彩色文本图像,更加突出文本区域,可极大的提升OCR的检测和识别准确率。
附图说明:
图1本发明文本图像增强模型的生成器的总体结构图;
图2本发明生成器的残差网络模块的结构图;
图3本发明文本图像增强模型的判别器的总体结构图;
图4本发明的原始彩色文本图像;
图5本发明的图像增强效果图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图,对本发明实施例中的技术方案进行清楚、完整的描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。
因此,以下对本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的部分实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征和技术方案可以相互组合。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在本发明的描述中,需要说明的是,术语“上”、“下”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,或者是本领域技术人员惯常理解的方位或位置关系,这类术语仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例一
本实施例提供一种文本图像增强模型,具体地,采用了以下技术方案:
一种文本图像增强模型,包括生成器和判别器,通过生成器和判别器的对抗学习,将待处理的原始彩色文本图像增强生成不含图像噪声、水印的二值化图像。
本实施例的文本图像增强模型通过生成器和判别器的对抗学习,将待处理的原始彩色文本图像增强生成不含图像噪声、水印的二值化图像,实现了对原始彩色文本图像的去除图像噪声、水印等干扰及图像二值化的同时处理,提升读者观感,而且具有更好的图像处理效果,鲁棒性高。同时,通过采用本发明的文本图像增强模型处理过的原始彩色文本图像,更加突出文本区域,可极大的提升OCR的检测和识别准确率。
作为本发明的一种可选实施方式,所述的生成器包括编码模块,所述的编码模块包括r个卷积层级,每个层级都是由卷积层、IN归一化层和PReLU激活层组成。可选地,r个所述卷积层级的第一层的卷积核多于其余r-1层的卷积核。
本实施例编码模块的卷积层进行卷积运算,提取输入图像的不同特征,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网路能从低级特征中迭代提取更复杂的特征。可选地,本实施例的编码模块的卷积层级值r至少包括四层,所述卷积层级的第一层采用7*7的卷积核,其余层均采用5*5的卷积核。
本实施例编码模块的Instance Normalization层(IN)常用于在风格迁移的实例中,因为在图像风格化时,生成结果主要依赖于单个输入图像,所以对用BN层并不适合。本实施例使用Instance Normalization进行归一化可以加速模型收敛,保持每个图像直接的独立。
作为本发明的一种可选实施方式,所述的生成器包括残差网络模块,所述的残差网络模块包括s个残差模块,每个残差模块包括至少三层卷积层,至少一个中间层卷积层的卷积核多于其它层卷积层的卷积核。残差网络模块的使用可以使由编码模块提取的特征在不怎么丢失原有信息的情况下向需要生成的风格转换。这里残差模块包的中间层卷积层能够对通道数channel起到升维或者降维的作用,从而其它卷积层以相对较低维度的输入进行卷积运算,提高计算效率。
作为本发明的一种可选实施方式,所述的生成器包括与编码模块结构对称的解码模块,所述的解码模块包括r个反卷积层级,各个反卷积层级的卷积核与编码模块的各个卷积层级的卷积核分别对应。
作为本发明的一种可选实施方式,所述判别器采用卷积神经网络,包括t个卷积层和1个全连接层,所述全连接层输出生成图片和真实图像的接近程度,用于优化生成器的效果。
本实施例的判别器包括第一判别器DA与第二判别器DB,第一判别器DA接收彩色文本图像样集(数据集A)与仿真实图像,并判别彩色文本图像样集(数据集A)与仿真实图像,第二判别器DB接收二值化图像样集(数据集B)与仿增强图像,并判别二值化图像样集(数据集B)与仿增强图像。
本实施例同时提供了一种文本图像增强模型的训练方法,具体地,采用了以下技术方案:
一种文本图像增强模型的训练方法,包括:获取含有各类图像噪声和/或水印的彩色文本图像样集A和不含图像噪声、水印的二值化图像样集B,并分别输入到文本图像增强模型中,通过反向传播的方法对文本图像增强模型的参数进行回归,模型训练完成后,提取出所述生成器GAB
本实施例的文本图像增强模型的训练方法可训练出对原始彩色文本图像的去除图像噪声、水印等干扰及图像二值化同时处理的文本图像增强模型,训练出的文本图像增强模型适应性强,处理效率高,处理效果好,具有较高的鲁棒性和稳定性。
作为本发明的一种可选实施方式,将彩色文本图像样集输入到文本图像增强模型中包括:
将彩色文本图像样集的彩色文本图像随机剪裁成不同尺寸规格,将不同尺寸规格的图像调整至同一设定尺寸规格输入到文本图像增强模型中。
本实施例的文本图像增强模型的训练方法,通过将彩色文本图像样集的彩色文本图像随机剪裁成不同尺寸规格,将不同尺寸规格的图像调整至同一设定尺寸规格输入到文本图像增强模型中;实现了训练图像的多尺度输入,生成的文本图像增强模型可适应各种尺寸的图像,提高模型的鲁棒性和稳定性。
可选地,将彩色文本图像等比例随机剪裁成至少两种尺寸规格。
进一步可选地,通过采用crop的方式将彩色文本图像进行剪裁,crop后的图像resize到设定尺寸规格输入到文本图像增强模型中。crop可从图像中移除不需要的信息,只保留需要的部分;具体地,可将彩色文本图像等比例随机进行3种不同尺寸(256*256;512*512;1024*1024)的crop,crop后得到的小图resize到尺寸(1024*1024)输入到文本图像增强模型中。
作为本发明的一种可选实施方式,所述文本图像增强模型的损失函数包括:
对抗损失:
从A→B对抗损失
LGAN(G,DB,A,B)=E[logDB(b)]+E[log(1-DB(G(a))]
从B→A对抗损失
LGAN(G,DA,A,B=E[logDA(a)]+E[log(1-DA(G(B))]
循环一致性损失:
Leye(GA,GB)=E[||GB(GA(a))-a]||]+E[||GA(GB(b))-b]||]
总体损失:
Ltotel=LGAN(G,DB,A,B)+LGAN(G,DB,A,B)+Leye(GA,GB)。
本实施例的文本图像增强模型的训练方法将彩色文本图像样集A中的图像输入到预训练的文本图像增强模型,经过多次卷积处理后输出图像,并按照从A→B对抗损失函数计算输出图像相对于二值化图像样集B中图像的第一损失值。将输出图像输入到预训练的文本图像增强模型,经过多次卷积处理后输出判别值,并按照从B→A对抗损失函数计算该判别值相对于预设标签值的第二损失值。结合第一损失值和第二损失值来更新生成器和判别器的参数,直到第一损失值和第二损失值的综合满足预设条件时,训练结束,得到训练后的文本图像增强模型。
本实施例同时还提供一种文本图像增强方法,具体地,采用了如下的技术方案:
一种文本图像增强方法,将接收到的待增强处理的原始彩色文本图像输入到文本图像增强模型中,文本图像增强模型包括生成器和判别器,通过生成器和判别器的对抗学习,将待增强处理的原始彩色文本图像增强生成不含图像噪声、水印的二值化图像。
本实施例的文本图像增强方法,将接收到的待增强处理的原始彩色文本图像输入到文本图像增强模型中,实现对原始彩色文本图像的去除图像噪声、水印等干扰及图像二值化同时处理,具有更好的图像处理效果,鲁棒性高。同时,通过采用本发明的文本图像增强模型处理过的原始彩色文本图像,更加突出文本区域,可极大的提升OCR的检测和识别准确率。
实施例二
本实施例的文本图像增强模型基于CycleGAN网络结构,文本图像增强模型的训练方法包括:
制作含有各类图像噪声和/或水印的彩色文本图像样集和不含图像噪声、水印的二值化图像样集,基于CycleGAN网络结构,通过彩色文本图像样集和二值化图像样集进行模型训练,提取出生成器GAB
本实施例的文本图像增强模型基于CycleGAN网络结构进行模型训练,实现对原始彩色文本图像同时进行去图像噪声、去水印和二值化处理,且基于CycleGAN网络结构的实现,具有更好的图像处理效果,鲁棒性高。同时,通过采用本实施例的文本图像增强方法处理过的原始彩色文本图像,更加突出文本区域,可极大的提升OCR的检测和识别准确率。
本实施例的文本图像增强模型训练过程包括:
一、制作含有各类图像噪声和/或水印的彩色文本图像样集(数据集A)和不含图像噪声、水印的二值化图像样集(数据集B),彩色文本图像样集和二值化图像样集不需要一一对应。具体地,本实施例的彩色文本图像样集可以选择通过手机相机实际拍摄的教辅图书、试卷等得到,二值化图像样集可以选择通过扫描仪扫描书本得到的灰度图像。彩色文本图像样集与二值化图像样集的数量越多、类型越多样,模型训练得到的生成器GAB进行图像增强的效果越好,但是过多也会影响模型训练的效率,因此,本实施例的彩色文本图像样集的数据量为1W张,二值化图像样集的数据量为3W张。
二、文本图像增强模型选用CycleGAN网络结构,包括两个生成器,生成器用于增强图片的生成,将两个域中的图像风格进行转换。如图1所示,本实施例的生成器包括编码模块、resblock模块和解码模块,Resblock模块的使用可以使由编码模块提取的特征在不怎么丢失原有信息的情况下向需要生成的风格转换。
本实施例所述的编码模块包括r个卷积层级,每个层级都是由卷积层、IN归一化层和PReLU激活层组成。
本实施例编码模块的卷积层进行卷积运算,提取输入图像的不同特征,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网路能从低级特征中迭代提取更复杂的特征。因此,本实施例的编码模块包括4个卷积层级,4个所述卷积层级的第一层采用7*7的卷积核,其余3层均采用5*5的卷积核。
本实施例编码模块的IN归一化层(IN)常用于在风格迁移的实例中,因为在图像风格化时,生成结果主要依赖于单个输入图像,所以对用BN层并不适合。本实施例使用Instance Normalization进行归一化可以加速模型收敛,保持每个图像直接的独立。
本实施例的生成器包括残差网络模块,如图2所示,本实施例所述的残差网络模块包括s个残差模块,每个残差模块包括3个卷积层,第一、第三层卷积层采用1*1的卷积核,第二层卷积层采用3*3的卷积核,这里1*1的卷积层,能够对通道数channel起到升维或者降维的作用,从而令3*3的卷积层以相对较低维度的输入进行卷积运算,提高计算效率。
本实施例的生成器包括包括解码模块,所述的解码模块包括r个反卷积层级,各个反卷积层级的卷积核与编码模块的各个卷积层级的卷积核分别对应。
可选地,r个所述反卷积层级的前r-1层采用5*5的卷积核,第r层采用7*7的卷积核。
本实施例的解码模块与编码模块呈对称结构设置,因此,本实施例的解码模块包括4个反卷积层级,4个所述反卷积层级的前3层采用5*5的卷积核,第4层采用7*7的卷积核。
本实施例所述的文本图像增强模型包括两个判别器,所述判别器采用卷积神经网络,包括t个卷积层和1个全连接层,所述全连接层输出生成图片和真实图像的接近程度,用于优化生成器的效果。
本实施例的判别器包括第一判别器DA与第二判别器DB,第一判别器DA接收彩色文本图像样集(数据集A)与仿真实图像,并判别彩色文本图像样集(数据集A)与仿真实图像,第二判别器DB接收二值化图像样集(数据集B)与仿增强图像,并判别二值化图像样集(数据集B)与仿增强图像。
三、进行模型训练时,将彩色文本图像样集的彩色文本图像采用多尺度的形式输入到CycleGAN网络结构中。
可选地,将彩色文本图像等比例随机进行至少两种不同尺寸的crop,crop就是从图像中移除不需要的信息,只保留需要的部分;crop后的小图resize到设定尺寸输入到CycleGAN网络结构中。
具体地,可将彩色文本图像等比例随机进行3种中不同尺寸(256*256;512*512;1024*1024)的crop,crop后得到的小图resize到尺寸(1024*1024)输入到CycleGAN网络结构中。
本实施例采用多尺度图像进行模型训练,所以对于不同分辨率的图像都具有良好的效果。
四、通过反向传播的方法对CycleGAN网络的参数进行回归,模型训练完成后,提取出所述生成器GAB
本实施例所述CycleGAN网络结构的损失函数包含两部分:
对抗损失:
从A→B对抗损失
LGAN(G,DB,A,B)=E[logDB(b)]+E[log(1-DB(G(a))]
从B→A对抗损失
LGAN(G,DA,A,B)=E[logDA(a)]+E[log(1-DA(G(b))]
循环一致性损失:
Leyc(GA,GB)=E[||GB(GA(a))-a]||]+E[||GA(GB(b))-b]||]
总体损失:
Ltetal=LGAN(G,DB,A,B)+LGAN(G,DA,A,B)+Leye(GA,GB)。
本实施例的文本图像增强方法的模型推理过程包括:将接收到的待增强处理的原始彩色文本图像resize到设定尺寸输入到训练好的生成器GAB中,生成图像增强后的不含图像噪声、水印的二值化图像,再通过插值法将生成的二值化图像还原为原始彩色文本图像的尺寸。
本实施例的图4为图3经过本实施例的文本图像增强方法处理后得到的图像增强效果图,去图像噪声、去水印和二值化处理的效果好,鲁棒性高。
实施例三
本实施例提供一种电子设备,具体地,采用了如下的技术方案:
一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行所述的文本图像增强模型的训练方法和所述的文本图像增强方法。
本实施例同时还提供一种计算机可读介质,具体地,采用了如下的技术方案:
一种计算机可读介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现所述的文本图像增强模型的训练方法和所述的文本图像增强方法。
本实施例的存储介质为计算机可读取存储介质,以实现本申请中提供的图像增强方法。可选的,该计算机可读取存储介质包括只读存储器(ROM)、随机存取记忆体(RAM)、固态硬盘(SSD)或光盘等。
以上实施例仅用以说明本发明而并非限制本发明所描述的技术方案,尽管本说明书参照上述的各个实施例对本发明已进行了详细的说明,但本发明不局限于上述具体实施方式,因此任何对本发明进行修改或等同替换;而一切不脱离发明的精神和范围的技术方案及其改进,其均涵盖在本发明的权利要求范围当中。

Claims (10)

1.一种文本图像增强模型,其特征在于,包括生成器和判别器,通过生成器和判别器的对抗学习,将待处理的原始彩色文本图像增强生成不含图像噪声、水印的二值化图像。
2.根据权利要求1所述的文本图像增强模型,其特征在于,所述的生成器包括编码模块,所述的编码模块包括r个卷积层级,每个层级都是由卷积层、IN归一化层和PReLU激活层组成;
可选地,r个所述卷积层级的第一层的卷积核多于其余r-1层的卷积核。
3.根据权利要求2所述的文本图像增强模型,其特征在于,所述的生成器包括残差网络模块,所述的残差网络模块包括s个残差模块,每个残差模块包括至少三层卷积层,至少一个中间层卷积层的卷积核多于其它层卷积层的卷积核。
4.根据权利要求2所述的文本图像增强模型,其特征在于,所述的生成器包括与编码模块结构对称的解码模块,所述的解码模块包括r个反卷积层级,各个反卷积层级的卷积核与编码模块的各个卷积层级的卷积核分别对应。
5.根据权利要求1所述的文本图像增强模型,其特征在于,所述判别器采用卷积神经网络,包括t个卷积层和1个全连接层,所述全连接层输出生成图片和真实图像的接近程度,用于优化生成器的效果。
6.一种如权利要求1-5任意一项所述文本图像增强模型的训练方法,其特征在于,包括:
获取含有各类图像噪声和/或水印的彩色文本图像样集A和不含图像噪声、水印的二值化图像样集B,并分别输入到文本图像增强模型中,通过反向传播的方法对文本图像增强模型的参数进行回归,模型训练完成后,提取出所述生成器GAB
可选地,将彩色文本图像样集输入到文本图像增强模型中包括:
将彩色文本图像样集的彩色文本图像随机剪裁成不同尺寸规格,将不同尺寸规格的图像调整至同一设定尺寸规格输入到文本图像增强模型中;
可选地,将彩色文本图像等比例随机剪裁成至少两种尺寸规格;
进一步可选地,通过采用crop的方式将彩色文本图像进行剪裁,crop后的图像resize到设定尺寸规格输入到文本图像增强模型中。
7.根据权利要求6所述文本图像增强模型的训练方法,其特征在于:所述文本图像增强模型的损失函数包括:
对抗损失:
从A→B对抗损失
Figure FDA0003021138530000021
从B→A对抗损失
Figure FDA0003021138530000022
循环一致性损失:
Leye(GA,GB)=E[||GB(GA(a))-a]||]+E[||GA(GB(b))-b]||]
总体损失:
Ltobel=LGAN(G,DB,A,B)+LGAN(G,DA,A,B)+Leye(GA,GB)。
8.一种文本图像增强方法,其特征在于,将接收到的待增强处理的原始彩色文本图像输入到文本图像增强模型中,文本图像增强模型包括生成器和判别器,通过生成器和判别器的对抗学习,将待增强处理的原始彩色文本图像增强生成不含图像噪声、水印的二值化图像。
9.一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,其特征在于:
当所述计算机程序被所述处理器执行时,所述处理器执行如权利要求6-8中任一项所述的文本图像增强模型的训练方法和如权利要求9所述的文本图像增强方法。
10.一种计算机可读介质,存储有计算机可执行程序,其特征在于,所述计算机可执行程序被执行时,实现如权利要求6-8中任一项所述的文本图像增强模型的训练方法和如权利要求9所述的文本图像增强方法。
CN202110403094.7A 2021-03-18 2021-04-15 一种文本图像增强模型、训练方法、增强方法及电子设备 Pending CN113177556A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2021102893650 2021-03-18
CN202110289365 2021-03-18

Publications (1)

Publication Number Publication Date
CN113177556A true CN113177556A (zh) 2021-07-27

Family

ID=76923224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110403094.7A Pending CN113177556A (zh) 2021-03-18 2021-04-15 一种文本图像增强模型、训练方法、增强方法及电子设备

Country Status (1)

Country Link
CN (1) CN113177556A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114862648A (zh) * 2022-05-27 2022-08-05 晋城市大锐金马工程设计咨询有限公司 采用a、b两种文档进行交叉水印加密的文档

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114862648A (zh) * 2022-05-27 2022-08-05 晋城市大锐金马工程设计咨询有限公司 采用a、b两种文档进行交叉水印加密的文档
CN114862648B (zh) * 2022-05-27 2023-06-20 晋城市大锐金马工程设计咨询有限公司 采用a、b两种文档进行交叉水印加密的文档

Similar Documents

Publication Publication Date Title
CN110516201B (zh) 图像处理方法、装置、电子设备及存储介质
CN110516577B (zh) 图像处理方法、装置、电子设备及存储介质
JP6139396B2 (ja) 文書を表す二値画像を圧縮する方法及びプログラム
JPH07200720A (ja) 脱落書式文書画像圧縮
CN110599387A (zh) 一种自动去除图片水印的方法及装置
Anwar et al. Image deblurring with a class-specific prior
CN110298353B (zh) 一种字符识别方法及系统
CN113901952A (zh) 一种基于深度学习的印刷体与手写体分开文字识别方法
JPH0863546A (ja) 情報抽出方法および画像修復方法並びに画像修復システム
CN114283156B (zh) 一种用于去除文档图像颜色及手写笔迹的方法及装置
CN113011253B (zh) 基于ResNeXt网络的人脸表情识别方法、装置、设备及存储介质
CN113592735A (zh) 文本页面图像还原方法及系统、电子设备和计算机可读介质
CN111931783A (zh) 一种训练样本生成方法、机读码识别方法及装置
Asad et al. High performance OCR for camera-captured blurred documents with LSTM networks
Wicht et al. Camera-based sudoku recognition with deep belief network
CN113177556A (zh) 一种文本图像增强模型、训练方法、增强方法及电子设备
CN110516202B (zh) 文档生成器的获取方法、文档生成方法、装置及电子设备
Anvari et al. A survey on deep learning based document image enhancement
CN111445402B (zh) 一种图像去噪方法及装置
Rahmat et al. Android-based text recognition on receipt bill for tax sampling system
CN111126273A (zh) 图像处理方法、装置、电子设备以及存储介质
CN108960285B (zh) 一种分类模型生成方法、舌体图像分类方法及装置
JP7364639B2 (ja) デジタル化された筆記の処理
CN115565178A (zh) 一种字体识别的方法及装置
Rusticus et al. Document domain adaptation with generative adversarial networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20230621

Address after: 6001, 6th Floor, No.1 Kaifeng Road, Shangdi Information Industry Base, Haidian District, Beijing, 100085

Applicant after: Beijing Baige Feichi Technology Co.,Ltd.

Address before: 100085 4002, 4th floor, No.1 Kaifa Road, Shangdi Information Industry base, Haidian District, Beijing

Applicant before: ZUOYEBANG EDUCATION TECHNOLOGY (BEIJING) CO.,LTD.