CN110516202A - 文档生成器的获取方法、文档生成方法、装置及电子设备 - Google Patents

文档生成器的获取方法、文档生成方法、装置及电子设备 Download PDF

Info

Publication number
CN110516202A
CN110516202A CN201910770061.9A CN201910770061A CN110516202A CN 110516202 A CN110516202 A CN 110516202A CN 201910770061 A CN201910770061 A CN 201910770061A CN 110516202 A CN110516202 A CN 110516202A
Authority
CN
China
Prior art keywords
image
document
generator
loss
source domain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910770061.9A
Other languages
English (en)
Other versions
CN110516202B (zh
Inventor
刘钰安
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Oppo Mobile Telecommunications Corp Ltd
Original Assignee
Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Oppo Mobile Telecommunications Corp Ltd filed Critical Guangdong Oppo Mobile Telecommunications Corp Ltd
Priority to CN201910770061.9A priority Critical patent/CN110516202B/zh
Publication of CN110516202A publication Critical patent/CN110516202A/zh
Application granted granted Critical
Publication of CN110516202B publication Critical patent/CN110516202B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Processing Or Creating Images (AREA)
  • Image Processing (AREA)

Abstract

本申请公开了一种文档生成器的获取方法、文档生成方法、装置及电子设备,涉及图像处理技术领域。所述方法通过拍摄的文档图像以及电子文档的图像并结合边缘损失对循环一致性生成对抗网络进行训练,从而获得可根据拍摄的文档图像生成电子文档图像的文档生成器。通过该文档生成器可以生成字迹清晰的电子文档图像。

Description

文档生成器的获取方法、文档生成方法、装置及电子设备
技术领域
本申请涉及图像处理技术领域,更具体地,涉及一种文档生成器的获取方法、文档生成方法、装置及电子设备。
背景技术
书籍、手稿、打印稿件等纸质文档是文字的载体、文化的载体,但是纸质文档不易保存,也不易传播。为了对纸质文档进行有效保存以及进行有效传播,可以将纸质文档数字化,即将纸质文档转换为可存储于存储器、可通过网络进行传播的电子数据。通常的,将纸质文档数字化的方式通常为对纸质文档进行影印拍照。但是通过影印拍照的方式获得的数字化文档清晰度差,从而导致阅读体验差。
发明内容
鉴于上述问题,本申请提出了一种文档生成器的获取方法、文档生成方法、装置及电子设备,用于获取可将纸质文档的文档图像处理为清晰的电子文档图像的文档生成器,以改善上述问题。
第一方面,本申请实施例提供了一种文档生成器的获取方法,所述文档生成器用于根据拍摄的文档图像生成电子文档图像,所述方法包括:从第一图像集选取一个图像作为源域图像,从第二图像集选取一个图像作为目标域图像,所述第一图像集包括拍摄的多个文档图像,所述第二图像集包括多个电子文档的图像,定义第一图像集中的图像所在的图像域为源域,定义第二图像集中的图像所在的图像域为目标域;将所述源域图像以及所述目标域图像输入循环一致性生成对抗网络,生成由所述源域图像映射到所述目标域的映射图像以及由所述映射图像映射到源域的重建图像,并获取所述映射图像与所述目标域图像之间的判别损失以及所述源域图像与所述重建图像之间的重建损失;获取所述源域图像的边缘图像与所述映射图像之间的边缘损失;根据所述判别损失、重建损失以及边缘损失的和对所述循环一致性生成对抗网络中的生成器以及判别器进行优化;根据优化后的循环一致性生成对抗网络获得文档生成器。
第二方面,本申请实施例提供了一种文档生成方法,用于根据上述方法获取的文档生成器生成电子文档图像,所述方法包括:获取拍摄纸质文档获得的文档图像;将所述文档图像输入所述文档生成器;以所述文档生成器生成的图像作为所述文档图像对应的电子文档图像。
第三方面,本申请实施例提供了一种文档生成器的获取装置,所述文档生成器用于根据拍摄的文档图像生成电子文档图像,所述装置包括:图像选取模块,用于从第一图像集选取一个图像作为源域图像,从第二图像集选取一个图像作为目标域图像,所述第一图像集包括拍摄的多个文档图像,所述第二图像集包括多个电子文档的图像,定义第一图像集中的图像所在的图像域为源域,定义第二图像集中的图像所在的图像域为目标域;第一损失获取模块,用于将所述源域图像以及所述目标域图像输入循环一致性生成对抗网络,生成由所述源域图像映射到所述目标域的映射图像以及由所述映射图像映射到源域的重建图像,并获取所述映射图像与所述目标域图像之间的判别损失以及所述源域图像与所述重建图像之间的重建损失;第二损失获取模块,用于获取所述源域图像的边缘图像与所述映射图像之间的边缘损失;优化模块,用于根据所述判别损失、重建损失以及边缘损失的和对所述循环一致性生成对抗网络中的生成器以及判别器进行优化;确定模块,用于根据优化后的循环一致性生成对抗网络获得文档生成器。
第四方面,本申请实施例提供了一种文档生成装置,用于根据上述方法获取的文档生成器生成电子文档图像,或者用于根据上述装置获取的文档生成器生成电子文档图像,所述方法包括:原始图像获取模块,用于获取拍摄纸质文档获得的文档图像;输入模块,用于将所述文档图像输入所述文档生成器;生成模块,用于以所述文档生成器生成的图像作为所述文档图像对应的电子文档图像。
第五方面,本申请实施例提供了一种电子设备,包括存储器以及处理器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时,所述处理器执行上述的方法。
第六方面,本申请实施例提供了一种计算机可读取存储介质,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行上述的方法。
本申请实施例提供的文档生成器的获取方法、文档生成方法、装置及电子设备,通过拍摄的文档图像以及电子文档的图像对循环一致性生成对抗网络进行训练,从而获得可根据拍摄的文档图像生成电子文档图像的文档生成器。通过该文档生成器可以生成字迹清晰的电子文档图像。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a及图1b示出了本申请实施例提供的一种文档图像通过文档生成器生成电子文档图像的对比图。
图2示出了本申请实施例提供的文档生成器的获取方法的一种流程图。
图3示出了本申请实施例提供的循环一致性生成对抗网络的一种示意图。
图4a及图4b示出了本申请实施例提供的一种未边缘约束时文档图像通过文档生成器生成电子文档图像的对比图。
图5示出了本申请实施例提供的一种目标域的图像的示意图。
图6示出了本申请实施例提供的文档生成器的获取方法的另一种流程图。
图7a及图7b示出了本申请实施例提供的一种源域的图像以及目标域的图像的对比示意图。
图8示出了本申请实施例提供的文档生成器的获取方法的又一种流程图。
图9示出了本申请实施例提供的循环一致性生成对抗网络的另一种示意图。
图10示出了本申请实施例提供的一种重建损失的示意图。
图11示出了本申请实施例提供的文档生成方法的流程图。
图12示出了本申请实施例提供的文档生成器的获取装置的功能模块图。
图13示出了本申请实施例提供的文档生装置的功能模块图。
图14示出了本申请实施例提供的电子设备的结构框图。
图15是本申请实施例的用于保存或者携带实现根据本申请实施例的方法的程序代码的存储介质。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。
纸质文档进行数字化,转换为通过电子数据进行存储的电子文档,有利于纸质文档的保存和传播。例如对于某些古籍而言,古籍本身很珍贵,但是古籍本身数量有限或者是孤本,因此,可以将其数字化,以对古籍中的内容进行良好保存和用于大范围传播。
影印拍摄纸质文档获得的文档图像字迹不清晰,并且,纸质文档,如古籍,本身可能存在页面泛黄泛黑、墨迹浸润以及页面有污渍等现象,从而使拍摄到的文档图像也保留了泛黄泛黑、墨迹浸润以及页面有污渍等等噪声。其中,墨迹浸润表示从纸张正面能看到背面字的墨迹。
为了获得更好的视觉效果或者为后续检测任务减少困难,可以对拍摄的文档图像进行图像处理。一种处理方式是直接进行二值化,如将文字二值化为黑色,将书页二值化为白色。但是二值化处理对于墨迹浸润以及污渍等部分与文字颜色特征比较接近的噪声无法有效处理。
另外,针对文档图像的图像处理技术,大多数采用的是手工设计图像处理流程,手工的特征工程来对古籍文档图像进行处理。各种阈值计算的公式相对复杂,对工程师的特征工程设计能力以及图像处理的专业能力要求较高。针对不同场景,二值化算法、阈值和领域窗口半径的选取,影响着图像处理的效果。并且,只能针对有限几种污染类型的古籍文档图像处理得到比较好的效果,泛化性能不够强大,不能覆盖到各种不同的文档图像的处理。
生成对抗网络(GAN,Generative Adversarial Networks)是一种深度学习模型。生成对抗网络至少包括两个网络G(生成器,Generator)和D(判别器,Discriminator)。在训练过程中,生成网络G的目标就是尽量生成真实的图片去欺骗判别网络D。而D的目标就是尽量把G生成的图片和真实的图片分别开来。这样,G和D构成了一个动态的“博弈过程”。最后博弈的结果就是,在最理想的状态下,G可以生成足以“以假乱真”的图片G(z)。对于D来说,它难以判定G生成的图片究竟是不是真实的,因此判别结果D(G(z))=0.5。从而可以得到一个生成器,它可以用来生成图片。传统的生成对抗网络是单向生成,而循环一致性生成对抗网络(CycleGAN)是互相生成,网络是个环形。CycleGAN输入的两张图片可以是任意的两张图片,不必要求是匹配的两张图片。
为了获取一种泛化能力强的文档生成器,可以对文档图像中各种不同的噪声进行去除,如去除文档图像中的墨渍浸润、背景变白、污点去除等,本申请实施例提供了一种文档生成器的获取方法,在该文档生成器获取方法中,通过拍摄的文档图像以及电子文档的图像对循环一致性生成对抗网络进行训练,并且引入边缘损失对循环一致性生成对抗网络进行训练,提高训练后的循环一致性生成对抗网络中生成器的边缘处理能力。由于生成对抗网络的生成器能将一种风格的图像转换为另一种风格的图像,拍摄的文档图像(如拍摄的古籍)作为一种风格的图像,电子文档的图像作为另一种风格的图像,从而通过拍摄的文档图像以及电子文档的图像训练循环一致性生成对抗网络中的生成器,能根据拍摄的文档图像生成电子文档的图像。获得的文档生成器可以根据具有不同噪声的文档图像生成显示效果接近编辑的电子文档的电子文档图像,该电子文档图像中的文字内容与拍摄的文档图像一致,但是去除了拍摄的文档图像中的页面泛黄、墨子浸润、污渍以及其他文字内容以外的、影响阅读体验的噪声,如图1a中的拍摄估计获得的文档图像经文档生成器生成的电子文档如图1b所示。下面对本申请实施例的文档生成器的获取方法以及文档生成方法进行详细介绍。
图2示出了本申请实施例提供的文档生成器的获取方法的流程图。具体的,该文档生成器的获取方法包括:
步骤S110:从第一图像集选取一个图像作为源域图像,从第二图像集选取一个图像作为目标域图像。所述第一图像集包括拍摄的多个文档图像,所述第二图像集包括多个电子文档的图像,定义第一图像集中的图像所在的图像域为源域,定义第二图像集中的图像所在的图像域为目标域。
预先存储有第一图像集以及第二图像集,第一图像集中的图像的风格与第二图像集中图像的风格不同。第一图像集中的图像的风格为需要被转换的风格,第二图像集中图像的风格为需要转换到的风格,即训练获得的生成器能将第一图像集中图像的风格转换为第二图像集中图像的风格。其中,图像的风格能够表征一副图像的基本特征,如颜色特征、纹理特征、形状特征和空间关系特征等。两种不同风格的图像可以是任意两种具有不同图像特征的图像,例如,对于拍摄古籍这种文档获得的文档图像具有古籍所具有的风格,而在电子设备中编辑文字获得电子文档,再获取到该电子文档的图像,具有电子文档所具有的风格。又如,拍摄冬天的图像是一种风格,拍摄夏天的图像又是另一种风格。又如,拍摄马的图像是一种风格,拍摄斑马的图像又是另一种风格。
在本申请实施例中,第一图像集中包括拍摄的多个文档图像,具有被拍摄的文档的风格;第二图像集中包括多个电子文档的图像,具有电子文档的风格。在本申请实施例中,定义第一图像集中的图像所在的图像域为源域,定义第二图像集中的图像所在的图像域为目标域,图像所在的图像域体现了图像的风格特征。
在对循环一致性生成对抗网络进行训练的过程中,不断对循环一致性生成对抗网络中的各种参数进行优化。每次优化过程中,从第一图像集选取一个图像作为源域图像,从第二图像集选取一个图像作为目标域图像。
步骤S120:将所述源域图像以及所述目标域图像输入循环一致性生成对抗网络,生成由所述源域图像映射到所述目标域的映射图像以及由所述映射图像映射到源域的重建图像,并获取所述映射图像与所述目标域图像之间的判别损失以及所述源域图像与所述重建图像之间的重建损失。
如图3示出了循环一致性生成对抗网络的示意图,该循环一致性生成对抗网络包括两个生成器以及一个判别器,两个生成器分别为第一生成器以及第二生成器。如图3所示,将选取的源域图像以及目标域图像输入循环一致性生成对抗网络,用于对该循环一致性生成对抗网络进行训练。
具体的,将源域图像以及目标域图像输入循环一致性生成对抗网络,第一生成器可以生成由源域图像映射到目标域的映射图像,第二生成器可以生成由该映射图像映射到源域的重建图像。并且可以获取到该映射图像与该目标域图像之间的判别损失以及该源域图像与该重建图像之间的重建损失。
步骤S130:获取所述源域图像的边缘图像与所述映射图像之间的边缘损失。
由于生成对抗网络擅长处理纹理而并不擅长处理形变,若仅仅根据判别损失以及重建损失对生成对抗网络进行优化,则获得的生成器可以根据源域的图像生成与目标域的图像的纹理相同的图像,但是无法生成边缘特征与目标域相同的图像,如图4a及图4b所示。图4a示出了一种拍摄的文档图像,图4b为训练过程中未通过边缘损失进行约束获得的文档生成器根据图4a的文档图像生成的电子文档图像,可以看出图4b中的文档无法呈现字体的边缘以及字形。而对于文档的生成,边缘特征很重要,能限定其中文字的笔画。因此,在本申请实施例中,如图3所示,还可以通过边缘检测模块获取源域图像的边缘图像与映射图像之间的边缘损失。
步骤S140:根据所述判别损失、重建损失以及边缘损失的和对所述循环一致性生成对抗网络中的生成器以及判别器进行优化。
通过获得的判别损失、重建损失以及边缘损失对循环一致性生成对抗网络中的生成器以及判别器进行优化,生成器可以根据源域的图像生成更接近于目标域的图像。
步骤S150:根据优化后的循环一致性生成对抗网络获得文档生成器。
对循环一致性生成对抗网络进行多次优化后,可以从循环一致性生成对抗网络中确定生成器作为文档生成器,用于根据源域的图像生成映射到目标域的图像,从而通过该文档生成器可以将拍摄的文档图像映射到电子文档的图像的图像域,生成与电子文档的图像风格一致的图像。例如可以将如图1a所示的古籍的图像映射到如图5所示图像的图像域,获得如图1b所示的电子文档图像。
在本申请实施例中,通过拍摄的文档图像以及电子文档的图像对循环一致性生成对抗网络进行训练,从而训练后的循环一致性生成对抗网络中,生成器可以根据拍摄的文档图像生成电子文档图像,且生成的电子文档图像字迹清晰。
本申请还提供了一种实施例。在该实施例中,包括对循环一致性生成对抗网络的训练过程。具体的,请参见图6,该方法包括:
步骤S210:从第一图像集选取一个图像作为源域图像,从第二图像集选取一个图像作为目标域图像。所述第一图像集包括拍摄的多个文档图像,所述第二图像集包括多个电子文档的图像,定义第一图像集中的图像所在的图像域为源域,定义第二图像集中的图像所在的图像域为目标域。
步骤S210的详细描述可以参见步骤S110,在此不再赘述。
可选的,在本申请实施例中,步骤S210之前,还可以包括对第一图像集的生成以及第二图像集的生成。
具体的,可以拍摄多个纸质文档的图像,以拍摄的多个纸质文档的图像作为所述第一图像集中的图像。
另外,可以在文本编辑软件中输入文字,获得编辑的电子文档,获取多个电子文档的图像作为所述第二图像集中的图像。其中,具体输入的文字内容并不限定。在编辑电子文档时,可以模仿纸质文档中文字的排列、字体以及字号等排版信息。具体的,可以按照所述纸质文档的文字排列方式,使编辑的电子文档中文字的排列方式与纸质文档相同,如若纸质文档为横排排列,则该电子文档中的文字也横排排列,若纸质文档为竖排排列,则该电子文档中的文字为竖排排列。可以编辑电子文档中的字体与纸质文档中的字体类似,具体类似的对应可以预先设置,即预先设置纸质文档中字体与电子文档字体的对应关系,从而根据当前纸质文档的字体确定电子文档对应的字体,如纸质文档为楷书、行书等,电子文档对应的字体可以是宋体、楷体、黑体等。可以根据纸质文档中的文字大小,编辑文字大小在所述纸质文档中文字大小的预设范围内的多个电子文档,该预设范围可以由相关人员根据经验设置。例如图7a拍摄某一古籍中多张书页的图像作为第一图像集中的图像,模仿图7a的排版编辑电子文本,获取该电子文本的图像如图7b所示。
另外,在本申请实施例中,第二图像集中图像的数量多于第一图像集中图像的数量。可选的,第二图像集中图像的数量为第一图像集中图像数量的两倍,以获得更好的训练效果。
在本申请实施例中,还可以对第一图像集以及第二图像集中的图像进行增强处理,以增加第一图像集中的数据量以及所述第二图像集中的数据量。具体的,该增强处理可以是随机裁剪、随机翻转(如左右翻转)等。
步骤S220:将所述源域图像以及所述目标域图像输入循环一致性生成对抗网络,生成由所述源域图像映射到所述目标域的映射图像以及由所述映射图像映射到源域的重建图像,并获取所述映射图像与所述目标域图像之间的判别损失以及所述源域图像与所述重建图像之间的重建损失。
在本申请实施例中,判别损失为用于确保能够正确地执行源域到目标域的映射,循环重建损失则用于确保从目标域到源域的映射。
步骤S230:获取所述源域图像的边缘图像与所述映射图像之间的边缘损失。
在本实施例中,获取边缘损失时,可以先对所述源域图像进行边缘检测,获得所述源域图像的边缘图像。再计算该源域图像的边缘图像与映射图像之间的边缘损失。其中,计算该边缘图像与映射图像之间的边缘损失的公式可以是:Ledge(G)=E[||G(X)-Ed(X)||1]。其中,G(X)表示源域图像映射到目标域的映射图像,Ed(X)表示源域图像的边缘图像。
其中,进行边缘检测所使用的算法在本申请实施例中并不限定,例如Sobel算子,Prewitt算子、Laplacian算子以及Canny算子等。
边缘损失是为确保生成的目标域的边缘不改变。由于去除掉边缘检测模块的网络,适合处理纹理改变而不适合处理形变,所以边缘检测模块配合边缘损失是非常有必要的,可以确保产生纹理改变的同时不产生不想要的形变。
步骤S240:根据所述判别损失、重建损失以及边缘损失的和对所述循环一致性生成对抗网络中的生成器以及判别器进行优化。
步骤S250:循环执行所述从第一图像集选取一个图像作为源域图像,从第二图像集选取一个图像作为目标域图像的步骤,至所述根据所述判别损失、重建损失以及边缘损失的和对所述循环一致性生成对抗网络中的生成器以及判别器进行优化的步骤,直至所述循环一致性生成对抗网络收敛时,以由源域图像生成目标域图像的生成器作为所述文档生成器。
第一图像集中包括多个文档图像,第二图像集中包括多个电子文档的图像。在训练循环一致性生成对抗网络的训练周期中,不断循环执行从第一图像集选取一个图像作为源域图像,从第二图像集选取一个图像作为目标域图像的步骤,至所述根据所述判别损失、重建损失以及边缘损失的和对所述循环一致性生成对抗网络中的生成器以及判别器进行优化的步骤。每次优化循环一致性生成对抗网络中的生成器以及判别器时,可以最大化判别器的损失,最小化生成器的损失,将判别损失、重建损失以及边缘损失的和通过反向传播算法对循环一致性生成对抗网络中的生成器的参数以及判别器的参数进行优化,从而实现对生成器的优化以及判别器的优化。
在本申请实施例中,在每次优化结束后,可以判断该循环一致性生成对抗网络是否收敛,若收敛,则可以确定循环一致性生成对抗网络训练完成,以该循环一致性生成对抗网络中由源域图像生成目标域图像的生成器作为文档生成器。
可选的,在一个训练周期中,每执行一个循环,从第一图像集中选取一个文档图像以及从第二图像集中选取一个电子文档的图像,对循环一致性生成对抗网络中的生成器以及判别器优化一次。其中,对第一图像集中的图像以及第二图像集中的图像以不放回的方式进行选取,即每次从第一图像集中选取的图像为该轮训练过程中未被选取过的图像;每次从第二图像集中选取的图像为该轮训练过程中未被选取过的图像,以使第一图像集中不同的图像对应第二图像集中的不同图像用于对循环一致性生成对抗网络进行优化,获得更良好的优化效果。
在本申请实施例中,通过拍摄的文档图像以及电子文档的图像对循环一致性生成对抗网络进行循环多次的优化,直至该循环一致性生成对抗网络收敛,完成训练。在训练后的循环一致性生成对抗网络中,以由源域图像生成目标域图像的生成器作为文档生成器,该文档生成器可以根据拍摄的文档图像生成电子文档图像,且生成的电子文档图像字迹清晰。
在前述实施例中,循环一致性生成对抗网络根据源域图像生成映射到目标域的映射图像,通过训练提升了源域图像到映射图像的生成器的生成效果。为了提升生成器的生成效果,本申请还提供了一种实施例,同时对另一具有相同生成器的循环一致性生成对抗网络进行训练。
具体的,将所述源域图像以及所述目标域图像输入另一循环一致性生成对抗网络,生成由目标域图像映射到所述源域的另一映射图像以及由另一映射图像映射到目标域的另一重建图像,并获取另一映射图像与所述目标域图像之间的判别损失,以及获取所述源域图像与所述另一重建图像之间的重建损失。并且获取目标域图像的边缘图像与另一映射图像之间的边缘损失。再对所有的损失进行求和优化两个循环一致性生成对抗网络,即在根据判别损失、重建损失以及边缘损失的和对所述循环一致性生成对抗网络中的生成器以及判别器进行优化时,根据所有的判别损失、重建损失以及边缘损失的和对所述循环一致性生成对抗网络以及所述另一循环一致性生成对抗网络中的生成器以及判别器进行优化。从而实现既能从源域到目标域转换,也能从目标域到源域转换,通过实际实验,通过两个循环一致性生成对抗网络训练后,能提升从源域到目标域的生成器的图像生成效果。
为了方便描述,在本申请实施例中,将前述实施例中的循环一致性生成对抗网络定义为第一循环一致性生成对抗网络,将另一循环一致性生成对抗网络定义为第二循环一致性生成对抗网络。第一循环一致性生成对抗网络生成的映射图像定义为第一映射图像,第一循环一致性生成对抗网络生成的重建图像定义为第一重建图像,第一循环一致性生成对抗网络中获得的判别损失定义为第一判别损失,第一循环一致性生成对抗网络中获得的重建损失定义为第一重建损失,根据第一映射图像获得的边缘损失定义为第一边缘损失。对应的,第二循环一致性生成对抗网络生成的映射图像定义为第二映射图像,第二循环一致性生成对抗网络生成的重建图像定义为第二重建图像,第二循环一致性生成对抗网络中获得的判别损失定义为第二判别损失,第二循环一致性生成对抗网络中获得的重建损失定义为第二重建损失,根据第二映射图像获得的边缘损失定义为第二边缘损失。第一循环一致性生成对抗网络以及所述第二循环一致性生成对抗网络都包括的两个生成器为第一生成器以及第二生成器,第一生成器用于将图像从源域映射到目标域,即可以根据源域的图像生成映射到目标域的图像;第二生成器用于将图像从目标域映射到源域,即可以根据目标域的图像生成映射到源域的图像。所述第一循环一致性生成对抗网络包括第一判别器,所述第二循环一致性生成对抗网络包括第二判别器。请参见图8,在本申请实施例提供的文档生成器的获取方法中,包括:
步骤S310:从第一图像集选取一个图像作为源域图像,从第二图像集选取一个图像作为目标域图像。
步骤S320:将所述源域图像以及所述目标域图像输入第一循环一致性生成对抗网络,通过所述第一生成器生成所述源域图像映射到所述目标域的第一映射图像,通过所述第二生成器生成所述第一映射图像映射到源域的第一重建图像,根据所述第一判别器的判别结果获取所述第一映射图像与所述目标域图像之间的判别损失作为第一判别损失,以及获取所述源域图像与所述第一重建图像之间的重建损失作为第一重建损失。
如图9示出了本申请实施例中两个循环一致性生成对抗网络的示意图。如图9所述,将源域图像X送入第一生成器GX-Y,得到源域图像X映射到目标域的第一映射图像G(X),将第一映射图像G(X)送入到第二生成器FY-X重新将第一映射图像G(X)映射到源域,得到第一重建图像F(G(X))。
将目标域图像Y以及第一映射图像G(X)送入第一判别器DY,计算得到一个判别损失(GAN损失)LGAN(G,DY,X,Y),该判别损失定义为第一判别损失。计算源域图像X与第一重建图像F(G(X))之间的重建损失Cyclic Loss,定义该重建损失为第一重建损失。
步骤S330:获取所述源域图像的边缘图像与所述第一映射图像之间的边缘损失作为第一边缘损失。
如图9所示,将源域图像X送入边缘检测模块,边缘检测模块生成源域图像X的边缘图像Ed(X)。计算边缘图像Ed(X)和第一映射图像G(X)之间的边缘损失Edge Loss,定义该边缘损失为第一边缘损失。
步骤S340:将所述源域图像以及所述目标域图像输入第二循环一致性生成对抗网络,通过所述第二生成器生成所述目标域图像映射到所述源域的第二映射图像,通过所述第一生成器生成由所述第二映射图像映射到目标域的第二重建图像,根据所述第二判别器的判别结果获取所述第二映射图像与所述目标域图像之间的判别损失作为第二判别损失,以及获取所述源域图像与所述第二重建图像之间的重建损失作为第二重建损失。
如图9所述,将目标域图像Y送入第二生成器FY-X,得到目标域图像Y映射到源域的第二映射图像F(Y),将第二映射图像F(Y)送入到第一生成器GX-Y重新将第二映射图像F(Y)映射到目标域,得到第二重建图像G(F(Y))。
将源域图像X以及第二映射图像F(Y)送入第二判别器DX,计算得到一个判别损失(GAN损失)LGAN(G,DX,X,Y),该判别损失定义为第二判别损失。
计算目标域图像Y与第二重建图像G(F(Y))之间的重建损失Cyclic Loss,定义该重建损失为第二重建损失。
在本申请实施例中第一生成器、第二生成器、第一判别器以及第二判别器可以均使用卷积神经网络实现。生成器可以都使用“Encoder-Decoder”风格的12层全卷积神经网络,下采样使用步长为2的卷积,上采样阶段使用转置卷积实现。两个判别器可以使用一个5层深的全卷积神经网络。
在本申请实施例中,步骤S340与步骤S330以及步骤S320之间的先后顺序并不限定。
步骤S350:获取所述目标域图像的边缘图像与所述第二映射图像之间的边缘损失作为第二边缘损失。
如图9所示,将目标域图像Y送入边缘检测模块,边缘检测模块生成目标域图像Y的边缘图像Ed(Y)。计算边缘图像Ed(Y)和第二映射图像F(Y)之间的边缘损失Edge Loss,定义该边缘损失为第二边缘损失。
边缘检测模块可以采用边缘检测算法对图像进行边缘检测,例如通过Sobel算子实现边缘检测。Sobel算子的公式包括and该公式中,Gx表示横向边缘检测的图像,Gy表示纵向边缘检测的图像,A表示被边缘检测的图像。图像的每一个像素的横向及纵向梯度近似值可用以下的公式结合具体通过Sobel算子检测图像的边缘获得边缘图像的方式在本申请实施例中并不进行赘述。
在本申请实施例中,步骤S350与步骤S330以及步骤S320之间的先后顺序并不限定,步骤S350执行于步骤S340之后。
步骤S360:根据所述第一判别损失、第二判别损失、第一重建损失、第二重建损失、第一边缘损失以及第二边缘损失的和对所述第一循环一致性生成对抗网络中的第一生成器、第二生成器、第一判别器以及所述第二循环一致性生成对抗网络中的第一生成器、第二生成器以及第二判别器进行优化。
对所有损失求和,并对整个网络执行反向传播算法来更新参数。
其中,可以按如下公式所示的优化方式进行优化:
在该优化公式中,Dx表示第二判别器,DY表示第一判别器,G表示第一生成器,F表示第二生成器。优化时,最大化Dx,DY的损失,最小化G,F上的损失,通过反向传播算法更新生成器以及判别器的参数。
其中,L(G,F,DX,DY)为表示所有损失之和的损失函数。损失函数具体为
L(G,F,DX,DY)=LGAN(G,DY,X,Y)+LGAN(F,DX,X,Y)+λcycLcyc(G,F)+λedgeLedge(G,F)
其中,第一判别损失LGAN(G,DY,X,Y)的具体公式为:
第二判别损失LGAN(F,DX,X,Y)的具体公式为:
其中,判别损失是一个0,1的二分类损失,第一判别损失用于确保能够正确地执行源域到目标域的映射,第二判别损失用于确保能够正确地执行目标域到源域的映射。以第一判别损失LGAN(G,DY,X,Y)为例,第一判别器DY的作用是判断收到的图片是否属于目标域。DY(y)是第一判别器DY收到目标域图像Y后将其判断为真实的目标域的图像的概率,而DY(G(x))是第一判别器DY收到第一映射图像G(X)后将其判断为真实的目标域的图像的概率。
因为目标域图像Y本身就是真实的目标域的图像,所以对于第一判别器DY而言,DY(y)的值越接近1越好,表示第一判别器DY的性能越好。由于第一映射图像G(X)本身不是真实的目标域的图像,而是生成的目标域的图像,所以,对于第一判别器DY而言,DY(G(x))越小越好,表示第一判别器DY的性能越好。从而,对于第一判别器DY而言,第一判别损失LGAN(G,DY,X,Y)越大越好,所以最大化第一判别器DY的第一判别损失LGAN(G,DY,X,Y),可以获得更好的判别器DY
同理,对于第二判别器Dx而言,第二判别损失LGAN(F,DX,X,Y)越大越好,所以最大化第二判别器Dx的第二判别损失LGAN(F,DX,X,Y)可以获得能获得的最好性能的第二判别器Dx。从而,在优化过程中,最大化Dx,Dy的损失。
另外,对于生成器而言,生成的图像越接近真实越好。例如,对于第一生成器GX-Y,生成的第一映射图像G(X)被第一判别器DY进行判别后的判别结果DY(G(x))越接近1,表示该第一生成器GX-Y的性能越好。因此,对于第一生成器GX-Y而言,DY(G(x))越大表示第一生成器GX-Y的性能越好,则第一判别损失LGAN(G,DY,X,Y)越小越好,即最小化第一生成器GX-Y的损失,可以获得性能更好的第一生成器GX-Y
同理,对于第二生成器FY-X,第二生成器FY-X的性能越好,则第二判别损失LGAN(F,DX,X,Y)越小,即最小化第二生成器FY-X的损失,可以获得性能更好的第二生成器FY-X。从而,在优化过程中,最大化生成器的损失,即G,F上的损失,获得能达到的最好性能的生成器。其中,生成器的性能越好,生成的图像越真实,例如性能越好的第一生成器,生成的从源域映射到目标域的图像,越接近真实的目标域的图像,具有更丰富的目标域的图像的特征。
另外,λcycLcyc(G,F)表示第一重建损失以及第二重建损失,λcycLcyc(G,F)的具体公式可以是:
其中,F(G(x))表示第一重建图像,G(F(y))表示第二重建图像,x表示源域图像,y表示目标域图像。如图10示出了一种重建损失的示意图,重建损失采用L1距离衡量源域图像与源域图像映射到目标域再映射回到源域的图像之间的相似性,采用L1距离衡量目标域图像与目标域图像映射到源域再映射回到目标域的图像之间的相似性。第一重建损失用于确保从目标域到源域的映射,第二重建损失用于确保从源域到目标域的映射,期望重建损失尽量小,从而图像经过两次映射之后应当尽可能相似,即期望源域图像与第一重建图像应当尽可能相似,目标域图像与第二重建图像应当尽可能相似。
λedgeLedge(G,F)表示边缘损失,为第一边缘损失以及第二边缘损失之和,边缘损失的具体公式可以是:
λedgeLedge(G,F)=E[||G(x)-Ed(X)||1]+E[||F(Y)-Ed(Y)||1]
边缘损失的计算是生成电子文档的关键所在。该边缘损失采用L1距离衡量通过生成器生成的图像与原图的边缘图像的差异,即衡量源域图像的边缘图像与第一映射图像之间的差异,衡量目标域图像的边缘图像与第二映射图像之间的差异。由于执行的任务是文档图像的处理,若是去除掉边缘检测模块以及边缘损失,则由于生成式对抗网络本身的缺陷,即擅长处理纹理而并不擅长处理形变,通过源域映射到目标域的生成器进行处理将得到如图4b的结果,即只学习到风格而未学习到形变,这与本申请想要获得的文档生成器相违背。因此,边缘检测模块和边缘损失可以保留字体的边缘以及字形。
在优化过程中,根据该第一判别损失进行优化后,确定第一生成器能正确地执行源域到目标域的映射。根据该第一重建损失进行优化后,确保第二生成器能正确地执行目标域到源域的映射。根据该第一边缘损失进行优化后,确保生成的目标域的图像的边缘不改变。根据该第二判别损失进行优化后,确定第二生成器能正确地执行目标域到源域的映射。根据该第二重建损失进行优化后,确保第一生成器能正确地执行源域到目标域的映射。根据该第二边缘损失进行优化后,确保生成的源域的图像的边缘不改变。
步骤S370:判断所述第一循环一致性生成对抗网络以及所述第二循环一致性生成对抗网络是否收敛。若否,执行步骤S310;若是,执行步骤S380。
在一个训练周期中,每个循环都可以判定所述第一循环一致性生成对抗网络以及所述第二循环一致性生成对抗网络是否收敛。
可选的,判定所述第一循环一致性生成对抗网络以及所述第二循环一致性生成对抗网络是否收敛的方式可以是,判断最近预设次数的循环中,所有损失的和是否稳定在预设的数值区间内;或者是,判断最近预设次数的循环中,所有损失的和的波动范围是否在预设范围内。当然也可能是其他判定方式。
步骤S380:确定所述第一生成器为文档生成器。
在本申请实施例中,重复执行步骤S310至步骤S370,直至两个循环一致性生成对抗网络收敛,以第一生成器作为文档生成器。
可以理解的,在本申请实施例中,想要将拍摄的文档图像生成哪种风格的图像,则以想要生成的风格的图像作为第二图像集中目标域的图像,对循环一致性生成对抗网络进行训练。
在本申请实施例中,通过对生成器相同的两个循环一致性生成对抗网络进行训练,获得的第一生成器的性能更好,从而能将源域图像映射到目标域后,获得的映射图像的字迹更加清晰。
本申请实施例还提供了一种文档生成方法,用于根据前述方法获得的文档生成器生成电子文档图像。具体的,请参见图11,该文档生成方法包括:
步骤S410:获取拍摄纸质文档获得的文档图像。
该纸质文档为需要进行数字化的文档,即需要转换为电子文档形式的文档,获得更清晰的字迹,且去除污渍、墨迹浸润等噪声。拍摄该纸质文档获得文档图像,该文档图像为图像域在源域的图像。
步骤S420:将所述文档图像输入所述文档生成器。
步骤S430:以所述文档生成器生成的图像作为所述文档图像对应的电子文档图像。
经过前述实施例的训练,文档生成器能将源域的图像映射到目标域,具有如图5所示的目标域图像所具有的风格,且能保留源域的图像中的文字内容。因此,将该文档图像输入前述实施例获得的文档生成器,该文档生成器生成的图像为文档图像映射到目标域的图像,字迹清晰,且各种墨迹浸润、污点等各种噪声都被去除,实现文档页面的美化,生成的图像可以更像Word打印文件。
例如图1a为拍摄一页古籍获得的文档图像,将该文档图像输入文档生成器获得的电子文档如图1b所示。
另外,在本申请实施例中,若想要生成文档图像中文字的边缘图像,则可以将循环一致性生成对抗网络中的边缘检测模块作为文档生成器。由于在训练过程中,通过边缘损失进行优化,从而边缘检测模块能根据输入的文档图像生成良好的边缘图像,获得文档图像中文字的边缘特征。
可选的,在本申请实施例中,在获得电子文档图像后,由于电子文档图像的字迹清晰,可以进一步对该电子文档图像进行处理,如OCR识别,获得该电子文档图像中的文字内容,从而转换为可编辑形式的电子文档。
本申请实施例提供的文档生成方法,通过训练获得的文档生成器生成电子文档,实现了对文档图像进行二值化处理、墨迹浸润处理以及污点处理等在内的综合性处理。将整个古籍文档图像处理方法黑盒化,无需设计复杂的阈值算法,只需要在获取文档生成器的过程中,通过控制第二图像集的中图像的风格,或者说第二图像集中图像的图像域,或者说第二图像集中图像的基本特征,即可获得可以产生需要的文档图像效果的生成器,从而获得需要的文档图像效果。
本方案的文档生成器的获取方法,文档生成方法,具有较好泛化性,可以处理多种字体的文档图像,如多种古籍文档图像,可以用于手写体复刻古籍文档,比如将已影印的古人书法文档,复刻成书,而不需人工模仿,也无需使用古籍原本。
其中,在构造第二图像集的基础上,采用无监督深度学习的方法,不对第二图像集有文字内容和字形等等的匹配要求,只需要将想要的图像效果、图像风格通过构造第二图像集的方式表达出来即可,大大降低了数据集构造的难度。
另外,在模型和损失函数构建上,运用了边缘检测模块和边缘损失,以克服生成式对抗网络不擅长处理形变的缺点。
如图12所示,本申请实施例还提供了一种文档生成器的获取装置400,该文档生成器用于根据拍摄的文档图像生成电子文档图像,该装置400包括图像选取模块410,第一损失获取模块420,第二损失获取模块430,优化模块440以及确定模块450。
其中,图像选取模块410用于从第一图像集选取一个图像作为源域图像,从第二图像集选取一个图像作为目标域图像,所述第一图像集包括拍摄的多个文档图像,所述第二图像集包括多个电子文档的图像,定义第一图像集中的图像所在的图像域为源域,定义第二图像集中的图像所在的图像域为目标域。第一损失获取模块420用于将所述源域图像以及所述目标域图像输入循环一致性生成对抗网络,生成由所述源域图像映射到所述目标域的映射图像以及由所述映射图像映射到源域的重建图像,并获取所述映射图像与所述目标域图像之间的判别损失以及所述源域图像与所述重建图像之间的重建损失。第二损失获取模块430用于获取所述源域图像的边缘图像与所述映射图像之间的边缘损失。优化模块440用于根据所述判别损失、重建损失以及边缘损失的和对所述循环一致性生成对抗网络中的生成器以及判别器进行优化。确定模块450,用于根据优化后的循环一致性生成对抗网络获得文档生成器。
可选的,在该装置400中,循环执行所述从第一图像集选取一个图像作为源域图像,从第二图像集选取一个图像作为目标域图像的步骤,至所述根据所述判别损失、重建损失以及边缘损失的和对所述循环一致性生成对抗网络中的生成器以及判别器进行优化的步骤,直至所述循环一致性生成对抗网络收敛时,确定模块450可以用于以由源域图像生成目标域图像的生成器作为所述文档生成器。
可选的,该装置还可以包括另一循环一致性生成对抗网络,所述另一循环一致性生成对抗网络的生成器与所述循环一致性生成对抗网络的生成器相同。该装置还可以包括第三损失获取模块,用于将所述源域图像以及所述目标域图像输入另一循环一致性生成对抗网络,生成由所述目标域图像映射到所述源域的另一映射图像以及由所述另一映射图像映射到目标域的另一重建图像,并获取所述另一映射图像与所述目标域图像之间的判别损失,以及获取所述源域图像与所述另一重建图像之间的重建损失。第四损失获取模块,用于获取所述目标域图像的边缘图像与所述另一映射图像之间的边缘损失。优化模块440用于根据所有的判别损失、重建损失以及边缘损失的和对所述循环一致性生成对抗网络以及所述另一循环一致性生成对抗网络中的生成器以及判别器进行优化。
可选的,优化模块440可以用于最大化判别器的损失,最小化生成器的损失,将所述判别损失、重建损失以及边缘损失的和通过反向传播算法对所述循环一致性生成对抗网络中的生成器的参数以及判别器的参数进行优化。
可选的,第二损失获取模块430可以用于对所述源域图像进行边缘检测,获得所述源域图像的边缘图像;计算所述源域图像的边缘图像与所述映射图像之间的边缘损失:Ledge(G)=E[||G(x)-Ed(X)||1],其中,所述G(X)表示源域图像的映射图像,Ed(X)表示源域图像的边缘图像。
可选的,该装置还可以包括增强模块,用于对所述第一图像集以及所述第二图像集中的图像进行增强处理,以增加第一图像集中的数据量以及所述第二图像集中的数据量。
可选的,该装置还可以包括图像获取模块,用于以拍摄的多个纸质文档的图像作为所述第一图像集中的图像;按照所述纸质文档的文字排列方式,编辑文字大小在所述纸质文档中文字大小的预设范围内的多个电子文档;获取所述多个电子文档的图像作为所述第二图像集中的图像。
另外,如图13所述,本申请实施例还提供了一种文档生成装置500。该文档生成装置用于根据前述实施例获得的文档生成器生成电子文档图像。具体的,该装置500包括:原始图像获取模块510,用于获取拍摄纸质文档获得的文档图像;输入模块520,用于将所述文档图像输入所述文档生成器;以及生成模块530,用于以所述文档生成器生成的图像作为所述文档图像对应的电子文档图像。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,模块相互之间的耦合可以是电性,机械或其它形式的耦合。
另外,在本申请各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。本申请实施例中各种实施方式都可以有对应的模块进行实现,本申请实施例中不再一一进行对应赘述。
请参考图14,其示出了本申请实施例提供的一种电子设备600的结构框图。该电子设备600可以是手机、平板电脑、膝上电脑以及电子书等智能设备。该电子设备600可以包括存储器610以及处理器620。所述存储器610耦接到所述处理器,所述存储器610存储指令,当所述指令由所述处理器620执行时,所述处理器执行上述一个或多个实施例所描述的方法。
处理器620可以包括一个或者多个处理核。处理器620利用各种接口和线路连接整个电子设备600内的各个部分,通过运行或执行存储在存储器610内的指令、程序、代码集或指令集,以及调用存储在存储器610内的数据,执行电子设备600的各种功能和处理数据。可选地,处理器620可以采用数字信号处理(Digital Signal Processing,DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列(Programmable LogicArray,PLA)中的至少一种硬件形式来实现。处理器620可集成中央处理器(CentralProcessing Unit,CPU)、图像处理器(Graphics Processing Unit,GPU)和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用程序等;GPU用于负责显示内容的渲染和绘制;调制解调器用于处理无线通信。可以理解的是,上述调制解调器也可以不集成到处理器620中,单独通过一块通信芯片进行实现。
存储器610可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。存储器610可用于存储指令、程序、代码、代码集或指令集,如用于实现本申请实施例提供的文档生成器的获取方法的指令或代码集。存储器610可包括存储程序区和存储数据区,其中,存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令、用于实现上述各个方法实施例的指令等。存储数据区还可以电子设备在使用中所创建的数据(比如电话本、音视频数据、聊天记录数据)等。
请参考图15,其示出了本申请实施例提供的一种计算机可读存储介质的结构框图。该计算机可读存储介质700中存储有程序代码,所述程序代码可被处理器调用执行上述方法实施例中所描述的方法。
计算机可读存储介质700可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。可选地,计算机可读存储介质700包括非易失性计算机可读介质(non-transitory computer-readable storage medium)。计算机可读存储介质800具有执行上述方法中的任何方法步骤的程序代码710的存储空间。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。程序代码710可以例如以适当形式进行压缩。
最后应说明的是:以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不驱使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims (12)

1.一种文档生成器的获取方法,其特征在于,所述文档生成器用于根据拍摄的文档图像生成电子文档图像,所述方法包括:
从第一图像集选取一个图像作为源域图像,从第二图像集选取一个图像作为目标域图像,所述第一图像集包括拍摄的多个文档图像,所述第二图像集包括多个电子文档的图像,定义第一图像集中的图像所在的图像域为源域,定义第二图像集中的图像所在的图像域为目标域;
将所述源域图像以及所述目标域图像输入循环一致性生成对抗网络,生成由所述源域图像映射到所述目标域的映射图像以及由所述映射图像映射到源域的重建图像,并获取所述映射图像与所述目标域图像之间的判别损失以及所述源域图像与所述重建图像之间的重建损失;
获取所述源域图像的边缘图像与所述映射图像之间的边缘损失;
根据所述判别损失、重建损失以及边缘损失的和对所述循环一致性生成对抗网络中的生成器以及判别器进行优化;
根据优化后的循环一致性生成对抗网络获得文档生成器。
2.根据权利要求1所述的方法,其特征在于,所述根据优化后的循环一致性生成对抗网络获得文档生成器,包括:
循环执行所述从第一图像集选取一个图像作为源域图像,从第二图像集选取一个图像作为目标域图像的步骤,至所述根据所述判别损失、重建损失以及边缘损失的和对所述循环一致性生成对抗网络中的生成器以及判别器进行优化的步骤,直至所述循环一致性生成对抗网络收敛时,以由源域图像生成目标域图像的生成器作为所述文档生成器。
3.根据权利要求1所述的方法,其特征在于,还包括另一循环一致性生成对抗网络,所述另一循环一致性生成对抗网络的生成器与所述循环一致性生成对抗网络的生成器相同,所述根据所述判别损失、重建损失以及边缘损失的和对所述循环一致性生成对抗网络中的生成器以及判别器进行优化之前,还包括:
将所述源域图像以及所述目标域图像输入另一循环一致性生成对抗网络,生成由所述目标域图像映射到所述源域的另一映射图像以及由所述另一映射图像映射到目标域的另一重建图像,并获取所述另一映射图像与所述目标域图像之间的判别损失,以及获取所述源域图像与所述另一重建图像之间的重建损失;
获取所述目标域图像的边缘图像与所述另一映射图像之间的边缘损失;
所述根据所述判别损失、重建损失以及边缘损失的和对所述循环一致性生成对抗网络中的生成器以及判别器进行优化包括:
根据所有的判别损失、重建损失以及边缘损失的和对所述循环一致性生成对抗网络以及所述另一循环一致性生成对抗网络中的生成器以及判别器进行优化。
4.根据权利要求1或2所述的方法,其特征在于,所述根据所述判别损失、重建损失以及边缘损失的和对所述循环一致性生成对抗网络中的生成器以及判别器进行优化,包括:
最大化判别器的损失,最小化生成器的损失,将所述判别损失、重建损失以及边缘损失的和通过反向传播算法对所述循环一致性生成对抗网络中的生成器的参数以及判别器的参数进行优化。
5.根据权利要求1所述的方法,其特征在于,所述获取所述源域图像的边缘图像与所述映射图像之间的边缘损失,包括:
对所述源域图像进行边缘检测,获得所述源域图像的边缘图像;
计算所述源域图像的边缘图像与所述映射图像之间的边缘损失:
Ledge(G)=E[||G(x)-Ed(X)||1],
其中,所述G(X)表示源域图像的映射图像,Ed(X)表示源域图像的边缘图像。
6.根据权利要求1所述的方法,其特征在于,所述从第一图像集选取一个图像作为源域图像,从第二图像集选取一个图像作为目标域图像之前,还包括:
对所述第一图像集以及所述第二图像集中的图像进行增强处理,以增加第一图像集中的数据量以及所述第二图像集中的数据量。
7.根据权利要求1所述的方法,其特征在于,所述从第一图像集选取一个图像作为源域图像,从第二图像集选取一个图像作为目标域图像之前,还包括:
以拍摄的多个纸质文档的图像作为所述第一图像集中的图像;
按照所述纸质文档的文字排列方式,编辑文字大小在所述纸质文档中文字大小的预设范围内的多个电子文档;
获取所述多个电子文档的图像作为所述第二图像集中的图像。
8.一种文档生成方法,其特征在于,用于根据权利有要求1-7任一项所述的方法获取的文档生成器生成电子文档图像,所述方法包括:
获取拍摄纸质文档获得的文档图像;
将所述文档图像输入所述文档生成器;
以所述文档生成器生成的图像作为所述文档图像对应的电子文档图像。
9.一种文档生成器的获取装置,其特征在于,所述文档生成器用于根据拍摄的文档图像生成电子文档图像,所述装置包括:
图像选取模块,用于从第一图像集选取一个图像作为源域图像,从第二图像集选取一个图像作为目标域图像,所述第一图像集包括拍摄的多个文档图像,所述第二图像集包括多个电子文档的图像,定义第一图像集中的图像所在的图像域为源域,定义第二图像集中的图像所在的图像域为目标域;
第一损失获取模块,用于将所述源域图像以及所述目标域图像输入循环一致性生成对抗网络,生成由所述源域图像映射到所述目标域的映射图像以及由所述映射图像映射到源域的重建图像,并获取所述映射图像与所述目标域图像之间的判别损失以及所述源域图像与所述重建图像之间的重建损失;
第二损失获取模块,用于获取所述源域图像的边缘图像与所述映射图像之间的边缘损失;
优化模块,用于根据所述判别损失、重建损失以及边缘损失的和对所述循环一致性生成对抗网络中的生成器以及判别器进行优化;
确定模块,用于根据优化后的循环一致性生成对抗网络获得文档生成器。
10.一种文档生成装置,其特征在于,用于根据权利有要求1-7任一项所述的方法获取的文档生成器生成电子文档图像,或者用于根据权利有要求9所述的装置获取的文档生成器生成电子文档图像,所述装置包括:
原始图像获取模块,用于获取拍摄纸质文档获得的文档图像;
输入模块,用于将所述文档图像输入所述文档生成器;
生成模块,用于以所述文档生成器生成的图像作为所述文档图像对应的电子文档图像。
11.一种电子设备,其特征在于,包括存储器以及处理器,所述存储器耦接到所述处理器,所述存储器存储指令,当所述指令由所述处理器执行时,所述处理器执行如权利要求1-7任一项所述的方法;或者
当所述指令由所述处理器执行时,所述处理器执行如权利要求8所述的方法。
12.一种计算机可读取存储介质,其特征在于,所述计算机可读取存储介质中存储有程序代码,所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法;或者
所述程序代码可被处理器调用执行如权利要求8所述的方法。
CN201910770061.9A 2019-08-20 2019-08-20 文档生成器的获取方法、文档生成方法、装置及电子设备 Active CN110516202B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910770061.9A CN110516202B (zh) 2019-08-20 2019-08-20 文档生成器的获取方法、文档生成方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910770061.9A CN110516202B (zh) 2019-08-20 2019-08-20 文档生成器的获取方法、文档生成方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN110516202A true CN110516202A (zh) 2019-11-29
CN110516202B CN110516202B (zh) 2023-05-30

Family

ID=68626891

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910770061.9A Active CN110516202B (zh) 2019-08-20 2019-08-20 文档生成器的获取方法、文档生成方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN110516202B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111325660A (zh) * 2020-02-20 2020-06-23 中国地质大学(武汉) 一种基于文本数据的遥感图像风格转换方法
WO2021114130A1 (zh) * 2019-12-11 2021-06-17 中国科学院深圳先进技术研究院 一种无监督自适应乳腺病变分割方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108615073A (zh) * 2018-04-28 2018-10-02 北京京东金融科技控股有限公司 图像处理方法及装置、计算机可读存储介质、电子设备
CN110097059A (zh) * 2019-03-22 2019-08-06 中国科学院自动化研究所 基于生成对抗网络的文档图像二值化方法、系统、装置
US20190251401A1 (en) * 2018-02-15 2019-08-15 Adobe Inc. Image composites using a generative adversarial neural network

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190251401A1 (en) * 2018-02-15 2019-08-15 Adobe Inc. Image composites using a generative adversarial neural network
CN108615073A (zh) * 2018-04-28 2018-10-02 北京京东金融科技控股有限公司 图像处理方法及装置、计算机可读存储介质、电子设备
CN110097059A (zh) * 2019-03-22 2019-08-06 中国科学院自动化研究所 基于生成对抗网络的文档图像二值化方法、系统、装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林懿伦等: "人工智能研究的新前线:生成式对抗网络", 《自动化学报》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021114130A1 (zh) * 2019-12-11 2021-06-17 中国科学院深圳先进技术研究院 一种无监督自适应乳腺病变分割方法
CN111325660A (zh) * 2020-02-20 2020-06-23 中国地质大学(武汉) 一种基于文本数据的遥感图像风格转换方法

Also Published As

Publication number Publication date
CN110516202B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN110516201A (zh) 图像处理方法、装置、电子设备及存储介质
CN110516577A (zh) 图像处理方法、装置、电子设备及存储介质
Gokaslan et al. Improving shape deformation in unsupervised image-to-image translation
Rosin Training cellular automata for image processing
CN110378985B (zh) 一种基于gan的动漫绘画辅助创作方法
Simo-Serra et al. Real-time data-driven interactive rough sketch inking
US9449253B2 (en) Learning painting styles for painterly rendering
Zamuda et al. Vectorized procedural models for animated trees reconstruction using differential evolution
JP6929322B2 (ja) データ拡張システム、データ拡張方法、及びプログラム
TW202013311A (zh) 一種圖像處理方法、電子設備及存儲介質
CN111243050A (zh) 肖像简笔画生成方法、系统及绘画机器人
CN110516202A (zh) 文档生成器的获取方法、文档生成方法、装置及电子设备
Bridger et al. Solving jigsaw puzzles with eroded boundaries
CN110097616A (zh) 一种联合绘画方法、装置、终端设备及可读存储介质
CN108171650B (zh) 一种具有笔画优化功能中国花卉水墨画风格笔画生成方法
Han et al. Decomposed cyclegan for single image deraining with unpaired data
CN110110829A (zh) 一种二维码处理方法及装置
CN116822548B (zh) 生成高识别率ai二维码的方法及计算机可读存储介质
Lin Comparative Analysis of Pix2Pix and CycleGAN for image-to-image translation
CN109492735A (zh) 二维码生成方法及计算机可读存储介质
CN113077383B (zh) 一种模型训练方法及模型训练装置
CN112861884B (zh) 一种基于深度学习的服饰图像外观属性修改方法
CN112529978A (zh) 一种人机交互式抽象画生成方法
CN111862253A (zh) 一种基于深度卷积生成对抗网络的草图着色方法及系统
Gigilashvili et al. Computational techniques for virtual reconstruction of fragmented archaeological textiles

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant