CN111598075A - 图片生成方法、设备及可读存储介质 - Google Patents
图片生成方法、设备及可读存储介质 Download PDFInfo
- Publication number
- CN111598075A CN111598075A CN202010446590.6A CN202010446590A CN111598075A CN 111598075 A CN111598075 A CN 111598075A CN 202010446590 A CN202010446590 A CN 202010446590A CN 111598075 A CN111598075 A CN 111598075A
- Authority
- CN
- China
- Prior art keywords
- picture
- discriminator
- true
- false
- ocr
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 86
- 238000004088 simulation Methods 0.000 claims abstract description 113
- 238000012549 training Methods 0.000 claims abstract description 108
- 238000005457 optimization Methods 0.000 claims abstract description 51
- 238000012545 processing Methods 0.000 claims abstract description 46
- 230000008569 process Effects 0.000 claims abstract description 38
- 238000012015 optical character recognition Methods 0.000 claims description 291
- 230000006870 function Effects 0.000 claims description 134
- 230000011218 segmentation Effects 0.000 description 14
- 230000000694 effects Effects 0.000 description 13
- 238000004891 communication Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 3
- 125000004122 cyclic group Chemical group 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012512 characterization method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种图片生成方法、装置、设备及可读存储介质,该方法包括:调用生成器对仿真图片和真实图片分别处理,生成与仿真图片对应的第一图片和第二图片,以及与真实图片对应的第三图片和第四图片;根据仿真图片与第二图片,真实图片与第四图片,对生成器优化训练;调用判别器对真实图片和第一图片,以及第三图片与仿真图片分别进行辨别,并基于辨别结果对辨别器进行优化训练;在生成器和辨别器均训练完成后,得到目标生成器,以基于目标生成器对接收的待处理图片进行处理,生成多张最终图。本发明通过目标生成器生成的包含生僻字的最终图片兼顾了随机性、可控性和准确性,实现快速准确的生成大量包含生僻字的最终图片。
Description
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及一种图片生成方法、设备及可读存储介质。
背景技术
随着金融科技(Fintech),尤其是互联网科技金融的不断发展,越来越多的技术(如人工智能、大数据、云存储等)应用在金融领域,但金融领域也对各类技术提出了更高的要求,如要求快速准确的生成大量用于模型训练的生僻字图片,以提升模型对生僻字识别的准确性。
证件文字识别过程中对于生僻字的识别依赖于大量的标注数据,但是自然语言的语料库中生僻字的占比远远不足,甚至出现识别过程中的生僻字未存在于训练集中的情况。当前生僻字图片主要有基于规则生成和基于对抗网络生成;其中,对于基于规则,其从实际使用的真实文件上截取无文字部分作为背景,将生僻字打印在背景上,并通过添加模糊、噪声等方式来让生成的图片更接近真实数据;但该生成的图片与真实图片仍然具有较大的差异性,使得真实图片的泛化能力很差,影响训练后识别的准确性。对于对抗网络,其所生成的内容具有不可控性或者缺少随机性,可能生成不包含生僻字的文字图片,或者每次训练均生成相同的图片。
因此,如何快速准确的生成大量生僻字图片是当前亟待解决的技术问题。
发明内容
本发明的主要目的在于提供一种图片生成方法、设备及可读存储介质,旨在解决现有技术中难以快速准确的生成大量生僻字图片的技术问题。
为实现上述目的,本发明提供一种图片生成方法,所述图片生成方法包括以下步骤:
调用生成器对仿真图片和真实图片分别处理,生成与所述仿真图片对应的第一图片和第二图片,以及与所述真实图片对应的第三图片和第四图片;
根据所述仿真图片与所述第二图片,所述真实图片与所述第四图片,对所述生成器优化训练;
调用判别器对所述真实图片和第一图片,以及所述第三图片与仿真图片分别进行辨别,并基于辨别结果对所述辨别器进行优化训练;
在所述生成器和所述辨别器均训练完成后,得到目标生成器,以基于所述目标生成器对接收的待处理图片进行处理,生成多张最终图片。
可选地,所述判别器包括第一真假判别器和第二真假判别器;
所述调用判别器对所述真实图片和第一图片,以及所述第三图片与仿真图片分别进行辨别,并基于辨别结果对所述辨别器进行优化训练的步骤包括:
基于第二真假判别器对真实图片和第一图片进行辨别,生成所述第二真假判别器中第二交叉熵损失函数的第二真假损失值,并基于第一真假判别器对第三图片与仿真图片进行辨别,生成第一真假判别器中第一交叉熵损失函数的第一真假损失值;
根据所述第一真假损失值和所述第二真假损失值,对所述判别器进行优化训练。
可选地,所述基于第二真假判别器对真实图片和第一图片进行辨别,生成所述第二真假判别器中第二交叉熵损失函数的第二真假损失值,并基于第一真假判别器对第三图片与仿真图片进行辨别,生成第一真假判别器中第一交叉熵损失函数的第一真假损失值的步骤包括:
将所述生成器的参数固定不变,并将所述第一图片标记为伪域图片后传输到第二真假判别器,对标记后的所述第一图片进行真假辨别,生成第一辨别结果;
基于所述第二真假辨别器对真实图片和第一图片进行区分辨别,生成第二辨别结果,并根据所述第一辨别结果和所述第二辨别结果,生成所述第二真假判别器中第二交叉熵损失函数的第二真假损失值;
将所述第三图片标记为真域图片后传输到第一真假判别器,对标记后的所述第三图片进行真假辨别,生成第三辨别结果;
基于所述第一真假辨别器对第三图片与仿真图片进行区分辨别,生成第四辨别结果,并根据所述第三辨别结果和所述第四辨别结果,生成所述第一真假判别器中第一交叉熵损失函数的第一真假损失值。
可选地,所述判别器还包括第一OCR判别器和第二OCR判别器,所述根据所述第一真假损失值和所述第二真假损失值,对所述判别器进行优化训练的步骤包括:
基于所述第一OCR判别器识别所述仿真图片和所述第三图片中的文字,生成第一OCR判别器中第一损失函数的第一OCR损失值,并基于所述第二OCR判别器识别所述真实图片与所述第一图片中的文字,生成第二OCR判别器中第二损失函数的第二OCR损失值;
判断所述第一真假损失值和所述第二真假损失值是否均小于预设交叉熵阈值,以及所述第一OCR损失值和所述第二OCR损失值是否均小于预设函数阈值;
若所述第一真假损失值和所述第二真假损失值均小于预设交叉熵阈值,且所述第一OCR损失值和所述第二OCR损失值均小于预设函数阈值,则完成所述判别器的训练;
若所述第一真假损失值和所述第二真假损失值中存在任意一项不小于预设交叉熵阈值,或者所述第一OCR损失值和第二OCR损失值中存在任意一项不小于预设函数阈值,则执行调用生成器对仿真图片和真实图片分别处理,生成与所述仿真图片对应的第一图片和第二图片的步骤,以对所述判别器优化训练。
可选地,所述基于所述第一OCR判别器识别所述仿真图片和所述第三图片中的文字,生成第一OCR判别器中第一损失函数的第一OCR损失值,并基于所述第二OCR判别器识别所述真实图片与所述第一图片中的文字,生成第二OCR判别器中第二损失函数的第二OCR损失值的步骤包括:
将所述生成器的参数固定不变,并将所述第三图片中的文字标记为真域的真实文字后传输到第一OCR判别器,对标记后的所述第三图片中的文字进行真假识别,生成第一识别结果;
基于所述第一OCR判别器对所述仿真图片和所述第三图片中的文字进行区分识别,生成第二识别结果,并根据所述第一识别结果和所述第二识别结果,生成所述第一OCR判别器中第一损失函数的第一OCR损失值;
将所述第一图片中的文字标记为真域的仿真文字后传输到第二OCR判别器,对标记后的所述第一图片中的文字进行真假识别,生成第三识别结果;
基于所述第二OCR判别器对所述真实图片和所述第一图片中的文字进行区分识别,生成第四识别结果,并根据所述第三识别结果和所述第四识别结果,生成所述第二OCR判别器中第二损失函数的第二OCR损失值。
可选地,所述根据所述仿真图片与所述第二图片,所述真实图片与所述第四图片,对所述生成器优化训练的步骤包括:
将所述判别器中的参数固定不变,根据所述仿真图片与所述第二图片之间的相似度,以及所述真实图片与所述第四图片之间的相似度,确定所述生成器中距离损失函数的距离函数值;
判断所述距离函数值是否小于预设距离阈值,若小于预设距离阈值,则完成所述生成器的优化训练;
若不小于预设距离阈值,则基于所述第一真假判别器、第二真假判别器、第一OCR判别器和第二OCR判别器对所述生成器进行优化训练。
可选地,所述基于所述第一真假判别器、第二真假判别器、第一OCR判别器和第二OCR判别器对所述生成器进行优化训练的步骤包括:
将所述第一图片传输到第二真假判别器进行处理,得到第一梯度,并基于所述第二OCR判别器识别所述第一图片中的文字,得到第二梯度;
将所述第一梯度和所述第二梯度传输到生成器,以更新所述生成器中的参数,并执行调用生成器对仿真图片和真实图片分别处理,生成与所述仿真图片对应的第一图片和第二图片的步骤;
将所述第三图片传输到第一真假判别器进行处理,得到第三梯度,并基于所述第一OCR判别器识别所述第三图片中的文字,得到第四梯度;
将所述第三梯度和所述第四梯度传输到生成器,以更新所述生成器中的参数,并执行调用生成器对仿真图片和真实图片分别处理,生成与所述真实图片对应的第三图片和第四图片的步骤,以对所述生成器优化训练。
可选地,所述将所述第一图片传输到第二真假判别器进行处理,得到第一梯度,并基于所述第二OCR判别器识别所述第一图片中的文字,得到第二梯度的步骤包括:
将所述第一图片标记为真实后传输到第二真假判别器进行辨别,生成第一梯度;
将所述第一图片中的文字标记为真实文字后传输到第二OCR判别器进行识别,生成第二梯度。
可选地,所述调用生成器对仿真图片和真实图片分别处理的步骤之前,所述方法包括:
获取随机噪声,并对所述随机噪声进行编码,生成噪声编码;
基于所述生成器的待添加噪声层,将所述噪声编码转化为尺度因子和偏移因子,并根据所述尺度因子和偏移因子,生成风格噪声;
将所述风格噪声添加到各所述待添加噪声层中。
进一步地,为实现上述目的,本发明还提供一种图片生成装置,所述图片生成装置包括:
第一调用模块,用于调用生成器对仿真图片和真实图片分别处理,生成与所述仿真图片对应的第一图片和第二图片,以及与所述真实图片对应的第三图片和第四图片;
训练模块,用于根据所述仿真图片与所述第二图片,所述真实图片与所述第四图片,对所述生成器优化训练;
第二调用模块,用于调用判别器对所述真实图片和第一图片,以及所述第三图片与仿真图片分别进行辨别,并基于辨别结果对所述辨别器进行优化训练;
生成模块,用于在所述生成器和所述辨别器均训练完成后,得到目标生成器,以基于所述目标生成器对接收的待处理图片进行处理,生成多张最终图片。
进一步地,为实现上述目的,本发明还提供一种图片生成设备,所述图片生成设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的图片生成程序,所述图片生成程序被所述处理器执行时实现如上述所述的图片生成方法的步骤。
进一步地,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有图片生成程序,所述图片生成程序被处理器执行时实现如上所述的图片生成方法的步骤。
本发明的图片生成方法,设置有基于经生成器和判别器训练所得到的目标生成器,来生成多张包含生僻字的图片的机制。先将携带有生僻字的真实图片生成为仿真图片,再调用生成器对仿真图片进行处理,生成第一图片和第二图片,并调用生成器器对真实图片进行处理,生成第三图片和第四图片;进而依据仿真图片与第二图片,真实图片与第四图片,对生成器优化训练;同时调用判别器对真实图片和第一图片,以及第三图片和仿真图片分别进行辨别,并根据辨别结果对辨别器进行优化训练;在生成器和辨别器均训练完成后,得到目标生成器。此后,获取用于生成生僻字图片的待处理图片,并通过目标生成器对其进行处理,生成为多张包含生僻字的最终图片。因生成器可添加各种类型的风格噪声,增加了经训练的目标生成器的随机性,且具有较好的变换效果;同时判别器可对图片中的文字进行识别对比,有利于经训练的目标生成器的准确性和可控性。因此通过目标生成器所生成的包含生僻字的最终图片兼顾了随机性、可控性和准确性,实现了快速准确的生成大量包含生僻字的最终图片。
附图说明
图1为本发明图片生成设备实施例方案涉及的设备硬件运行环境的结构示意图;
图2为本发明图片生成方法第一实施例的流程示意图;
图3为本发明图片生成装置较佳实施例的功能模块示意图;
图4为本发明图片生成方案一具体实施例的训练流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。
本发明提供一种图片生成设备,参照图1,图1为本发明图片生成设备实施例方案涉及的设备硬件运行环境的结构示意图。
如图1所示,该图片生成设备可以包括:处理器1001,例如CPU,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
本领域技术人员可以理解,图1中示出的图片生成设备的硬件结构并不构成对图片生成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及图片生成程序。其中,操作系统是管理和控制图片生成设备与软件资源的程序,支持网络通信模块、用户接口模块、图片生成程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1004;用户接口模块用于管理和控制用户接口1003。
在图1所示的图片生成设备硬件结构中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;处理器1001可以调用存储器1005中存储的图片生成程序,并执行以下操作:
调用生成器对仿真图片和真实图片分别处理,生成与所述仿真图片对应的第一图片和第二图片,以及与所述真实图片对应的第三图片和第四图片;
根据所述仿真图片与所述第二图片,所述真实图片与所述第四图片,对所述生成器优化训练;
调用判别器对所述真实图片和第一图片,以及所述第三图片与仿真图片分别进行辨别,并基于辨别结果对所述辨别器进行优化训练;
在所述生成器和所述辨别器均训练完成后,得到目标生成器,以基于所述目标生成器对接收的待处理图片进行处理,生成多张最终图片。
进一步地,所述判别器包括第一真假判别器和第二真假判别器,所述第一辨别结果包括第二真假损失值;
所述调用判别器对所述真实图片和第一图片,以及所述第三图片与仿真图片分别进行辨别,并基于辨别结果对所述辨别器进行优化训练的步骤包括:
基于第二真假判别器对真实图片和第一图片进行辨别,生成所述第二真假判别器中第二交叉熵损失函数的第二真假损失值,并基于第一真假判别器对第三图片与仿真图片进行辨别,生成第一真假判别器中第一交叉熵损失函数的第一真假损失值;
根据所述第一真假损失值和所述第二真假损失值,对所述判别器进行优化训练。
进一步地,所述基于第二真假判别器对真实图片和第一图片进行辨别,生成所述第二真假判别器中第二交叉熵损失函数的第二真假损失值,并基于第一真假判别器对第三图片与仿真图片进行辨别,生成第一真假判别器中第一交叉熵损失函数的第一真假损失值的步骤包括:
将所述生成器的参数固定不变,并将所述第一图片标记为伪域图片后传输到第二真假判别器,对标记后的所述第一图片进行真假辨别,生成第一辨别结果;
基于所述第二真假辨别器对真实图片和第一图片进行区分辨别,生成第二辨别结果,并根据所述第一辨别结果和所述第二辨别结果,生成所述第二真假判别器中第二交叉熵损失函数的第二真假损失值;
将所述第三图片标记为真域图片后传输到第一真假判别器,对标记后的所述第三图片进行真假辨别,生成第三辨别结果;
基于所述第一真假辨别器对第三图片与仿真图片进行区分辨别,生成第四辨别结果,并根据所述第三辨别结果和所述第四辨别结果,生成所述第一真假判别器中第一交叉熵损失函数的第一真假损失值。
进一步地,所述判别器还包括第一OCR判别器和第二OCR判别器,所述根据所述第一真假损失值和所述第二真假损失值,对所述判别器进行优化训练的步骤包括:
基于所述第一OCR判别器识别所述仿真图片和所述第三图片中的文字,生成第一OCR判别器中第一损失函数的第一OCR损失值,并基于所述第二OCR判别器识别所述真实图片与所述第一图片中的文字,生成第二OCR判别器中第二损失函数的第二OCR损失值;
判断所述第一真假损失值和所述第二真假损失值是否均小于预设交叉熵阈值,以及所述第一OCR损失值和所述第二OCR损失值是否均小于预设函数阈值;
若所述第一真假损失值和所述第二真假损失值均小于预设交叉熵阈值,且所述第一OCR损失值和所述第二OCR损失值均小于预设函数阈值,则完成所述判别器的训练;
若所述第一真假损失值和所述第二真假损失值中存在任意一项不小于预设交叉熵阈值,或者所述第一OCR损失值和第二OCR损失值中存在任意一项不小于预设函数阈值,则执行调用生成器对仿真图片和真实图片分别处理,生成与所述仿真图片对应的第一图片和第二图片的步骤,以对所述判别器优化训练。
进一步地,所述基于所述第一OCR判别器识别所述仿真图片和所述第三图片中的文字,生成第一OCR判别器中第一损失函数的第一OCR损失值,并基于所述第二OCR判别器识别所述真实图片与所述第一图片中的文字,生成第二OCR判别器中第二损失函数的第二OCR损失值的步骤包括:
将所述生成器的参数固定不变,并将所述第三图片中的文字标记为真域的真实文字后传输到第一OCR判别器,对标记后的所述第三图片中的文字进行真假识别,生成第一识别结果;
基于所述第一OCR判别器对所述仿真图片和所述第三图片中的文字进行区分识别,生成第二识别结果,并根据所述第一识别结果和所述第二识别结果,生成所述第一OCR判别器中第一损失函数的第一OCR损失值;
将所述第一图片中的文字标记为真域的仿真文字后传输到第二OCR判别器,对标记后的所述第一图片中的文字进行真假识别,生成第三识别结果;
基于所述第二OCR判别器对所述真实图片和所述第一图片中的文字进行区分识别,生成第四识别结果,并根据所述第三识别结果和所述第四识别结果,生成所述第二OCR判别器中第二损失函数的第二OCR损失值。
进一步地,所述根据所述仿真图片与所述第二图片,所述真实图片与所述第四图片,对所述生成器优化训练的步骤包括:
将所述判别器中的参数固定不变,根据所述仿真图片与所述第二图片之间的相似度,以及所述真实图片与所述第四图片之间的相似度,确定所述生成器中距离损失函数的距离函数值;
判断所述距离函数值是否小于预设距离阈值,若小于预设距离阈值,则完成所述生成器的优化训练;
若不小于预设距离阈值,则基于所述第一真假判别器、第二真假判别器、第一OCR判别器和第二OCR判别器对所述生成器进行优化训练。
进一步地,所述基于所述第一真假判别器、第二真假判别器、第一OCR判别器和第二OCR判别器对所述生成器进行优化训练的步骤包括:
将所述第一图片传输到第二真假判别器进行处理,得到第一梯度,并基于所述第二OCR判别器识别所述第一图片中的文字,得到第二梯度;
将所述第一梯度和所述第二梯度传输到生成器,以更新所述生成器中的参数,并执行调用生成器对仿真图片和真实图片分别处理,生成与所述仿真图片对应的第一图片和第二图片的步骤;
将所述第三图片传输到第一真假判别器进行处理,得到第三梯度,并基于所述第一OCR判别器识别所述第三图片中的文字,得到第四梯度;
将所述第三梯度和所述第四梯度传输到生成器,以更新所述生成器中的参数,并执行调用生成器对仿真图片和真实图片分别处理,生成与所述真实图片对应的第三图片和第四图片的步骤,以对所述生成器优化训练。
进一步地,所述将所述第一图片传输到第二真假判别器进行处理,得到第一梯度,并基于所述第二OCR判别器识别所述第一图片中的文字,得到第二梯度的步骤包括:
将所述第一图片标记为真实后传输到第二真假判别器进行辨别,生成第一梯度;
将所述第一图片中的文字标记为真实文字后传输到第二OCR判别器进行识别,生成第二梯度。
进一步地,所述调用生成器对仿真图片和真实图片分别处理的步骤之前,处理器1001可以调用存储器1005中存储的图片生成程序,并执行以下操作:
获取随机噪声,并对所述随机噪声进行编码,生成噪声编码;
基于所述生成器的待添加噪声层,将所述噪声编码转化为尺度因子和偏移因子,并根据所述尺度因子和偏移因子,生成风格噪声;
将所述风格噪声添加到各所述待添加噪声层中。
本发明图片生成设备的具体实施方式与下述图片生成方法各实施例基本相同,在此不再赘述。
本发明还提供一种图片生成方法。
参照图2,图2为本发明图片生成方法第一实施例的流程示意图。
本发明实施例提供了图片生成方法的实施例,需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。具体地,本实施例中的图片生成方法包括:
步骤S10,调用生成器对仿真图片和真实图片分别处理,生成与所述仿真图片对应的第一图片和第二图片,以及与所述真实图片对应的第三图片和第四图片;
步骤S20,根据所述仿真图片与所述第二图片,所述真实图片与所述第四图片,对所述生成器优化训练;
本实施例中的图片生成方法应用于服务器,服务器中包含有经训练的目标生成器,适用于通过目标生成器来生成多张包含生僻字的最终图片。其中,目标生成器经生成器和判别器训练生成,生成器和判别器均以神经网络模型的形式存在,共同构成整体模型,目标生成器为整体模型中的子模型,通过整体模型的训练来得到子模型。
在训练过程中,先从训练集中获取携带有生僻字的真实图片,再读取真实图片所携带的文字标签。其中文字标签为针对各真实图片中生僻字所设定的标签,用于表示生僻字的内容,即真实图片中具体包含哪一个生僻字。此后按照预先设定的生成规则中的尺寸需求,获取符合该尺寸需求的背景图片,并将真实图片中文字标签所表征的生僻字添加到背景图片中,生成仿真图片。还可将真实图片和仿真图片形成真实-仿真图片对,以体现两者之间的对应关系,方便训练过程中的追踪。
进一步地,依据所生成的真实图片和仿真图片,对整体模型中的生成器和判别器进行训练,得到目标生成器。其中,生成器用于将真实图片和仿真图片生成为多张图片,判别器用于对生成器所生成的图片与原始图片进行区分,原始图片为用于生成图片的真实图片或者仿真图片。若判别器难以区分所生成的图片与原始图片,则说明经生成器所生成的图片与原始图片之间的相似程度越高,所生成的包含生僻字的图片越接近包含生僻字的真实图片,从而可据此循环迭代训练,得到目标生成器。
更进一步地,生成器在将包含生僻字的真实图片或仿真图片生成为多张图片前,先通过对生成器添加风格噪声的方式来确保生成器所生成图片的随机性。风格噪声表征外界环境对图片呈现效果的影响,如光线、颜色等。具体地,调用生成器对仿真图片和真实图片分别处理的步骤之前,还包括:
步骤a1,获取随机噪声,并对所述随机噪声进行编码,生成噪声编码;
步骤a2,基于所述生成器的待添加噪声层,将所述噪声编码转化为尺度因子和偏移因子,并根据所述尺度因子和偏移因子,生成风格噪声;
步骤a3,将所述风格噪声添加到各所述待添加噪声层中。
进一步地,通过预先设定的噪声生成函数生成随机噪声,在获取到该生成的随机噪声后,用深度神经网络对其进行编码,生成噪声编码。此后,将生成器中需要添加噪声的主干网络层作为待添加噪声层,并在待添加噪声层将噪声编码转换为尺度因子和偏移因子。待添加噪声层至少包括上采样层和ResNet的block,作为待添加噪声层的主干网络的隐层先经过归一化normalization,再乘上尺度因子后,加上偏移因子,生成风格噪声添加到风格生成器的待添加噪声层。因生成器在各个上采样层和block上都添加了风格噪声,相当于施加不同尺度层面的风格噪声,有利于生成图片的随机性。
更进一步地,为了确保生成器依据真实图片或仿真图片所生成图片与原始图片的一致性,本实施例的生成器包含第一生成器和第二生成器,第一生成器用于将假的图片生成为真的图片,而第二生成器用于将真的图片生成为假的图片。通过第一生成器的生成结合第二生成器的还原来优化第一生成器和第二生成器的生成性能。具体地,调用生成器对仿真图片和真实图片分别处理,生成与仿真图片对应的第一图片和第二图片,以及与真实图片对应的第三图片和第四图片的步骤包括:
步骤S11,基于第一生成器将所述仿真图片生成第一图片,将所述第一图片基于第二生成器生成为第二图片;
步骤S12,基于第二生成器将所述真实图片生成第三图片,将所述第三图片基于第一生成器生成为第四图片。
更进一步地,通过第一生成器对仿真图片进行处理,生成第一图片,进而通过第二生成器对第二图片进行处理,得到第二图片。因第一生成器的作用为将假的图片生成为真的图片,而第二生成器的作用是将真的图片生成为假的图片,从而仿真图片经由第一生成器所得到的第一图片,表征第一生成器生成真的图片的效果,而第一图片经由第二生成器所得到的第二图片,表征第二生成器还原成假的图片的效果。以此,通过生成和还原过程所生成的第二图片与仿真图片之间的相似性,来训练第一生成器和第二生成器对图片从假-真-假的处理性能,实现对生成器的优化训练。同时,通过第二生成器对真实图片进行处理,生成第三图片,表征第二生成器生成假的图片的效果,并通过第一生成器对第三图片进行处理,得到第四图片,表征第一生成器还原真的图片的效果。以此,通过生成和还原过程所生成的第四图片与真实图片之间的相似性,来训练第二生成器和第一生成器对图片从真-假-真的处理性能,实现对生成器的优化训练。
步骤S30,调用判别器对所述真实图片和第一图片,以及所述第三图片与仿真图片分别进行辨别,并基于辨别结果对所述辨别器进行优化训练;
进一步地,在通过生成器将仿真图片生成为第一图片和第二图片,并将真实图片生成为第三图片和第四图片后,调用判别器对真实图片和第一图片进行辨别,并对第三图片和仿真图片进行辨别,生成各自的辨别结果,以表征辨别器对真实图片和第二图片的区分情况,以及对仿真图片与第三图片的区分情况。与第一生成器和第二生成器相对应,判别器包含有第一真假判别器和第二真假判别器。第一真假判别器用于对第二生成器所生成的图片与原始图片进行区分,第二真假判别器用于对第一生成器所生成图片与原始图片进行区分训练;通过区分的难易程度来表征生成器所生成图片的效果好坏,越难以区分则说明所生成的图片和原始图片越接近,生成器所生成图片的效果越好。具体地,调用判别器对所述真实图片和第一图片,以及所述第三图片与仿真图片分别进行辨别,并基于辨别结果对所述辨别器进行优化训练的步骤包括:
步骤S31,基于第二真假判别器对真实图片和第一图片进行辨别,生成所述第二真假判别器中第二交叉熵损失函数的第二真假损失值,并基于第一真假判别器对第三图片与仿真图片进行辨别,生成第一真假判别器中第一交叉熵损失函数的第一真假损失值;
步骤S32,根据所述第一真假损失值和所述第二真假损失值,对所述判别器进行优化训练。
进一步地,第一生成器将生成的第一图片传输到第二真假判别器,由第二真假辨别对第一图片和真实图片进行辨别,生成辨别结果,并依据辨别结果生成第二真假判别器中第二交叉熵损失函数的第二真假损失值。第二交叉熵损失函数表征第二真假判别器对第一图片和真实图片辨别的准确性,其第二真假损失值越小,辨别的准确性越高。同时,第二生成器将生成的第三图片传输到第一真假判别器,由第一真假判别器对第三图片和仿真图片进行辨别,生成辨别结果,并依据辨别结果生成第一真假判别器中第一交叉熵损失函数的第一真假损失值。第一交叉熵损失函数表征第一真假判别器对第三图片和仿真图片辨别的准确性,其第一真假损失值越小,辨别的准确性越高。
更进一步地,在第一真假损失值和第二真假损失值的大小不满足要求,表征第一真假判别器和第二真假判别器的辨别准确性不高的情况下,需要对第一真假判别器和第二真假判别器继续训练。即依据第一真假损失值和第二真假损失值的大小,对判别器进行优化训练。
可理解地,真实图片中包含有生僻字,且仿真图片依据真实图片中的生僻字生成,使得经第一生成器对仿真图片进行处理得到的第一图片中也包含有生僻字,经第二生成器对真实图片进行处理得到的第三图片中同样包含有生僻字。为了确保第一图片和第三图片中所生成生僻字的准确性,本实施例中的判别器还包括第一OCR(Optical CharacterRecognition,光学字符识别)判别器和第二OCR判别器。第一OCR判别器用于对比识别仿真图片与第三图片中的文字,第二OCR判别器用于对比识别真实图片与第一图片中的文字;通过识别的准确程度来表征生成器所生成图片文字的效果好坏,识别准确程度越高则说明所生成的图片文字和原始图片文字越接近,生成器所生成图片文字的效果越好。而判别器本身判别效果的好坏则与第一真假判别器、第二真假判别器、第一OCR判别器和第二OCR判别器均相关,需要结合四者的损失函数共同进行训练。具体地,根据第一真假损失值和第二真假损失值,对判别器进行优化训练的步骤包括:
步骤S321,基于所述第一OCR判别器识别所述仿真图片和所述第三图片中的文字,生成第一OCR判别器中第一损失函数的第一OCR损失值,并基于所述第二OCR判别器识别所述真实图片与所述第一图片中的文字,生成第二OCR判别器中第二损失函数的第二OCR损失值;
步骤S322,判断所述第一真假损失值和所述第二真假损失值是否均小于预设交叉熵阈值,以及所述第一OCR损失值和所述第二OCR损失值是否均小于预设函数阈值;
步骤S323,若所述第一真假损失值和所述第二真假损失值均小于预设交叉熵阈值,且所述第一OCR损失值和所述第二OCR损失值均小于预设函数阈值,则完成所述判别器的训练;
步骤S324,若所述第一真假损失值和所述第二真假损失值中存在任意一项不小于预设交叉熵阈值,或者所述第一OCR损失值和第二OCR损失值中存在任意一项不小于预设函数阈值,则执行调用生成器对仿真图片和真实图片分别处理,生成与所述仿真图片对应的第一图片和第二图片的步骤,以对所述判别器优化训练。
进一步地,通过第一OCR判别器对仿真图片中的文字和第三图片中的文字进行识别,生成识别结果,并依据识别结果生成第一OCR判别器中第一损失函数的第一OCR损失值。第一损失函数表征第一OCR判别器对仿真图片中文字和第三图片中文字识别的准确性,其第一OCR损失值越小,识别的准确性越高。同时,通过第二OCR判别器对真实图片中的文字和第一图片中的文字进行识别,生成识别结果,并依据识别结果生成第二OCR判别器中第二损失函数的第二OCR损失值。第二损失函数表征第二OCR判别器对真实图片中文字和第一图片中文字识别的准确性,其第二OCR损失值越小,识别的准确性越高。
更进一步地,在第一OCR损失值和第二OCR损失值的大小不满足要求,表征第一OCR判别器和第二OCR判别器的辨别准确性不高的情况下,需要对第一OCR判别器和第二OCR判别器继续训练。即依据第一OCR损失值和第二OCR损失值的大小,对判别器进行优化训练。
因判别器的性能与第一真假判别器、第二真假判别器、第一OCR判别器和第二OCR判别器相关,从而为了确定判别器的判别性能的好坏,预先设置有表征第一真假判别器和第二真假判别器辨别性能的预设交叉熵阈值,以及表征第一OCR判别器和第二OCR判别器性能的预设函数阈值。将第一真假损失值以及第二真假损失值分别和预设交叉熵阈值对比,判断第一真假损失值和第二真假损失值是否均小于预设交叉熵阈值;同时,将第一OCR损失值以及第二OCR损失值分别和预设函数阈值对比,判断第一OCR损失值和第二OCR损失值是否均小于预设函数阈值。若第一真假损失值和第二真假损失值均小于预设交叉熵阈值,同时第一OCR损失值和第二真假损失值均小于预设函数阈值,则说明第一真假判别器、第二真假判别器、第一OCR判别器和第二OCR判别器均具有较好的性能,判别器具有较好的辨别能力,从而完成判别器的训练。反之,若第一真假损失值和第二真假损失值中任意一项不小于预设交叉熵阈值,或者第一OCR损失值和第二OCR损失值中存在任意一项不小于预设函数阈值,即第一真假判别器、第二真假判别器、第一OCR判别器和第二OCR判别器中存在任意一项的性能未到达要求,说明判别器的性能未达到要求,而需要继续优化训练,每次训练均以将仿真图片生成为第一图片为起点,通过生成器对仿真图片和真实图片分别处理,生成与所述仿真图片对应的第一图片和第二图片。如此循环训练,直到第一真假损失值和第二真假损失值均小于预设交叉熵阈值,并且第一OCR损失值和第二OCR损失值均小于与预设函数阈值,表征辨别器的性能满足要求,完成判别器的训练。
进一步地,在包括第一生成器和第二生成器的生成器,以及包括第一真假判别器、第二真假判别器、第一OCR判别器和第二OCR判别器的判别器均训练完成后,则将第一生成器形成为目标生成器,以通过目标生成器来生成与包含生僻字的真实图片对应的多张图片。
步骤S40,在所述生成器和所述辨别器均训练完成后,得到目标生成器,以基于所述目标生成器对接收的待处理图片进行处理,生成多张最终图片。
更进一步地,在生成器和辨别器均训练完成,得到目标生成器后,即可通过目标生成器来生成包含生僻字的最终图片,接收用于生成生僻字图片的原始图片,并将该原始图片作为待处理图片。依据预先设定的生成规则,将该待处理图片生成为仿真图片,进而将仿真图片传输到目标生成器中,通过目标生成器处理,生成多张用于模型训练的生僻字图片,以形成生僻字识别模型,对各类文件中的生僻字进行识别。
请参照图4,在一具体实施例中,风格生成器A为第一生成器,风格生成器B为第二生成器,真假判别器A为第一真假判别器,真假判别器B为第二真假判别器,OCR判别器A为第一OCR判别器,OCR判别器B为第二OCR判别器。真实图片B即为携带有生僻字的真实图片,仿真图片A为真实图片B经由预先设定的生成规则所生成的仿真图片;A*为第一图片,A**为第二图片,B*为第三图片,B**为第四图片。通过A与A**之间的相似性,以及B与B**之间的相似性,对包含风格生成A和风格生成器B的生成器进行优化训练;同时通过B与A*对真假判别器B和OCR判别器B进行优化训练,以及通过A与B*对真假判别器A和OCR判别器A进行优化训练。以此,实现对生成器和判别器的优化训练,得到训练好的风格生成器A作为目标生成器,进而通过目标生成器来生成多张包含生僻字的最终图片。
本发明的图片生成方法,设置有基于经生成器和判别器训练所得到的目标生成器,来生成多张包含生僻字的图片的机制。先将携带有生僻字的真实图片生成为仿真图片,再调用生成器对仿真图片进行处理,生成第一图片和第二图片,并调用生成器器对真实图片进行处理,生成第三图片和第四图片;进而依据仿真图片与第二图片,真实图片与第四图片,对生成器优化训练;同时调用判别器对真实图片和第一图片,以及第三图片和仿真图片分别进行辨别,并根据辨别结果对辨别器进行优化训练;在生成器和辨别器均训练完成后,得到目标生成器。此后,获取用于生成生僻字图片的待处理图片,并通过目标生成器对其进行处理,生成为多张包含生僻字的最终图片。因生成器可添加各种类型的风格噪声,增加了经训练的目标生成器的随机性,且具有较好的变换效果;同时判别器可对图片中的文字进行识别对比,有利于经训练的目标生成器的准确性和可控性。因此通过目标生成器所生成的包含生僻字的最终图片兼顾了随机性、可控性和准确性,实现了快速准确的生成大量包含生僻字的最终图片。
进一步地,基于本发明图片生成方法的第一实施例,提出本发明图片生成方法第二实施例。
所述图片生成方法第二实施例与所述图片生成方法第一实施例的区别在于,所述基于第二真假判别器对真实图片和第一图片进行辨别,生成所述第二真假判别器中第二交叉熵损失函数的第二真假损失值,并基于第一真假判别器对第三图片与仿真图片进行辨别,生成第一真假判别器中第一交叉熵损失函数的第一真假损失值的步骤包括:
步骤S311,将所述生成器的参数固定不变,并将所述第一图片标记为伪域图片后传输到第二真假判别器,对标记后的所述第一图片进行真假辨别,生成第一辨别结果;
步骤S312,基于所述第二真假辨别器对真实图片和第一图片进行区分辨别,生成第二辨别结果,并根据所述第一辨别结果和所述第二辨别结果,生成所述第二真假判别器中第二交叉熵损失函数的第二真假损失值;
步骤S313,将所述第三图片标记为真域图片后传输到第一真假判别器,对标记后的所述第三图片进行真假辨别,生成第三辨别结果;
步骤S314,基于所述第一真假辨别器对第三图片与仿真图片进行区分辨别,生成第四辨别结果,并根据所述第三辨别结果和所述第四辨别结果,生成所述第一真假判别器中第一交叉熵损失函数的第一真假损失值。
本实施例对第一真假判别器和第二真假判别器进行优化,优化至少包括两部分,其一为对一张图片的真伪进行准确辨别,其二是两张相似图片的准确区分。在优化过程中,设定生成器的参数固定不变;对于图片的真伪辨别,对第一图片添加伪域标记,将第一图片标记为伪域图片后传输到第二真假判别器,通过第二真假判别器辨别该标记后的第一图片的真伪,生成第一辨别结果。对于相似图片的准确区分,则将真实图片和第二图片传输到第二真假辨别器中进行区分辨别,生成第二辨别结果。进而依据第一辨别结果和第二辨别结果,生成第二真假判别器中第二交叉熵损失函数的第二真假损失值。通过第二真假损失值,来对第二真假判别器在真伪辨别和相似区分两方面进行循环优化。
同时,对于第一真假辨别器,对第三图片添加真域标记,将第三图片标记为真域图片后传输到第一真假判别器,通过第一真假判别器辨别标记后的第三图片的真伪,生成第三辨别结果。同时将第三图片和仿真图片传输到第一真假辨别器中进行区分辨别,生成第四辨别结果。进而依据第三辨别结果和第四辨别结果,生成第一真假辨别器中第一交叉熵损失函数的第一真假损失值。通过第一真假损失值,来对第一真假判别器在真伪辨别和相似区分两方面进行循环优化。
本实施例通过第一真假判别器中第一交叉熵损失函数的第一真假损失值对第一真假判别器进行优化,同时通过第二真假判别器中第二交叉熵损失函数的第二真假损失值对第二真假判别器进行优化,使得对真伪图片识别和相似图片识别更为准确。
进一步地,基于本发明图片生成方法的第一或第二实施例,提出本发明图片生成方法第三实施例。
所述图片生成方法第三实施例与所述图片生成方法第一或第二实施例的区别在于,所述基于所述第一OCR判别器识别所述仿真图片和所述第三图片中的文字,生成第一OCR判别器中第一损失函数的第一OCR损失值,并基于所述第二OCR判别器识别所述真实图片与所述第一图片中的文字,生成第二OCR判别器中第二损失函数的第二OCR损失值的步骤包括:
步骤b1,将所述生成器的参数固定不变,并将所述第三图片中的文字标记为真域的真实文字后传输到第一OCR判别器,对标记后的所述第三图片中的文字进行真假识别,生成第一识别结果;
步骤b2,基于所述第一OCR判别器对所述仿真图片和所述第三图片中的文字进行区分识别,生成第二识别结果,并根据所述第一识别结果和所述第二识别结果,生成所述第一OCR判别器中第一损失函数的第一OCR损失值;
步骤b3,将所述第一图片中的文字标记为真域的仿真文字后传输到第二OCR判别器,对标记后的所述第一图片中的文字进行真假识别,生成第三识别结果;
步骤b4,基于所述第二OCR判别器对所述真实图片和所述第一图片中的文字进行区分识别,生成第四识别结果,并根据所述第三识别结果和所述第四识别结果,生成所述第二OCR判别器中第二损失函数的第二OCR损失值。
本实施例对第一OCR判别器和第二OCR判别器进行优化,优化同样包括两部分,其一为对一张图片的文字真伪进行准确识别,其二是不同图片相似文字的准确区分。在优化过程中同样设定生成器的参数固定不变,并基于CTC(Connectionist temporalclassification)损失函数设定第一OCR判别器的第一损失函数和第二OCR判别器的第二损失函数。其中,CTC损失函数用于解决不定长标签的解码问题。假设预测字符集的大小是x,输入图在神经网络的最后一层隐层表示是长度为k的序列,每个位置都会预测一个字符或者空字符(类别数量为x+1),CTC的算法会合并相同的字符并产生一个预测字符串,模型输出的最终字符串是概率最大的,合并处理的预测字符串和最终输出字符串是多对一的关系。本实施例中基于CTC损失函数所设定的第一损失函数和第二损失函数,在k个序列的每个位置做2x+1的字符预测,其中1个空字符,x个真域字符,x个对应的伪域字符,同一个字符的真字符和伪字符的差值为x。
进一步地,本实施例中对于第一OCR判别器,真样本为仿真图片,伪样本为第三图片,第一OCR判别器应对仿真图片的文字在真域上判别准确,并且对第三图片的文字在伪域上判别准确。而对于第二OCR判别器,真样本为真实图片,伪样本为第一图片,第二OCR判别器应对真实图片的文字在真域上判别准确,并且对第一图片的文字在伪域上判别准确。
更进一步地,对于第一OCR判别器的图片文字真伪识别,对第三图片的文字添加真域的真实文字标记,即将第三图片的文字标记为真域的真实文字后传输到第一OCR判别器,通过第一OCR判别器识别该标记后的第三图片中文字的真伪,生成第一识别结果。对于不同图片中相似文字的识别,则将仿真图片和第三图片传输到第一OCR判别器,由第一OCR判别器按照切分类别分别对两者进行切分,得到仿真图片的多个切分子图片以及第三图片的多个切分子图片,由第一OCR判别器分别对两者的切分子图片进行识别,得到第二识别结果。其中,第二识别结果由仿真图片的各个切分子图片和第三图片中对应的各个切分子图片之间的识别子结果组成,各个识别子结果越准确,则第二识别结果也越准确。进而依据第一识别结果和第二识别结果,生成第一OCR判别器中第一损失函数的第一OCR损失值;通过第一OCR损失值,来对第一OCR判别器在文字的真伪辨别和相似区分两方面进行循环优化。
进一步地,对于第二OCR判别器的图片文字真伪识别,对第一图片中的文字添加真域的仿真文字标记,即将第一图片的文字标记为真域的仿真文字后传输到第二OCR判别器,通过第二OCR判别器识别该标记后的第一图片中文字的真伪,生成第三识别结果。对于不同图片中相似文字的识别,则将真实图片和第一图片传输到第二OCR判别器,由第二OCR判别器按照切分类别分别对两者进行切分,得到真实图片的多个切分子图片以及第一图片的多个切分子图片,由第二OCR判别器分别对两者的切分子图片进行识别,得到第四识别结果。其中,第四识别结果由真实图片的各个切分子图片和第一图片中对应的各个切分子图片之间的识别子结果组成,各个识别子结果越准确,则第四识别结果也越准确。进而依据第三识别结果和第四识别结果,生成第二OCR判别器中第二损失函数的第二OCR损失值;通过第二OCR损失值,来对第二OCR判别器在文字的真伪辨别和相似区分两方面进行循环优化。
本实施例通过第一OCR判别器中第一损失函数的第一OCR损失值对第一OCR判别器进行优化,同时通过第二OCR判别器中第二损失函数的第二OCR损失值对第二OCR判别器进行优化,使得对图片中的真伪文字识别和相似文字识别更为准确。
进一步地,基于本发明图片生成方法的第一、第二或第三实施例,提出本发明图片生成方法第四实施例。
所述图片生成方法第四实施例与所述图片生成方法第一、第二或第三实施例的区别在于,所述根据所述仿真图片与所述第二图片,所述真实图片与所述第四图片,对所述生成器优化训练的步骤包括:
步骤S221,将所述判别器中的参数固定不变,根据所述仿真图片与所述第二图片之间的相似度,以及所述真实图片与所述第四图片之间的相似度,确定所述生成器中距离损失函数的距离函数值;
步骤S222,判断所述距离函数值是否小于预设距离阈值,若小于预设距离阈值,则完成所述生成器的优化训练;
步骤S223,若不小于预设距离阈值,则基于所述第一真假判别器、第二真假判别器、第一OCR判别器和第二OCR判别器对所述生成器进行优化训练。
本实施例对生成器进行优化训练,在优化过程中,设定判别器中的参数固定不变,并通过欧氏距离或者余弦距离确定仿真图片与第二图片之间的相似度,以表征仿真图片经第一生成器和第二生成器处理后所得到的第二图片,与处理前的仿真图片之间的相似程度,相似程度越高,表征仿真图片经第一生成器和第二生成器从假-真-假的处理效果越好。同时,通过欧氏距离和余弦距离确定真实图片与第四图片之间的相似度,以表征真实图片经第二生成器和第一生成器处理后所得到的第四图片,与处理前的真实图片之间的相似程度,相似程度越高,表征真实图片经第二生成器和第一生成器从真-假-真的处理效果越好。进而通过仿真图片与第二图片之间的相似度,以及真实图片与第四图片之间的相似度,确定生成器中距离损失函数的聚类函数值。其中,距离损失函数表征生成器的处理性能,相似度越高,距离损失函数的距离函数值越小,生成器的处理性能越好。
进一步地,为了表征距离函数值的大小,预先设置有预设距离阈值,将所生成的距离函数值和预设距离阈值对比,判断距离函数值是否小于预设距离阈值,若小于预设距离阈值,则表征生成器的处理性能满足要求,完成生成器的优化训练。若聚类函数值不小于预设距离阈值,则说明生成器的处理性能还需要优化,故基于第一真假判别器、第二真假判别器、第一OCR判别器和第二OCR判别器继续对生成器优化循环训练,直到距离损失函数的距离函数值小于预设距离阈值,完成生成器的优化训练。具体地,基于第一真假判别器、第二真假判别器、第一OCR判别器和第二OCR判别器对生成器进行优化训练的步骤包括:
步骤c1,将所述第一图片传输到第二真假判别器进行处理,得到第一梯度,并基于所述第二OCR判别器识别所述第一图片中的文字,得到第二梯度;
更进一步地,将经第一生成器处理生成的第一图片传输到第二真假判别器进行辨别处理,并依据辨别处理的结果得到第一梯度。同时通过第二OCR判别器对第一图片中的文字进行识别处理,并依据识别处理的结果得到第二梯度。进而通过生成的第一梯度和第二梯度对生成器进行优化。其中,将第一图片传输到第二真假判别器进行处理,得到第一梯度,并基于第二OCR判别器识别第一图片中的文字,得到第二梯度的步骤包括:
步骤c11,将所述第一图片标记为真实后传输到第二真假判别器进行辨别,生成第一梯度;
步骤c12,将所述第一图片中的文字标记为真实文字后传输到第二OCR判别器进行识别,生成第二梯度。
步骤c2,将所述第一梯度和所述第二梯度传输到生成器,以更新所述生成器中的参数,并执行调用生成器对仿真图片和真实图片分别处理,生成与所述仿真图片对应的第一图片和第二图片的步骤;
进一步地,对第一图片添加真实标记,将第一图片标记为真实后传输到第二真假判别器,通过第二真假判别器辨别该标记后的第一图片的真伪,并根据辨别结果生成第一梯度。同时将第一图片中的文字添加真实文字标记,将第一图片中的文字标记为真实文字后传输到第二OCR辨别器,通过第二OCR辨别器识别该标记后的第一图片文字的真伪,并根据识别结果生成第二梯度。
更进一步地,将第一梯度和第二梯度传输到生成器中的第一生成器,以对第一生成器中的参数进行更新,并在更新后由第一生成器将仿真图片生成为第一图片,以继续对第一生成器进行训练优化。
步骤c3,将所述第三图片传输到第一真假判别器进行处理,得到第三梯度,并基于所述第一OCR判别器识别所述第三图片中的文字,得到第四梯度;
步骤c4,将所述第三梯度和所述第四梯度传输到生成器,以更新所述生成器中的参数,并执行调用生成器对仿真图片和真实图片分别处理,生成与所述真实图片对应的第三图片和第四图片的步骤,以对所述生成器优化训练。
在对生成器中第一生成器进行优化的同时,对生成器中的第二生成器进行优化。具体地,将经第二生成器处理生成的第三图片传输到第一真假判别器进行辨别处理,并依据辨别处理的结果得到第三梯度。同时通过第一OCR判别器对第三图片中的文字进行识别处理,并依据识别处理的结果得到第四梯度。进而通过生成的第三梯度和第四梯度对生成器进行优化。其中,将第三图片传输到第一真假判别器进行处理,得到第三梯度,并基于第一OCR判别器识别第三图片中的文字,得到第四梯度的步骤包括:
步骤c31,将所述第三图片标记为仿真后传输到第一真假判别器进行辨别,生成第三梯度;
步骤c32,将所述第三图片中的文字标记为仿真文字后传输到第一OCR判别器进行识别,生成第四梯度。
进一步地,对第三图片添加仿真标记,将第三图片标记为仿真后传输到第一真假判别器,通过第一真假判别器辨别该标记后的第三图片的真伪,并根据辨别结果生成第三梯度。同时将第一图片中的文字添加仿真文字标记,将第一图片中的文字标记为仿真文字后传输到第一OCR辨别器,通过第一OCR辨别器识别该标记后的第三图片文字的真伪,并根据识别结果生成第四梯度。
更进一步地,将第三梯度和第四梯度传输到生成器中的第二生成器,以对第二生成器中的参数进行更新,并在更新后由第二生成器将真实图片生成为第三图片,以继续对第二生成器进行训练优化。本实施通过第一生成器和第二生成器的优化实现生成器的优化训练,以提高第一图片与真实图片之间的相似性,即所生成的多张包含生僻字的最终图片与原始的生成包含生僻字的图片更为接近。
本发明还提供一种图片生成装置。
参照图3,图3为本发明图片生成装置第一实施例的功能模块示意图。所述图片生成装置包括:
第一调用模块10,用于调用生成器对仿真图片和真实图片分别处理,生成与仿真图片对应的第一图片和第二图片,以及与真实图片对应的第三图片和第四图片;
训练模块20,用于根据所述仿真图片与所述第二图片,所述真实图片与所述第四图片,对所述生成器优化训练;
第二调用模块30,用于调用判别器对所述真实图片和第一图片,以及所述第三图片与仿真图片分别进行辨别,并基于辨别结果对所述辨别器进行优化训练;
生成模块40,用于在所述生成器和所述辨别器均训练完成后,得到目标生成器,以基于所述目标生成器对接收的待处理图片进行处理,生成多张最终图片。
进一步地,所述生成器包括第一生成器和第二生成器;
所述第二调用模块30还包括:
第一生成单元,用于基于第二真假判别器对真实图片和第一图片进行辨别,生成所述第二真假判别器中第二交叉熵损失函数的第二真假损失值,并基于第一真假判别器对第三图片与仿真图片进行辨别,生成第一真假判别器中第一交叉熵损失函数的第一真假损失值;
第一训练单元,用于根据所述第一真假损失值和所述第二真假损失值,对所述判别器进行优化训练。
进一步地,所述第一生成单元还用于:
将所述生成器的参数固定不变,并将所述第一图片标记为伪域图片后传输到第二真假判别器,对标记后的所述第一图片进行真假辨别,生成第一辨别结果;
基于所述第二真假辨别器对真实图片和第一图片进行区分辨别,生成第二辨别结果,并根据所述第一辨别结果和所述第二辨别结果,生成所述第二真假判别器中第二交叉熵损失函数的第二真假损失值;
将所述第三图片标记为真域图片后传输到第一真假判别器,对标记后的所述第三图片进行真假辨别,生成第三辨别结果;
基于所述第一真假辨别器对第三图片与仿真图片进行区分辨别,生成第四辨别结果,并根据所述第三辨别结果和所述第四辨别结果,生成所述第一真假判别器中第一交叉熵损失函数的第一真假损失值。
进一步地,所述判别器还包括第一OCR判别器和第二OCR判别器,所述第一训练单元还用于:
基于所述第一OCR判别器识别所述仿真图片和所述第三图片中的文字,生成第一OCR判别器中第一损失函数的第一OCR损失值,并基于所述第二OCR判别器识别所述真实图片与所述第一图片中的文字,生成第二OCR判别器中第二损失函数的第二OCR损失值;
判断所述第一真假损失值和所述第二真假损失值是否均小于预设交叉熵阈值,以及所述第一OCR损失值和所述第二OCR损失值是否均小于预设函数阈值;
若所述第一真假损失值和所述第二真假损失值均小于预设交叉熵阈值,且所述第一OCR损失值和所述第二OCR损失值均小于预设函数阈值,则完成所述判别器的训练;
若所述第一真假损失值和所述第二真假损失值中存在任意一项不小于预设交叉熵阈值,或者所述第一OCR损失值和第二OCR损失值中存在任意一项不小于预设函数阈值,则执行调用生成器对仿真图片和真实图片分别处理,生成与所述仿真图片对应的第一图片和第二图片的步骤,以对所述判别器优化训练。
进一步地,所述第一训练单元还用于:
将所述生成器的参数固定不变,并将所述第三图片中的文字标记为真域的真实文字后传输到第一OCR判别器,对标记后的所述第三图片中的文字进行真假识别,生成第一识别结果;
基于所述第一OCR判别器对所述仿真图片和所述第三图片中的文字进行区分识别,生成第二识别结果,并根据所述第一识别结果和所述第二识别结果,生成所述第一OCR判别器中第一损失函数的第一OCR损失值;
将所述第一图片中的文字标记为真域的仿真文字后传输到第二OCR判别器,对标记后的所述第一图片中的文字进行真假识别,生成第三识别结果;
基于所述第二OCR判别器对所述真实图片和所述第一图片中的文字进行区分识别,生成第四识别结果,并根据所述第三识别结果和所述第四识别结果,生成所述第二OCR判别器中第二损失函数的第二OCR损失值。
进一步地,所述训练模块20还包括:
确定单元,用于将所述判别器中的参数固定不变,根据所述仿真图片与所述第二图片之间的相似度,以及所述真实图片与所述第四图片之间的相似度,确定所述生成器中距离损失函数的距离函数值;
判断单元,用于判断所述距离函数值是否小于预设距离阈值,若小于预设距离阈值,则完成所述生成器的优化训练;
训练单元,用于若不小于预设距离阈值,则基于所述第一真假判别器、第二真假判别器、第一OCR判别器和第二OCR判别器对所述生成器进行优化训练。
进一步地,所述训练单元还用于:
将所述第一图片传输到第二真假判别器进行处理,得到第一梯度,并基于所述第二OCR判别器识别所述第一图片中的文字,得到第二梯度;
将所述第一梯度和所述第二梯度传输到生成器,以更新所述生成器中的参数,并执行调用生成器对仿真图片和真实图片分别处理,生成与所述仿真图片对应的第一图片和第二图片的步骤;
将所述第三图片传输到第一真假判别器进行处理,得到第三梯度,并基于所述第一OCR判别器识别所述第三图片中的文字,得到第四梯度;
将所述第三梯度和所述第四梯度传输到生成器,以更新所述生成器中的参数,并执行调用生成器对仿真图片和真实图片分别处理,生成与所述真实图片对应的第三图片和第四图片的步骤,以对所述生成器优化训练。
进一步地,所述训练单元还用于:
将所述第一图片标记为真实后传输到第二真假判别器进行辨别,生成第一梯度;
将所述第一图片中的文字标记为真实文字后传输到第二OCR判别器进行识别,生成第二梯度。
进一步地,所述图片生成装置还包括:
获取模块,用于获取随机噪声,并对所述随机噪声进行编码,生成噪声编码;
转化模块,用于基于所述生成器的待添加噪声层,将所述噪声编码转化为尺度因子和偏移因子,并根据所述尺度因子和偏移因子,生成风格噪声;
添加模块,用于将所述风格噪声添加到各所述待添加噪声层中。
进一步地,所述第一调用模块10还包括:
第二生成单元,用于基于第一生成器将所述仿真图片生成第一图片,将所述第一图片基于第二生成器生成为第二图片,并基于第二生成器将所述真实图片生成第三图片,将所述第三图片基于第一生成器生成为第四图片;
第二训练单元,用于根据所述仿真图片与所述第二图片,所述真实图片与所述第四图片,对所述生成器优化训练。
本发明图片生成装置具体实施方式与上述图片生成方法各实施例基本相同,在此不再赘述。
此外,本发明实施例还提出一种可读存储介质。
可读存储介质上存储有图片生成程序,图片生成程序被处理器执行时实现如上所述的图片生成方法的步骤。
本发明可读存储介质可以是计算机可读存储介质,其具体实施方式与上述图片生成方法各实施例基本相同,在此不再赘述。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,这些均属于本发明的保护之内。
Claims (11)
1.一种图片生成方法,其特征在于,所述图片生成方法包括以下步骤:
调用生成器对仿真图片和真实图片分别处理,生成与所述仿真图片对应的第一图片和第二图片,以及与所述真实图片对应的第三图片和第四图片;
根据所述仿真图片与所述第二图片,所述真实图片与所述第四图片,对所述生成器优化训练;
调用判别器对所述真实图片和第一图片,以及所述第三图片与仿真图片分别进行辨别,并基于辨别结果对所述辨别器进行优化训练;
在所述生成器和所述辨别器均训练完成后,得到目标生成器,以基于所述目标生成器对接收的待处理图片进行处理,生成多张最终图片。
2.如权利要求1所述的图片生成方法,其特征在于,所述判别器包括第一真假判别器和第二真假判别器;
所述调用判别器对所述真实图片和第一图片,以及所述第三图片与仿真图片分别进行辨别,并基于辨别结果对所述辨别器进行优化训练的步骤包括:
基于第二真假判别器对真实图片和第一图片进行辨别,生成所述第二真假判别器中第二交叉熵损失函数的第二真假损失值,并基于第一真假判别器对第三图片与仿真图片进行辨别,生成第一真假判别器中第一交叉熵损失函数的第一真假损失值;
根据所述第一真假损失值和所述第二真假损失值,对所述判别器进行优化训练。
3.如权利要求2所述的图片生成方法,其特征在于,所述基于第二真假判别器对真实图片和第一图片进行辨别,生成所述第二真假判别器中第二交叉熵损失函数的第二真假损失值,并基于第一真假判别器对第三图片与仿真图片进行辨别,生成第一真假判别器中第一交叉熵损失函数的第一真假损失值的步骤包括:
将所述生成器的参数固定不变,并将所述第一图片标记为伪域图片后传输到第二真假判别器,对标记后的所述第一图片进行真假辨别,生成第一辨别结果;
基于所述第二真假辨别器对真实图片和第一图片进行区分辨别,生成第二辨别结果,并根据所述第一辨别结果和所述第二辨别结果,生成所述第二真假判别器中第二交叉熵损失函数的第二真假损失值;
将所述第三图片标记为真域图片后传输到第一真假判别器,对标记后的所述第三图片进行真假辨别,生成第三辨别结果;
基于所述第一真假辨别器对第三图片与仿真图片进行区分辨别,生成第四辨别结果,并根据所述第三辨别结果和所述第四辨别结果,生成所述第一真假判别器中第一交叉熵损失函数的第一真假损失值。
4.如权利要求2所述的图片生成方法,其特征在于,所述判别器还包括第一OCR判别器和第二OCR判别器,所述根据所述第一真假损失值和所述第二真假损失值,对所述判别器进行优化训练的步骤包括:
基于所述第一OCR判别器识别所述仿真图片和所述第三图片中的文字,生成第一OCR判别器中第一损失函数的第一OCR损失值,并基于所述第二OCR判别器识别所述真实图片与所述第一图片中的文字,生成第二OCR判别器中第二损失函数的第二OCR损失值;
判断所述第一真假损失值和所述第二真假损失值是否均小于预设交叉熵阈值,以及所述第一OCR损失值和所述第二OCR损失值是否均小于预设函数阈值;
若所述第一真假损失值和所述第二真假损失值均小于预设交叉熵阈值,且所述第一OCR损失值和所述第二OCR损失值均小于预设函数阈值,则完成所述判别器的训练;
若所述第一真假损失值和所述第二真假损失值中存在任意一项不小于预设交叉熵阈值,或者所述第一OCR损失值和第二OCR损失值中存在任意一项不小于预设函数阈值,则执行调用生成器对仿真图片和真实图片分别处理,生成与所述仿真图片对应的第一图片和第二图片的步骤,以对所述判别器优化训练。
5.如权利要求4所述的图片生成方法,其特征在于,所述基于所述第一OCR判别器识别所述仿真图片和所述第三图片中的文字,生成第一OCR判别器中第一损失函数的第一OCR损失值,并基于所述第二OCR判别器识别所述真实图片与所述第一图片中的文字,生成第二OCR判别器中第二损失函数的第二OCR损失值的步骤包括:
将所述生成器的参数固定不变,并将所述第三图片中的文字标记为真域的真实文字后传输到第一OCR判别器,对标记后的所述第三图片中的文字进行真假识别,生成第一识别结果;
基于所述第一OCR判别器对所述仿真图片和所述第三图片中的文字进行区分识别,生成第二识别结果,并根据所述第一识别结果和所述第二识别结果,生成所述第一OCR判别器中第一损失函数的第一OCR损失值;
将所述第一图片中的文字标记为真域的仿真文字后传输到第二OCR判别器,对标记后的所述第一图片中的文字进行真假识别,生成第三识别结果;
基于所述第二OCR判别器对所述真实图片和所述第一图片中的文字进行区分识别,生成第四识别结果,并根据所述第三识别结果和所述第四识别结果,生成所述第二OCR判别器中第二损失函数的第二OCR损失值。
6.如权利要求4所述的图片生成方法,其特征在于,所述根据所述仿真图片与所述第二图片,所述真实图片与所述第四图片,对所述生成器优化训练的步骤包括:
将所述判别器中的参数固定不变,根据所述仿真图片与所述第二图片之间的相似度,以及所述真实图片与所述第四图片之间的相似度,确定所述生成器中距离损失函数的距离函数值;
判断所述距离函数值是否小于预设距离阈值,若小于预设距离阈值,则完成所述生成器的优化训练;
若不小于预设距离阈值,则基于所述第一真假判别器、第二真假判别器、第一OCR判别器和第二OCR判别器对所述生成器进行优化训练。
7.如权利要求6所述的图片生成方法,其特征在于,所述基于所述第一真假判别器、第二真假判别器、第一OCR判别器和第二OCR判别器对所述生成器进行优化训练的步骤包括:
将所述第一图片传输到第二真假判别器进行处理,得到第一梯度,并基于所述第二OCR判别器识别所述第一图片中的文字,得到第二梯度;
将所述第一梯度和所述第二梯度传输到生成器,以更新所述生成器中的参数,并执行调用生成器对仿真图片和真实图片分别处理,生成与所述仿真图片对应的第一图片和第二图片的步骤;
将所述第三图片传输到第一真假判别器进行处理,得到第三梯度,并基于所述第一OCR判别器识别所述第三图片中的文字,得到第四梯度;
将所述第三梯度和所述第四梯度传输到生成器,以更新所述生成器中的参数,并执行调用生成器对仿真图片和真实图片分别处理,生成与所述真实图片对应的第三图片和第四图片的步骤,以对所述生成器优化训练。
8.如权利要求7所述的图片生成方法,其特征在于,所述将所述第一图片传输到第二真假判别器进行处理,得到第一梯度,并基于所述第二OCR判别器识别所述第一图片中的文字,得到第二梯度的步骤包括:
将所述第一图片标记为真实后传输到第二真假判别器进行辨别,生成第一梯度;
将所述第一图片中的文字标记为真实文字后传输到第二OCR判别器进行识别,生成第二梯度。
9.如权利要求1-8所任一项述的图片生成方法,其特征在于,所述调用生成器对仿真图片和真实图片分别处理的步骤之前,所述方法包括:
获取随机噪声,并对所述随机噪声进行编码,生成噪声编码;
基于所述生成器的待添加噪声层,将所述噪声编码转化为尺度因子和偏移因子,并根据所述尺度因子和偏移因子,生成风格噪声;
将所述风格噪声添加到各所述待添加噪声层中。
10.一种图片生成设备,其特征在于,所述图片生成设备包括存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的图片生成程序,所述图片生成程序被所述处理器执行时实现如权利要求1-9中任一项所述的图片生成方法的步骤。
11.一种可读存储介质,其特征在于,所述可读存储介质上存储有图片生成程序,所述图片生成程序被处理器执行时实现如权利要求1-9中任一项所述的图片生成方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010446590.6A CN111598075B (zh) | 2020-05-25 | 2020-05-25 | 图片生成方法、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010446590.6A CN111598075B (zh) | 2020-05-25 | 2020-05-25 | 图片生成方法、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111598075A true CN111598075A (zh) | 2020-08-28 |
CN111598075B CN111598075B (zh) | 2024-09-20 |
Family
ID=72191553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010446590.6A Active CN111598075B (zh) | 2020-05-25 | 2020-05-25 | 图片生成方法、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111598075B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417959A (zh) * | 2020-10-19 | 2021-02-26 | 上海臣星软件技术有限公司 | 图片生成方法、装置、电子设备及计算机存储介质 |
Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160203380A1 (en) * | 2015-01-13 | 2016-07-14 | Xerox Corporation | Annotation free license plate recognition method and system |
CN107133653A (zh) * | 2017-05-23 | 2017-09-05 | 西安电子科技大学 | 一种基于深度阶梯网络的高分辨sar图像分类方法 |
CN109190620A (zh) * | 2018-09-03 | 2019-01-11 | 苏州科达科技股份有限公司 | 车牌样本生成方法、系统、设备及存储介质 |
CN109272043A (zh) * | 2018-09-21 | 2019-01-25 | 北京京东金融科技控股有限公司 | 用于光学字符识别的训练数据生成方法、系统和电子设备 |
CN109508717A (zh) * | 2018-10-09 | 2019-03-22 | 苏州科达科技股份有限公司 | 一种车牌识别方法、识别装置、识别设备及可读存储介质 |
CN109583449A (zh) * | 2018-10-29 | 2019-04-05 | 深圳市华尊科技股份有限公司 | 字符识别方法及相关产品 |
US20190236614A1 (en) * | 2018-01-29 | 2019-08-01 | Accenture Global Solutions Limited | Artificial intelligence counterfeit detection |
CN110163048A (zh) * | 2018-07-10 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 手部关键点的识别模型训练方法、识别方法及设备 |
CN110222728A (zh) * | 2019-05-15 | 2019-09-10 | 图灵深视(南京)科技有限公司 | 物品鉴别模型的训练方法、系统及物品鉴别方法、设备 |
CN110310344A (zh) * | 2019-05-21 | 2019-10-08 | 北京大学第三医院(北京大学第三临床医学院) | 一种基于虚拟条件生成对抗网络的图像生成方法及系统 |
CN110399798A (zh) * | 2019-06-25 | 2019-11-01 | 朱跃飞 | 一种基于深度学习的离散图片文件信息提取系统及方法 |
CN110619347A (zh) * | 2019-07-31 | 2019-12-27 | 广东工业大学 | 一种基于机器学习的图像生成方法及其方法 |
US20200134463A1 (en) * | 2018-10-30 | 2020-04-30 | Huawei Technologies Co., Ltd. | Latent Space and Text-Based Generative Adversarial Networks (LATEXT-GANs) for Text Generation |
WO2020098078A1 (zh) * | 2018-11-12 | 2020-05-22 | 平安科技(深圳)有限公司 | Ocr训练样本的生成方法、装置、设备及可读存储介质 |
-
2020
- 2020-05-25 CN CN202010446590.6A patent/CN111598075B/zh active Active
Patent Citations (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20160203380A1 (en) * | 2015-01-13 | 2016-07-14 | Xerox Corporation | Annotation free license plate recognition method and system |
CN107133653A (zh) * | 2017-05-23 | 2017-09-05 | 西安电子科技大学 | 一种基于深度阶梯网络的高分辨sar图像分类方法 |
US20190236614A1 (en) * | 2018-01-29 | 2019-08-01 | Accenture Global Solutions Limited | Artificial intelligence counterfeit detection |
CN110163048A (zh) * | 2018-07-10 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 手部关键点的识别模型训练方法、识别方法及设备 |
CN109190620A (zh) * | 2018-09-03 | 2019-01-11 | 苏州科达科技股份有限公司 | 车牌样本生成方法、系统、设备及存储介质 |
CN109272043A (zh) * | 2018-09-21 | 2019-01-25 | 北京京东金融科技控股有限公司 | 用于光学字符识别的训练数据生成方法、系统和电子设备 |
CN109508717A (zh) * | 2018-10-09 | 2019-03-22 | 苏州科达科技股份有限公司 | 一种车牌识别方法、识别装置、识别设备及可读存储介质 |
CN109583449A (zh) * | 2018-10-29 | 2019-04-05 | 深圳市华尊科技股份有限公司 | 字符识别方法及相关产品 |
US20200134463A1 (en) * | 2018-10-30 | 2020-04-30 | Huawei Technologies Co., Ltd. | Latent Space and Text-Based Generative Adversarial Networks (LATEXT-GANs) for Text Generation |
WO2020098078A1 (zh) * | 2018-11-12 | 2020-05-22 | 平安科技(深圳)有限公司 | Ocr训练样本的生成方法、装置、设备及可读存储介质 |
CN110222728A (zh) * | 2019-05-15 | 2019-09-10 | 图灵深视(南京)科技有限公司 | 物品鉴别模型的训练方法、系统及物品鉴别方法、设备 |
CN110310344A (zh) * | 2019-05-21 | 2019-10-08 | 北京大学第三医院(北京大学第三临床医学院) | 一种基于虚拟条件生成对抗网络的图像生成方法及系统 |
CN110399798A (zh) * | 2019-06-25 | 2019-11-01 | 朱跃飞 | 一种基于深度学习的离散图片文件信息提取系统及方法 |
CN110619347A (zh) * | 2019-07-31 | 2019-12-27 | 广东工业大学 | 一种基于机器学习的图像生成方法及其方法 |
Non-Patent Citations (3)
Title |
---|
HAOCHEN ZHANG, DONG LIU, ZHIWEI XIONG: "CNN-based text image super-resolution tailored for OCR", 2017 IEEE VISUAL COMMUNICATIONS AND IMAGE PROCESSING (VCIP), 1 March 2018 (2018-03-01), pages 1 - 4 * |
刘琦;: "利用卷积生成式对抗网络生成中文汉字", 网络安全技术与应用, no. 02, 15 February 2020 (2020-02-15) * |
李倩羽: "基于深度学习的图像文字检测与识别的研究", CNKI优秀硕士学位论文全文库, 29 February 2020 (2020-02-29), pages 1 - 45 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112417959A (zh) * | 2020-10-19 | 2021-02-26 | 上海臣星软件技术有限公司 | 图片生成方法、装置、电子设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111598075B (zh) | 2024-09-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113283551B (zh) | 多模态预训练模型的训练方法、训练装置及电子设备 | |
CN109285111B (zh) | 一种字体转换的方法、装置、设备及计算机可读存储介质 | |
Kadam et al. | Detection and localization of multiple image splicing using MobileNet V1 | |
CN113254654B (zh) | 模型训练、文本识别方法、装置、设备和介质 | |
CN111241291A (zh) | 利用对抗生成网络生成对抗样本的方法及装置 | |
CN112749696B (zh) | 一种文本检测方法及装置 | |
CN113033711A (zh) | 题目批改方法、装置、电子设备及计算机存储介质 | |
CN111612081B (zh) | 识别模型的训练方法、装置、设备及存储介质 | |
CN112613293B (zh) | 摘要生成方法、装置、电子设备及存储介质 | |
CN112215236B (zh) | 文本识别方法、装置、电子设备及存储介质 | |
CN115130613B (zh) | 虚假新闻识别模型构建方法、虚假新闻识别方法与装置 | |
CN111598075B (zh) | 图片生成方法、设备及可读存储介质 | |
CN117786058A (zh) | 一种多模态大模型知识迁移框架的构建方法 | |
CN116977692A (zh) | 一种数据处理方法、设备以及计算机可读存储介质 | |
CN116186312A (zh) | 用于数据敏感信息发现模型的多模态数据增强方法 | |
CN117011539A (zh) | 目标检测方法、目标检测模型的训练方法、装置及设备 | |
CN115273100A (zh) | 一种基于语义引导鉴别器的半监督汉字图像生成方法 | |
CN115393867A (zh) | 文本识别模型生成方法、文本识别方法、设备及存储介质 | |
KR102476334B1 (ko) | 딥러닝 기반 일기 생성 방법 및 장치 | |
CN114842488A (zh) | 图像标题文本确定方法、装置、电子设备及存储介质 | |
CN113688234A (zh) | 文本分类管理方法、装置、终端及可读存储介质 | |
CN112818301A (zh) | Ofd版式电子文档的隐藏信息嵌入及提取方法、装置 | |
CN113158745A (zh) | 一种基于多特征算子的乱码文档图片识别方法及系统 | |
KR20220023576A (ko) | 문자 인식 학습 장치, 문자 인식 학습 방법, 문자 인식 장치 및 문자 인식 방법 | |
CN116311275B (zh) | 一种基于seq2seq语言模型的文字识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |