CN114495118A - 基于对抗解耦的个性化手写文字生成方法 - Google Patents
基于对抗解耦的个性化手写文字生成方法 Download PDFInfo
- Publication number
- CN114495118A CN114495118A CN202210392274.4A CN202210392274A CN114495118A CN 114495118 A CN114495118 A CN 114495118A CN 202210392274 A CN202210392274 A CN 202210392274A CN 114495118 A CN114495118 A CN 114495118A
- Authority
- CN
- China
- Prior art keywords
- content
- style
- vector
- sequence
- handwritten
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/20—Drawing from basic elements, e.g. lines or circles
- G06T11/203—Drawing of straight lines or curves
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了基于对抗解耦的个性化手写文字生成方法,包括以下步骤:构建风格向量提取器和内容分类器;以所述的风格向量提取器为生成器,以所述的内容分类器为判别器,进行生成对抗学习;将手写文字图片输入学习后的风格向量提取器,获得手写风格向量;将待生成的目标文字通过内容嵌入层映射为内容向量;拼接所述的手写风格向量和所述的内容向量,然后在融合初始序列,获得解码向量;将所述的解码向量输入解码器进行解码,获得具有手写风格的目标文字的轨迹预测序列。本发明方法能够通过对抗解耦的方式,利用对抗网络帮助风格提取器消除风格向量中夹杂的内容信息,提取出干净的风格向量,进而提升个性化手写文字的生成效果。
Description
技术领域
本发明涉及生成对抗神经网络技术领域,尤其涉及基于对抗解耦的个性化手写文字生成方法。
背景技术
手写文字是人们展示自我的信息载体,属于人的生物特征。手写文字具有商业应用价值,高效的手写文字生成方法可以大幅减少字体设计师的成本。同时,手写文字趣味性十足,能满足人们的个性化需求。
近年来,随着深度学习领域的发展,手写文字生成领域也得到了一定的发展。在字母型语言中,手写文字生成领域已经提出了较多方法,但是由于中文庞大的常用字典,以及汉字复杂的拓扑结构,中文的手写文字生成还未能达到非常好的效果。因此,如何能够有效地提高中文手写文字的生成效果,仍是待研究的问题。
现有的手写文字生成技术基本上都是基于风格提取的方法,即使用CNN网络单独对手写者的少量手写文字图片进行风格向量的提取,后续再对此向量做进一步的融合利用。但是仅仅用CNN网络提取风格向量并不能保证提取出的向量仅包含风格信息。提取出的风格信息中可能夹杂了部分内容信息,这会干扰后续对风格信息的利用。因此,如果能够消除其中的内容信息,提取出干净的风格信息,将会对后续的生成步骤带来很大的提升。
发明内容
有鉴于此,有必要针对上述技术问题,提供基于对抗解耦的个性化手写文字生成方法,所述方法通过书写者的少量手写文字图片,利用生成对抗网络帮助风格提取器对内容信息和风格信息进行对抗解耦,再将风格提取器提取出的干净的风格信息和输入的内容信息进行融合,送入解码器,最终生成目标文字更加精准的在线轨迹序列。
基于对抗解耦的个性化手写文字生成方法,包括以下步骤:
步骤1,构建风格向量提取器和内容分类器;
步骤2,以所述的风格向量提取器为生成器,以所述的内容分类器为判别器,进行生成对抗学习;
步骤6,将所述的解码向量输入解码器进行解码,获得具有手写风格的目标文字的轨迹预测序列。
具体地,步骤2中所述的对抗学习的过程为:
交叉多轮训练判别器和生成器;每轮训练过程中,判别器的训练频次大于生成器的训练频次;训练判别器的时候仅更新判别器的参数,训练生成器的时候更新除判别器以外的模型的参数。
优选地,步骤2中所述的对抗学习的过程中,所述的生成器的损失函数为:
所述的状态损失函数的计算公式为:
所述的判别器损失函数的计算公式为:
具体地,所述的风格向量提取器的结构为M1层CNN网络和N1层全连接层构成,所述的风格向量提取器的输出为(Batchsize,128)大小的风格向量,其中,M1和N1分别表示CNN网络和全连接层的层数,Batchsize表示一次训练所抓取的数据样本数量;
优选地,M1取值为7,N1取值为2;
更进一步地,所述的风格向量提取器为经过预训练的风格向量提取器,预训练采用的数据集为Casia1.1数据集,预训练过程中采用风格分类任务训练,所述的风格向量提取器的最后一层全连接层的数量根据手写风格的类别数量而确定。
具体地,所述的内容分类器的结构为M2层CNN网络和N2层全连接层构成,所述的内容分类器的任务为文字分类,即判别输入的手写文字是哪个字,其中M2和N2分别为CNN网络和全连接层的层数;
优选地,M2值为6,N2为1;
具体地,所述的解码器的结构为5层LSTM网络。
具体地,所述的轨迹预测序列指的是输出的手写文字的相对坐标序列,所述的相对坐标序列包括x、y坐标,以及每个点对应的状态,所述的状态包括下笔状态、起笔状态和抬笔状态。
与现有技术相比,本发明的有益效果在于,本发明方法能够通过对抗解耦的方式,利用对抗网络帮助风格提取器消除风格向量中夹杂的内容信息,提取出干净的风格向量,进而提升个性化手写文字的生成效果。
附图说明
图1示出了本发明实施方法的流程示意图;
图2示出了本发明实施例的生成对抗学习的过程示意图;
图3示出了本发明实施例的手写文字生成的流程示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部份实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
图1示出了本发明实施例的流程示意图。基于对抗解耦的个性化手写文字生成方法,包括以下步骤:
步骤1,构建风格向量提取器和内容分类器;
步骤2,以所述的风格向量提取器为生成器,以所述的内容分类器为判别器,进行生成对抗学习;
步骤6,将所述的解码向量输入解码器进行解码,获得具有手写风格的目标文字的轨迹预测序列。
具体地,在本实施例中采用以下方法步骤:
(1)使用Casia1.1数据集预训练风格向量提取器,将最后一层全连接层改为300,用于300个书写者的风格分类任务,借用风格分类任务对风格向量提取器进行预训练。
(2)加载预训练的风格向量提取器权重(除全连接层),如图2所示,以内容分类器为判别器D,风格向量提取器为生成器G,进行生成对抗学习。具体为:交叉训练判别器和生成器,训练5次D,训练1次G。训练D时仅更新判别器的参数,训练G时更新除判别器以外的模型的参数。
具体的损失函数设置如下:
(5)将前两步提取的风格向量和内容向量通过拼接的方式融合为256维的向量,再将融合向量和初始序列融合,得到261维的解码向量。即,。其中代表在第二维上拼接。初始序列为:在训练时为手写文字图片对应的真实轨迹序列,在测试时为解码器预测的轨迹序列。
(6)将解码向量输入解码器进行解码,最终解码得到具有书写者手写风格的目标文字的在线轨迹序列。本实施例方法的简易流程图如图3所示。
本发明方法的技术原理是:
本发明利用内容分类器作为判别器,与风格编码器进行对抗,进而使得编码器在对抗过程中逐步消除内容信息,进而提取出干净的风格信息,实现内容和风格的解耦。通过该对抗解耦过程,本发明解决了在现有方法中风格编码器存在内容干扰的问题,进而增强了最终手写文字的生成效果,使得生成的文字更加多样化,更符合书写者的风格特性。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
Claims (10)
1.基于对抗解耦的个性化手写文字生成方法,其特征在于,包括以下步骤:
步骤1,构建风格向量提取器和内容分类器;
步骤2,以所述的风格向量提取器为生成器,以所述的内容分类器为判别器,进行生成对抗学习;
步骤6,将所述的解码向量输入解码器进行解码,获得具有手写风格的目标文字的轨迹预测序列。
2.根据权利要求1所述的基于对抗解耦的个性化手写文字生成方法,其特征在于,步骤2中所述的对抗学习的过程为:交叉多轮训练判别器和生成器;每轮训练过程中,判别器的训练频次大于生成器的训练频次;训练判别器的时候仅更新判别器的参数,训练生成器的时候更新除判别器以外的模型的参数。
3.根据权利要求2所述的基于对抗解耦的个性化手写文字生成方法,其特征在于,步骤2中所述的对抗学习的过程中,所述的生成器的损失函数为:
所述的状态损失函数的计算公式为:
所述的判别器损失函数的计算公式为:
4.根据权利要求1所述的基于对抗解耦的个性化手写文字生成方法,其特征在于,所述的风格向量提取器的结构为M1层CNN网络和N1层全连接层构成,所述的风格向量提取器的输出为(Batchsize,128)大小的风格向量,其中,M1和N1分别表示CNN网络和全连接层的层数,Batchsize表示一次训练所抓取的数据样本数量。
5.根据权利要求4所述的基于对抗解耦的个性化手写文字生成方法,其特征在于,M1取值为7,N1取值为2。
6.根据权利要求4或5所述的基于对抗解耦的个性化手写文字生成方法,其特征在于,所述的风格向量提取器为经过预训练的风格向量提取器,预训练采用的数据集为Casia1.1数据集,预训练过程中采用风格分类任务训练,所述的风格向量提取器的最后一层全连接层的数量根据手写风格的类别数量而确定。
7.根据权利要求1所述的基于对抗解耦的个性化手写文字生成方法,其特征在于,所述的内容分类器的结构为M2层CNN网络和N2层全连接层构成,所述的内容分类器的任务为文字分类,即判别输入的手写文字是哪个字,其中M2和N2分别为CNN网络和全连接层的层数。
8.根据权利要求7所述的基于对抗解耦的个性化手写文字生成方法,其特征在于,M2取值为6,N2取值为1。
9.根据权利要求8所述的基于对抗解耦的个性化手写文字生成方法,其特征在于,所述的解码器的结构为5层LSTM网络。
10.根据权利要求1所述的基于对抗解耦的个性化手写文字生成方法,其特征在于,所述的轨迹预测序列指的是输出的手写文字的相对坐标序列,所述的相对坐标序列包括x、y坐标,以及每个点对应的状态,所述的状态包括下笔状态、起笔状态和抬笔状态。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210392274.4A CN114495118B (zh) | 2022-04-15 | 2022-04-15 | 基于对抗解耦的个性化手写文字生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210392274.4A CN114495118B (zh) | 2022-04-15 | 2022-04-15 | 基于对抗解耦的个性化手写文字生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114495118A true CN114495118A (zh) | 2022-05-13 |
CN114495118B CN114495118B (zh) | 2022-08-09 |
Family
ID=81488128
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210392274.4A Active CN114495118B (zh) | 2022-04-15 | 2022-04-15 | 基于对抗解耦的个性化手写文字生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114495118B (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106803082A (zh) * | 2017-01-23 | 2017-06-06 | 重庆邮电大学 | 一种基于条件式生成对抗网络的在线笔迹识别方法 |
US20200151938A1 (en) * | 2018-11-08 | 2020-05-14 | Adobe Inc. | Generating stylized-stroke images from source images utilizing style-transfer-neural networks with non-photorealistic-rendering |
CN111915540A (zh) * | 2020-06-17 | 2020-11-10 | 华南理工大学 | 拓片甲骨文字符图像增广方法、系统、计算机设备及介质 |
CN112633430A (zh) * | 2020-12-25 | 2021-04-09 | 同济大学 | 一种中文字体风格迁移方法 |
US20210166013A1 (en) * | 2019-12-03 | 2021-06-03 | Adobe Inc. | Simulated handwriting image generator |
US20210271939A1 (en) * | 2019-05-16 | 2021-09-02 | Boe Technology Group Co., Ltd. | Method and system for converting font of chinese character in image, computer device and medium |
CN114255159A (zh) * | 2021-12-21 | 2022-03-29 | 科大讯飞股份有限公司 | 手写文本图像生成方法、装置、电子设备和存储介质 |
-
2022
- 2022-04-15 CN CN202210392274.4A patent/CN114495118B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106803082A (zh) * | 2017-01-23 | 2017-06-06 | 重庆邮电大学 | 一种基于条件式生成对抗网络的在线笔迹识别方法 |
US20200151938A1 (en) * | 2018-11-08 | 2020-05-14 | Adobe Inc. | Generating stylized-stroke images from source images utilizing style-transfer-neural networks with non-photorealistic-rendering |
US20210271939A1 (en) * | 2019-05-16 | 2021-09-02 | Boe Technology Group Co., Ltd. | Method and system for converting font of chinese character in image, computer device and medium |
US20210166013A1 (en) * | 2019-12-03 | 2021-06-03 | Adobe Inc. | Simulated handwriting image generator |
CN111915540A (zh) * | 2020-06-17 | 2020-11-10 | 华南理工大学 | 拓片甲骨文字符图像增广方法、系统、计算机设备及介质 |
CN112633430A (zh) * | 2020-12-25 | 2021-04-09 | 同济大学 | 一种中文字体风格迁移方法 |
CN114255159A (zh) * | 2021-12-21 | 2022-03-29 | 科大讯飞股份有限公司 | 手写文本图像生成方法、装置、电子设备和存储介质 |
Non-Patent Citations (2)
Title |
---|
N. SAKAO AND Y. DOBASHI: "Fonts Style Transfer using Conditional GAN", 《FONTS STYLE TRANSFER USING CONDITIONAL GAN》 * |
黄双萍 等: "基于深度卷积神经网络的水稻穗瘟病检测方法", 《农业工程学报》 * |
Also Published As
Publication number | Publication date |
---|---|
CN114495118B (zh) | 2022-08-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Cheng et al. | Fully convolutional networks for continuous sign language recognition | |
Liao et al. | Real-time scene text detection with differentiable binarization and adaptive scale fusion | |
Yang et al. | Video captioning by adversarial LSTM | |
CN110288665B (zh) | 基于卷积神经网络的图像描述方法、计算机可读存储介质、电子设备 | |
Guo et al. | Hierarchical recurrent deep fusion using adaptive clip summarization for sign language translation | |
Pei et al. | Temporal attention-gated model for robust sequence classification | |
CN111767405A (zh) | 文本分类模型的训练方法、装置、设备及存储介质 | |
CN111581970B (zh) | 一种网络语境的文本识别方法、装置及存储介质 | |
Elpeltagy et al. | Multi‐modality‐based Arabic sign language recognition | |
Wang et al. | Early action prediction with generative adversarial networks | |
Hao | Multimedia English teaching analysis based on deep learning speech enhancement algorithm and robust expression positioning | |
CN110991290A (zh) | 基于语义指导与记忆机制的视频描述方法 | |
Zhu et al. | Conditional text image generation with diffusion models | |
Wen et al. | Zigan: Fine-grained chinese calligraphy font generation via a few-shot style transfer approach | |
Zhao et al. | Deep imitator: Handwriting calligraphy imitation via deep attention networks | |
CN113449801A (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN111062277A (zh) | 基于单目视觉的手语-唇语转化方法 | |
CN115187910A (zh) | 视频分类模型训练方法、装置、电子设备及存储介质 | |
Ye et al. | Discriminative suprasphere embedding for fine-grained visual categorization | |
CN111680684A (zh) | 一种基于深度学习的书脊文本识别方法、设备及存储介质 | |
Zdenek et al. | JokerGAN: memory-efficient model for handwritten text generation with text line awareness | |
CN110347853A (zh) | 一种基于循环神经网络的图像哈希码生成方法 | |
Pan et al. | Teach machine to learn: hand-drawn multi-symbol sketch recognition in one-shot | |
Kaddoura | A Primer on Generative Adversarial Networks | |
CN114495118B (zh) | 基于对抗解耦的个性化手写文字生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |