CN112819686A - 基于人工智能的图像风格处理方法、装置及电子设备 - Google Patents

基于人工智能的图像风格处理方法、装置及电子设备 Download PDF

Info

Publication number
CN112819686A
CN112819686A CN202010833104.6A CN202010833104A CN112819686A CN 112819686 A CN112819686 A CN 112819686A CN 202010833104 A CN202010833104 A CN 202010833104A CN 112819686 A CN112819686 A CN 112819686A
Authority
CN
China
Prior art keywords
style
network
image
image sample
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010833104.6A
Other languages
English (en)
Other versions
CN112819686B (zh
Inventor
聂士伟
黄飞
石世昌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010833104.6A priority Critical patent/CN112819686B/zh
Publication of CN112819686A publication Critical patent/CN112819686A/zh
Application granted granted Critical
Publication of CN112819686B publication Critical patent/CN112819686B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/04Context-preserving transformations, e.g. by using an importance map
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/30Writer recognition; Reading and verifying signatures
    • G06V40/33Writer recognition; Reading and verifying signatures based only on signature image, e.g. static signature recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本申请提供了一种基于人工智能的图像风格处理方法、装置、设备及计算机可读存储介质;方法包括:通过风格生成网络对第一图像样本进行风格变换处理,得到第二图像样本;获取所述第二图像样本图像进行风格分类时对应的风格分类损失函数、以及对所述第二图像样本进行内容分类时对应的内容分类损失函数;根据所述风格分类损失函数和所述内容分类损失函数训练所述风格生成网络;通过训练后的所述风格生成网络对第一图像进行风格变换处理,得到第二图像。通过本申请,能够实现准确图像风格迁移。

Description

基于人工智能的图像风格处理方法、装置及电子设备
技术领域
本申请涉及人工智能技术,尤其涉及一种基于人工智能的图像风格处理方法、装置、电子设备及计算机可读存储介质。
背景技术
人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。
随着深度学习的发展,图像识别技术应用到越来越多的领域以及产品中,针对于图像风格变换领域,将对抗生成网络应用于图像风格变换领域时,仅依靠判别网络监督生成网络进行训练所得到的生成网络无法满足具有多样性的图像风格迁移需求,例如,个人用户具有多样性的手写字图像等等,基于判别网络监督生成网络训练得到的生成网络无法按照预期实现图像风格变换。
发明内容
本申请实施例提供一种基于人工智能的图像风格处理方法、装置、电子设备及计算机可读存储介质,能够实现更准确的风格迁移。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种基于人工智能的图像风格处理方法,包括:
通过风格生成网络对第一图像样本进行风格变换处理,得到第二图像样本;
获取对所述第二图像样本进行风格分类时对应的风格分类损失函数、以及对所述第二图像样本进行内容分类时对应的内容分类损失函数;
根据所述风格分类损失函数和所述内容分类损失函数训练所述风格生成网络;
通过训练后的所述风格生成网络对第一图像进行风格变换处理,得到第二图像。
在上述方案中,对所述第二图像样本进行风格分类是通过风格分类网络实现的,对所述第二图像样本进行内容分类是通过内容分类网络实现的;
获取对所述第二图像样本进行风格分类时对应的风格分类损失函数、以及对所述第二图像样本进行内容分类时对应的内容分类损失函数之前,所述方法包括:
通过所述内容分类网络对第三图像样本进行内容分类处理,得到所述第三图像样本的内容分类预测结果,并根据所述内容分类预测结果与所述第三图像样本的标记内容分类结果之间的误差,更新所述内容分类网络的参数;
通过所述风格分类网络对所述第三图像样本进行风格分类处理,得到所述第三图像样本的风格分类预测结果,并根据所述风格分类预测结果与所述第三图像样本的标记风格分类结果之间的误差,更新所述风格分类网络的参数;
其中,所述第三图像样本是通过图像采集得到的、与所述第一图像样本包括相同字符且具有待模仿风格特征。
在上述方案中,所述通过N个级联的残差网络中的第n残差网络,对所述第n残差网络的输入进行特征提取处理,包括:
通过所述第n残差网络的卷积层对所述第n残差的输入进行卷积处理,将得到的对应所述第一图像的第n卷积处理结果作为特征提取结果;
所述根据所述待模仿风格特征对所提取的对象特征进行风格迁移处理,包括:
通过所述第n残差网络的归一化层对所述第n卷积处理结果以及所述待模仿风格特征进行归一化处理,得到所述第n残差网络输出的第n归一化处理结果;其中,所述归一化处理包括缩放处理以及平移处理;
通过所述第n残差网络的激活层将所述第n归一化处理结果映射至图像通道空间,得到所述第n残差网络输出的第n风格迁移结果。
在上述方案中,所述第一图像样本、所述第二图像样本包括的对象的类型为字符,所述第一图像样本的对象特征为所述第一图像样本中所包括的字符的字体特征;
所述方法还包括:
基于具有所述待模仿风格特征的多个第二图像,训练手写字识别模型;
通过人机交互界面接收待识别文本图像,其中,所述待识别文本图像具有所述待模仿风格特征;
基于所述手写字识别模型对所述待识别文本图像进行手写字识别处理,并在所述人机交互界面中呈现能够被用于文本编辑的文本识别结果。
本申请实施例提供一种基于人工智能的图像风格处理装置,包括:。
训练模块,用于通过风格生成网络对第一图像样本进行风格变换处理,得到第二图像样本;获取对所述第二图像样本进行风格分类时对应的风格分类损失函数、以及对所述第二图像样本进行内容分类时对应的内容分类损失函数;根据所述风格分类损失函数和所述内容分类损失函数训练所述风格生成网络;
风格生成网络模块,用于通过训练后的所述风格生成网络对第一图像进行风格变换处理,得到第二图像。
在上述方案中,所述训练模块,还用于:
通过风格生成网络对第一图像样本进行特征提取处理,得到所述第一图像样本的对象特征;
通过所述风格生成网络对所述第一图像样本的对象特征向待模仿风格特征进行风格迁移处理,得到第二图像样本。
在上述方案中,所述训练模块还包括:
风格分类网络单元,用于:
通过所述风格分类网络对所述第二图像样本进行风格分类,得到所述第二图像样本的风格分类预测结果,并通过所述风格分类网络对所述第三图像样本进行风格分类,得到第三图像样本的风格分类预测结果;
其中,所述第三图像样本是通过图像采集得到的、与所述第一图像样本包括相同字符且具有待模仿风格特征;
根据所述第二图像样本的风格分类预测结果与所述第三图像样本的风格分类预测结果之间的误差,构建风格分类损失函数;
内容分类网络单元,用于:
通过所述内容分类网络对所述第二图像样本进行内容分类,得到所述第二图像样本的内容分类预测结果,并通过所述内容分类网络对所述第三图像样本进行内容分类,得到所述第三图像样本的内容分类预测结果;
根据所述第二图像样本的预测内容分类结果与所述第三图像样本的预测内容分类结果之间的误差,构建内容分类损失函数。
在上述方案中,所述风格生成网络与判别网络组成对抗生成网络;
所述训练模块,还用于:
初始化所述风格生成网络的参数和所述判别网络的参数;
交替地执行以下训练任务:
根据所述风格分类损失函数、所述内容分类损失函数、所述第三图像样本、以及所述第二图像样本,训练所述风格生成网络;
根据所述判别网络的第一损失函数、所述第三图像样本、以及所述第二图像样本,训练所述判别网络;
其中,所述第三图像样本是通过图像采集得到的、与所述第一图像样本包括相同字符且具有待模仿风格特征;
其中,在训练所述风格生成网络的过程中,保持所述判别网络的参数不变;在训练所述判别网络的过程中,保持所述风格生成网络的参数不变。
在上述方案中,所述训练模块,还用于:
根据所述第二图像样本与所述第三图像样本之间的误差,构建所述风格生成网络的损失函数;
通过所述判别网络对所述第二图像样本进行判别处理,得到所述第二图像样本是否是真实图像的判别结果;
根据所述第二图像样本的判别结果与所述第二图像样本的期望判别结果之间的误差,构建所述判别网络的第一损失函数;
根据所述风格分类损失函数、所述内容分类损失函数、所述生成网络的损失函数、所述判别网络的损失函数,构建用于更新所述生成网络的参数的新损失函数;
根据所述生成网络的新损失函数在所述风格生成网络中进行反向传播,以更新所述风格生成网络的参数。
在上述方案中,所述训练模块,还用于:
通过所述判别网络对所述第二图像样本进行判别处理,得到针对所述第二图像样本的判别结果,并通过所述判别网络对所述第三图像样本进行判别处理,得到所述第三图像样本是否是真实图像的判别结果;
根据所述第二图像样本的判别结果与所述第二图像样本的期望判别结果之间的误差,构建所述判别网络的第二损失函数,并根据所述第三图像样本的判别结果与所述第三图像样本的期望判别结果之间的误差,构建所述判别网络的第三损失函数;
根据所述判别网络的第二损失函数、以及所述判别网络的第三损失函数在所述判别网络中进行反向传播,以更新所述判别网络的参数。
在上述方案中,对所述第二图像样本进行风格分类是通过风格分类网络实现的,对所述第二图像样本进行内容分类是通过内容分类网络实现的;
获取对所述第二图像样本进行风格分类时对应的风格分类损失函数、以及对所述第二图像样本进行内容分类时对应的内容分类损失函数之前,
所述内容分类网络单元,还用于:
通过所述内容分类网络对第三图像样本进行内容分类处理,得到所述第三图像样本的预测内容分类结果,并根据所述预测内容分类结果与所述第三图像样本的标记内容分类结果之间的误差,更新所述内容分类网络的参数;
所述风格分类网络单元,还用于:
通过所述风格分类网络对所述第三图像样本进行风格分类处理,得到所述第三图像样本的风格分类预测结果,并根据所述风格分类预测结果与所述第三图像样本的标记风格分类结果之间的误差,更新所述风格分类网络的参数;
其中,所述第三图像样本是通过图像采集得到的、且具有待模仿风格特征。
在上述方案中,所述风格生成网络模块,还用于:
获取待模仿风格特征,并通过训练后的所述风格生成网络,执行以下处理:
对所述第一图像进行特征提取处理,得到所述第一图像的对象特征;
将所述第一图像的对象特征向所述待模仿风格特征进行风格迁移处理,得到具有所述待模仿风格特征的第二图像。
在上述方案中,所述风格生成网络模块,还用于:
获取多个第三图像的风格特征;
对多个所述第三图像的风格特征进行融合处理,得到所述待模仿风格特征。
在上述方案中,所述风格生成网络模块,还用于:
获取第四图像的风格特征、以及第五图像的风格特征;
在所述第四图像的风格特征和所述第五图像的风格特征之间进行插值处理,将插值处理得到的风格特征确定为所述待模仿风格特征。
在上述方案中,所述特征提取处理和所述风格迁移处理是迭代执行的;所述风格生成网络包括N个级联的残差网络,其中,N为大于或等于2的整数;
所述特征提取处理和所述风格迁移处理的迭代执行过程包括:
通过N个级联的残差网络中的第n残差网络,对所述第n残差网络的输入进行特征提取处理,并根据所述待模仿风格特征对所提取的对象特征进行风格迁移处理;
将所述第n残差网络输出的第n风格迁移结果传输到第n+1残差网络以继续进行特征提取处理;
其中,n为取值从1开始递增的整数,且n的取值范围满足1≤n≤N-1;当n取值为1时,所述第n残差网络的输入为所述第一图像,当n取值为2≤n≤N-1时,所述第n残差网络的输入为第n-1残差网络输出的风格迁移结果。
在上述方案中,在所述通过N个级联的残差网络中的第n残差网络,对所述第n残差网络的输入进行特征提取处理之前,所述风格生成网络模块,还用于:
当n取值为
Figure BDA0002638693780000071
时,对所述第n-1残差网络的输出以及所述第n-1残差网络的输入进行下采样处理,将下采样处理结果作为所述第n残差网络的输入以替代将所述第n-1残差网络输出的风格迁移结果作为所述第n残差网络的输入;
当n取值为
Figure BDA0002638693780000072
时,对所述第n-1残差网络的输出以及所述第n-1残差网络的输入进行上采样处理,并将上采样处理结果作为所述第n残差网络的输入,以替代将所述第n-1残差网络输出的风格迁移结果作为所述第n残差网络的输入。
在上述方案中,所述风格生成网络模块,还用于:
通过所述第n残差网络的卷积层对所述第n残差的输入进行卷积处理,将得到的对应所述第一图像的第n卷积处理结果作为特征提取结果;
所述根据所述待模仿风格特征对所提取的对象特征进行风格迁移处理,包括:
通过所述第n残差网络的归一化层对所述第n卷积处理结果以及所述待模仿风格特征进行归一化处理,得到所述第n残差网络输出的第n归一化处理结果;其中,所述归一化处理包括缩放处理以及平移处理;
通过所述第n残差网络的激活层将所述第n归一化处理结果映射至图像通道空间,得到所述第n残差网络输出的第n风格迁移结果。
在上述方案中,所述第一图像样本、所述第二图像样本包括的对象的类型为字符,所述第一图像样本的对象特征为所述第一图像样本中所包括的字符的字体特征;
所述装置还包括:手写字识别模块,用于:
基于具有所述待模仿风格特征的多个第二图像,训练手写字识别模型;
通过人机交互界面接收待识别文本图像,其中,所述待识别文本图像具有所述待模仿风格特征;
基于所述手写字识别模型对所述待识别文本图像进行手写字识别处理,并在所述人机交互界面中呈现能够被用于文本编辑的文本识别结果。
本申请实施例提供一种基于人工智能的图像风格处理方法,包括:
在人机交互界面呈现多个不同风格特征的候选图像;
响应于风格选择操作,确定待模仿风格特征;
其中,当所述风格选择操作选中的候选图像的数量为一个时,所述待模仿风格特征是被选中的候选图像所具有的风格特征;
其中,当所述风格选择操作选中的候选图像的数量为多个时,所述待模仿风格特征是过渡风格特征,所述过渡风格特征介于多个被选中的候选图像所具有的风格特征之间;
根据待模仿风格特征对第一图像进行风格变换处理,得到具有所述待模仿风格特征的第二图像,并在所述人机交互界面呈现所述第二图像。
本申请实施例提供一种基于人工智能的图像风格处理装置,包括:
呈现模块,用于在人机交互界面呈现多个不同风格特征的候选图像;
确定模块,用于响应于风格选择操作,确定待模仿风格特征;
其中,当所述风格选择操作选中的候选图像的数量为一个时,所述待模仿风格特征是被选中的候选图像所具有的风格特征;
其中,当所述风格选择操作选中的候选图像的数量为多个时,所述待模仿风格特征是过渡风格特征,所述过渡风格特征介于多个被选中的候选图像所具有的风格特征之间;
变换模块,用于根据待模仿风格特征对第一图像进行风格变换处理,得到具有所述待模仿风格特征的第二图像,并在所述人机交互界面呈现所述第二图像。
本申请实施例提供一种基于人工智能的图像风格处理方法,包括:
在人机交互界面呈现输入的第一图像、以及多个候选待模仿风格特征;
响应于风格选择操作,确定所述多个候选待模仿风格特征中被选中的待模仿风格特征;
根据所述待模仿风格特征对所述第一图像进行风格变换处理,得到具有所述待模仿风格特征的第二图像,并在所述人机交互界面呈现所述第二图像。
本申请实施例提供一种基于人工智能的图像风格处理装置,包括:
呈现模块,用于在人机交互界面呈现输入的第一图像、以及多个候选待模仿风格特征;
确定模块,用于响应于风格选择操作,确定所述多个候选待模仿风格特征中被选中的待模仿风格特征;
变换模块,用于根据所述待模仿风格特征对所述第一图像进行风格变换处理,得到具有所述待模仿风格特征的第二图像,并在所述人机交互界面呈现所述第二图像。
本申请实施例提供一种电子设备,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现本申请实施例提供的基于人工智能的图像风格处理方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起处理器执行时,实现本申请实施例提供的基于人工智能的图像风格处理方法。
通过本申请实施例提供的基于人工智能的图像风格处理方法,从多个维度对风格生成网络的训练过程进行监督,使得风格生成网络具有准确的图像风格迁移性能,从而应用该风格生成网络对已有字体图像进行风格变换处理,能够实现更准确的风格迁移。
附图说明
图1是本申请实施例提供的基于人工智能的图像风格处理系统的结构示意图;
图2是本申请实施例提供的应用基于人工智能的图像风格处理方法的电子设备的结构示意图;
图3A是本申请实施例提供的基于人工智能的图像风格处理方法的流程示意图;
图3B是本申请实施例提供的基于人工智能的图像风格处理方法的流程示意图;
图3C是本申请实施例提供的基于人工智能的图像风格处理方法的流程示意图;
图3D是本申请实施例提供的基于人工智能的图像风格处理方法的流程示意图;
图3E是本申请实施例提供的基于人工智能的图像风格处理方法的流程示意图;
图3F是本申请实施例提供的基于人工智能的图像风格处理方法的流程示意图;
图4是本申请实施例提供的基于人工智能的图像风格处理方法的内容分类网络结构图;
图5是本申请实施例提供的基于人工智能的图像风格处理方法的风格分类网络结构图;
图6A是本申请实施例提供的基于人工智能的图像风格处理方法的生成网络结构图;
图6B是本申请实施例提供的基于人工智能的图像风格处理方法的生成网络结构图;
图7是本申请实施例提供的基于人工智能的图像风格处理方法的生成对抗网络训练示意图;
图8是本申请实施例提供的基于人工智能的图像风格处理方法的应用示意图;
图9是本申请实施例提供的基于人工智能的图像风格处理方法的应用示意图;
图10A是本申请实施例提供的基于人工智能的图像风格处理方法的界面示意图;
图10B是本申请实施例提供的基于人工智能的图像风格处理方法的界面示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
在以下的描述中,所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)深度生成对抗网络:是非监督式学习的一种方法,通过让两个神经网络相互博弈的方式进行学习,生成对抗网络由一个生成网络与一个判别网络组成,生成网络从潜在空间中随机取样作为输入,其输出结果需要尽量模仿训练集中的真实样本,判别网络的输入则为真实样本或生成网络的输出,其目的是将生成网络的输出从真实样本中尽可能分辨出来,而生成网络则要尽可能地欺骗判别网络,两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。
2)光学字符识别:(OCR,Optical Character Recognition)指电子设备(例如扫描仪或数码相机)检查纸上所打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
3)ResNet18:ResNet18是18层的残差网络,残差网络的特点是容易优化,并且能够通过增加深度来提高准确率,其内部的残差块使用了跳跃连接,缓解了在深度神经网络中增加深度带来的梯度消失问题。
4)对象:图像(例如照片或视频帧)中所承载的内容,例如人脸、字符等。
5)风格:是图像中的对象(例如人脸、字符)在被显示时所呈现出来的外在形式特征。例如,当对象是人脸时,不同的人脸图像对应不同的风格;当对象是字符时,不同的字体对应不同的风格,典型的中文字体包括楷体和宋体,典型的英文字体包括Times New Roman和Arial。
随着深度学习的发展,图像识别技术应用到越来越多的领域以及产品中,针对于图像风格变换领域,相关技术中通常是通过对抗生成网络实现风格迁移,在训练过程中是通过判别网络来对生成网络进行监督,从而使得生成网络所生成的图像无法被判别网络识别出来,即表征生成网络所生成的图像十分贴近理想结果,但是申请人在实施本申请实施例时发现将对抗生成网络应用于图像风格变换领域时,仅依靠判别网络监督生成网络进行训练所得到的生成网络无法满足多样性的图像风格迁移需求,例如,个人用户具有多样性的手写字图像,基于判别网络监督生成网络的方式训练得到的生成网络无法按照预期效果实现图像风格变换。
本申请实施例提供一种基于人工智能的图像风格处理方法、装置、电子设备和计算机可读存储介质,能够实现更准确的风格迁移,下面说明本申请实施例提供的电子设备的示例性应用,本申请实施例提供的电子设备可以为笔记本电脑,平板电脑,台式计算机,机顶盒,智能家居如智能电视,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的用户终端,也可以为服务器。下面,将说明设备实施为服务器时的示例性应用。
参见图1,图1是本申请实施例提供的基于人工智能的图像风格处理系统的结构示意图,为实现支撑一个文本编辑应用,以处理字体图像为例,终端400通过网络300连接应用服务器200-1,网络300可以是广域网或者局域网,又或者是二者的组合。终端400接收到用户输入的第一字体图像以及用户所选择的待模仿风格特征,终端400向应用服务器200-1发送接收到的第一字体图像以及待模仿风格特征,应用服务器200-1调用风格生成网络对第一字体图像进行风格变换处理,得到具有待模仿风格特征的第二字体图像,并返回至终端400,终端400对第二字体图像进行呈现,应用服务器200-1将所生成的第二字体图像发送至OCR服务器200-2以使OCR服务器200-2基于所生成的第二字体图像进行识别模型(手写字识别模型)训练。
在图1中是以终端400和应用服务器200-1协同完成图像风格处理为例说明,可以理解地,作为替换方案,终端400可以依赖于自身的能力完成图像风格处理。
在一些实施例中,应用服务器200-1和OCR服务器200-2可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN、以及大数据和人工智能平台等基础云计算服务的云服务器。终端400可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本发明实施例中不做限制。
参见图2,图2是本申请实施例提供的应用基于人工智能的图像风格处理方法的电子设备的结构示意图,以电子设备是依赖于自身能力独立完成图像风格处理的终端400为例,图2所示的终端400包括:至少一个处理器410、存储器450和至少一个网络接口420。应用服务器200-1中的各个组件通过总线系统440耦合在一起。可理解,总线系统440用于实现这些组件之间的连接通信。总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图2中将各种总线都标为总线系统440。
处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
用户接口430包括使得能够显示媒体内容的一个或多个输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。用户接口430还包括一个或多个输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。存储器450可选地包括在物理位置上远离处理器410的一个或多个存储设备。
存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的存储器450旨在包括任意适合类型的存储器。
在一些实施例中,存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
网络通信模块452,用于经由一个或多个(有线或无线)网络接口420到达其他计算设备,示例性的网络接口420包括:蓝牙、无线相容性认证(WiFi)、和通用串行总线(USB,Universal Serial Bus)等;
显示模块453,用于经由一个或多个与用户接口430相关联的输出装置431(例如,显示屏、扬声器等)使得能够显示信息(例如,用于操作外围设备和显示内容和信息的用户接口);
输入处理模块454,用于对一个或多个来自一个或多个输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的基于人工智能的图像风格处理装置可以采用软件方式实现,图2示出了存储在存储器450中的基于人工智能的图像风格处理装置455,包括以下软件模块:训练模块4551、风格生成网络模块4552、手写字识别模块4553、呈现模块4554、确定模块4555、变换模块4556,模块可以是程序和插件等形式的软件,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分,将在下文中说明各个模块的功能。
将结合本申请实施例提供的电子设备的示例性应用和实施,说明本申请实施例提供的基于人工智能的图像风格处理方法,本申请实施例提供的基于人工智能的图像风格处理方法可以由上文的终端400独立完成或者由上文所述的终端400和应用服务器200-1协同完成。
下面详细说明本申请实施例提供的基于人工智能的图像风格处理方法中所使用的对抗生成网络的训练过程。
参见图3F,图3F是本申请实施例提供的基于人工智能的图像风格处理方法的流程示意图,下面结合图3F示出的步骤401-404进行说明。
在步骤401中,通过风格生成网络对第一图像样本进行风格变换处理,得到第二图像样本。
在步骤402中,获取第二图像样本图像进行风格分类时对应的风格分类损失函数、以及对第二图像样本进行内容分类时对应的内容分类损失函数。
在步骤403中,根据风格分类损失函数和内容分类损失函数训练风格生成网络。
在步骤404中,通过训练后的风格生成网络对第一图像进行风格变换处理,得到第二图像。
在一些实施例中,步骤401-404中的图像可以为照片、视频帧、以及截屏结果等等,图像中所承载的内容(对象)可以为人像、建筑、字符等等,下面以图像中所承载的内容是字符为例(即图像样本为字体图像样本,图像为字体图像,对象特征为字体特征)详细说明本申请实施例提供的基于人工智能的图像风格处理方法。
参见图7,图7是本申请实施例提供的基于人工智能的图像风格处理方法的生成对抗网络训练示意图,生成对抗网络的训练架构由生成网络、判别网络、内容分类网络、风格分类网络四个部分组成。参见图5,图5是本申请实施例提供的基于人工智能的图像风格处理方法的内容分类网络结构图,内容分类网络采用原始的ResNet18结构,在网络的最后一个全连接层之前获得内容特征(嵌入向量),通过内容分类网络的特征提取模块获取内容特征,进而通过全连接层对所提取的内容特征进行全连接处理,并通过最大似然函数得到预测内容分类结果(概率),参见图4,图4是本申请实施例提供的基于人工智能的图像风格处理方法的风格分类网络结构图,风格分类网络采用原始的ResNet18结构,在网络的最后一个全连接层之前获得风格特征,通过风格分类网络的特征提取模块获取风格特征,进而通过全连接层对所提取的风格特征进行全连接处理,并通过最大似然函数得到风格分类预测结果(概率)。参见图6A,图6A是本申请实施例提供的基于人工智能的图像风格处理方法的生成网络结构图,生成网络包括多个级联的残差网络(图6A中只示出了一个残差网络),参见图6B,图6B是本申请实施例提供的基于人工智能的图像风格处理方法中生成网络结构图,生成网络由多个级联的残差网络组成,在各个残差网络之间是下采样层或者上采样层,从而在各个残差网络之间进行下采样处理或者上采样处理,在级联的多个残差网络中,靠近输入端的多个残差网络之间是进行下采样处理,在靠近输出端的多个残差网络之间是进行上采样处理,下采样处理采用步长为2的卷积操作替代相关技术中的2*2的最大池化操作,上采样层采用像素筛选(Pixel Shuffle)的方法进行将一低分辨率输入图像变为高分辨率图像,在残差网络中使用适应性实例归一化方法(Adaptive InstanceNormalization)取代批量归一化方法(Batch Normalization),通过Adaptive InstanceNormalization的方法将风格特征输入到生成网络的每一层中,通过全连接层对风格特征进行维度变化处理使其适应于网络中间层的维度数量,激活函数使用参数为0.2的待泄露修正线性单元(Leaky ReLU),在生成网络的最开始输入第一字体图像样本,然后在生成网络中间的多个残差网络中,输入风格特征,从而进行定向风格变换,得到第二字体图像样本。判别网络采用ResNet18的网络结构,残差网络之间的所有下采样层均使用步长为2的卷积操作,激活函数使用参数为0.2的Leaky ReLU,对抗生成网络的训练过程中存在几个维度(至少包括内容分类维度以及风格分类维度)进行监督训练的损失函数,因此针对生成网络的训练过程,还需要将生成网络基于第一字体图像样本生成的第二字体图像样本(虚假图像样本)输入到内容分类网络以及风格分类网络中分别生成对应的损失函数作为监督生成网络训练的一部分,因此在在对抗生成网络的训练过程中首先需要对内容分类网络以及风格分类网络进行预训练。
参见图3A,图3A是本申请实施例提供的基于人工智能的图像风格处理方法的流程示意图,下面结合图3A示出的步骤101-104进行说明。
在步骤101中,通过风格生成网络对第一字体图像样本进行风格变换处理,得到第二字体图像样本。
作为示例,步骤101-103用于实现生成网络的训练,通过经过预训练的风格分类网络生成风格特征,即对于现有数据集中的真实图像样本(对应后文的第三字体图像样本),通过风格分类网络获取其风格特征,然后对每一种风格的所有图像样本的风格特征取平均,即得到表征这种风格的风格特征,最后基于训练数据训练生成对抗网络,训练数据为第一字体图像样本(例如,第一字体图像样本包括宋体字“我”)、风格特征(对应某种已标记风格,例如,曾经参与训练的楷体风格)、在数据集中查找包括字符“我”且该字符“我”以该已标记风格特征所对应风格进行呈现的真实图像样本(第三字体图像样本),在生成网络输入第一字体图像样本和风格特征,获得第一字体图像样本对应这种风格的生成图像(第二字体图像样本),进而通过对应生成网络的四个损失函数对生成网络进行监督,并通过对应判别网络的损失函数对判别网络进行监督,在判别网络中输入第二字体图像样本和第三字体图像样本,再利用二分类交叉熵损失函数进行判别网络监督。
在一些实施例中,在执行步骤101通过风格生成网络对第一字体图像样本进行风格变换处理,得到第二字体图像样本之前,对第二字体图像样本进行风格分类是通过风格分类网络实现的,对第二字体图像样本进行内容分类是通过内容分类网络实现的;获取对第二字体图像样本进行风格分类时对应的风格分类损失函数、以及对第二字体图像样本进行内容分类时对应的内容分类损失函数之前,还可以执行以下技术方案:通过内容分类网络对第三字体图像样本进行内容分类处理,得到第三字体图像样本的预测内容分类结果,并根据预测内容分类结果与第三字体图像样本的标记内容分类结果之间的误差,更新内容分类网络的参数;通过风格分类网络对第三字体图像样本进行风格分类处理,得到第三字体图像样本的风格分类预测结果,并根据风格分类预测结果与第三字体图像样本的标记风格分类结果之间的误差,更新风格分类网络的参数;其中,第三字体图像样本是通过图像采集得到的、与第一字体图像样本具有相同字符且具有待模仿风格特征。
作为示例,参见图5,图5是本申请实施例提供的基于人工智能的图像风格处理方法的内容分类网络结构图,内容分类网络采用原始的ResNet18结构,在网络的最后一个全连接层之前获得内容特征,通过内容分类网络的特征提取模块获取内容特征,进而通过全连接层对所提取的内容特征进行全连接处理,并通过最大似然函数得到第三字体图像样本的预测内容分类结果,进而将第三字体图像样本的预测内容分类结果与第三字体图像样本的标记内容分类结果之间的误差进行反向传播,从而反向更新内容分类网络的参数。
作为示例,参见图4,图4是本申请实施例提供的基于人工智能的图像风格处理方法的风格分类网络结构图,风格分类网络采用原始的ResNet18结构,在网络的最后一个全连接层之前获得风格特征,通过风格分类网络的特征提取模块获取风格特征,进而通过全连接层对所提取的风格特征进行全连接处理,并通过最大似然函数得到第三字体图像样本的风格分类预测结果,进而将第三字体图像样本的风格分类预测结果与第三字体图像样本的标记风格分类结果之间的误差进行反向传播,从而反向更新风格分类网络的参数。
作为示例,第三字体图像样本是真实图像样本,因此可以通过图像采集得到,第三字体图像样本具有预标记的风格类型与预标记的内容类型,因此,第三字体图像样本即相当于是与第一字体图像样本具有相同字符,且具有待模仿风格特征的图像样本,基于如此的第三字体图像样本训练内容分类网络以及风格分类网络,才能使得后期基于内容分类网络以及风格分类网络训练具有基于第一字体图像样本生成具有待模仿风格特征的第二字体图像样本的能力的生成网络时达到有效的监督训练效果。
在一些实施例中,参见图3B,图3B是本申请实施例提供的基于人工智能的图像风格处理方法的流程示意图,步骤101中通过风格生成网络对第一字体图像样本进行风格变换处理,得到第二字体图像样本,可以通过步骤1011-1012实现。
在步骤1011中,通过风格生成网络对第一字体图像样本进行特征提取处理,得到第一字体图像样本的字体特征。
在步骤1012中,通过风格生成网络对第一字体图像样本的字体特征向待模仿风格特征进行风格迁移处理,得到第二字体图像样本。
作为示例,风格生成网络与判别网络组成对抗生成网络;在预训练风格分类网络以及内容分类网络之后,开始训练风格生成网络,而风格生成网络和判别网络的训练任务是交替进行的,在交替训练的过程中,风格生成网络的前向传播的过程如下,通过风格生成网络的特征提取模块,例如卷积层,对第一字体图像样本进行特征提取处理,得到第一字体图像样本的字体特征,字体特征也可以理解为视觉特征或者中间特征,通过风格生成网络的风格模块,例如归一化模块,对第一字体图像样本的字体特征向待模仿风格特征进行风格迁移处理,得到第二字体图像样本。
在一些实施例中,第一字体图像样本具体而言是包括第一字体的一个或多个字符的图像,待模仿风格是第二字体图像样本期望具有的字体风格,第二字体图像样本最终具有十分接近待模仿风格的第二字体或者第二字体图像样本最终具有待模仿风格作为第二字体,过渡字体是风格介于第一字体和第二字体之间的字体;第一字体图像是进行风格迁移的素材字体图像,第二字体图像是风格变换实际生成的字体图像,第三字体图像样本是风格变换理想生成的字体图像,即具有待模仿风格以及与第一字体图像样本相同字符的真实标记训练样本。
在一些实施例中,对抗生成网络的训练过程中存在几个维度(至少包括内容分类维度以及风格分类维度)进行生成网络监督训练的损失函数,下面介绍生成网络的损失函数,对于同内容同风格的第三字体图像样本和第二字体图像样本,计算以下四种损失函数:1、直接求解两个图像样本的像素点之间的差异;2、将第二字体图像样本输入到判别网络中,使用二分类交叉熵损失函数使其输出概率趋向于1;3、将第三字体图像样本和第二字体图像样本分别输入到内容分类网络,使它们输出概率分布的相对熵趋向于0;4、将第三字体图像样本和第二字体图像样本分别输入到风格分类网络,使它们输出概率分布的相对熵趋向于0,因此,在进行生成网络的反向参数更新的训练过程中需要先获取对第二字体图像样本进行风格分类时对应的风格分类损失函数、以及对第二字体图像样本进行内容分类时对应的内容分类损失函数。
在步骤102中,获取对第二字体图像样本进行风格分类时对应的风格分类损失函数、以及对第二字体图像样本进行内容分类时对应的内容分类损失函数。
在一些实施例中,步骤102中第二字体图像样本进行风格分类时对应的风格分类损失函数、以及对第二字体图像样本进行内容分类时对应的内容分类损失函数,可以通过以下技术方案实现:通过风格分类网络对第二字体图像样本进行风格分类,得到第二字体图像样本的风格分类预测结果,并通过风格分类网络对第三字体图像样本进行风格分类,得到第三字体图像样本的风格分类预测结果;其中,第三字体图像样本是通过图像采集得到的、与第一字体图像样本包括相同字符且具有待模仿风格特征;根据第二字体图像样本的风格分类预测结果与第三字体图像样本的风格分类预测结果之间的误差,构建风格分类损失函数;通过内容分类网络对第二字体图像样本进行内容分类,得到第二字体图像样本的内容分类预测结果,并通过内容分类网络对第三字体图像样本进行内容分类,得到第三字体图像样本的内容分类预测结果;根据第二字体图像样本的预测内容分类结果与第三字体图像样本的预测内容分类结果之间的误差,构建内容分类损失函数。
作为示例,参见图7中的第一字体图像样本701、第二字体图像样本702以及第三字体图像样本703,生成网络基于输入的第一字体图像样本701以及风格特征704生成第二字体图像样本702,同时在已有训练样本数据集中获取第三字体图像样本703,第三字体图像样本703的标记风格是风格特征704所对应的风格,第三字体图像样本703中的字符是第一字体图像样本701中的字符。通过内容分类网络分别对第三字体图像样本703以及第二字体图像样本702进行内容分类处理,并基于得到的分类结果之间的概率分布的误差构建相对熵,通过内容分类网络分别对第三字体图像样本703以及第二字体图像样本702进行风格分类处理,并基于得到的分类结果之间的概率分布的误差构建相对熵,相对熵又被称为Kullback-Leibler散度或信息散度(Information Divergence),是两个概率分布间差异的非对称性度量,在信息理论中,相对熵等价于两个概率分布的信息熵的差值,相对熵是优化算法的损失函数,此时参与计算的一个概率分布为真实分布,另一个为理论(拟合)分布,相对熵表示使用理论分布拟合真实分布时产生的信息损耗。
在步骤103中,根据风格分类损失函数和内容分类损失函数训练风格生成网络。
在一些实施例中,在进行前向传播得到生成的第二字体图像样本之后,需要根据风格分类损失函数和内容分类损失函数更新风格生成网络的参数,即相当于根据风格分类损失函数和内容分类损失函数训练风格生成网络。
在一些实施例中,步骤103中根据风格分类损失函数和内容分类损失函数训练风格生成网络可以通过以下技术方案实现:初始化风格生成网络的参数和判别网络的参数;交替地执行以下训练任务:根据风格分类损失函数、内容分类损失函数、第三字体图像样本、以及第二字体图像样本,训练风格生成网络;根据判别网络的第一损失函数、第三字体图像样本、以及第二字体图像样本,训练判别网络;其中,第三字体图像样本是通过图像采集得到的、与第一字体图像样本包括相同字符且具有待模仿风格特征;其中,在训练风格生成网络的过程中,保持判别网络的参数不变;在训练判别网络的过程中,保持风格生成网络的参数不变。
作为示例,在训练对抗生成网络(生成网络以及判别网络)的过程中,保持内容分类网络的参数以及风格分类网络的参数不变;第三字体图像样本是真实图像样本,因此可以通过图像采集得到,第三字体图像样本具有预标记的风格类型与预标记的内容类型,因此,第三字体图像样本即相当于是与第一字体图像样本具有相同字符,且具有待模仿风格特征的图像样本,由于期望训练得到的生成网络具有基于第一字体图像样本生成第二字体图像样本的能力,因此需要采集第三字体图像样本作为第二字体图像样本的对照样本从而监督生成网络学习基于第一字体图像样本生成具有待模仿风格特征的第二字体图像样本的能力。
在一些实施例中,上述根据风格分类损失函数、内容分类损失函数、第三字体图像样本、以及第二字体图像样本,训练风格生成网络,可以通过以下技术方案实现:根据第二字体图像样本与第三字体图像样本之间的误差,构建风格生成网络的损失函数;通过判别网络对第二字体图像样本进行判别处理,得到第二字体图像样本是否是真实字体图像的判别结果;根据第二字体图像样本的判别结果与第二字体图像样本的期望判别结果之间的误差,构建判别网络的第一损失函数;根据风格分类损失函数、内容分类损失函数、生成网络的损失函数、判别网络的损失函数,构建用于更新生成网络的参数的新损失函数;根据生成网络的新损失函数在风格生成网络中进行反向传播,以更新风格生成网络的参数。
作为示例,参见图7中的第一字体图像样本701、第二字体图像样本702以及第三字体图像样本703,生成网络基于输入的第一字体图像样本701以及风格特征704生成第二字体图像样本702,同时在已有训练样本数据集中获取第三字体图像样本703,第三字体图像样本703的标记风格是风格特征704所对应的风格,第三字体图像样本703中的字符是第一字体图像样本701中的字符。直接依据第三字体图像样本703与第二字体图像样本702之间的像素误差构建风格生成网络的损失函数。通过判别网络对第二字体图像样本702进行判别处理,得到第二字体图像样本702是否是真实字体图像的判别结果;根据第二字体图像样本702的判别结果与第二字体图像样本的期望判别结果之间的误差,构建判别网络的第一损失函数,相当于将第二字体图像样本702输入到判别网络中,判别网络针对第二字体图像样本702判别为第三字体图像样本703所得到的输出概率趋向于1,第二字体图像样本的期望判别结果为被判别为第三字体图像样本703,训练目标在于经过参更新使得判别网络将第二字体图像样本702判别为第三字体图像样本703。将风格分类损失函数、内容分类损失函数、生成网络的损失函数、判别网络的损失函数,构建为用于更新生成网络的参数的新损失函数,进而根据生成网络的新损失函数更新风格生成网络的参数,新损失函数的构建过程并不是简单的将多个损失函数相加或者相乘,而是需要上述四个维度的损失函数满足对应的条件,并使得至少一个损失函数收敛,上述四个维度的损失函数所对应的目标如下:1、将风格生成网络的损失函数最小化;2、将第二字体图像样本输入到判别网络中,使用二分类交叉熵函数使判别网络的输出概率趋向于1(判断结果为第三字体图像样本时输出概率为1);3、将第三字体图像样本和第二字体图像样本分别输入到内容分类网络,使它们输出概率分布的相对熵趋向于0;4、将第三字体图像样本和第二字体图像样本分别输入到风格分类网络,使它们输出概率分布的相对熵趋向于0。
在一些实施例中,上述根据判别网络的第一损失函数、第三字体图像样本、以及第二字体图像样本,训练判别网络,可以通过以下技术方案实现:通过判别网络对第二字体图像样本进行判别处理,得到针对第二字体图像样本的判别结果,并通过判别网络对第三字体图像样本进行判别处理,得到第三字体图像样本是否是真实字体图像的判别结果;根据第二字体图像样本的判别结果与第二字体图像样本的期望判别结果之间的误差,构建判别网络的第二损失函数,并根据第三字体图像样本的判别结果与第三字体图像样本的期望判别结果之间的误差,构建判别网络的第三损失函数;根据判别网络的第二损失函数、以及判别网络的第三损失函数在判别网络中进行反向传播,以更新判别网络的参数。
作为示例,参见图7中的第一字体图像样本701、第二字体图像样本702以及第三字体图像样本703,生成网络基于输入的第一字体图像样本701以及风格特征704生成第二字体图像样本702,同时在已有训练样本数据集中获取第三字体图像样本703,第三字体图像样本703的标记风格是风格特征704所对应的风格,第三字体图像样本703中的字符是第一字体图像样本701中的字符。在训练判别网络时,通过判别网络对第二字体图像样本702进行判别处理,得到第二字体图像样本702是否是真实字体图像的判别结果;根据第二字体图像样本702的判别结果与第二字体图像样本的期望判别结果之间的误差,构建判别网络的第二损失函数,通过判别网络对第三字体图像样本703进行判别处理,得到第三字体图像样本703是否是真实字体图像的判别结果;根据第三字体图像样本703的判别结果与第三字体图像样本的期望判别结果之间的误差,构建判别网络的第三损失函数,相当于将第二字体图像样本702输入到判别网络中,通过二分类交叉熵函数使判别网络针对第二字体图像样本702判别为第三字体图像样本703所得到的输出概率趋向于0,相当于将第三字体图像样本703输入到判别网络中,通过二分类交叉熵函数使判别网络针对第三字体图像样本703判别为第三字体图像样本703所得到的输出概率趋向于1,即在单独训练判别网络的过程中是需要判别网络学习生成的第二字体图像样本702与真实的第三字体图像样本703之间的细小差别,从而提高判别网络的判断能力,那么在利用具有高识别能力的判别网络训练生成网络的过程中,由于判别网络不易被欺骗,从而若生成网络中生成的第二字体图像样本被判别网络判断为第三字体图像样本,则表征生成网络中生成的第二字体图像样本与第三字体图像样本非常贴近,甚至完全一模一样以至于具有高识别区分能力的判别网络都无法区分。
在步骤104中,通过训练后的风格生成网络对第一字体图像进行风格变换处理,得到第二字体图像。
参见图3C,图3C是本申请实施例提供的基于人工智能的图像风格处理方法的流程示意图,步骤104中通过训练后的风格生成网络对第一字体图像进行风格变换处理,得到第二字体图像可以通过步骤1041-1042实现。
在步骤1041中,获取待模仿风格特征。
在步骤1042中,通过训练后的风格生成网络,执行以下处理:对第一字体图像进行特征提取处理,得到第一字体图像的字体特征;将第一字体图像的字体特征向待模仿风格特征进行风格迁移处理,得到具有待模仿风格特征的第二字体图像。
作为示例,为了实现实时的、任意风格的风格迁移,采取自适应实例标准化(AdaIN,Adaptive Instance Normalization),将特征的均值和方差对齐到风格图像的均值和方差,批量标准化大大简化了前向神经网络的训练。即每一个值减去一批数据的均值,除以一批数据的标准差,在一些实施例中将将批量标准化替换为实例标准化(IN,InstanceNormalization),可以提升风格迁移的性能。IN的操作跟BN操作类似,数据范围从一批数据变成了一个实例,本申请实施例提供的基于人工智能的图像风格处理方法中的归一化层中使用的AdaIN方法无需学习仿射变换参数,直接用待模仿风格特征的均值和标准差代替仿射变换参数(缩放参数以及平移参数),先去风格化(减去自身均值再除以自身标准差),再风格迁移至待模仿风格特征(乘以待模仿风格的标准差再加均值),AdaIN操作和IN操作的不同在于仿射参数来自于样本,即作为条件(待模仿风格特征)的样本,对第一字体图像的字体特征分别使用平移和缩放因子进行尺度缩放以及平移变换,从而实现向待模仿风格特征进行风格迁移处理,并得到具有待模仿风格特征的第二字体图像的过程。
在一些实施例中,步骤1041中获取待模仿风格特征,可以通过以下技术方案实现:获取多个第三字体图像的风格特征;对多个第三字体图像的风格特征进行融合处理,得到待模仿风格特征。
作为示例,通过风格分类网络获取多个第三字体图像的风格特征;对多个第三字体图像的风格特征进行融合处理,得到待模仿风格特征,第三字体图像实际上是用户所提供的素材,即训练样本集合中未曾被标记为也未曾出现过的新风格,这里的新风格可以指用户提供的任意的在训练样本集合中未曾出现过的手写风格素材,新风格可以指用户提供的任意的在训练样本集合中未曾出现过的印刷风格素材,新风格可以指用户提供的任意的在训练样本集合中未曾出现过的古籍风格素材,由于第三字体图像中的风格未经过标记训练,因此风格分类网络无法输出其所属的具体类别,这些新素材(第三字体图像)具有相同的未知风格,风格分类网络能够提取这些新素材的风格特征,并对这些风格特征进行融合(求平均)处理,得到表征这些素材的风格特征。
在一些实施例中,步骤1041中获取待模仿风格特征,可以通过以下技术方案实现:通过风格分类网络获取第四字体图像的风格特征、以及第五字体图像的风格特征;在第四字体图像的风格特征和第五字体图像的风格特征之间进行插值处理,将插值处理得到的风格特征确定为待模仿风格特征。
作为示例,通过风格分类网络获取第四字体图像的风格特征、以及第五字体图像的风格特征;在第四字体图像的风格特征和第五字体图像的风格特征之间进行插值处理,将插值处理得到的风格特征确定为待模仿风格特征,第四字体图像与第五字体图像均是训练样本集合中经过标记的图像,第四字体图像的风格特征、以及第五字体图像的风格特征即图像训练样本集合中经过标记的风格,还可以直接从特征训练样本集合中直接获取经过标记的两个不同的风格特征,针对两个风格特征进行插值处理,即从起始向量(第四字体图像的风格特征向量)平滑的过度到终止向量(第五字体图像的风格特征向量),那么中间的向量就可以通过插值的方式得到,并且由于插值参数不同得到的风格特征是任意的,除了线性插值之外还可以进行球面插值。
在一些实施例中,特征提取处理和风格迁移处理是迭代执行的;风格生成网络包括N个级联的残差网络,其中,N为大于或等于2的整数;特征提取处理和风格迁移处理的迭代执行过程包括:通过N个级联的残差网络中的第n残差网络,对第n残差网络的输入进行特征提取处理,并根据待模仿风格特征对所提取的字体特征进行风格迁移处理;将第n残差网络输出的第n风格迁移结果传输到第n+1残差网络以继续进行特征提取处理;其中,n为取值从1开始递增的整数,且n的取值范围满足1≤n≤N-1,;当n取值为1时,第n残差网络的输入为第一字体图像,当n取值为2≤n≤N-1时,第n残差网络的输入为第n-1残差网络输出的风格迁移结果。
作为示例,通过多个残差网络级联形成的网络对输入进行特征提取处理接着针对特征提取结果进行风格迁移处理,并不断重复上述过程,上一个残差网络的输出即为当前残差网络的输入,当前残差网络的输出即为下一个残差网络的输入。
在一些实施例中,在通过N个级联的残差网络中的第n残差网络,对第n残差网络的输入进行特征提取处理之前,还可以执行以下技术方案:当n取值为
Figure BDA0002638693780000271
时,对第n-1残差网络的输出以及第n-1残差网络的输入进行下采样处理,将下采样处理结果作为第n残差网络的输入以替代将第n-1残差网络输出的风格迁移结果作为第n残差网络的输入;当n取值为
Figure BDA0002638693780000272
时,对第n-1残差网络的输出以及第n-1残差网络的输入进行上采样处理,并将上采样处理结果作为第n残差网络的输入,以替代将第n-1残差网络输出的风格迁移结果作为第n残差网络的输入。
作为示例,还可以将N个级联的残差网络组合成U型网络结构,即前若干个级联的残差网络之间通过下采样层连接,后若干个级联的残差网络之间通过上采样层连接,例如,当N为3时,存在3个级联的残差网络,第一残差网络和第二残差网络之间进行下采样处理,在第二残差网络和第三残差网络之间进行上采样处理,将下采样处理结果作为第n残差网络的输入以替代将第n-1残差网络输出的风格迁移结果作为第n残差网络的输入,或者将上采样处理结果作为第n残差网络的输入,以替代将第n-1残差网络输出的风格迁移结果作为第n残差网络的输入,并且基于残差网络的特性,在进行上采样处理或者下采样处理时,是对第n-1残差网络的输出以及第n-1残差网络的输入进行上采样处理或者下采样处理,即从第n-1残差网络的输入端连接至第n-1残差网络的输出端。
在一些实施例中,上述通过N个级联的残差网络中的第n残差网络,对第n残差网络的输入进行特征提取处理,可以通过以下技术方案实现:通过第n残差网络的卷积层对第n残差的输入进行卷积处理,将得到的对应第一字体图像的第n卷积处理结果作为特征提取结果;上述待模仿风格特征对所提取的字体特征进行风格迁移处理,可以通过以下技术方案实现:通过第n残差网络的归一化层对第n卷积处理结果以及待模仿风格特征进行归一化处理,得到第n残差网络输出的第n归一化处理结果;其中,归一化处理包括缩放处理以及平移处理;通过第n残差网络的激活层将第n归一化处理结果映射至图像通道空间,得到第n残差网络输出的第n风格迁移结果。
作为示例,每个残差网络中基本包括的层结构是卷积层、归一化层以及激活函数层,但是残差网络的模型不限于此,每个残差网络中还可以包括多个卷积层、多个归一化层以及多个激活函数层,卷积层、归一化层以及激活函数层的排列顺序多样化,可以是以卷积层、归一化层以及激活函数层为一组,进行多组排列,还可以是多个卷积层之后存在多个归一化层,最后一层为激活函数层。
在一些实施例中,在执行完步骤104后,还可以执行以下技术方案:基于具有待模仿风格特征的多个第二字体图像,训练手写字识别模型;通过人机交互界面接收待识别文本图像,其中,待识别文本图像具有待模仿风格特征;基于手写字识别模型对待识别文本图像进行手写字识别处理,并在人机交互界面中呈现能够被用于文本编辑的文本识别结果。
作为示例,第一图像样本、第二图像样本包括的对象的类型为字符,第一图像样本的对象特征为第一图像样本中所包括的字符的字体特征。
作为示例,可以将具有待模仿风格特征的多个第二字体图像作为扩充的训练样本,OCR服务器200-2基于扩充的训练样本对手写字识别模型进行训练,通过人机交互界面接收待识别文本图像,待识别文本图像可以是用户的手写字输入,或者是手写字文档调取,待识别文本图像具有待模仿风格特征;基于手写字识别模型对待识别文本图像进行手写字识别处理,即识别出待识别文本图像中的字符,并在人机交互界面中呈现能够被用于文本编辑的文本识别结果,即将识别出的字符以能够用于文本编辑的格式呈现在人机交互界面中作为文本识别结果。
作为示例,手写字识别功能可以植入专用的文本编辑/查看工具中,再作为插件植入社交网络客户端中,例如,在社交网络客户端中接收到图像扫描操作,将调用手写字识别功能识别出待识别图像中以手写字呈现的关键信息,并将关键信息自动呈现在待填充的空白区域,再接收到针对关键信息的确认操作时,将关键信息返回至社交服务器,以进行后续响应过程,完成例如身份验证等流程。
在手写光学字符识别领域,申请人在实施本申请实施例时发现每个人的手写字均存在风格不同的问题,因此,在进行识别模型训练时往往面临训练数据难以获得的问题,并且由于汉字数量众多,采集大量的手写数据并进行标记需要消耗巨大的精力。相关技术中手写图像风格处理的方式通常是直接基于生成对抗网络以字的内容为条件进行监督,这只能保证生成的字是正确的,而不能保证字体的风格,因为没有对字体风格进行监督,导致生成字体的风格很容易区趋于相同。相关技术中基于风格条件的手写图像风格处理方法虽然可以生成特定风格的手写字,但是往往直接使用独热标签对风格进行监督,当风格类别数量大时,独热标签会极其稀疏,且独热标签完全忽略了不同字体风格之间的相似性,两个差异很大的风格和两个差异很小的风格都具有相同的欧式距离,从而对网络的学习造成困难,此外,独热标签不具备任何与风格相关的信息,强制让网络拟合生成对应风格存在难度,从而通过上述方式无法很好地生成需要的风格,并且难以获取能够有效代表这种风格的约束条件,以对网络的学习进行监督,通过本申请实施例提供的基于人工智能的图像风格处理方法既提高了风格迁移准确率又高效扩充了字体风格,从而高效扩充了用于训练手写字识别模型的训练数据集。
参见图3D,图3D是本申请实施例提供的基于人工智能的图像风格处理方法的流程示意图,参见图10A,图10A是本申请实施例提供的基于人工智能的图像风格处理方法的界面示意图。
在步骤201中,在人机交互界面呈现多个不同风格特征的候选字体图像。
作为示例,人机交互界面501A可以为终端上具有风格迁移功能的客户端的输入界面,在人机交互界面呈现多个不同风格特征的候选字体图像502A,通过候选字体图像形象地表达出各个风格特征所对应的风格供用户进行选择,通过手指触屏或者电子笔输入接收用户的风格选择操作。
在步骤202中,响应于风格选择操作,确定待模仿风格特征;
在一些实施例中,当风格选择操作选中的候选字体图像的数量为一个时,待模仿风格特征是被选中的候选字体图像所具有的风格特征,当风格选择操作选中的候选字体图像的数量为多个时,待模仿风格特征503A是过渡风格特征,过渡风格特征介于多个被选中的候选字体图像所具有的风格特征之间,过度风格特征是通过对所选择的候选字体图像所具有的风格特征进行插值处理得到的。
在步骤203中,根据待模仿风格特征对第一字体图像进行风格变换处理,得到具有待模仿风格特征的第二字体图像。
作为示例,通过风格生成网络对第一字体图像504A进行以待模仿风格特征为导向的风格迁移处理,从而得到具有待模仿风格特征的第二字体图像505A,第二字体图像与第一字体图像具有相同的字符,且具有待模仿风格特征。
在步骤204中,在人机交互界面呈现第二字体图像。
作为示例,将人机交互界面上呈现经过风格迁移处理得到的第二字体图像,当接收到针对第二字体图像的拒绝操作时,将重新执行上述步骤201-204直至接收到针对第二字体图像的接受操作,从而完成了字体风格转换过程,在人机交互界面呈现第二字体图像之后可以作为具有特定风格特征的候选字体图像,供用户进行选择,通过上述步骤201-204形成了字库的有效扩。
参见图3E,图3E是本申请实施例提供的基于人工智能的图像风格处理方法的流程示意图,参见图10B,图10B是本申请实施例提供的基于人工智能的图像风格处理方法的界面示意图。
在步骤301中,在人机交互界面呈现输入的第一字体图像、以及多个候选待模仿风格特征。
作为示例,人机交互界面501B可以为终端上具有风格迁移功能的客户端的输入界面,在人机交互界面呈现多个候选待模仿风格特征503B,通过手指触屏或者电子笔的输入接收到用户输入的第一字体图像502B并呈现第一字体图像502B,第一字体图像可以是按照人机交互界面上默认的字体风格进行呈现或者按照用户预先设置的字体风格进行呈现。
在步骤302中,响应于风格选择操作,确定多个候选待模仿风格特征中被选中的待模仿风格特征。
作为示例,可以通过手指触屏或者电子笔的输入接收到用户所选择的待模仿风格特征,用户所选择的待模仿风格特征表征了用户期望将第一字体图像中的风格转化为所选择的待模仿风格特征对应的风格。
在步骤303中,根据待模仿风格特征对第一字体图像进行风格变换处理,得到具有待模仿风格特征的第二字体图像。
作为示例,通过风格生成网络对第一字体图像进行以待模仿风格特征为导向的风格迁移处理,从而得到具有待模仿风格特征的第二字体图像504B,第二字体图像与第一字体图像具有相同的字符,且具有待模仿风格特征。
在步骤304中,在人机交互界面呈现第二字体图像。
作为示例,将人机交互界面上呈现经过风格迁移处理得到的第二字体图像504B,从而实现了针对用户输入文本的灵活风格变换。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
本发明实施例提供一种基于人工智能的图像风格处理方法,通过内容分类网络、风格分类网络和判别器分别对生成的手写字做出内容、风格以及真假维度的判断,同时利用风格分类网络获取每一种字体风格的平均特征(平均嵌入向量),以一个风格特征代表每一种风格,对生成对抗网络模型进行监督,由于风格分类网络具有较高的分类准确率,这种风格特征不仅能衡量不同风格之间的相似度,还能包含这种风格的内在信息。
OCR是一个常见的应用功能,尤其是手写OCR,具有极大的应用场景,但是训练一个手写OCR的识别网络需要大量的训练集,而人工获取这些训练集并标注需要消耗巨大的人力物力,通过本申请实施例提供的基于人工智能的通过生成各种风格的手写字体,为OCR的训练提供源源不断的训练样本,从而提升手写OCR的效果。
参见图7,图7是本申请实施例提供的基于人工智能的图像风格处理方法的生成对抗网络训练示意图,生成对抗网络的训练架构由生成网络、判别网络、内容分类网络、风格分类网络四个部分组成。
参见图5,图5是本申请实施例提供的基于人工智能的图像风格处理方法的内容分类网络结构图,内容分类网络采用原始的ResNet18结构,在网络的最后一个全连接层之前获得内容特征。
参见图4,图4是本申请实施例提供的基于人工智能的图像风格处理方法的风格分类网络结构图,风格分类网络采用原始的ResNet18结构,在网络的最后一个全连接层之前获得风格特征。
参见图6A,图6A是本申请实施例提供的基于人工智能的图像风格处理方法的生成网络结构图,生成网络包括多个级联的图6A所示的残差网络,在各个残差网络之间进行下采样处理或者上采样处理,上采样层以及下采样层在图6A中并未示出,下采样处理采用步长为2的卷积操作替代相关技术中的2*2的最大池化操作,上采样层采用像素筛选(PixelShuffle)的方法进行将一低分辨率输入图像变为高分辨率图像,在残差网络中使用Adaptive Instance Normalization取代Batch Normalization,通过Adaptive InstanceNormalization的方法将风格特征输入到生成网络的每一层中,通过全连接层对风格特征进行维度变化处理使其适应于网络中间层的维度数量,激活函数使用参数为0.2的LeakyReLU,在网络的最开始输入一张宋体字图像,然后在网络中间的多个残差网络中,输入风格特征。
判别网络采用ResNet18的网络结构,残差网络之间的所有下采样层均使用步长为2的卷积操作,激活函数使用参数为0.2的Leaky ReLU。
参见图7,按照以下几步依次完成本申请实施例中生成对抗网络的训练,首先,对风格分类网络以及内容分类网络进行预训练,即在已有数据集上训练内容分类网络和风格分类网络,其中内容分类网络用于识别手写字是属于哪个字,风格分类网络是用于识别手写字是属于哪一个风格;接着通过风格分类网络生成风格特征,即对于现有数据集中的手写字,通过风格分类网络获取其风格特征,然后对每一种风格的所有手写字的风格特征取平均,即得到表征这种风格的风格特征(嵌入向量);最后训练生成对抗网络,训练数据为宋体字图片、风格特征(对应某种风格)、在数据集中查找的这个字(与该宋体字内容相同)的属于这种风格的真实手写字图片,生成器输入宋体字图片和风格特征,获得这个字这种风格的生成图像,通过对应生成器的四个损失函数对生成器进行监督,判别器中输入生成的手写字图片和真实手写字图片,再利用二分类交叉熵损失函数进行监督,值得注意的是,内容分类网络和风格分类网络在经过预训练后即保持不变,判别器与生成器的训练是交替进行的。
下面介绍生成器的损失函数:对于同内容同风格的真实手写字图片和生成手写字图片,计算以下4种损失函数:1、直接求两个图像的像素点之间的差异;2、将生成图像输入到判别器中,使用二分类交叉熵损失函数使其输出概率趋向于1;3、将生成图像和真实图像分别输入到内容分类网络,使它们输出概率分布的相对熵趋向于0;4、将生成图像和真实图像分别输入到风格分类网络,使它们输出概率分布的相对熵趋向于0。
下面介绍判别器的损失函数:将生成图片和真实图片分别输入到判别器中,通过二分类交叉熵损失函数使生成图片的输出概率趋向于0,真实图片的输出概率趋向于1。
综上所述,内容分类网络和风格分类网络分别通过现有数据集训练得到,然后再利用风格分类网络获得现有数据集中所有风格的风格特征,以这个风格特征和宋体图片作为生成器的输入,输出这种风格的手写字,然后利用两个分类网络分别再对生成手写字的内容和风格进行监督,利用两个图像的像素点之间的差异对模型进行监督,并使得生成器与判别器相互对抗,最终达到一种纳什均衡的状态,在生成器训练完成后,只需要一个风格特征(风格嵌入向量)和一张宋体字即可生成该宋体字在这个风格的手写字。
参见图8,图8是本申请实施例提供的基于人工智能的图像风格处理方法的应用示意图,可以通过本发明实施例提供的生成网络生成任意风格的手写字:之前获得的每一种风格的风格特征中任取已有的两种风格特征,通过对任意两种风格特征(向量)进行随机插值处理,可以生成这两种风格之间的新风格对应的新的风格特征,通过生成网络对宋体字库中的宋体字以及新的风格特征进行风格变换处理,得到新风格的手写字,从而达到风格扩充的目的。
参见图9,图9是本申请实施例提供的基于人工智能的图像风格处理方法的应用示意图,如果存在一部分未知风格且未参与训练的手写字图片(即由用户提供的新风格),虽然该新风格未参与训练,但是由于风格分类网络具有提取风格特征的能力,从而可以通过风格分类网络获取这个风格的风格特征,即通过风格分类网络从任意多张相同风格的手写字图像中提取出该相同风格的平均风格特征,然后将该平均风格特征和宋体字库中任意的宋体字图像输入到生成网络中,生成对应该平均风格特征(对应上述相同风格)的手写字库,从而即可模仿这些字的风格,生成具有上述相同风格的任意汉字。
通过本申请实施例提供的基于人工智能的图像风格处理方法,可以实现如下技术效果,当前已有的1000种字库中均只含有常见的3000多个汉字,利用生成对抗网络和某风格的风格特征,可以将该风格的3000多个汉字扩充至涵盖所有的汉字,即将不常见的汉字的宋体字与该风格的风格特征输入到生成网络中,从而得到应用该风格的不常见汉字。
通过本申请实施例提供的基于人工智能的图像风格处理方法,可以实现如下技术效果,在已有的1000种确定风格的风格特征之间进行随机插值,可以获得这1000种风格以外的新风格的风格特征(相当于是机器随机生成的新风格),从而生成一个新风格的汉字字库。
通过本申请实施例提供的基于人工智能的图像风格处理方法,可以实现如下技术效果,在已有数张某一新风格的手写字的基础上,可以通过风格分类网络,提取该新风格的风格特征,利用生成的风格特征对这种新风格的手写字进行扩充,生成这种风格的手写字体库。
根据本申请实施例提供的基于人工智能的图像风格处理方法,生成器的输入图片可以为宋体字以外的其他标准字体,但优选为较为简洁明确的字体,复杂的初始字体结构可能会对网络学习造成困难,生成器的组成模块和风格特征输入到网络中的方法并不局限于本申请中的组成方式以及输入方式,判别器和两个分类网络均采用了ResNet18的模型结构,但是不限于采取其他分类模型。
下面继续说明本申请实施例提供的基于人工智能的图像风格处理装置455的实施为软件模块的示例性结构,在一些实施例中,如图2所示,存储在存储器450的基于人工智能的图像风格处理装置455中的软件模块可以包括:训练模块4551,用于通过风格生成网络对第一图像样本进行风格变换处理,得到第二图像样本;获取对所述第二图像样本进行风格分类时对应的风格分类损失函数、以及对所述第二图像样本进行内容分类时对应的内容分类损失函数;根据所述风格分类损失函数和所述内容分类损失函数训练所述风格生成网络;风格生成网络模块4552,用于通过训练后的所述风格生成网络对第一图像进行风格变换处理,得到第二图像。
在一些实施例中,所述训练模块4551,还用于:通过风格生成网络对第一图像样本进行特征提取处理,得到所述第一图像样本的对象特征;通过所述风格生成网络对所述第一图像样本的对象特征向待模仿风格特征进行风格迁移处理,得到第二图像样本。
在一些实施例中,所述训练模块4551还包括:风格分类网络单元,用于:通过所述风格分类网络对所述第二图像样本进行风格分类,得到所述第二图像样本的风格分类预测结果,并通过所述风格分类网络对所述第三图像样本进行风格分类,得到第三图像样本的风格分类预测结果;其中,所述第三图像样本是通过图像采集得到的、与所述第一图像样本包括相同字符且具有待模仿风格特征;根据所述第二图像样本的风格分类预测结果与所述第三图像样本的风格分类预测结果之间的误差,构建风格分类损失函数;内容分类网络单元,用于:通过所述内容分类网络对所述第二图像样本进行内容分类,得到所述第二图像样本的内容分类预测结果,并通过所述内容分类网络对所述第三图像样本进行内容分类,得到所述第三图像样本的内容分类预测结果;根据所述第二图像样本的预测内容分类结果与所述第三图像样本的预测内容分类结果之间的误差,构建内容分类损失函数。
在一些实施例中,所述风格生成网络与判别网络组成对抗生成网络;所述训练模块4551,还用于:初始化所述风格生成网络的参数和所述判别网络的参数;交替地执行以下训练任务:根据所述风格分类损失函数、所述内容分类损失函数、所述第三图像样本、以及所述第二图像样本,训练所述风格生成网络;根据所述判别网络的第一损失函数、所述第三图像样本、以及所述第二图像样本,训练所述判别网络;其中,所述第三图像样本是通过图像采集得到的、与所述第一图像样本包括相同字符且具有待模仿风格特征;其中,在训练所述风格生成网络的过程中,保持所述判别网络的参数不变;在训练所述判别网络的过程中,保持所述风格生成网络的参数不变。
在一些实施例中,所述训练模块4551,还用于:根据所述第二图像样本与所述第三图像样本之间的误差,构建所述风格生成网络的损失函数;通过所述判别网络对所述第二图像样本进行判别处理,得到所述第二图像样本是否是真实图像的判别结果;根据所述第二图像样本的判别结果与所述第二图像样本的期望判别结果之间的误差,构建所述判别网络的第一损失函数;根据所述风格分类损失函数、所述内容分类损失函数、所述生成网络的损失函数、所述判别网络的损失函数,构建用于更新所述生成网络的参数的新损失函数;根据所述生成网络的新损失函数在所述风格生成网络中进行反向传播,以更新所述风格生成网络的参数。
在一些实施例中,所述训练模块4551,还用于:通过所述判别网络对所述第二图像样本进行判别处理,得到针对所述第二图像样本的判别结果,并通过所述判别网络对所述第三图像样本进行判别处理,得到所述第三图像样本是否是真实图像的判别结果;根据所述第二图像样本的判别结果与所述第二图像样本的期望判别结果之间的误差,构建所述判别网络的第二损失函数,并根据所述第三图像样本的判别结果与所述第三图像样本的期望判别结果之间的误差,构建所述判别网络的第三损失函数;根据所述判别网络的第二损失函数、以及所述判别网络的第三损失函数在所述判别网络中进行反向传播,以更新所述判别网络的参数。
在一些实施例中,对所述第二图像样本进行风格分类是通过风格分类网络实现的,对所述第二图像样本进行内容分类是通过内容分类网络实现的;获取对所述第二图像样本进行风格分类时对应的风格分类损失函数、以及对所述第二图像样本进行内容分类时对应的内容分类损失函数之前,所述内容分类网络单元,还用于:通过所述内容分类网络对第三图像样本进行内容分类处理,得到所述第三图像样本的预测内容分类结果,并根据所述预测内容分类结果与所述第三图像样本的标记内容分类结果之间的误差,更新所述内容分类网络的参数;所述风格分类网络单元,还用于:通过所述风格分类网络对所述第三图像样本进行风格分类处理,得到所述第三图像样本的风格分类预测结果,并根据所述风格分类预测结果与所述第三图像样本的标记风格分类结果之间的误差,更新所述风格分类网络的参数;其中,所述第三图像样本是通过图像采集得到的、且具有待模仿风格特征。
在一些实施例中,所述风格生成网络模块4552,还用于:获取待模仿风格特征,并通过训练后的所述风格生成网络,执行以下处理:对所述第一图像进行特征提取处理,得到所述第一图像的对象特征;将所述第一图像的对象特征向所述待模仿风格特征进行风格迁移处理,得到具有所述待模仿风格特征的第二图像。
在一些实施例中,所述风格生成网络模块4552,还用于:获取多个第三图像的风格特征;对多个所述第三图像的风格特征进行融合处理,得到所述待模仿风格特征。
在一些实施例中,所述风格生成网络模块4552,还用于:获取第四图像的风格特征、以及第五图像的风格特征;在所述第四图像的风格特征和所述第五图像的风格特征之间进行插值处理,将插值处理得到的风格特征确定为所述待模仿风格特征。
在一些实施例中,所述特征提取处理和所述风格迁移处理是迭代执行的;所述风格生成网络包括N个级联的残差网络,其中,N为大于或等于2的整数;所述特征提取处理和所述风格迁移处理的迭代执行过程包括:通过N个级联的残差网络中的第n残差网络,对所述第n残差网络的输入进行特征提取处理,并根据所述待模仿风格特征对所提取的对象特征进行风格迁移处理;将所述第n残差网络输出的第n风格迁移结果传输到第n+1残差网络以继续进行特征提取处理;其中,n为取值从1开始递增的整数,且n的取值范围满足1≤n≤N-1,;当n取值为1时,所述第n残差网络的输入为所述第一图像,当n取值为2≤n≤N-1时,所述第n残差网络的输入为第n-1残差网络输出的风格迁移结果。
在一些实施例中,在所述通过N个级联的残差网络中的第n残差网络,对所述第n残差网络的输入进行特征提取处理之前,所述风格生成网络模块4552,还用于:当n取值为
Figure BDA0002638693780000381
时,对所述第n-1残差网络的输出以及所述第n-1残差网络的输入进行下采样处理,将下采样处理结果作为所述第n残差网络的输入以替代将所述第n-1残差网络输出的风格迁移结果作为所述第n残差网络的输入;当n取值为
Figure BDA0002638693780000382
时,对所述第n-1残差网络的输出以及所述第n-1残差网络的输入进行上采样处理,并将上采样处理结果作为所述第n残差网络的输入,以替代将所述第n-1残差网络输出的风格迁移结果作为所述第n残差网络的输入。
在一些实施例中,所述风格生成网络模块4552,还用于:通过所述第n残差网络的卷积层对所述第n残差的输入进行卷积处理,将得到的对应所述第一图像的第n卷积处理结果作为特征提取结果;通过所述第n残差网络的归一化层对所述第n卷积处理结果以及所述待模仿风格特征进行归一化处理,得到所述第n残差网络输出的第n归一化处理结果;其中,所述归一化处理包括缩放处理以及平移处理;通过所述第n残差网络的激活层将所述第n归一化处理结果映射至图像通道空间,得到所述第n残差网络输出的第n风格迁移结果。
在一些实施例中,所述第一图像样本、所述第二图像样本包括的对象的类型为字符,所述第一图像样本的对象特征为所述第一图像样本中所包括的字符的字体特征;所述装置455还包括:手写字识别模块4553,用于:基于具有所述待模仿风格特征的多个第二图像,训练手写字识别模型;通过人机交互界面接收待识别文本图像,其中,所述待识别文本图像具有所述待模仿风格特征;基于所述手写字识别模型对所述待识别文本图像进行手写字识别处理,并在所述人机交互界面中呈现能够被用于文本编辑的文本识别结果。
本申请实施例提供一种基于人工智能的图像风格处理装置,包括:呈现模块4554,用于在人机交互界面呈现多个不同风格特征的候选图像;确定模块4555,用于响应于风格选择操作,确定待模仿风格特征;其中,当所述风格选择操作选中的候选图像的数量为一个时,所述待模仿风格特征是被选中的候选图像所具有的风格特征;其中,当所述风格选择操作选中的候选图像的数量为多个时,所述待模仿风格特征是过渡风格特征,所述过渡风格特征介于多个被选中的候选图像所具有的风格特征之间;变换模块4556,用于根据待模仿风格特征对第一图像进行风格变换处理,得到具有所述待模仿风格特征的第二图像,并在所述人机交互界面呈现所述第二图像。
本申请实施例提供一种基于人工智能的图像风格处理装置,包括:呈现模块4554,用于在人机交互界面呈现输入的第一图像、以及多个候选待模仿风格特征;确定模块4555,用于响应于风格选择操作,确定所述多个候选待模仿风格特征中被选中的待模仿风格特征;变换模块4556,用于根据所述待模仿风格特征对所述第一图像进行风格变换处理,得到具有所述待模仿风格特征的第二图像,并在所述人机交互界面呈现所述第二图像。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行本申请实施例上述的基于人工智能的图像风格处理方法。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被处理器执行时,将引起处理器执行本申请实施例提供的方法,例如,如图3A-3F示出的基于人工智能的图像风格处理方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本申请实施例从多个维度对风格生成网络的训练过程进行监督,使得风格生成网络具有稳定高效的风格生成性能,从而应用该风格生成网络对已有字体图像进行风格变换处理,因此能够有效扩充字体的风格,并基于所扩充的字体风格对相关领域的图像识别模型进行训练,从而能够对需求大规模训练集的模型进行有效训练。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (15)

1.一种基于人工智能的图像风格处理方法,其特征在于,包括:
通过风格生成网络对第一图像样本进行风格变换处理,得到第二图像样本;
获取对所述第二图像样本进行风格分类时对应的风格分类损失函数、以及对所述第二图像样本进行内容分类时对应的内容分类损失函数;
根据所述风格分类损失函数和所述内容分类损失函数训练所述风格生成网络;
通过训练后的所述风格生成网络对第一图像进行风格变换处理,得到第二图像。
2.根据权利要求1所述的方法,其特征在于,所述通过风格生成网络对第一图像样本进行风格变换处理,得到第二图像样本,包括:
通过风格生成网络对第一图像样本进行特征提取处理,得到所述第一图像样本的对象特征;
通过所述风格生成网络对所述第一图像样本的对象特征向待模仿风格特征进行风格迁移处理,得到第二图像样本。
3.根据权利要求1所述的方法,其特征在于,所述获取所述第二图像样本进行风格分类时对应的风格分类损失函数、以及对所述第二图像样本进行内容分类时对应的内容分类损失函数,包括:
通过所述风格分类网络对所述第二图像样本进行风格分类,得到所述第二图像样本的风格分类预测结果,并通过所述风格分类网络对所述第三图像样本进行风格分类,得到第三图像样本的风格分类预测结果;
其中,所述第三图像样本是通过图像采集得到的、与所述第一图像样本包括相同字符且具有待模仿风格特征;
根据所述第二图像样本的风格分类预测结果与所述第三图像样本的风格分类预测结果之间的误差,构建风格分类损失函数;
通过所述内容分类网络对所述第二图像样本进行内容分类,得到所述第二图像样本的内容分类预测结果,并通过所述内容分类网络对所述第三图像样本进行内容分类,得到所述第三图像样本的内容分类预测结果;
根据所述第二图像样本的预测内容分类结果与所述第三图像样本的预测内容分类结果之间的误差,构建内容分类损失函数。
4.根据权利要求1所述的方法,其特征在于,
所述风格生成网络与判别网络组成对抗生成网络;
所述根据所述风格分类损失函数和所述内容分类损失函数训练所述风格生成网络,包括:
初始化所述风格生成网络的参数和所述判别网络的参数;
交替地执行以下训练任务:
根据所述风格分类损失函数、所述内容分类损失函数、所述第三图像样本、以及所述第二图像样本,训练所述风格生成网络;
根据所述判别网络的第一损失函数、所述第三图像样本、以及所述第二图像样本,训练所述判别网络;
其中,所述第三图像样本是通过图像采集得到的、与所述第一图像样本包括相同字符且具有待模仿风格特征;
其中,在训练所述风格生成网络的过程中,保持所述判别网络的参数不变;在训练所述判别网络的过程中,保持所述风格生成网络的参数不变。
5.根据权利要求4所述的方法,其特征在于,所述根据所述风格分类损失函数、所述内容分类损失函数、所述第三图像样本、以及所述第二图像样本,训练所述风格生成网络,包括:
根据所述第二图像样本与所述第三图像样本之间的误差,构建所述风格生成网络的损失函数;
通过所述判别网络对所述第二图像样本进行判别处理,得到所述第二图像样本是否是真实图像的判别结果;
根据所述第二图像样本的判别结果与所述第二图像样本的期望判别结果之间的误差,构建所述判别网络的第一损失函数;
根据所述风格分类损失函数、所述内容分类损失函数、所述生成网络的损失函数、所述判别网络的损失函数,构建用于更新所述生成网络的参数的新损失函数;
根据所述生成网络的新损失函数在所述风格生成网络中进行反向传播,以更新所述风格生成网络的参数。
6.根据权利要求4所述的方法,其特征在于,所述根据所述判别网络的第一损失函数、所述第三图像样本、以及所述第二图像样本,训练所述判别网络,包括:
通过所述判别网络对所述第二图像样本进行判别处理,得到针对所述第二图像样本的判别结果,并通过所述判别网络对所述第三图像样本进行判别处理,得到所述第三图像样本是否是真实图像的判别结果;
根据所述第二图像样本的判别结果与所述第二图像样本的期望判别结果之间的误差,构建所述判别网络的第二损失函数,并根据所述第三图像样本的判别结果与所述第三图像样本的期望判别结果之间的误差,构建所述判别网络的第三损失函数;
根据所述判别网络的第二损失函数、以及所述判别网络的第三损失函数在所述判别网络中进行反向传播,以更新所述判别网络的参数。
7.根据权利要求1所述的方法,其特征在于,所述通过训练后的所述风格生成网络对第一图像进行风格变换处理,得到第二图像,包括:
获取待模仿风格特征,并通过训练后的所述风格生成网络,执行以下处理:
对所述第一图像进行特征提取处理,得到所述第一图像的对象特征;
将所述第一图像的对象特征向所述待模仿风格特征进行风格迁移处理,得到具有所述待模仿风格特征的第二图像。
8.根据权利要求7所述的方法,其特征在于,所述获取待模仿风格特征,包括:
获取多个第三图像的风格特征;
对多个所述第三图像的风格特征进行融合处理,得到所述待模仿风格特征。
9.根据权利要求7所述的方法,其特征在于,所述获取待模仿风格特征,包括:
获取第四图像的风格特征、以及第五图像的风格特征;
在所述第四图像的风格特征和所述第五图像的风格特征之间进行插值处理,将插值处理得到的风格特征确定为所述待模仿风格特征。
10.根据权利要求7所述的方法,其特征在于,
所述特征提取处理和所述风格迁移处理是迭代执行的;所述风格生成网络包括N个级联的残差网络,其中,N为大于或等于2的整数;
所述特征提取处理和所述风格迁移处理的迭代执行过程包括:
通过N个级联的残差网络中的第n残差网络,对所述第n残差网络的输入进行特征提取处理,并根据所述待模仿风格特征对所提取的对象特征进行风格迁移处理;
将所述第n残差网络输出的第n风格迁移结果传输到第n+1残差网络以继续进行特征提取处理;
其中,n为取值从1开始递增的整数,且n的取值范围满足1≤n≤N-1;当n取值为1时,所述第n残差网络的输入为所述第一图像,当n取值为2≤n≤N-1时,所述第n残差网络的输入为第n-1残差网络输出的风格迁移结果。
11.根据权利要求10所述的方法,其特征在于,在所述通过N个级联的残差网络中的第n残差网络,对所述第n残差网络的输入进行特征提取处理之前,所述方法包括:
当n取值为
Figure FDA0002638693770000041
时,对所述第n-1残差网络的输出以及所述第n-1残差网络的输入进行下采样处理,将下采样处理结果作为所述第n残差网络的输入以替代将所述第n-1残差网络输出的风格迁移结果作为所述第n残差网络的输入;
当n取值为
Figure FDA0002638693770000042
时,对所述第n-1残差网络的输出以及所述第n-1残差网络的输入进行上采样处理,并将上采样处理结果作为所述第n残差网络的输入,以替代将所述第n-1残差网络输出的风格迁移结果作为所述第n残差网络的输入。
12.一种基于人工智能的图像风格处理方法,其特征在于,包括:
在人机交互界面呈现多个不同风格特征的候选图像;
响应于风格选择操作,确定待模仿风格特征;
其中,当所述风格选择操作选中的候选图像的数量为一个时,所述待模仿风格特征是被选中的候选图像所具有的风格特征;
其中,当所述风格选择操作选中的候选图像的数量为多个时,所述待模仿风格特征是过渡风格特征,所述过渡风格特征介于多个被选中的候选图像所具有的风格特征之间;
根据待模仿风格特征对第一图像进行风格变换处理,得到具有所述待模仿风格特征的第二图像,并
在所述人机交互界面呈现所述第二图像。
13.一种基于人工智能的图像风格处理装置,其特征在于,包括:
训练模块,用于通过风格生成网络对第一图像样本进行风格变换处理,得到第二图像样本;获取对所述第二图像样本进行风格分类时对应的风格分类损失函数、以及对所述第二图像样本进行内容分类时对应的内容分类损失函数;根据所述风格分类损失函数和所述内容分类损失函数训练所述风格生成网络;
风格生成网络模块,用于通过训练后的所述风格生成网络对第一图像进行风格变换处理,得到第二图像。
14.一种电子设备,其特征在于,包括:
存储器,用于存储可执行指令;
处理器,用于执行所述存储器中存储的可执行指令时,实现权利要求1至11任一项或者权利要求12所述的基于人工智能的图像风格处理方法。
15.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被处理器执行时,实现权利要求1至11任一项或者权利要求12所述的基于人工智能的图像风格处理方法。
CN202010833104.6A 2020-08-18 2020-08-18 基于人工智能的图像风格处理方法、装置及电子设备 Active CN112819686B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010833104.6A CN112819686B (zh) 2020-08-18 2020-08-18 基于人工智能的图像风格处理方法、装置及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010833104.6A CN112819686B (zh) 2020-08-18 2020-08-18 基于人工智能的图像风格处理方法、装置及电子设备

Publications (2)

Publication Number Publication Date
CN112819686A true CN112819686A (zh) 2021-05-18
CN112819686B CN112819686B (zh) 2024-03-29

Family

ID=75852982

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010833104.6A Active CN112819686B (zh) 2020-08-18 2020-08-18 基于人工智能的图像风格处理方法、装置及电子设备

Country Status (1)

Country Link
CN (1) CN112819686B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990390A (zh) * 2021-05-19 2021-06-18 腾讯科技(深圳)有限公司 一种图像识别模型的训练方法、图像识别的方法及装置
CN113284046A (zh) * 2021-05-26 2021-08-20 中国电子科技集团公司第五十四研究所 基于无高分辨率参考图的遥感图像增强和复原方法及网络
CN113468857A (zh) * 2021-07-13 2021-10-01 北京百度网讯科技有限公司 风格转换模型的训练方法、装置、电子设备以及存储介质
CN113537229A (zh) * 2021-08-27 2021-10-22 广州广电运通金融电子股份有限公司 票据图像生成方法、装置、计算机设备和存储介质
CN113808011A (zh) * 2021-09-30 2021-12-17 深圳万兴软件有限公司 一种基于特征融合的风格迁移方法、装置及其相关组件
CN114511646A (zh) * 2022-04-19 2022-05-17 南通东德纺织科技有限公司 一种基于图像处理的布匹风格识别方法及系统
CN115034257A (zh) * 2022-05-09 2022-09-09 西北工业大学 一种基于特征融合的跨模态信息目标识别方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180068463A1 (en) * 2016-09-02 2018-03-08 Artomatix Ltd. Systems and Methods for Providing Convolutional Neural Network Based Image Synthesis Using Stable and Controllable Parametric Models, a Multiscale Synthesis Framework and Novel Network Architectures
CN110570377A (zh) * 2019-09-11 2019-12-13 辽宁工程技术大学 一种基于组归一化的快速图像风格迁移方法
CN110930295A (zh) * 2019-10-25 2020-03-27 广东开放大学(广东理工职业学院) 一种图像风格迁移方法、系统、装置和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180068463A1 (en) * 2016-09-02 2018-03-08 Artomatix Ltd. Systems and Methods for Providing Convolutional Neural Network Based Image Synthesis Using Stable and Controllable Parametric Models, a Multiscale Synthesis Framework and Novel Network Architectures
CN110570377A (zh) * 2019-09-11 2019-12-13 辽宁工程技术大学 一种基于组归一化的快速图像风格迁移方法
CN110930295A (zh) * 2019-10-25 2020-03-27 广东开放大学(广东理工职业学院) 一种图像风格迁移方法、系统、装置和存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112990390A (zh) * 2021-05-19 2021-06-18 腾讯科技(深圳)有限公司 一种图像识别模型的训练方法、图像识别的方法及装置
CN112990390B (zh) * 2021-05-19 2021-08-06 腾讯科技(深圳)有限公司 一种图像识别模型的训练方法、图像识别的方法及装置
CN113284046A (zh) * 2021-05-26 2021-08-20 中国电子科技集团公司第五十四研究所 基于无高分辨率参考图的遥感图像增强和复原方法及网络
CN113468857A (zh) * 2021-07-13 2021-10-01 北京百度网讯科技有限公司 风格转换模型的训练方法、装置、电子设备以及存储介质
CN113468857B (zh) * 2021-07-13 2024-03-29 北京百度网讯科技有限公司 风格转换模型的训练方法、装置、电子设备以及存储介质
CN113537229A (zh) * 2021-08-27 2021-10-22 广州广电运通金融电子股份有限公司 票据图像生成方法、装置、计算机设备和存储介质
CN113808011A (zh) * 2021-09-30 2021-12-17 深圳万兴软件有限公司 一种基于特征融合的风格迁移方法、装置及其相关组件
CN113808011B (zh) * 2021-09-30 2023-08-11 深圳万兴软件有限公司 一种基于特征融合的风格迁移方法、装置及其相关组件
CN114511646A (zh) * 2022-04-19 2022-05-17 南通东德纺织科技有限公司 一种基于图像处理的布匹风格识别方法及系统
CN115034257A (zh) * 2022-05-09 2022-09-09 西北工业大学 一种基于特征融合的跨模态信息目标识别方法及装置
CN115034257B (zh) * 2022-05-09 2023-04-07 西北工业大学 一种基于特征融合的跨模态信息目标识别方法及装置

Also Published As

Publication number Publication date
CN112819686B (zh) 2024-03-29

Similar Documents

Publication Publication Date Title
CN112819686B (zh) 基于人工智能的图像风格处理方法、装置及电子设备
Bartz et al. See: towards semi-supervised end-to-end scene text recognition
RU2661750C1 (ru) Распознавание символов с использованием искусственного интеллекта
CN109993102B (zh) 相似人脸检索方法、装置及存储介质
CN111027563A (zh) 一种文本检测方法、装置及识别系统
CN111476284A (zh) 图像识别模型训练及图像识别方法、装置、电子设备
CN109299663A (zh) 手写字体识别方法、系统以及终端设备
CN114596566B (zh) 文本识别方法及相关装置
CN110968725B (zh) 图像内容描述信息生成方法、电子设备及存储介质
CN113283336A (zh) 一种文本识别方法与系统
CN114092938B (zh) 图像的识别处理方法、装置、电子设备及存储介质
CN112381082A (zh) 基于深度学习的表格结构重建方法
CN113989577B (zh) 图像分类方法及装置
Shah et al. Efficient portable camera based text to speech converter for blind person
Inunganbi et al. Handwritten Meitei Mayek recognition using three‐channel convolution neural network of gradients and gray
Tymoshenko et al. Real-Time Ukrainian Text Recognition and Voicing.
CN113434722B (zh) 图像分类方法、装置、设备及计算机可读存储介质
CN115661846A (zh) 数据处理方法、装置、电子设备和存储介质
CN116361502B (zh) 一种图像检索方法、装置、计算机设备及存储介质
CN113821663A (zh) 图像处理方法、装置、设备及计算机可读存储介质
CN113221523A (zh) 处理表格的方法、计算设备和计算机可读存储介质
CN117152768A (zh) 用于扫读笔的离线识别方法及系统
CN115393867A (zh) 文本识别模型生成方法、文本识别方法、设备及存储介质
CN115512340A (zh) 基于图片的意图检测方法及装置
CN113569080A (zh) 基于人工智能的字库处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40043519

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant