CN110929767A - 一种字形处理方法、系统、设备和介质 - Google Patents

一种字形处理方法、系统、设备和介质 Download PDF

Info

Publication number
CN110929767A
CN110929767A CN201911107715.6A CN201911107715A CN110929767A CN 110929767 A CN110929767 A CN 110929767A CN 201911107715 A CN201911107715 A CN 201911107715A CN 110929767 A CN110929767 A CN 110929767A
Authority
CN
China
Prior art keywords
glyph
font
coding
model
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911107715.6A
Other languages
English (en)
Other versions
CN110929767B (zh
Inventor
周曦
姚志强
李继伟
郝东
杜晓薇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuncong Technology Group Co Ltd
Original Assignee
Yuncong Technology Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuncong Technology Group Co Ltd filed Critical Yuncong Technology Group Co Ltd
Publication of CN110929767A publication Critical patent/CN110929767A/zh
Application granted granted Critical
Publication of CN110929767B publication Critical patent/CN110929767B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本发明提出一种字形处理方法、系统、设备和介质,包括:训练编码模型,将文字图形样本输入所述编码模型,获取字形编码向量;其中,所述编码模型的训练参数包括字形训练集、所述编码模型输出向量的分布、预设的所述字形训练集的样本编码先验分布;本发明通过字形重构修正模型训练,可有效提高字形编码向量的准确性。

Description

一种字形处理方法、系统、设备和介质
技术领域
本发明涉及图形识别领域,尤其涉及一种字形处理方法、系统、设备和介质。
背景技术
传统的基于计数的字嵌入向量维数大,具有稀疏性。而基于预测模型的方法可以生成稠密向量,能用较小的维数表示字,而且可以使语义相似的字之间具有较小的距离。目前,基于预测模型的方法有Word2vec、Glove等,但是除语义之外,字形也可以帮助我们理解字义,特别是像中文一样的象形文字,而目前基于字形的嵌入向量的生成方法还不是特别多,因此,我们需要一种方法,能使用稠密向量较好地对字形进行编码。
发明内容
鉴于以上现有技术存在的问题,本发明提出一种字形处理方法、系统、设备和介质,主要解决字嵌入缺乏字形信息的问题。
为了实现上述目的及其他目的,本发明采用的技术方案如下。
一种字形处理方法,包括:
训练编码模型,将文字图形样本输入所述编码模型,获取字形编码向量;其中,所述编码模型的训练参数包括字形训练集、所述编码模型输出向量的分布、预设的所述字形训练集的样本编码先验分布。
可选地,根据所述字形编码向量创建字形生成模型,通过字形生成模型对所述字形编码向量进行验证。
可选地,所述字形编码向量包括均值向量、协方差向量。
可选地,根据所述样本编码先验分布预设用于采样的分布,具体为其均值向量和协方差向量,进行采样,获取采样向量;将所述采样向量乘以所述协方差向量后加到所述均值向量上,获取对应的字形编码向量。
可选地,获取字形的多维图像信息,并创建所述字形训练集。
可选地,所述多维图像信息包括字体、笔画粗细、旋转角度。
可选地,所述编码模型输出向量的分布服从正态分布。
可选地,通过神经网络对所述文字图形样本提取图像特征,建立所述图像特征与所述字形编码向量的映射关系,进而创建初始的编码模型。
可选地,所述神经网络包括卷积神经网络。
可选地,通过反卷积神经网络建立所述字形编码向量与文字图像的映射关系,进而创建字形生成模型。
可选地,通过所述字形生成模型对所述字形编码向量进行采样,输出对应的字形重构图像。
可选地,预设所述字形训练集的所述样本编码先验分布,计算所述样本编码先验分布与所述编码模型输出向量的分布之间的散度;
获取所述样本的期望分布,并根据所述期望分布和所述散度构建目标函数;
对所述初始的编码模型进行训练,当所述目标函数达到最小值时,获取训练完成的所述编码模型。
可选地,构造所述字形生成模型的代价函数,通过所述的代价函数将所述字形重构图像与对应的所述文字图形样本进行像素比对,根据所述比对结果对所述字形编码向量进行校验。
可选地,通过所述字形生成模型接收随机噪声,根据所述随机噪声和所述字形编码向量获取对应的所述字形重构图像。
可选地,对所述字形编码向量进行特征分类和/或特征聚类。
可选地,所述特征分类包括:
对所述字形训练集进行分类,获取多个样本类别;
通过所述字形生成模型预测输出图像样本属于某一所述样本类别的概率;
根据所述概率将对应的所述字形编码向量进行分类。
可选地,所述特征聚类包括:
获取所述字形重构图像对应的类别特征;
获取所述类别特征的聚类中心;
计算所述类别特征与所述聚类中心的n-范数;
根据所述n-范数的值对所述字形重构图像对应的所述字形编码向量进行聚类。
可选地,根据所述特征分类和/或特征聚类结果对用于训练所述编码模型的目标函数进行修正。
可选地,获取所述编码模型输出向量的分布与所述样本编码先验分布的最大均值差异,用于修正所述目标函数中的散度。
可选地,获取所述字形重构图像为真实样本的重构概率,根据所述重构概率对训练所述编码模型的目标函数中的散度进行评估。
一种字形处理系统,包括:
模型训练模块,用于训练编码模型;其中,所述编码模型的训练参数包括字形训练集、编码模型输出向量的分布、预设的所述字形训练集的样本编码先验分布;
编码模块,用于将文字图形样本输入所述编码模型,获取字形编码向量。
可选地,包括模型创建模块和验证模块,所述模型创建模块用于根据所述字形编码向量创建字形生成模型;所述验证模块用于通过字形生成模型对所述字形编码向量进行验证。
可选地,包括采样模块,用于通过所述字形生成模型对所述字形编码向量进行采样,输出对应的字形重构图像。
可选地,包括代价函数构造模块,用于构造所述字形生成模型的代价函数,通过所述的代价函数将所述字形重构图像与对应的文字图形样本进行像素比对,根据所述比对结果对所述字形编码向量进行校验。
可选地,包括噪声融合模块,用于通过所述字形生成模型接收随机噪声,根据所述随机噪声和所述字形编码向量获取对应的所述字形重构图像。
可选地,包括特征分类模块,用于对所述字形训练集进行分类,获取多个样本类别;通过所述字形生成模型预测输出图像样本属于某一所述样本类别的概率;根据所述概率将对对应的所述字形编码向量进行分类。
可选地,包括特征聚类模块,用于获取所述字形重构图像对应的类别特征;获取所述类别特征的聚类中心;计算所述类别特征与所述聚类中心的n-范数;根据所述n-范数的值对所述字形重构图像对应的所述字形编码向量进行聚类。
可选地,包括目标函数创建模块,用于预设所述字形训练集的样本编码先验分布,计算所述样本编码先验分布与所述编码模型输出向量的分布之间的散度;获取样本的期望分布,并根据所述期望分布和所述散度构建目标函数;对所述初始的编码模型进行训练,当所述目标函数达到最小值时,获取训练完成的所述编码模型;其中,通过神经网络对所述文字图形样本提取图像特征,建立所述图像特征与所述字形编码向量的映射关系,进而创建初始的编码模型。
可选地,包括修正模块,用于获取所述编码模型输出向量的分布与所述样本编码先验分布之间的最大均值差异,用于修正所述目标函数中的散度。
可选地,包括评估模块,用于获取所述字形重构图像为真实样本的重构概率,根据所述重构概率对所述目标函数中的散度进行评估。
一种设备,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行所述的字形处理方法。
一个或多个机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得设备执行所述的字形处理方法。
如上所述,本发明一种字形处理方法、系统、设备和介质,具有以下有益效果。
通过训练编码模型对文字图像中的字形信息进行处理,获取包含丰富字形信息的编码向量,有利于根据字形信息获取字义信息,提高字义理解的准确性。
附图说明
图1为本发明一实施例中字形处理方法的流程图。
图2为本发明一实施例中字形处理系统的模块图。
图3为本发明一实施例中终端设备的结构示意图。
图4为本发明另一实施例中终端设备的结构示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,遂图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
请参阅图1,本发明提供一种字形处理方法,包括步骤S01-S02。
在步骤S01中,训练编码模型,其中编码模型的训练参数包括字形训练集、所述编码模型输出向量的分布、预设的所述字形训练集的样本编码先验分布:
在一实施例中,可预先从特定网站、辞海、新华词典等词库中获取同一类文字的多维图像信息。多维图像信息可包括字体、笔画粗细、旋转角度等。其中图像中的文字可以为汉字也可以是其它象形文字。将获取的图像信息输入数据库中创建字形训练集。
在一实施例中,可通过卷积神经网络对字形训练集中的文字图形样本提取图像特征,再将获取的图像特征展平为一维向量。再通过VAE(VariationalAutoencoder)编码器建立图像特征与编码器输出向量的映射关系,从而构建初始的编码模型。在另一实施例中,也可采用WAE(Wasserstein Autoencoders)编码器创建初始的编码模型。
以VAE编码器为例,由于VAE编码器可输出均值向量和协方差向量,可从均值为0,协方差为1的多维高斯分布中采样,获取向量ε,再将ε乘以协方差向量后加到均值向量上得到编码器的输出向量,即字形编码向量。设均值向量表示为μ,协方差向量表示为∑,预设经过采样得到的向量ε服从正态分布,则,字形编码向量可表示为:
Figure BDA0002271823930000051
其中,X为文字图形样本经过卷积神经网络特征提取后的图像特征。
在一实施例中,字形训练集的样本编码先验分布可采用高斯分布表示,预设字形训练集的样本编码先验分布,预设VAE编码器的默认向量分布,可设置VAE编码器可表征的字形编码向量分布服从正态分布,计算样本编码先验分布与字形编码向量的分布之间的散度,获取样本的期望分布,并根据期望分布和散度构建目标函数。则VAE编码器的目标函数可表示为
Jvae=-EX~Dataset[EZ~Q[logP(X|Z)]-DKL[Q(Z|X)||P(Z)]]
其中,Dataset为字形训练集;
X分布与Dataset一致;
Z为字形编码向量;
P(Z)为Z的预设的样本编码先验分布;
DKL[Q(Z|X)||P(Z)]表示分布Q与P之间的KL(Kullback-Leibler)散度;
Q(Z|X)为Z在条件X下的分布。
对VAE编码器的目标函数进行最小化处理,当目标函数收敛于最小值时,获取字形编码模型。
在一实施例中,可根据字形编码模型的输出,训练字形生成模型,将字形编码向量重构为字形图像。可通过反卷积神经网络建立字形编码向量与文字图像的映射关系,进而创建字形生成模型,实现字形图像的重构。
可设置字形训练集的样本编码先验分布P(Z)~N(0,1),则根据字形编码模型输出的字形编码向量,VAE目标函数的散度DKL[P(Z|X)||P(Z)]可表示为:
Figure BDA0002271823930000061
其中,dz为字形编码向量的维数。
为使Ez~Q[logP(X|Z)]最大化,选取代价函数f,使f最小化,f为
Figure BDA0002271823930000062
其中,N为字形训练集的样本数;j某个样本的像素点;
Figure BDA0002271823930000063
表示输入图像i在像素点j的值,
Figure BDA0002271823930000064
表示由图像i的字形编码向量
Figure BDA0002271823930000065
经字形生成器重构后的图像在像素点j的值。
通过字形生成模型构造代价函数和散度,对目标函数进行修正。
此时,VAE的目标函数可表示为:
Jvae=f+DKL[N(μ(X),∑(X))||N(0,1)]
同样的,采用WAE编码器训练字形编码模型时,目标函数可表示为:
Figure BDA0002271823930000071
其中,Dataset为训练集;
X的分布与Dataset一致;
Z为字形编码向量;
D[Q(Z)||P(Z)]表示分布Q与P之间的任意散度;
λ>0为超参数,即模型训练前设定的参数值;
Q(Z|X)为Z在条件X下的分布;
G(Z)为输入字形编码向量Z后,字形生成模型输出的重构样本;
c(x,y):X×X→R+,为任意代价函数。
通过字形生成模型的代价函数构建文字图形样本的期望分布,结合散度构造目标函数。
在一实施例中,同样可采用反卷积神经网络创建字形生成模型,可在WAE编码器中引入最大均值差异MMD(Maximum mean discrepancy),用于对目标函数中的散度进行修正,修正后的目标函数可表示为:
Figure BDA0002271823930000072
其中,N为字形训练集样本总数;
c(x,y):X×X→R+,为任意代价函数;
xi为文字图形样本i;
zi采样于样本编码先验分布P(Z);
Figure BDA0002271823930000073
采样于Q(Z|xi),由字形编码器输出;
k:Z×Z→R,为正定再生核函数;
λ>0为超参数。
在一实施例中,核函数k可表示为:
Figure BDA0002271823930000081
C=2dz|∑|2
在另一实施例中,字形生成模型还可采用对抗训练GAN(Generative adversarialnets)对目标函数中的散度进行估计,其中,GAN包括一个图片生成器和一个判别器,图片生成器可接受一个随机噪声,通过随机噪声和字形编码向量生成重构图像,判别器用于判别图片生成器输出的重构图像为真实图像的概率,根据获取的概率对目标函数的散度进行评估。判别器可使用sigmoid函数得到某个字形编码向量来自真实样本的概率,经过GAN修正的目标函数可表示为:
Figure BDA0002271823930000082
Figure BDA0002271823930000083
其中,λ>0为超参数;
N为字形训练集样本总数;
c(x,y):X×X→R+,为任意代价函数;
zi采样于样本编码先验分布P(Z);
Figure BDA0002271823930000084
采样于Q(Z|xi),由编码器输出;
D(z)为判别器预测z为真实样本潜在编码的概率;
G(z)为输入潜在编码z时生成器重构的样本。
zi采样于分布服从于N(0,1)的噪声。
通过最大化J1,最小化J2训练编码模型。
在一实施例中,可对通过编码模型获取的字形编码向量进行特征分类和/或特征聚类。
在进行特征分类时,对字形训练集进行分类,获取多个样本类别;通过所述字形生成模型预测输出图像样本属于某一样本类别的概率;根据所述概率将对应的所述字形编码向量进行分类。
在进行特征聚类时,获取字形生成模型字形重构图像对应的类别特征;获取类别特征的聚类中心;计算类别特征与聚类中心的n-范数;根据所述n-范数的值将字形重构图像对应的字形编码向量进行聚类。通常可采用2-范数进行聚类运算。
根据特征分类和/或特征聚类结果对目标函数进行修正。则针对VAE编码器或WAE编码器,修正后的目标函数可表示为:
Figure BDA0002271823930000091
其中,Jvae/wae为VAE编码器或WAE编码器的目标函数;
M为字形训练集的类别数;
N为字形训练集样本总数;
yji为样本j的类别i标签;
Pji为字形生成模型预测出的样本j为类别i的概率;
ci向量表示类别i特征聚类的中心点;
zj向量表示样本j的类别特征;
δij在样本j属于类别i时为1,否则为0;
||x||n表示向量x的n-范数。
根据修正的目标函数训练编码模型,获取字形编码模型。
在步骤S02中,将文字图形样本输入编码模型,获取字形编码向量:
将待编码的文字图形样本输入经过训练的编码模型中,获取字形编码向量。
将获取的字形编码向量用于语义较为复杂的文本识别中,引入字形特征信息,可有效增强语义的理解,提高识别的准确性。
请参阅图2,本发明还提供了一种字形处理系统,用于执行前述方法实施例中所述的字形处理方法。由于系统实施例的技术原理与前述方法实施例的技术原理相似,因而不再对同样的技术细节做重复性赘述。
在一实施例中,字形处理系统包括模型训练模块10和编码模块11,模型训练模块10用于辅助执行前述方法实施例介绍的步骤S01,编码模块11用于执行前述方法实施例介绍的步骤S02。
在一实施例中,系统包括包括模型创建模块和验证模块,模型创建模块用于根据所述编码模型的输出向量创建字形生成模型;验证模块用于通过字形生成模型对所述字形编码向量进行验证。
在一实施例中,系统包括采样模块,用于通过字形生成模型对字形编码向量进行采样,输出对应的字形重构图像。同时也可用于对随机噪声进行采样,将随机噪声引入字形生成模型中。
在一实施例中,系统可包括代价函数构造模块,用于构造所述字形生成模型的代价函数,通过所述的代价函数将所述字形重构图像与对应的文字图形样本进行像素比对,根据所述比对结果对所述字形编码向量进行校验。
在一实施例中,系统还可包括声融合模块,用于通过字形生成模型接收随机噪声,根据随机噪声和字形编码向量获取对应的字形重构图像。
在一实施例中,系统还可包括特征聚类模块,用于获取字形重构图像对应的类别特征;获取类别特征的聚类中心;计算类别特征与所述聚类中心的n-范数;根据所述n-范数的值将所述字形重构图像对应的所述字形编码向量进行聚类。
在一实施例中,系统还可包括特征分类模块,用于对字形训练集进行分类,获取多个样本类别;通过字形生成模型预测输出图像样本属于某一样本类别的概率;根据概率将对对应的字形编码向量进行分类。
在一实施例中,系统可包括目标函数创建模块,用于获取字形训练集的样本编码先验分布,计算样本编码先验分布与字形编码向量的分布之间的散度;获取样本的期望分布,并根据期望分布和散度构建目标函数;对初始编码模型进行训练,当目标函数达到最小值时,获取所述编码模型。目标函数可通过VAE编码器或WAE编码器进行函数构建。
在一实施例中,系统可包括修正模块,用于获取字形编码向量的分布与所述样本编码先验分布之间的最大均值差异,用于修正所述目标函数中的散度。修正模块可对WAE编码器的目标函数中的散度采用MMD进行修正。修正模块也可根据特征分类和/或特征聚类的结果对VAE编码器或WAE编码器的目标函数进行修正。
在一实施例中,系统包括评估模块,用于获取字形重构图像为真实样本的重构概率,根据重构概率对目标函数中的散度评估。
本申请实施例还提供了一种设备,该设备可以包括:一个或多个处理器;和其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述设备执行图1所述的方法。在实际应用中,该设备可以作为终端设备,也可以作为服务器,终端设备的例子可以包括:智能手机、平板电脑、电子书阅读器、MP3(动态影像专家压缩标准语音层面3,Moving Picture Experts Group Audio Layer III)播放器、MP4(动态影像专家压缩标准语音层面4,Moving Picture Experts Group Audio Layer IV)播放器、膝上型便携计算机、车载电脑、台式计算机、机顶盒、智能电视机、可穿戴设备等等,本申请实施例对于具体的设备不加以限制。
本申请实施例还提供了一种非易失性可读存储介质,该存储介质中存储有一个或多个模块(programs),该一个或多个模块被应用在设备时,可以使得该设备执行本申请实施例的图1中字形处理方法所包含步骤的指令(instructions)。
图3为本申请一实施例提供的终端设备的硬件结构示意图。如图所示,该终端设备可以包括:输入设备1100、第一处理器1101、输出设备1102、第一存储器1103和至少一个通信总线1104。通信总线1104用于实现元件之间的通信连接。第一存储器1103可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,第一存储器1103中可以存储各种程序,用于完成各种处理功能以及实现本实施例的方法步骤。
可选的,上述第一处理器1101例如可以为中央处理器(Central ProcessingUnit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,该处理器1101通过有线或无线连接耦合到上述输入设备1100和输出设备1102。
可选的,上述输入设备1100可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;输出设备1102可以包括显示器、音响等输出设备。
在本实施例中,该终端设备的处理器包括用于执行各设备中语音识别装置各模块的功能,具体功能和技术效果参照上述实施例即可,此处不再赘述。
图4为本申请的另一个实施例提供的终端设备的硬件结构示意图。图4是对图3在实现过程中的一个具体的实施例。如图所示,本实施例的终端设备可以包括第二处理器1201以及第二存储器1202。
第二处理器1201执行第二存储器1202所存放的计算机程序代码,实现上述实施例中图1所述方法。
第二存储器1202被配置为存储各种类型的数据以支持在终端设备的操作。这些数据的示例包括用于在终端设备上操作的任何应用程序或方法的指令,例如消息,图片,视频等。第二存储器1202可能包含随机存取存储器(random access memory,简称RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
可选地,第一处理器1201设置在处理组件1200中。该终端设备还可以包括:通信组件1203,电源组件1204,多媒体组件1205,语音组件1206,输入/输出接口1207和/或传感器组件1208。终端设备具体所包含的组件等依据实际需求设定,本实施例对此不作限定。
处理组件1200通常控制终端设备的整体操作。处理组件1200可以包括一个或多个第二处理器1201来执行指令,以完成上述图1所示方法的全部或部分步骤。此外,处理组件1200可以包括一个或多个模块,便于处理组件1200和其他组件之间的交互。例如,处理组件1200可以包括多媒体模块,以方便多媒体组件1205和处理组件1200之间的交互。
电源组件1204为终端设备的各种组件提供电力。电源组件1204可以包括电源管理系统,一个或多个电源,及其他与为终端设备生成、管理和分配电力相关联的组件。
多媒体组件1205包括在终端设备和用户之间的提供一个输出接口的显示屏。在一些实施例中,显示屏可以包括液晶显示器(LCD)和触摸面板(TP)。如果显示屏包括触摸面板,显示屏可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
语音组件1206被配置为输出和/或输入语音信号。例如,语音组件1206包括一个麦克风(MIC),当终端设备处于操作模式,如语音识别模式时,麦克风被配置为接收外部语音信号。所接收的语音信号可以被进一步存储在第二存储器1202或经由通信组件1203发送。在一些实施例中,语音组件1206还包括一个扬声器,用于输出语音信号。
输入/输出接口1207为处理组件1200和外围接口模块之间提供接口,上述外围接口模块可以是点击轮,按钮等。这些按钮可包括但不限于:音量按钮、启动按钮和锁定按钮。
传感器组件1208包括一个或多个传感器,用于为终端设备提供各个方面的状态评估。例如,传感器组件1208可以检测到终端设备的打开/关闭状态,组件的相对定位,用户与终端设备接触的存在或不存在。传感器组件1208可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在,包括检测用户与终端设备间的距离。在一些实施例中,该传感器组件1208还可以包括摄像头等。
通信组件1203被配置为便于终端设备和其他设备之间有线或无线方式的通信。终端设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个实施例中,该终端设备中可以包括SIM卡插槽,该SIM卡插槽用于插入SIM卡,使得终端设备可以登录GPRS网络,通过互联网与服务器建立通信。
由上可知,在图4实施例中所涉及的通信组件1203、语音组件1206以及输入/输出接口1207、传感器组件1208均可以作为图3实施例中的输入设备的实现方式。
综上所述,本发明一种字形处理方法、系统、设备和介质,通过WAE编码器与GAN相结合,可有效解决GAN训练中的模型坍塌问题;通过VAE编码器或WAE编码器进行构造目标函数,字形生成模型的输出对编码模型的输出进行修正可有效提高生成的字形编码向量的准确率;针对获取的字形编码向量进行特征分类或聚类,并进一步修正训练模型,提高模型训练效率的同时,也可有效提高字形编码向量的精度。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。

Claims (32)

1.一种字形处理方法,其特征在于,包括:
训练编码模型,将文字图形样本输入所述编码模型,获取字形编码向量;其中,所述编码模型的训练参数包括字形训练集、所述编码模型输出向量的分布、预设的所述字形训练集的样本编码先验分布。
2.根据权利要求1所述的字形处理方法,其特征在于,根据所述字形编码向量创建字形生成模型,通过字形生成模型对所述字形编码向量进行验证。
3.根据权利要求2所述的字形处理方法,其特征在于,所述字形编码向量包括均值向量、协方差向量。
4.根据权利要求3所述的字形处理方法,其特征在于,根据所述样本编码先验分布预设用于采样的分布,具体为均值向量和协方差向量,进行采样,获取采样向量;将所述采样向量乘以所述协方差向量后加到所述均值向量上,获取对应的字形编码向量。
5.根据权利要求1所述的字形处理方法,其特征在于,获取字形的多维图像信息,并创建所述字形训练集。
6.根据权利要求5所述的字形处理方法,其特征在于,所述多维图像信息包括字体、笔画粗细、旋转角度。
7.根据权利要求1所述的字形处理方法,其特征在于,所述编码模型输出向量的分布服从正态分布。
8.根据权利要求1所述的字形处理方法,其特征在于,通过神经网络对所述文字图形样本提取图像特征,建立所述图像特征与所述字形编码向量的映射关系,进而创建初始的编码模型。
9.根据权利要求8所述的字形处理方法,其特征在于,所述神经网络包括卷积神经网络。
10.根据权利要求2所述的字形处理方法,其特征在于,通过反卷积神经网络建立所述字形编码向量与文字图像的映射关系,进而创建字形生成模型。
11.根据权利要求2所述的字形处理方法,其特征在于,通过所述字形生成模型对所述字形编码向量进行采样,输出对应的字形重构图像。
12.根据权利要求8所述的字形处理方法,其特征在于,预设所述字形训练集的所述样本编码先验分布,计算所述样本编码先验分布与所述编码模型输出向量的分布之间的散度;
获取所述样本的期望分布,并根据所述期望分布和所述散度构建目标函数;
对所述初始的编码模型进行训练,当所述目标函数达到最小值时,获取训练完成的所述编码模型。
13.根据权利要求11所述的字形处理方法,其特征在于,构造所述字形生成模型的代价函数,通过所述的代价函数将所述字形重构图像与对应的所述文字图形样本进行像素比对,根据所述比对结果对所述字形编码向量进行校验。
14.根据权利要求11所述的字形处理方法,其特征在于,通过所述字形生成模型接收随机噪声,根据所述随机噪声和所述字形编码向量获取对应的所述字形重构图像。
15.根据权利要求2所述的字形处理方法,其特征在于,对所述字形编码向量进行特征分类和/或特征聚类。
16.根据权利要求15所述的字形处理方法,其特征在于,所述特征分类包括:
对所述字形训练集进行分类,获取多个样本类别;
通过所述字形生成模型预测输出图像样本属于某一所述样本类别的概率;
根据所述概率将对应的所述字形编码向量进行分类。
17.根据权利要求15所述的字形处理方法,其特征在于,所述特征聚类包括:获取所述字形重构图像对应的类别特征;
获取所述类别特征的聚类中心;
计算所述类别特征与所述聚类中心的n-范数;
根据所述n-范数的值对所述字形重构图像对应的所述字形编码向量进行聚类。
18.根据权利要求15所述的字形处理方法,其特征在于,根据所述特征分类和/或特征聚类结果对用于训练所述编码模型的目标函数进行修正。
19.根据权利要求12所述的字形处理方法,其特征在于,获取所述编码模型输出向量的分布与所述样本编码先验分布的最大均值差异,用于修正所述目标函数中的散度。
20.根据权利要求12所述的字形处理方法,其特征在于,获取所述字形重构图像为真实样本的重构概率,根据所述重构概率对训练所述编码模型的目标函数中的散度进行评估。
21.一种字形处理系统,其特征在于,包括:
模型训练模块,用于训练编码模型;其中,所述编码模型的训练参数包括字形训练集、编码模型输出向量的分布、预设的所述字形训练集的样本编码先验分布;
编码模块,用于将文字图形样本输入所述编码模型,获取字形编码向量。
22.根据权利要求21所述的字形处理系统,其特征在于,包括模型创建模块和验证模块,所述模型创建模块用于根据所述字形编码向量创建字形生成模型;所述验证模块用于通过字形生成模型对所述字形编码向量进行验证。
23.根据权利要求22所述的字形处理系统,其特征在于,包括采样模块,用于通过所述字形生成模型对所述字形编码向量进行采样,输出对应的字形重构图像。
24.根据权利要求23所述的字形处理系统,其特征在于,包括代价函数构造模块,用于构造所述字形生成模型的代价函数,通过所述的代价函数将所述字形重构图像与对应的文字图形样本进行像素比对,根据所述比对结果对所述字形编码向量进行校验。
25.根据权利要求23所述的字形处理系统,其特征在于,包括噪声融合模块,用于通过所述字形生成模型接收随机噪声,根据所述随机噪声和所述字形编码向量获取对应的所述字形重构图像。
26.根据权利要求22所述的字形处理系统,其特征在于,包括特征分类模块,用于对所述字形训练集进行分类,获取多个样本类别;通过所述字形生成模型预测输出图像样本属于某一所述样本类别的概率;根据所述概率将对对应的所述字形编码向量进行分类。
27.根据权利要求23所述的字形处理系统,其特征在于,包括特征聚类模块,用于获取所述字形重构图像对应的类别特征;获取所述类别特征的聚类中心;计算所述类别特征与所述聚类中心的n-范数;根据所述n-范数的值对所述字形重构图像对应的所述字形编码向量进行聚类。
28.根据权利要求23所述的字形处理系统,其特征在于,包括目标函数创建模块,用于预设所述字形训练集的样本编码先验分布,计算所述样本编码先验分布与所述编码模型输出向量的分布之间的散度;获取样本的期望分布,并根据所述期望分布和所述散度构建目标函数;对所述初始的编码模型进行训练,当所述目标函数达到最小值时,获取训练完成的所述编码模型;其中,通过神经网络对所述文字图形样本提取图像特征,建立所述图像特征与所述字形编码向量的映射关系,进而创建初始的编码模型。
29.根据权利要求28所述的字形处理系统,其特征在于,包括修正模块,用于获取所述编码模型输出向量的分布与所述样本编码先验分布之间的最大均值差异,用于修正所述目标函数中的散度。
30.根据权利要求29所述的字形处理系统,其特征在于,包括评估模块,用于获取所述字形重构图像为真实样本的重构概率,根据所述重构概率对所述目标函数中的散度进行评估。
31.一种设备,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当所述一个或多个处理器执行时,使得所述设备执行如权利要求1-20中一个或多个所述的方法。
32.一个或多个机器可读介质,其特征在于,其上存储有指令,当由一个或多个处理器执行时,使得设备执行如权利要求1-20中一个或多个所述的方法。
CN201911107715.6A 2019-10-24 2019-11-13 一种字形处理方法、系统、设备和介质 Active CN110929767B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN2019110184023 2019-10-24
CN201911018402 2019-10-24

Publications (2)

Publication Number Publication Date
CN110929767A true CN110929767A (zh) 2020-03-27
CN110929767B CN110929767B (zh) 2021-05-18

Family

ID=69852867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911107715.6A Active CN110929767B (zh) 2019-10-24 2019-11-13 一种字形处理方法、系统、设备和介质

Country Status (1)

Country Link
CN (1) CN110929767B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011176A (zh) * 2021-03-10 2021-06-22 云从科技集团股份有限公司 语言模型训练及其语言推理方法、装置及计算机存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130198769A1 (en) * 1999-12-03 2013-08-01 Lazaros Bountour Consumer access systems and for providing same
US20180144130A1 (en) * 2016-11-21 2018-05-24 Cylance Inc. Icon based malware detection
CN108154511A (zh) * 2018-01-12 2018-06-12 西安电子科技大学 基于子模字典学习的sar图像分割方法
CN108665514A (zh) * 2017-03-29 2018-10-16 北大方正集团有限公司 字形剖分方法及字形剖分装置
CN109447153A (zh) * 2018-10-29 2019-03-08 四川大学 用于非均衡数据分类的散度-激励自编码器及其分类方法
CN109493350A (zh) * 2018-11-09 2019-03-19 重庆中科云丛科技有限公司 人像分割方法及装置
CN110083710A (zh) * 2019-04-30 2019-08-02 北京工业大学 一种基于循环神经网络与潜变量结构的词语定义生成方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130198769A1 (en) * 1999-12-03 2013-08-01 Lazaros Bountour Consumer access systems and for providing same
US20180144130A1 (en) * 2016-11-21 2018-05-24 Cylance Inc. Icon based malware detection
CN108665514A (zh) * 2017-03-29 2018-10-16 北大方正集团有限公司 字形剖分方法及字形剖分装置
CN108154511A (zh) * 2018-01-12 2018-06-12 西安电子科技大学 基于子模字典学习的sar图像分割方法
CN109447153A (zh) * 2018-10-29 2019-03-08 四川大学 用于非均衡数据分类的散度-激励自编码器及其分类方法
CN109493350A (zh) * 2018-11-09 2019-03-19 重庆中科云丛科技有限公司 人像分割方法及装置
CN110083710A (zh) * 2019-04-30 2019-08-02 北京工业大学 一种基于循环神经网络与潜变量结构的词语定义生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
CARL DOERSCH 等: "Tutorial on Variational Autoencoders", 《ARXIV》 *
ILYA TOLSTIKHIN 等: "Wasserstein Auto-Encoders", 《ARXIV》 *
袁非牛 等: "自编码神经网络理论及应用综述", 《计算机学报》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113011176A (zh) * 2021-03-10 2021-06-22 云从科技集团股份有限公司 语言模型训练及其语言推理方法、装置及计算机存储介质

Also Published As

Publication number Publication date
CN110929767B (zh) 2021-05-18

Similar Documents

Publication Publication Date Title
CN109388807B (zh) 电子病历命名实体识别的方法、装置及存储介质
CN112396613B (zh) 图像分割方法、装置、计算机设备及存储介质
CN112200187A (zh) 一种目标检测方法、装置、机器可读介质及设备
CN111539412B (zh) 一种基于ocr的图像分析方法、系统、设备及介质
CN112200318B (zh) 一种目标检测方法、装置、机器可读介质及设备
US20210216874A1 (en) Radioactive data generation
CN111598012B (zh) 一种图片聚类管理方法、系统、设备及介质
CN112052792A (zh) 一种跨模型人脸识别方法、装置、设备及介质
CN111310725A (zh) 一种对象识别方法、系统、机器可读介质及设备
CN108763350B (zh) 文本数据处理方法、装置、存储介质及终端
CN112529939A (zh) 一种目标轨迹匹配方法、装置、机器可读介质及设备
Xu et al. Multi‐pyramid image spatial structure based on coarse‐to‐fine pyramid and scale space
CN110929767B (zh) 一种字形处理方法、系统、设备和介质
CN111178455B (zh) 图像聚类方法、系统、设备及介质
CN110889290B (zh) 文本编码方法和设备、文本编码有效性检验方法和设备
CN110363187B (zh) 一种人脸识别方法、装置、机器可读介质及设备
CN116704581A (zh) 人脸识别方法、装置、设备及存储介质
CN116238125A (zh) 注射器注塑成型生产用产品质量监控方法及系统
CN111710011B (zh) 一种漫画生成方法、系统、电子设备及介质
CN115311664A (zh) 图像中文本类别的识别方法、装置、介质及设备
CN115116080A (zh) 表格解析方法、装置、电子设备和存储介质
CN112258392A (zh) 一种超分辨图像训练方法、装置、介质及设备
CN112347982A (zh) 基于视频的无监督难例数据挖掘方法、装置、介质及设备
CN116309274B (zh) 图像中小目标检测方法、装置、计算机设备及存储介质
CN115984947B (zh) 图像生成方法、训练方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant