CN116416628A - 基于手写字体识别的方法及识别系统 - Google Patents
基于手写字体识别的方法及识别系统 Download PDFInfo
- Publication number
- CN116416628A CN116416628A CN202310658892.3A CN202310658892A CN116416628A CN 116416628 A CN116416628 A CN 116416628A CN 202310658892 A CN202310658892 A CN 202310658892A CN 116416628 A CN116416628 A CN 116416628A
- Authority
- CN
- China
- Prior art keywords
- image
- style
- module
- target image
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 30
- 238000007781 pre-processing Methods 0.000 claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000013508 migration Methods 0.000 claims abstract description 35
- 230000005012 migration Effects 0.000 claims abstract description 35
- 238000002360 preparation method Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 15
- 238000007499 fusion processing Methods 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 62
- 239000010410 layer Substances 0.000 claims description 31
- 238000006243 chemical reaction Methods 0.000 claims description 9
- 238000004519 manufacturing process Methods 0.000 claims description 9
- 238000003706 image smoothing Methods 0.000 claims description 7
- 238000005520 cutting process Methods 0.000 claims description 6
- 230000006872 improvement Effects 0.000 claims description 6
- 239000011159 matrix material Substances 0.000 claims description 6
- 238000003062 neural network model Methods 0.000 claims description 5
- 238000004364 calculation method Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 claims description 3
- 238000004088 simulation Methods 0.000 claims description 3
- 239000002356 single layer Substances 0.000 claims description 2
- 230000007547 defect Effects 0.000 abstract 1
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000014759 maintenance of location Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformations in the plane of the image
- G06T3/04—Context-preserving transformations, e.g. by using an importance map
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/10—Image acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/32—Normalisation of the pattern dimensions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Controls And Circuits For Display Device (AREA)
Abstract
本发明涉及文字识别技术领域,具体涉及一种基于手写字体识别的方法及识别系统,包括,步骤S1,文字采集模块采集不同的手写字体图像;步骤S2,数据准备模块将所述目标图像和所述风格图像输送至数据预处理模块;步骤S3,数据预处理模块将各所述转换后图像和各所述掩码图输送至模型训练模块;步骤S4,所述模型训练模块在接收到各所述转换后图像和各所述掩码图时进行图像迁移融合处理以得到最优参数模型并将最优参数模型;步骤S5,批量生成数据模块进行批量数据生成处理以生成风格迁移后的目标图像数据,完成手写字体识别。克服现有技术中在对离线手写字体识别时无法对文字图像进行风格迁移处理时保留目标图像颜色导致针对文字识别精度低。
Description
技术领域
本发明设计文字识别技术领域,具体涉及一种基于手写字体识别的方法及识别系统。
背景技术
手写字体识别可分为在线识别和离线识别,在线字体识别是指在通过触摸屏等输入设备手写字体过程中,计算机根据书写字体的笔画走向、笔画顺序、书写速度等多种信息进行识别,由于信息量多且具有连续性,因此识别难度较小,识别准确率也较高。离线字体识别提供的信息量少,仅仅通过识别一个字体的二维图像来提取字体特征,所以识别难度较大,识别准确率也较低。
目前,基于深度学习的计算机视觉技术不断发展,大量研究采用基于深度学习的方法来识别手写文字,但是,深度学习算法需要大量手写文字数据训练网络。数据集图像的数量和数据集的针对性往往决定了检测网络的准确度和泛化能力。但是,由于图像识别文字的情况千变万化,对于图像的清晰度,图像内文字的风格、颜色、部分缺失等情况。
图像风格迁移技术,就是通过将风格图像和目标图像中的风格和内容进行分离,将风格图像中的风格与目标图像的内容进行重新组合,从而生成一张具有风格图像风格的目标图像。现有的风格迁移网络主要分为两个部分,一是基于卷积神经网络的风格迁移,核心运用到VGG19网络;二是基于对抗神经网络的风格迁移。前者具有迁移稳定,效果好的优点,迁移速度慢的缺点,后者具有迁移速度快的优点,缺点是无法处理图像形状发生改变的情况。
基于上述,提出一种基于手写字体识别的方法及识别系统。
发明内容
为此,本发明提供一种基于手写字体识别的方法及识别系统,用以克服现有技术中在对离线手写字体识别时无法对文字图像进行风格迁移处理时保留目标图像颜色导致针对文字识别精度低的问题。
一方面,本发明提供一种基于手写字体识别的方法,包括:
步骤S1,文字采集模块采集不同的手写字体图像并输送至数据准备模块;
步骤S2,所述数据准备模块将用以迁移风格的手写字体图像记为目标图像,数据准备模块选取字体库图像,将其记为风格图像并将该风格图像的风格作为目标图像风格迁移后的风格标准;所述数据准备模块将所述目标图像和所述风格图像输送至数据预处理模块;
步骤S3,所述数据预处理模块对所述风格图像进行裁切处理以使风格图像的尺寸与所述目标图像尺寸相同,数据预处理模块在完成对风格图像的裁切后依次制作针对风格图像和目标图像的掩码图并对各图像进行颜色格式转换处理;所述数据预处理模块将各转换后图像和各所述掩码图输送至模型训练模块;
步骤S4,所述模型训练模块在接收到各所述转换后图像和各所述掩码图时进行图像迁移融合处理以得到最优参数模型并将最优参数模型输送至批量生成数据模块;
步骤S5,所述批量生成数据模块在接收到所述最优参数模型后进行批量数据生成处理以生成风格迁移后的目标图像数据,完成手写字体识别。
进一步地,在所述步骤S3中,所述数据预处理模块对所述风格图像和所述目标图像的预处理过程包括:
步骤S31,所述数据预处理模块采用Opencv+Python程序对所述风格图像进行随机裁剪以使裁剪后的风格图像的尺寸与所述目标图像的尺寸相同;
步骤S32,所述数据预处理模块采用labelme软件对所述目标图像中字体区域的图像信息进行割离以完成对目标掩码图的制作,数据预处理模块采集所述风格图像中的风格特征并隔离风格图像中的非风格特征以完成对风格掩码图的制作,数据预处理模块用语义描述字体区域以使目标掩码图和风格掩码图在同一编码的区域进行风格迁移;
步骤S33,所述数据预处理模块依次将所述目标图像和所述风格图像的RGB颜色格式转化成YUV颜色格式;所述数据预处理模块在所述模型训练模块完成针对各所述掩码图和各所述转换后图像的模型训练后将目标图像的YUV颜色格式转化为RGB颜色格式并以RGB颜色格式保存目标图像。
进一步地,在所述步骤S33中,所述数据预处理模块利用所述Python完成对所述目标图像和所述风格图像的颜色格式的转换并利用以下公式完成对对应颜色格式下对应数值的确定,其中,
当所述数据预处理模块依次将所述目标图像和所述风格图像的RGB颜色格式转化成YUV颜色格式时,该目标图像中的YUV值的计算方式如下:
Y=0.299×R+0.587×G+0.114×B;
U=-0.169×R-0.331×G+0.5×B;
V=0.5×R-0.419×G-0.081×B;
当所述数据预处理模块将所述目标图像的YUV颜色格式转化成RGB颜色格式时,该目标图像中的RGB值的计算方式如下:
R=(Y-16)+1.140×(V-128);
G=(Y-16)-0.394×(U-128)-0.581×(V-128);
B=(Y-16)+2.032×(U-128)。
进一步地,在所述步骤S4中,所述模型训练模块使用参数训练完成的VGG19卷积网络完成针对所述目标图像和所述风格图像之间的风格迁移,包括以下步骤:
步骤S41,设置使用模型的层数,对于所述目标图像,所述模型训练模块选择网络浅层参数,使用第一层参数和第二层参数提取目标掩码图的特征且其各层参数的权重均为0.5;对于所述风格图像,所述模型训练模块选择网络深层参数来提取风格特征,层数配置前五层参数且各层权重按照顺序依次为0.1、0.1、0.2、0.3和0.3;
步骤S42,设置内容损失和风格损失比重,并确定模型迭代次数,所述模型训练模块将在字体模拟中最优损失比设置为1/1000,并将模型迭代次数设置为500次;
步骤S43,所述模型训练模块通过随机噪点生成模拟字体图片,根据生成图片的清晰度、迁移纹理和保留色彩判断该图片是否达到预期标准并在该图片达到预期标准时保存该图片中的各项参数;所述模型训练模块在所述模拟字体图片未达到预期标准时重复调整该图片中的各项参数直至调整后的图片达到预期标准。
进一步地,所述模型训练模块中设置有总损失函数,模型训练模块在总损失函数中依次加入掩码损失函数、颜色损失函数和图像平滑函数并分别对内容损失函数和风格损失函数设置对应的权重系数以完成对神经网络模型中总损失函数的改进,改进后的总损失函数表示如下:
Lt(p,a,f)=αLc(p,f)+βLs(a,f)+Ltv+Lm+Lco
其中,Lt(p,a,f)为总损失函数,Lc(p,f)为内容损失函数,Ls(a,f)为风格损失函数,α为内容损失的权重,β为风格损失的权重,Ltv为图像平滑函数,Lm为掩码损失函数,Lco为颜色损失函数。
进一步地,对于所述内容损失函数Lc(p,f),其定义如下:
进一步地,对于所述风格损失函数Ls(a,f),其定义如下:
进一步地,对于所述颜色损失函数Lco,其定义如下:
进一步地,在所述步骤S5中,所述批量生成数据模块将接收到的所述最优参数模型输入到迁移网络中,并采用指令集的方式快速生成相同预期的模拟字体图片以获取不同类别的文字数据图像。
另一方面,本发明还提供一种基于手写字体识别系统,包括:
文字采集模块,用以采集手写字体图像;
数据准备模块,其与所述文字采集模块相连,用以准备目标图像和风格图像;
数据预处理模块,其与所述数据准备模块相连,用以预处理所述目标图像和所述风格图像;所述预处理包括裁切处理所述风格图像,制作针对风格图像和所述目标图像的掩码图并对各图像进行颜色格式转换处理;
模型训练模块,其与所述数据预处理模块相连,用以对所述转换后图像和各所述掩码图时进行图像迁移融合处理以得到最优参数模型;
批量生成数据模块,其与所述模型训练模块相连,用以对进行批量数据生成处理以生成风格迁移后的目标图像数据。
与现有技术相比,本发明的有益效果在于,本发明通过构建基于风格迁移的神经网络模型,提高了生成文字图像的清晰度和图像质量,以及生成速度,确保离线识别过程中采集的文字的快速识别。
进一步地,本发明的风格迁移神经网络,在生成文字图像保留目标图像的结构和颜色上有很大的改进,在训练过程中,通过掩码的作用,使图像特定区域的迁移成为可能,这样会使生成文字图像能够保留很好的结构,在训练之前,对图片的颜色格式进行转换,保留目标图像的颜色。
进一步地,本发明通过保留目标图像的结构和颜色,进而提高了数据集的真实性,从而进一步提高了不同手写风格的文字的识别精确度。
进一步地,本发明在模型训练过程中设置了内容损失和风格损失比重,并确定模型迭代次数,在文字图片未达到预期标准时重复调整该图片中的各项参数直至调整后的图片达到预期标准,保证了模型训练的精准度。
进一步地,本发明还在模型训练模块中设置有总损失函数,模型训练模块在总损失函数中依次加入掩码损失函数、颜色损失函数和图像平滑函数并分别对内容损失函数和风格损失函数设置对应的权重系数以完成对神经网络模型中总损失函数的改进,保证了生成文字图像的清晰度和图像质量。
附图说明
图1为本发明实施例基于手写字体识别的方法的流程图;
图2为本发明实施例手写字体识别的方法的框架图;
图3为本发明实施例手写字体识别系统的结构示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
需要说明的是,在本发明的描述中,术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系,这仅仅是为了便于描述,而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1所示,其为本发明所述基于手写字体识别的方法的流程图,图2为本发明所述基于手写字体识别系统的结构示意图。
本发明实施例基于手写字体识别的方法的流程图,包括:
步骤S1,文字采集模块采集不同的手写字体图像并输送至数据准备模块;
步骤S2,所述数据准备模块将用以迁移风格的手写字体图像记为目标图像,数据准备模块选取字体库图像,将其记为风格图像并将该风格图像的风格作为目标图像风格迁移后的风格标准;所述数据准备模块将所述目标图像和所述风格图像输送至数据预处理模块;
步骤S3,所述数据预处理模块对所述风格图像进行裁切处理以使风格图像的尺寸与所述目标图像尺寸相同,数据预处理模块在完成对风格图像的裁切后依次制作针对风格图像和目标图像的掩码图并对各图像进行颜色格式转换处理;所述数据预处理模块将各转换后图像和各所述掩码图输送至模型训练模块;
步骤S4,所述模型训练模块在接收到各所述转换后图像和各所述掩码图时进行图像迁移融合处理以得到最优参数模型并将最优参数模型输送至批量生成数据模块;
步骤S5,所述批量生成数据模块在接收到所述最优参数模型后进行批量数据生成处理以生成风格迁移后的目标图像数据,完成手写字体识别。
具体而言,在所述步骤S3中,所述数据预处理模块对所述风格图像和所述目标图像的预处理过程包括:
步骤S31,所述数据预处理模块采用Opencv+Python程序对所述风格图像进行随机裁剪以使裁剪后的风格图像的尺寸与所述目标图像的尺寸相同;
步骤S32,所述数据预处理模块采用labelme软件对所述目标图像中字体区域的图像信息进行割离以完成对目标掩码图的制作,数据预处理模块采集所述风格图像中的风格特征并隔离风格图像中的非风格特征以完成对风格掩码图的制作,数据预处理模块用语义描述字体区域以使目标掩码图和风格掩码图在同一编码的区域进行风格迁移;
步骤S33,所述数据预处理模块依次将所述目标图像和所述风格图像的RGB颜色格式转化成YUV颜色格式;所述数据预处理模块在所述模型训练模块完成针对各所述掩码图和各所述转换后图像的模型训练后将目标图像的YUV颜色格式转化为RGB颜色格式并以RGB颜色格式保存目标图像。
具体而言,在所述步骤S33中,所述数据预处理模块利用所述Python完成对所述目标图像和所述风格图像的颜色格式的转换并利用以下公式完成对对应颜色格式下对应数值的确定,其中,
当所述数据预处理模块依次将所述目标图像和所述风格图像的RGB颜色格式转化成YUV颜色格式时,该目标图像中的YUV值的计算方式如下:
Y=0.299×R+0.587×G+0.114×B;
U=-0.169×R-0.331×G+0.5×B;
V=0.5×R-0.419×G-0.081×B;
当所述数据预处理模块将所述目标图像的YUV颜色格式转化成RGB颜色格式时,该目标图像中的RGB值的计算方式如下:
R=(Y-16)+1.140×(V-128);
G=(Y-16)-0.394×(U-128)-0.581×(V-128);
B=(Y-16)+2.032×(U-128)。
具体而言,在所述步骤S4中,所述模型训练模块使用参数训练完成的VGG19卷积网络完成针对所述目标图像和所述风格图像之间的风格迁移,包括以下步骤:
步骤S41,设置使用模型的层数,对于所述目标图像,所述模型训练模块选择网络浅层参数,使用第一层参数和第二层参数提取目标掩码图的特征且其各层参数的权重均为0.5;对于所述风格图像,所述模型训练模块选择网络深层参数来提取风格特征,层数配置前五层参数且各层权重按照顺序依次为0.1、0.1、0.2、0.3和0.3;
步骤S42,设置内容损失和风格损失比重,并确定模型迭代次数,所述模型训练模块将在字体模拟中最优损失比设置为1/1000,并将模型迭代次数设置为500次;
步骤S43,所述模型训练模块通过随机噪点生成模拟字体图片,根据生成图片的清晰度、迁移纹理和保留色彩判断该图片是否达到预期标准并在该图片达到预期标准时保存该图片中的各项参数;所述模型训练模块在所述模拟字体图片未达到预期标准时重复调整该图片中的各项参数直至调整后的图片达到预期标准。
具体而言,所述模型训练模块中设置有总损失函数,模型训练模块在总损失函数中依次加入掩码损失函数、颜色损失函数和图像平滑函数并分别对内容损失函数和风格损失函数设置对应的权重系数以完成对神经网络模型中总损失函数的改进,改进后的总损失函数表示如下:
Lt(p,a,f)=αLc(p,f)+βLs(a,f)+Ltv+Lm+Lco
其中,Lt(p,a,f)为总损失函数,Lc(p,f)为内容损失函数,Ls(a,f)为风格损失函数,α为内容损失的权重,β为风格损失的权重,Ltv为图像平滑函数,Lm为掩码损失函数,Lco为颜色损失函数。
具体而言,对于所述内容损失函数Lc(p,f),其定义如下:
具体而言,对于所述风格损失函数Ls(a,f),其定义如下:
具体而言,对于所述颜色损失函数Lco,其定义如下:
具体而言,在所述步骤S5中,所述批量生成数据模块将接收到的所述最优参数模型输入到迁移网络中,并采用指令集的方式快速生成相同预期的模拟字体图片以获取不同类别的文字数据图像。
另一方面,本发明实施例基于手写字体识别系统,包括:
文字采集模块,用以采集手写字体图像;
数据准备模块,其与所述文字采集模块相连,用以准备目标图像和风格图像;
数据预处理模块,其与所述数据准备模块相连,用以预处理所述目标图像和所述风格图像;所述预处理包括裁切处理所述风格图像,制作针对风格图像和所述目标图像的掩码图并对各图像进行颜色格式转换处理;
模型训练模块,其与所述数据预处理模块相连,用以对所述转换后图像和各所述掩码图时进行图像迁移融合处理以得到最优参数模型;
批量生成数据模块,其与所述模型训练模块相连,用以对进行批量数据生成处理以生成风格迁移后的目标图像数据。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。
以上所述仅为本发明的优选实施例,并不用于限制本发明;对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于手写字体识别的方法,其特征在于,包括:
步骤S1,文字采集模块采集不同的手写字体图像并输送至数据准备模块;
步骤S2,所述数据准备模块将用以迁移风格的手写字体图像记为目标图像,数据准备模块选取字体库图像,将其记为风格图像并将该风格图像的风格作为目标图像风格迁移后的风格标准;所述数据准备模块将所述目标图像和所述风格图像输送至数据预处理模块;
步骤S3,所述数据预处理模块对所述风格图像进行裁切处理以使风格图像的尺寸与所述目标图像尺寸相同,数据预处理模块在完成对风格图像的裁切后依次制作针对风格图像和目标图像的掩码图并对各图像进行颜色格式转换处理;所述数据预处理模块将各转换后图像和各所述掩码图输送至模型训练模块;
步骤S4,所述模型训练模块在接收到各所述转换后图像和各所述掩码图时进行图像迁移融合处理以得到最优参数模型并将最优参数模型输送至批量生成数据模块;
步骤S5,所述批量生成数据模块在接收到所述最优参数模型后进行批量数据生成处理以生成风格迁移后的目标图像数据,完成手写字体识别。
2.根据权利要求1所述的基于手写字体识别的方法,其特征在于,在所述步骤S3中,所述数据预处理模块对所述风格图像和所述目标图像的预处理过程包括:
步骤S31,所述数据预处理模块采用Opencv+Python程序对所述风格图像进行随机裁剪以使裁剪后的风格图像的尺寸与所述目标图像的尺寸相同;
步骤S32,所述数据预处理模块采用labelme软件对所述目标图像中字体区域的图像信息进行割离以完成对目标掩码图的制作,数据预处理模块采集所述风格图像中的风格特征并隔离风格图像中的非风格特征以完成对风格掩码图的制作,数据预处理模块用语义描述字体区域以使目标掩码图和风格掩码图在同一编码的区域进行风格迁移;
步骤S33,所述数据预处理模块依次将所述目标图像和所述风格图像的RGB颜色格式转化成YUV颜色格式;所述数据预处理模块在所述模型训练模块完成针对各所述掩码图和各所述转换后图像的模型训练后将目标图像的YUV颜色格式转化为RGB颜色格式并以RGB颜色格式保存目标图像。
3.根据权利要求2所述的基于手写字体识别的方法,其特征在于,在所述步骤S33中,所述数据预处理模块利用所述Python完成对所述目标图像和所述风格图像的颜色格式的转换并利用以下公式完成对对应颜色格式下对应数值的确定,其中,
当所述数据预处理模块依次将所述目标图像和所述风格图像的RGB颜色格式转化成YUV颜色格式时,该目标图像中的YUV值的计算方式如下:
Y=0.299×R+0.587×G+0.114×B;
U=-0.169×R-0.331×G+0.5×B;
V=0.5×R-0.419×G-0.081×B;
当所述数据预处理模块将所述目标图像的YUV颜色格式转化成RGB颜色格式时,该目标图像中的RGB值的计算方式如下:
R=(Y-16)+1.140×(V-128);
G=(Y-16)-0.394×(U-128)-0.581×(V-128);
B=(Y-16)+2.032×(U-128)。
4.根据权利要求1所述的基于手写字体识别的方法,其特征在于,在所述步骤S4中,所述模型训练模块使用参数训练完成的VGG19卷积网络完成针对所述目标图像和所述风格图像之间的风格迁移,包括以下步骤:
步骤S41,设置使用模型的层数,对于所述目标图像,所述模型训练模块选择网络浅层参数,使用第一层参数和第二层参数提取目标掩码图的特征且其各层参数的权重均为0.5;对于所述风格图像,所述模型训练模块选择网络深层参数来提取风格特征,层数配置前五层参数且各层权重按照顺序依次为0.1、0.1、0.2、0.3和0.3;
步骤S42,设置内容损失和风格损失比重,并确定模型迭代次数,所述模型训练模块将在字体模拟中最优损失比设置为1/1000,并将模型迭代次数设置为500次;
步骤S43,所述模型训练模块通过随机噪点生成模拟字体图片,根据生成图片的清晰度、迁移纹理和保留色彩判断该图片是否达到预期标准并在该图片达到预期标准时保存该图片中的各项参数;所述模型训练模块在所述模拟字体图片未达到预期标准时重复调整该图片中的各项参数直至调整后的图片达到预期标准。
5. 根据权利要求4所述的基于手写字体识别的方法,其特征在于,所述模型训练模块中设置有总损失函数,模型训练模块在总损失函数中依次加入掩码损失函数、颜色损失函数和图像平滑函数并分别对内容损失函数和风格损失函数设置对应的权重系数以完成对神经网络模型中总损失函数的改进,改进后的总损失函数表示如下:
Lt(p,a,f)=αLc(p,f)+βLs(a,f)+Ltv+Lm+Lco
其中,Lt(p,a,f)为总损失函数,Lc(p,f)为内容损失函数,Ls(a,f)为风格损失函数,α为内容损失的权重,β为风格损失的权重,Ltv为图像平滑函数,Lm为掩码损失函数,Lco为颜色损失函数。
9.根据权利要求1所述的基于手写字体识别的方法,其特征在于,在所述步骤S5中,所述批量生成数据模块将接收到的所述最优参数模型输入到迁移网络中,并采用指令集的方式快速生成相同预期的模拟字体图片以获取不同类别的文字数据图像。
10.一种使用权利要求1-9任一项权利要求的方法的识别系统,其特征在于,包括:
文字采集模块,用以采集手写字体图像;
数据准备模块,其与所述文字采集模块相连,用以准备目标图像和风格图像;
数据预处理模块,其与所述数据准备模块相连,用以预处理所述目标图像和所述风格图像;所述预处理包括裁切处理所述风格图像,制作针对风格图像和所述目标图像的掩码图并对各图像进行颜色格式转换处理;
模型训练模块,其与所述数据预处理模块相连,用以对所述转换后图像和各所述掩码图时进行图像迁移融合处理以得到最优参数模型;
批量生成数据模块,其与所述模型训练模块相连,用以对进行批量数据生成处理以生成风格迁移后的目标图像数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310658892.3A CN116416628A (zh) | 2023-06-06 | 2023-06-06 | 基于手写字体识别的方法及识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310658892.3A CN116416628A (zh) | 2023-06-06 | 2023-06-06 | 基于手写字体识别的方法及识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116416628A true CN116416628A (zh) | 2023-07-11 |
Family
ID=87059664
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310658892.3A Pending CN116416628A (zh) | 2023-06-06 | 2023-06-06 | 基于手写字体识别的方法及识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116416628A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117236284A (zh) * | 2023-11-13 | 2023-12-15 | 江西师范大学 | 基于风格信息与内容信息适配的字体生成方法及装置 |
CN117522676A (zh) * | 2024-01-05 | 2024-02-06 | 北京市智慧水务发展研究院 | 一种基于风格迁移的水表图像生成数据集的方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107644006A (zh) * | 2017-09-29 | 2018-01-30 | 北京大学 | 一种基于深度神经网络的手写体中文字库自动生成方法 |
US20190220746A1 (en) * | 2017-08-29 | 2019-07-18 | Boe Technology Group Co., Ltd. | Image processing method, image processing device, and training method of neural network |
CN114255159A (zh) * | 2021-12-21 | 2022-03-29 | 科大讯飞股份有限公司 | 手写文本图像生成方法、装置、电子设备和存储介质 |
CN114881612A (zh) * | 2022-05-31 | 2022-08-09 | 湖南匠云创新科技有限公司 | 工程资料的一体化打印撰写实现方法、装置、设备及介质 |
-
2023
- 2023-06-06 CN CN202310658892.3A patent/CN116416628A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190220746A1 (en) * | 2017-08-29 | 2019-07-18 | Boe Technology Group Co., Ltd. | Image processing method, image processing device, and training method of neural network |
CN107644006A (zh) * | 2017-09-29 | 2018-01-30 | 北京大学 | 一种基于深度神经网络的手写体中文字库自动生成方法 |
CN114255159A (zh) * | 2021-12-21 | 2022-03-29 | 科大讯飞股份有限公司 | 手写文本图像生成方法、装置、电子设备和存储介质 |
CN114881612A (zh) * | 2022-05-31 | 2022-08-09 | 湖南匠云创新科技有限公司 | 工程资料的一体化打印撰写实现方法、装置、设备及介质 |
Non-Patent Citations (1)
Title |
---|
缪永伟 等: "基于卷积神经网络的图像局部风格迁移", 《计算机科学》, vol. 46, no. 9, pages 259 - 264 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117236284A (zh) * | 2023-11-13 | 2023-12-15 | 江西师范大学 | 基于风格信息与内容信息适配的字体生成方法及装置 |
CN117522676A (zh) * | 2024-01-05 | 2024-02-06 | 北京市智慧水务发展研究院 | 一种基于风格迁移的水表图像生成数据集的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11830230B2 (en) | Living body detection method based on facial recognition, and electronic device and storage medium | |
CN110598610B (zh) | 一种基于神经选择注意的目标显著性检测方法 | |
CN110929569B (zh) | 人脸识别方法、装置、设备及存储介质 | |
CN109657554B (zh) | 一种基于微表情的图像识别方法、装置以及相关设备 | |
CN116416628A (zh) | 基于手写字体识别的方法及识别系统 | |
CN106599854B (zh) | 基于多特征融合的人脸表情自动识别方法 | |
US8207987B2 (en) | Method and apparatus for producing digital cartoons | |
CN107844795A (zh) | 基于主成分分析的卷积神经网络特征提取方法 | |
Kang et al. | Ddcolor: Towards photo-realistic image colorization via dual decoders | |
CN113724354B (zh) | 基于参考图颜色风格的灰度图像着色方法 | |
CN110674759A (zh) | 一种基于深度图的单目人脸活体检测方法、装置及设备 | |
CN112836625A (zh) | 人脸活体检测方法、装置、电子设备 | |
CN111652273A (zh) | 一种基于深度学习的rgb-d图像分类方法 | |
CN116612357B (zh) | 一种无监督rgbd多模态数据集的构建方法、系统和存储介质 | |
CN112633103A (zh) | 图像处理方法、装置和电子设备 | |
CN109377524B (zh) | 一种单幅图像深度恢复方法和系统 | |
CN113012030A (zh) | 图像拼接方法、装置及设备 | |
JP2023082065A (ja) | ユーザのバイオメトリック特性を有する画像中の物体を識別して、画像のうちバイオメトリック特性を含む部分を他の部分から分離することにより当該ユーザのidを検証するための方法 | |
CN116681579A (zh) | 一种实时视频人脸替换方法、介质及系统 | |
CN112926648B (zh) | 一种烟叶烘烤过程中烟叶尖部异常的检测方法及装置 | |
CN113901916A (zh) | 一种基于可视化光流特征的面部欺诈动作识别方法 | |
CN114677737A (zh) | 生物信息识别方法、装置、设备及介质 | |
CN113076916A (zh) | 基于几何特征加权融合的动态人脸表情识别方法及系统 | |
CN110580451A (zh) | 一种基于三维优化子曲面的人脸识别方法及系统 | |
CN114581690B (zh) | 基于编码-解码端的图像对差异描述方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20230711 |
|
RJ01 | Rejection of invention patent application after publication |