CN112784931B

CN112784931B - 一种汉字数据集构造方法、系统及介质

Info

Publication number: CN112784931B
Application number: CN202110068204.9A
Authority: CN
Inventors: 胡焱; 赵亚欧; 索春宝; 牛鹏
Original assignee: Inspur Financial Information Technology Co Ltd
Current assignee: Inspur Financial Information Technology Co Ltd
Priority date: 2021-01-19
Filing date: 2021-01-19
Publication date: 2023-08-22
Anticipated expiration: 2041-01-19
Also published as: CN112784931A

Abstract

本发明公开了一种汉字数据集构造方法，包括：设定数据标准和循环项；根据所述数据标准获取第一数据和第二数据；对所述第一数据执行第一动作，得到第一数据模板；根据所述第二数据对所述第一数据模板执行模糊化动作，得到第二数据模板；根据所述循环项对所述第二数据模板执行循环处理，得到第三数据模板；本发明能够对汉字数据集的各方面进行重新构造，并完善了汉字数据集中汉字的各种字体及适应环境，提高了汉字数据集的真实度和适用范围，进而保证了深度学习算法的学习能力，提高了印刷体汉字识别技术的适用性。

Description

一种汉字数据集构造方法、系统及介质

技术领域

本发明涉及图文识别技术领域，特别是涉及一种汉字数据集构造方法、系统及介质。

背景技术

印刷体汉字识别技术主要通过预先构造的汉字数据集作为基础，通过深度学习算法在此汉字数据集中进行训练，进一步实现印刷体汉字识别；现有的构造汉字数据集的方式构造出的汉字数据集的真实度较低、适用范围较小以及针对性较强，进而折损深度算法的学习能力以及降低印刷体汉字识别技术的适用性。

发明内容

本发明主要解决的是汉字数据集的真实度较低、适用范围较小以及针对性较强，进而折损深度算法的学习能力以及降低印刷体汉字识别技术的适用性的问题。

为解决上述技术问题，本发明采用的一个技术方案是：提供一种汉字数据集构造方法，包括以下步骤：

设定数据标准和循环项；

根据所述数据标准获取第一数据和第二数据；

对所述第一数据执行第一动作，得到第一数据模板；根据所述第二数据对所述第一数据模板执行模糊化动作，得到第二数据模板；

根据所述循环项对所述第二数据模板执行循环处理，得到第三数据模板。

进一步，所述数据标准包括汉字标准和底纹标准；

所述根据所述数据标准获取第一数据和第二数据的步骤进一步包括：

根据所述汉字标准获取所述第一数据；根据所述底纹标准获取所述第二数据。

进一步，所述第一动作包括：

汇总所述第一数据，得到第一准备数据；对所述第一准备数据执行实体化转换动作，得到第一准备模板；设定扫描标准，根据所述扫描标准对所述第一准备模板执行扫描动作和分割动作，生成所述第一数据模板。

进一步，所述模糊化动作包括：

设定与所述第一数据对应的修改项和修改项阈值；

设定像素抖动算法，根据所述像素抖动算法对所述第一数据模板中的第一数据进行处理，得到第二准备模板；

配置形态变换函数，根据所述形态变换函数、所述修改项和所述修改项阈值对所述第二准备模板中的第一数据的所述修改项进行处理，得到第三准备模板；

设定变换矩阵，根据所述变换矩阵、所述修改项和修改项阈值对所述第三准备模板中的第一数据的所述修改项进行处理，得到第四准备模板；

选取任一所述第二数据与所述第四准备模板贴合，得到第五准备模板；

获取第三数据，根据所述第三数据对所述第五准备模板执行噪声处理，得到所述第二数据模板。

进一步，所述修改项包括尺寸和格式；所述修改项阈值包括尺寸阈值和格式阈值；所述模糊化动作进一步包括：

设定所述第一数据模板中的所述第一数据的第一灰度值；根据所述像素抖动算法生成扰动向量；将所述扰动向量与所述第一灰度值相加，得到第二灰度值；将所述第二灰度值替代所述第一灰度值，得到所述第二准备模板；

调用所述形态变换函数修改所述第二准备模板中的所述第一数据的所述格式，直至所述格式达到所述格式阈值，得到所述第三准备模板；

将所述第二准备模板中的所述第一数据的所述尺寸代入所述变换矩阵，直至所述尺寸达到所述尺寸阈值，得到所述第四准备模板。

进一步，所述循环项包括：循环时间段、循环次数和循环次数阈值；

所述循环处理包括：每隔所述循环时间段对所述第二数据模板执行所述模糊化动作，同时修改所述循环次数；

当所述循环次数达到所述循环次数阈值时，定义被执行所述循环处理的所述第二数据模板为所述第三数据模板。

进一步，所述实体化转换动作包括：

设定排列格式；配置数据容器；将所述第一准备数据传输至所述数据容器，并按照所述排列格式排列所述第一准备数据；排列所述第一准备数据后，定义所述数据容器为所述第一准备模板。

进一步，所述扫描动作包括：

根据所述扫描标准捕捉所述第一准备模板，得到与所述第一准备模板匹配的第一扫描模板；

所述分割动作包括：设定分割规格；将所述第一扫描模板中的所述第一准备数据按照所述分割规格进行分割，得到与所述第一扫描模板对应的所述第一数据模板。

本发明还提供一种汉字数据集构造系统，包括：

初始化模块、数据获取模块、主处理模块和次处理模块；

所述初始化模块用于设定数据标准和循环项；

所述数据获取模块用于根据所述数据标准获取第一数据和第二数据；

所述主处理模块用于对所述第一数据执行第一动作，得到第一数据模板；所述主处理模块通过所述第二数据对所述第一数据模板执行模糊化动作，得到第二数据模板；

所述次处理模块用于根据所述循环项对所述第二数据模板执行循环处理，得到第三数据模板。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述汉字数据集构造方法的步骤。

本发明的有益效果是：

1、本发明所述的汉字数据集构造方法，可以实现对汉字数据集的各方面进行重新构造，并完善了汉字数据集中汉字的各种字体及适应环境，提高了汉字数据集的真实度和适用范围，进而保证了深度学习算法的学习能力，提高了印刷体汉字识别技术的适用性。

2、本发明所述的汉字数据集构造系统，可以通过初始化模块、数据获取模块、主处理模块和次处理模块的相互配合，进而实现对汉字数据集的各方面进行重新构造，并完善了汉字数据集中汉字的各种字体及适应环境，提高了汉字数据集的真实度和适用范围，进而保证了深度学习算法的学习能力，提高了印刷体汉字识别技术的适用性。

3、本发明所述的计算机可读存储介质，可以实现引导初始化模块、数据获取模块、主处理模块和次处理模块进行配合，进而实现对汉字数据集的各方面进行重新构造，并完善了汉字数据集中汉字的各种字体及适应环境，提高了汉字数据集的真实度和适用范围，进而保证了深度学习算法的学习能力，提高了印刷体汉字识别技术的适用性，且有效的增加了所述汉字数据集构造方法的可操作性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例1所述的汉字数据集构造方法的流程图；

图2是本发明实施例2所述的汉字数据集构造系统的架构图。

具体实施方式

下面结合附图对本发明的较佳实施例进行详细阐述，以使本发明的优点和特征能更易于被本领域技术人员理解，从而对本发明的保护范围做出更为清楚明确的界定。

在本发明的描述中，需要说明的是，本发明所描述的实施例是本发明一部分实施例，而不是全部的实施例；基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“第三”“第四”“主”“次”仅用于描述目的，而不能理解为指示或暗示相对重要性。

在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“实体化转换动作”“扫描动作”“噪声处理”“分割动作”“第一动作”“变换矩阵”“形态变换函数”“像素抖动算法”应做广义理解。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

实施例1

本实施例提供一种汉字数据集构造方法，如图1所示，包括：

S100、构建第一数据空间：获取第一数据，汇总第一数据，得到第一数据空间；

具体为：设定汉字标准，汉字标准包括汉字的类型和规格等，获取若干不同类型及不同规格的汉字，该类型包括：等线、方正姚体、微软雅黑、黑体、楷体、宋体、幼圆、华文细黑、华文新魏和华文中宋等；其中，字体不限于常用字体，还可以应用多种其他的字体；该规格包括：加粗、light字体、倾斜等；定义该汉字为第一数据。

S200、构建第二数据空间：获取第二数据，汇总第二数据，得到第二数据空间；

具体为：设定获取规则，调用爬虫脚本，通过爬虫脚本获取底纹网站中的若干底纹图片；按照获取规则对该底纹图片进行筛选，得到若干可应用的高质量底纹图片；定义该高质量的底纹图片为第二数据。

S300、执行第一动作，根据第一动作得到第一数据模板；

具体为：

第一动作为：访问第一数据空间，遍历所有所述第一数据，对所有所述第一数据执行实体化转换动作，得到第一准备模板；即将所有汉字打印至A4纸上，对齐并调整字号，得到第一准备模板；

根据不同规格的扫描设备设定对应的扫描标准，根据扫描标准对第一准备模板执行扫描动作，得到第一数据模板；该扫描动作包括：对第一准备模板按照每个汉字进行分割，使每个字体对应汉字都存储在64*64像素(即分割规格)的图片中；其中，汉字为56*56像素，上下各会保留4个像素的空白。

S400、根据第二数据空间对第一数据模板执行模糊化处理，得到第二数据模板，对第二数据模板进行循环处理，得到第三数据模板。

具体为：采取像素抖动算法对第一数据模板中的汉字进行变形，得到第四准备模板；像素抖动算法为：若每个像素的灰度值设定为g(x，y)，则随机生成扰动向量x1和y1，使用g(x+x1，y+y1)来代替g(x，y)对汉字进行变形，得到第二准备模板；

配置形态变换函数和汉字变形范围，通过形态变换函数对第二准备模板中的汉字进行细化及粗化处理得到第三准备模板；根据汉字变形范围选取其中的任一变化量，根据该变化量设定变换矩阵，根据该变换矩阵对第三准备模板中的汉字进行变换，得到第四准备模板；该第四准备模板为变换后的汉字图片集合；

在第二数据空间中选取任一第二数据，并将第二数据与第四准备模板贴合，得到第五准备模板；即选取任一高质量底纹图片与该变换后的汉字图片集合贴合，得到新的图片，定义该新的图片为第五准备模板；

对第五准备模板执行噪声处理，得到第二数据模板：噪声处理具体为：对第四准备模板添加随机噪声，该噪声类型包括：高斯白噪声、均匀噪声等；

设定循环时间段、循环次数和循环次数阈值，每隔循环时间段对第二数据模板行模糊化处理，同时修改所述循环次数，直至循环次数与循环次数阈值相同，得到第三数据模板；

汇总该第三数据模板，得到汉字数据集。

实施例2

本实施例提供一种汉字数据集构造系统，如图2所示，包括：

初始化模块、数据获取模块、主处理模块和次处理模块；

数据获取模块构建第一数据空间：数据获取模块获取第一数据，汇总第一数据，得到第一数据空间；

具体为：初始化模块设定汉字标准，汉字标准包括汉字的类型和规格等，数据获取模块获取若干不同类型及不同规格的汉字，该类型包括：等线、方正姚体、微软雅黑、黑体、楷体、宋体、幼圆、华文细黑、华文新魏和华文中宋等；其中，字体不限于常用字体，还可以应用多种其他的字体；该规格包括：加粗、light字体、倾斜等；初始化模块定义该汉字为第一数据。

数据获取模块构建第二数据空间：数据获取模块获取第二数据，汇总第二数据，得到第二数据空间；

具体为：初始化模块设定获取规则，数据获取模块调用爬虫脚本，数据获取模块通过爬虫脚本获取底纹网站中的若干底纹图片；数据获取模块按照获取规则对该底纹图片进行筛选，得到若干可应用的高质量底纹图片；初始化模块定义该高质量的底纹图片为第二数据。

主处理模块执行第一动作，根据第一动作得到第一数据模板；

具体为：

第一动作为：主处理模块访问第一数据空间，遍历所有所述第一数据，对所有所述第一数据执行实体化转换动作，得到第一准备模板；即将所有汉字打印至A4纸上，对齐并调整字号，得到第一准备模板；

初始化模块预先根据不同规格的扫描设备设定对应的扫描标准，主处理模块根据扫描标准对第一准备模板执行扫描动作，得到第一数据模板；该扫描动作包括：主处理模块对第一准备模板按照每个汉字进行分割，使每个字体对应汉字都存储在64*64像素(即分割规格)的图片中；其中，汉字为56*56像素，上下各会保留4个像素的空白。

主处理模块根据第二数据空间对第一数据模板执行模糊化处理，得到第二数据模板，对第二数据模板进行循环处理，得到第三数据模板。

具体为：主处理模块采取像素抖动算法对第一数据模板中的汉字进行变形，得到第四准备模板；若每个像素的灰度值设定为g(x，y)，则随机生成扰动向量x1和y1，使用g(x+x1，y+y1)来代替g(x，y)对汉字进行变形，得到第二准备模板；

主处理模块配置形态变换函数和汉字变形范围，通过形态变换函数对第二准备模板中的汉字进行细化及粗化处理得到第三准备模板；主处理模块根据汉字变形范围选取其中的任一变化量，主处理模块根据该变化量设定变换矩阵，主处理模块根据该变换矩阵对第三准备模板中的汉字进行变换，得到第四准备模板；该第四准备模板为变换后的汉字图片集合；

主处理模块在第二数据空间中选取任一第二数据，并将第二数据与第四准备模板贴合，得到第五准备模板；即选取任一高质量底纹图片与该变换后的汉字图片集合贴合，得到新的图片，定义该新的图片为第五准备模板；

主处理模块对第五准备模板执行噪声处理，得到第二数据模板：即主处理模块对第四准备模板添加随机噪声，该噪声类型包括：高斯白噪声、均匀噪声等；

初始化模块设定循环时间段、循环次数和循环次数阈值，次处理模块每隔循环时间段对第二数据模板行模糊化处理，同时修改所述循环次数，直至循环次数与循环次数阈值相同，得到第三数据模板；

主处理模块汇总该第三数据模板，得到汉字数据集。

基于与前述实施例中一种汉字数据集构造方法同样的发明构思，本说明书实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述汉字数据集构造方法的步骤。

区别于现有技术，采用本申请一种汉字数据集构造方法、系统及介质可以实现对汉字数据集的各方面进行重新构造，并完善了汉字数据集中汉字的各种字体及适应环境，提高了汉字数据集的真实度和适用范围，进而保证了深度学习算法的学习能力，提高了印刷体汉字识别技术的适用性。

上述本发明实施例公开实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种汉字数据集构造方法，其特征在于，包括以下步骤：

设定数据标准和循环项；

根据所述数据标准获取第一数据和第二数据；

根据所述循环项对所述第二数据模板执行循环处理，得到第三数据模板；

所述数据标准包括汉字标准和底纹标准；所述根据所述数据标准获取第一数据和第二数据的步骤进一步包括：根据所述汉字标准获取所述第一数据；根据所述底纹标准获取所述第二数据；

所述第一动作包括：汇总所述第一数据，得到第一准备数据；对所述第一准备数据执行实体化转换动作，得到第一准备模板；设定扫描标准，根据所述扫描标准对所述第一准备模板执行扫描动作和分割动作，生成所述第一数据模板；

所述模糊化动作包括：

设定与所述第一数据对应的修改项和修改项阈值；

2.根据权利要求1中所述的汉字数据集构造方法，其特征在于：所述修改项包括尺寸和格式；所述修改项阈值包括尺寸阈值和格式阈值；所述模糊化动作进一步包括：

3.根据权利要求1或2所述的汉字数据集构造方法，其特征在于：所述循环项包括：循环时间段、循环次数和循环次数阈值；

4.根据权利要求1中所述的汉字数据集构造方法，其特征在于：所述实体化转换动作包括：

5.根据权利要求1或4中所述的汉字数据集构造方法，其特征在于：所述扫描动作包括：根据所述扫描标准捕捉所述第一准备模板，得到与所述第一准备模板匹配的第一扫描模板；

6.一种汉字数据集构造系统，其特征在于，包括：初始化模块、数据获取模块、主处理模块和次处理模块；

所述初始化模块用于设定数据标准和循环项；

所述次处理模块用于根据所述循环项对所述第二数据模板执行循环处理，得到第三数据模板；

所述数据标准包括汉字标准和底纹标准；所述根据所述数据标准获取第一数据和第二数据进一步包括：根据所述汉字标准获取所述第一数据；根据所述底纹标准获取所述第二数据；

所述模糊化动作包括：

设定与所述第一数据对应的修改项和修改项阈值；

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1~5中任一项所述汉字数据集构造方法的步骤。