CN113792815A - 一种基于图像处理技术的样本增广方法、系统及介质 - Google Patents
一种基于图像处理技术的样本增广方法、系统及介质 Download PDFInfo
- Publication number
- CN113792815A CN113792815A CN202111119925.4A CN202111119925A CN113792815A CN 113792815 A CN113792815 A CN 113792815A CN 202111119925 A CN202111119925 A CN 202111119925A CN 113792815 A CN113792815 A CN 113792815A
- Authority
- CN
- China
- Prior art keywords
- sample
- character
- chinese
- processing
- samples
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012545 processing Methods 0.000 title claims abstract description 191
- 230000003416 augmentation Effects 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 42
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 21
- 230000003190 augmentative effect Effects 0.000 claims abstract description 14
- 238000007373 indentation Methods 0.000 claims description 27
- 230000009467 reduction Effects 0.000 claims description 15
- 230000003321 amplification Effects 0.000 claims description 8
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 2
- 238000012549 training Methods 0.000 description 9
- 238000004904 shortening Methods 0.000 description 8
- 230000007547 defect Effects 0.000 description 5
- 230000006872 improvement Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 3
- 238000013519 translation Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种基于图像处理技术的样本增广方法、系统及介质,所述方法包括以下步骤:配置下载程序、图像捕捉模块和样本存放容器;设置基准色彩值;基于下载程序、图像捕捉模块、样本存放容器和基准色彩值创建字符手写样本集;配置二值化算法和形状集合表;设置占比值区间和第一色彩;基于字符手写样本集、二值化算法、形状集合表、占比值区间和第一色彩设定非中文字符样本和中文字符样本;配置样本处理方案;基于样本处理方案对非中文字符样本和中文字符样本执行样本增广操作,得到增广样本集;本发明能够筛查手写录入的样本,并得出最符合处理条件的样本,后续根据样本类别采用图像处理对样本进行多方面处理,得到高有效性字符样本。
Description
技术领域
本发明涉及手写字符识别技术领域,特别是涉及一种基于图像处理技术的样本增广方法、系统及介质。
背景技术
现有技术中,对于手写字符样本训练集的扩充方法常通过对手写样本进行模糊或平移等变化来增加手写字符样本训练集中字符样本的数量,这种方法一方面不会对录入的手写样本进行筛查,进而会生成大量的无效样本,另一方面因每个人的手写习惯不同,手写字符样本的多样性较高,故仅仅通过模糊或平移同样无法生成有效的手写字符样本,进而降低了字符样本训练集的适用性。
发明内容
本发明主要解决的是现有技术中对于手写字符样本训练集的扩充方法无法生成有效的手写字符样本,进而降低了字符样本训练集的适用性的问题。
为解决上述技术问题,本发明采用的一个技术方案是:提供一种基于图像处理技术的样本增广方法,包括以下步骤:
样本采集步骤:
配置下载程序、图像捕捉模块和样本存放容器;设置基准色彩值;基于所述下载程序、所述图像捕捉模块、所述样本存放容器和所述基准色彩值创建字符手写样本集;
样本区分步骤:
配置二值化算法和形状集合表;设置占比值区间和第一色彩;基于所述字符手写样本集、所述二值化算法、所述形状集合表、所述占比值区间和所述第一色彩设定非中文字符样本和中文字符样本;
样本扩充步骤:
配置样本处理方案;基于所述样本处理方案对所述非中文字符样本和所述中文字符样本执行样本增广操作,得到增广样本集。
作为一种改进的方案,所述基于所述下载程序、所述图像捕捉模块、所述样本存放容器和所述基准色彩值创建字符手写样本集的步骤进一步包括:
调用所述下载程序下载若干第一字符样本;调用所述图像捕捉模块捕捉若干第二字符样本;对若干所述第一字符样本和若干所述第二字符样本执行第一图像处理操作,得到若干第三字符样本;将若干所述第三字符样本置入所述样本存放容器中,得到所述字符手写样本集。
作为一种改进的方案,所述第一图像处理操作包括:
检测若干所述第一字符样本的若干第一色彩值以及若干所述第二字符样本的若干第二色彩值;
设定与所述基准色彩值相匹配的所述第一色彩值和所述第二色彩值分别对应的所述第一字符样本和所述第二字符样本均为第一达标样本;设定若干所述第一字符样本和若干所述第二字符样本中除所述第一达标样本外的所述第一字符样本和所述第二字符样本均为未达标样本;
对所述未达标样本进行去色处理,直至所述未达标样本的第三色彩值与所述基准色彩值相匹配,则得到第二达标样本;
设定所述第一达标样本和所述第二达标样本均为所述第三字符样本。
作为一种改进的方案,所述形状集合表中配置有若干字符形状;所述基于所述字符手写样本集、所述二值化算法、所述形状集合表、所述占比值区间和所述第一色彩设定非中文字符样本和中文字符样本的步骤进一步包括:
调用所述二值化算法对若干所述第三字符样本进行二值化处理,得到若干待区分字符样本;识别所述待区分字符样本的第一形状以及所述待区分字符样本中对于所述第一色彩的第一占比值;判断所述形状集合表中是否存在与所述第一形状相匹配的字符形状,若存在,则判断所述第一占比值是否位于所述占比值区间内,若处于,则设定该待区分字符样本为所述非中文字符样本;
设定若干所述待区分字符样本中除所述非中文字符样本外的所述待区分字符样本均为所述中文字符样本。
作为一种改进的方案,所述配置样本处理方案的步骤进一步包括:
配置第一方案模板和第二方案模板;设置与所述中文字符样本和所述非中文字符样本分别匹配的第一处理信息和第二处理信息;将所述第一处理信息填充至所述第一方案模板中,得到第一处理方案;将所述第二处理信息填充至所述第二方案模板中,得到第二处理方案;所述第一处理方案和所述第二处理方案均为所述样本处理方案。
作为一种改进的方案,所述第一处理信息包括:第一缩进像素值、第一延长像素值、第一旋转角度、第一缩进处理位置和第一延长处理位置;
所述第二处理信息包括:第二缩进像素值、第二延长像素值、第二放大倍数、第二缩小倍数、第二缩进处理位置和第二延长处理位置。
作为一种改进的方案,所述样本增广操作包括:
配置增广样本放置容器;基于所述第二处理方案对所述非中文字符样本执行非中文样本扩充步骤,得到扩充非中文样本;基于所述第一处理方案对所述中文字符样本执行中文样本扩充步骤,得到扩充中文样本;将所述扩充非中文样本和所述扩充中文样本置入所述增广样本放置容器中,得到所述增广样本集。
作为一种改进的方案,所述非中文样本扩充步骤包括:
按照所述第二延长处理位置和所述第二延长像素值对所述非中文样本进行延长处理,得到第一非中文样本;按照所述第二缩小倍数对所述第一非中文样本进行缩小处理,得到第二非中文样本;按照所述第二缩进处理位置和所述第二缩进像素值对所述第二非中文样本进行缩进处理,得到第三非中文样本;按照所述第二放大倍数对所述第三非中文样本进行放大处理,得到所述扩充非中文样本;
所述中文样本扩充步骤包括:
按照所述第一缩进处理位置和所述第一缩进像素值对所述中文字符样本的笔画端部进行缩进处理,得到第一中文样本;按照所述第一旋转角度对所述第一中文样本进行旋转处理,得到第二中文样本;按照所述第一延长处理位置和所述第一延长像素值对所述第二中文样本的笔画端部进行延长处理,得到所述扩充中文样本。
本发明还提供一种基于图像处理技术的样本增广方法的样本增广系统,所述样本增广系统包括:
样本采集模块、样本区分模块和样本扩充模块;
所述样本采集模块用于配置下载程序、图像捕捉模块和样本存放容器;所述样本采集模块还用于设置基准色彩值;所述样本采集模块基于所述下载程序、所述图像捕捉模块、所述样本存放容器和所述基准色彩值创建字符手写样本集;
所述样本区分模块用于配置二值化算法和形状集合表;所述样本区分模块还用于设置占比值区间和第一色彩;所述样本区分模块基于所述字符手写样本集、所述二值化算法、所述形状集合表、所述占比值区间和所述第一色彩设定非中文字符样本和中文字符样本;
所述样本扩充模块用于配置样本处理方案;所述样本扩充模块基于所述样本处理方案对所述非中文字符样本和所述中文字符样本执行样本增广操作,得到增广样本集。
本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现所述基于图像处理技术的样本增广方法的步骤。
本发明的有益效果是:
1、本发明所述的基于图像处理技术的样本增广方法,可以实现对录入的手写样本进行筛查,并筛选出合理且符合处理条件的样本,后续根据样本本身的类别采用图像处理对样本进行多种方向及多种方面的处理,形成若干不同的字符样本,且最终生成的样本均属于有效样本,利于手写样本训练集的扩充,弥补了现有技术的不足,具有极高的市场价值。
2、本发明所述的样本增广系统,可以通过样本采集模块、样本区分模块和样本扩充模块的相互配合,进而实现对录入的手写样本进行筛查,并筛选出合理且符合处理条件的样本,后续根据样本本身的类别采用图像处理对样本进行多种方向及多种方面的处理,形成若干不同的字符样本,且最终生成的样本均属于有效样本,利于手写样本训练集的扩充,弥补了现有技术的不足,具有极高的市场价值。
3、本发明所述的计算机可读存储介质,可以实现引导样本采集模块、样本区分模块和样本扩充模块进行配合,进而实现对录入的手写样本进行筛查,并筛选出合理且符合处理条件的样本,后续根据样本本身的类别采用图像处理对样本进行多种方向及多种方面的处理,形成若干不同的字符样本,且最终生成的样本均属于有效样本,利于手写样本训练集的扩充,弥补了现有技术的不足,具有极高的市场价值,并有效提高所述基于图像处理技术的样本增广方法的可操作性。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1所述基于图像处理技术的样本增广方法的流程图;
图2是本发明实施例1所述基于图像处理技术的样本增广方法的具体流程示意图;
图3是本发明实施例2所述样本增广系统的架构图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
在本发明的描述中,需要说明的是,本发明所描述的实施例是本发明一部分实施例,而不是全部的实施例;基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是:RGB(Red Green Blue)是一种色彩模式。
实施例1
本实施例提供一种基于图像处理技术的样本增广方法,如图1和图2所示,包括以下步骤:
S100、样本采集步骤,具体包括:
S110、配置下载程序、图像捕捉模块和样本存放容器;设置基准色彩值;基于所述下载程序、所述图像捕捉模块、所述样本存放容器和所述基准色彩值创建字符手写样本集;
具体的,调用所述下载程序下载若干第一字符样本;调用所述图像捕捉模块捕捉若干第二字符样本;对若干所述第一字符样本和若干所述第二字符样本执行第一图像处理操作,得到若干第三字符样本;将若干所述第三字符样本置入所述样本存放容器中,得到所述字符手写样本集;在本实施例中,调用所述下载程序下载若干第一字符样本即为从网络中下载若干字符样本;图像捕捉模块采用拍照设备和截图工具;对应的,第二字符样本包括但不限于人工手写的字符以及网络中显示出的人工手写字符;而采用拍照设备则为捕捉人工手写的字符;采用截图工具则为截取网络中显示出的人工手写字符;对应的,样本存放容器即为数据存放文件夹、深度学习网络模型中的训练集存储区域等;
具体的,为了进一步提高字符增广后的有效程度,进而进一步提高增广量,故执行所述第一图像处理操作,所述第一图像处理操作包括:检测若干所述第一字符样本的若干第一色彩值以及若干所述第二字符样本的若干第二色彩值;色彩值即为样本本身所带有的色彩值,色彩值包括但不限于RGB值;在本实施例中,基准色彩为黑色;设定与所述基准色彩值相匹配的所述第一色彩值和所述第二色彩值分别对应的所述第一字符样本和所述第二字符样本均为第一达标样本;设定若干所述第一字符样本和若干所述第二字符样本中除所述第一达标样本外的所述第一字符样本和所述第二字符样本均为未达标样本;未达标样本即为带有彩色或黑色程度不纯的字符样本;对所述未达标样本进行去色处理,直至所述未达标样本的第三色彩值与所述基准色彩值相匹配,则得到第二达标样本;设定所述第一达标样本和所述第二达标样本均为所述第三字符样本;经过上述步骤,使录入的字符样本都变为不带有颜色的,便于后续步骤的图像处理操作;对应的,通过本步骤,进一步实现在增广时对录入的字符样本进行筛选,进而从根源提高有效待增广样本的数量,进而提高增广效率,提高增广质量,最终提高增广数量。
S200、样本区分步骤,具体包括:
S210、配置二值化算法和形状集合表;设置占比值区间和第一色彩;基于所述字符手写样本集、所述二值化算法、所述形状集合表、所述占比值区间和所述第一色彩设定非中文字符样本和中文字符样本;在本实施例中,所述形状集合表中配置有若干字符形状;字符形状包括但不限于除中文之外的大写英文字母形状、小写英文字母形状、阿拉伯数字形状、符号形状等;二值化算法即为根据二值化操作所编译的脚本、程序、函数或计算/处理逻辑;占比值区间根据大写英文字母形状、小写英文字母形状、阿拉伯数字形状、符号形状中任一的字符中黑色色彩所占比重设定,目的为区分中文字符和非中文字符;对应的,在本实施例中,所有字符样本的规格、尺寸、长宽均相同;具体的,调用所述二值化算法对若干所述第三字符样本进行二值化处理,得到若干待区分字符样本;进行二值化处理后,所有样本的色彩值均相同且噪点值和模糊度均相同;可以想到的是,设定对应的噪点值和模糊度对若干所述第三字符样本进行二值化处理;对应的,识别所述待区分字符样本的第一形状以及所述待区分字符样本中对于所述第一色彩的第一占比值;判断所述形状集合表中是否存在与所述第一形状相匹配的字符形状,若存在,则说明该待区分字符样本可能为非中文样本,为了更加的精确,判断所述第一占比值是否位于所述占比值区间内,若处于,则设定该待区分字符样本为所述非中文字符样本;在本实施例中,第一色彩为黑色,对应的,通过上述判断,从形状和黑色色彩的占比两个角度分辨非中文字符,精准度极高,防止一些简单笔画的中文字符被误判,最终进一步提高了增广的有效字符的质量度;对应的,设定若干所述待区分字符样本中除所述非中文字符样本外的所述待区分字符样本均为所述中文字符样本;因为中文字符样本和非中文字符样本的书写习惯和字符形状是完全不同的,故后续根据中文字符样本和非中文字符样本进行区分处理,进而可以极大的提高增广质量度,提高增广字符的有效性。
S300、样本扩充步骤,具体包括:
S310、配置样本处理方案;基于所述样本处理方案对所述非中文字符样本和所述中文字符样本执行样本增广操作,得到增广样本集;
具体的,配置第一方案模板和第二方案模板;对应的,因对应述中文字符样本和所述非中文字符样本的处理参数不同,故模板不同;设置与所述中文字符样本和所述非中文字符样本分别匹配的第一处理信息和第二处理信息;将所述第一处理信息填充至所述第一方案模板中,得到第一处理方案;将所述第二处理信息填充至所述第二方案模板中,得到第二处理方案;所述第一处理方案和所述第二处理方案均为所述样本处理方案;具体的,所述第一处理信息包括:第一缩进像素值、第一延长像素值、第一旋转角度、第一缩进处理位置和第一延长处理位置;所述第二处理信息包括:第二缩进像素值、第二延长像素值、第二放大倍数、第二缩小倍数、第二缩进处理位置和第二延长处理位置;第一缩进像素值和第二缩进像素值为需要对字符进行部分缩进的值;第一延长像素值和第二延长像素值为需要对字符进行部分延长的值;因在本实施例中采用图像处理技术进行字符的改变而增广,故第一缩进像素值和第二缩进像素值以及第一延长像素值和第二延长像素值均以像素为单位;第一旋转角度为对字符进行旋转的角度,正角度为顺时针旋转,负角度为顺时针旋转;第二放大倍数和第二缩小倍数分别为对字符的放大倍数和缩小倍数;对应的,大于0的为放大倍数,小于0的为缩小倍数;第一缩进处理位置和第一延长处理位置以及第二缩进处理位置和第二延长处理位置为可以进行设置的需要对字符样本进行图像处理的位置,包括但不限于:偏旁、部首、第几步的笔画等;因为中文字符样本和非中文字符样本的笔画结构是完全不同的,故第一处理信息和第二处理信息中的相关参数需要分开设置;因非中文字符的结构相对简单,故不需要进行旋转设置,均通过放大和缩小设置即可达成有效增广字符;
具体的,所述样本增广操作包括:配置增广样本放置容器;增广样本放置容器为最终会应用于深度学习网络的样本容器,用于放置增广后的字符样本;基于所述第二处理方案对所述非中文字符样本执行非中文样本扩充步骤,得到扩充非中文样本;基于所述第一处理方案对所述中文字符样本执行中文样本扩充步骤,得到扩充中文样本;将所述扩充非中文样本和所述扩充中文样本置入所述增广样本放置容器中,得到所述增广样本集;具体的,所述非中文样本扩充步骤包括:按照所述第二延长处理位置和所述第二延长像素值对所述非中文样本进行延长处理,得到第一非中文样本;按照所述第二缩小倍数对所述第一非中文样本进行缩小处理,得到第二非中文样本;按照所述第二缩进处理位置和所述第二缩进像素值对所述第二非中文样本进行缩进处理,得到第三非中文样本;按照所述第二放大倍数对所述第三非中文样本进行放大处理,得到所述扩充非中文样本;对应的,上述步骤中,通过先延长再缩小再缩进再放大的顺序,对非中文字符进行了完全复杂的图像处理变化,得到的字符样本相比现有技术中的模糊和平移更加的贴合人体的书写习惯,且多样性和有效性更强;所述中文样本扩充步骤包括:按照所述第一缩进处理位置和所述第一缩进像素值对所述中文字符样本的笔画端部进行缩进处理,得到第一中文样本;按照所述第一旋转角度对所述第一中文样本进行旋转处理,得到第二中文样本;按照所述第一延长处理位置和所述第一延长像素值对所述第二中文样本的笔画端部进行延长处理,得到所述扩充中文样本;对应的,在本实施例中,包括但不限于只对中文字符样本的笔画端部进行处理,还可以对中文字符样本的其他位置例如:两侧、中心等位置进行部首和偏旁的处理,进而进一步提高样本的多样性;对应的,在本实施例中,进一步考虑到对字符样本处理的多样性设置,还可以设置对于中文字符样本的第一处理顺序,以及对于非中文字符样本的第二处理顺序,进而根据不同的顺序对一个字符进行多种不同的变化,进而得到更多种样式的字符样本,进一步提高字符增广的数量和有效性;对应的,在本实施例中,第一处理顺序包括:先缩短再延长最后旋转、先缩短再旋转最后延长、先延长再缩短最后旋转、先延长再旋转最后缩短、先旋转再延长最后缩短和先旋转再缩短最后延长;第二处理顺序包括:先延长再缩短最后放大、先延长再放大最后缩短、先缩短再放大最后延长、先缩短再延长最后放大、先放大再延长最后缩短、先放大再缩短最后延长、先延长再缩短最后缩小、先延长再缩小最后缩短、先缩短再缩小最后延长、先缩短再延长最后缩小、先缩小再延长最后缩短和先缩小再缩短最后延长;对应的,在本实施例中,中文样本扩充步骤所对应的顺序为先缩短再延长最后旋转;非中文样本扩充步骤所对应的顺序为先延长再缩短最后放大;对应的,可以按照第一处理顺序中的每个顺序对中文字符样本执行中文样本扩充步骤,按照第二处理顺序中的每个顺序对非中文字符样本执行非中文样本扩充步骤,即中文样本扩充步骤和非中文样本扩充步骤分别依据第一处理顺序和第二处理顺序设定,进而在更大的程度上提高增广样本集的有效性和多样性,进而弥补了现有技术的不足。
实施例2
本实施例提供一种基于图像处理技术的样本增广方法的样本增广系统,如图3所示,所述样本增广系统包括:样本采集模块、样本区分模块和样本扩充模块;
所述图像处理技术的样本增广系统中,样本采集模块用于配置下载程序、图像捕捉模块和样本存放容器;所述样本采集模块还用于设置基准色彩值;所述样本采集模块基于所述下载程序、所述图像捕捉模块、所述样本存放容器和所述基准色彩值创建字符手写样本集;
具体的,样本采集模块调用所述下载程序下载若干第一字符样本;样本采集模块调用所述图像捕捉模块捕捉若干第二字符样本;样本采集模块对若干所述第一字符样本和若干所述第二字符样本执行第一图像处理操作,得到若干第三字符样本;样本采集模块将若干所述第三字符样本置入所述样本存放容器中,得到所述字符手写样本集;
具体的,所述第一图像处理操作包括:样本采集模块检测若干所述第一字符样本的若干第一色彩值以及若干所述第二字符样本的若干第二色彩值;样本采集模块设定与所述基准色彩值相匹配的所述第一色彩值和所述第二色彩值分别对应的所述第一字符样本和所述第二字符样本均为第一达标样本;样本采集模块设定若干所述第一字符样本和若干所述第二字符样本中除所述第一达标样本外的所述第一字符样本和所述第二字符样本均为未达标样本;样本采集模块对所述未达标样本进行去色处理,直至所述未达标样本的第三色彩值与所述基准色彩值相匹配,则样本采集模块得到第二达标样本;样本采集模块设定所述第一达标样本和所述第二达标样本均为所述第三字符样本。
所述图像处理技术的样本增广系统中,样本区分模块用于配置二值化算法和形状集合表;所述样本区分模块还用于设置占比值区间和第一色彩;所述样本区分模块基于所述字符手写样本集、所述二值化算法、所述形状集合表、所述占比值区间和所述第一色彩设定非中文字符样本和中文字符样本;
具体的,样本区分模块调用所述二值化算法对若干所述第三字符样本进行二值化处理,得到若干待区分字符样本;样本区分模块识别所述待区分字符样本的第一形状以及所述待区分字符样本中对于所述第一色彩的第一占比值;样本区分模块判断所述形状集合表中是否存在与所述第一形状相匹配的字符形状,若存在,则样本区分模块判断所述第一占比值是否位于所述占比值区间内,若处于,则样本区分模块设定该待区分字符样本为所述非中文字符样本;样本区分模块设定若干所述待区分字符样本中除所述非中文字符样本外的所述待区分字符样本均为所述中文字符样本。
所述图像处理技术的样本增广系统中,样本扩充模块用于配置样本处理方案;所述样本扩充模块基于所述样本处理方案对所述非中文字符样本和所述中文字符样本执行样本增广操作,得到增广样本集;
具体的,样本扩充模块配置第一方案模板和第二方案模板;样本扩充模块设置与所述中文字符样本和所述非中文字符样本分别匹配的第一处理信息和第二处理信息;样本扩充模块将所述第一处理信息填充至所述第一方案模板中,得到第一处理方案;样本扩充模块将所述第二处理信息填充至所述第二方案模板中,得到第二处理方案;对应的,在本实施例中,所述第一处理方案和所述第二处理方案均为所述样本处理方案。
具体的,在本实施例中,所述第一处理信息包括:第一缩进像素值、第一延长像素值、第一旋转角度、第一缩进处理位置和第一延长处理位置;所述第二处理信息包括:第二缩进像素值、第二延长像素值、第二放大倍数、第二缩小倍数、第二缩进处理位置和第二延长处理位置。
具体的,所述样本增广操作包括:样本扩充模块配置增广样本放置容器;样本扩充模块基于所述第二处理方案对所述非中文字符样本执行非中文样本扩充步骤,得到扩充非中文样本;样本扩充模块基于所述第一处理方案对所述中文字符样本执行中文样本扩充步骤,得到扩充中文样本;样本扩充模块将所述扩充非中文样本和所述扩充中文样本置入所述增广样本放置容器中,得到所述增广样本集。
具体的,所述非中文样本扩充步骤包括:样本扩充模块按照所述第二延长处理位置和所述第二延长像素值对所述非中文样本进行延长处理,得到第一非中文样本;样本扩充模块按照所述第二缩小倍数对所述第一非中文样本进行缩小处理,得到第二非中文样本;样本扩充模块按照所述第二缩进处理位置和所述第二缩进像素值对所述第二非中文样本进行缩进处理,得到第三非中文样本;样本扩充模块按照所述第二放大倍数对所述第三非中文样本进行放大处理,得到所述扩充非中文样本;
所述中文样本扩充步骤包括:样本扩充模块按照所述第一缩进处理位置和所述第一缩进像素值对所述中文字符样本的笔画端部进行缩进处理,得到第一中文样本;样本扩充模块按照所述第一旋转角度对所述第一中文样本进行旋转处理,得到第二中文样本;样本扩充模块按照所述第一延长处理位置和所述第一延长像素值对所述第二中文样本的笔画端部进行延长处理,得到所述扩充中文样本。
实施例3
本实施例提供一种计算机可读存储介质,包括:
所述存储介质用于储存将上述实施例1所述的基于图像处理技术的样本增广方法实现所用的计算机软件指令,其包含用于执行上述为所述基于图像处理技术的样本增广方法所设置的程序;具体的,该可执行程序可以内置在实施例2所述的样本增广系统中,这样,样本增广系统就可以通过执行内置的可执行程序实现所述实施例1所述的基于图像处理技术的样本增广方法。
此外,本实施例具有的计算机可读存储介质可以采用一个或多个可读存储介质的任意组合,其中,可读存储介质包括电、光、电磁、红外线或半导体的系统、装置或器件,或者以上任意组合。
区别于现有技术,采用本申请一种基于图像处理技术的样本增广方法、系统及介质可以通过本方法实现对录入的手写样本进行筛查,并筛选出合理且符合处理条件的样本,后续根据样本本身的类别采用图像处理对样本进行多种方向及多种方面的处理,形成若干不同的字符样本,且最终生成的样本均属于有效样本,通过本系统为本方法提供了有效的技术支撑,最终利于手写样本训练集的扩充,弥补了现有技术的不足,具有极高的市场价值。
上述本发明实施例公开实施例序号仅仅为了描述,不代表实施例的优劣。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于图像处理技术的样本增广方法,其特征在于,包括以下步骤:
样本采集步骤:
配置下载程序、图像捕捉模块和样本存放容器;设置基准色彩值;基于所述下载程序、所述图像捕捉模块、所述样本存放容器和所述基准色彩值创建字符手写样本集;
样本区分步骤:
配置二值化算法和形状集合表;设置占比值区间和第一色彩;基于所述字符手写样本集、所述二值化算法、所述形状集合表、所述占比值区间和所述第一色彩设定非中文字符样本和中文字符样本;
样本扩充步骤:
配置样本处理方案;基于所述样本处理方案对所述非中文字符样本和所述中文字符样本执行样本增广操作,得到增广样本集。
2.根据权利要求1所述的一种基于图像处理技术的样本增广方法,其特征在于,所述基于所述下载程序、所述图像捕捉模块、所述样本存放容器和所述基准色彩值创建字符手写样本集的步骤进一步包括:
调用所述下载程序下载若干第一字符样本;调用所述图像捕捉模块捕捉若干第二字符样本;对若干所述第一字符样本和若干所述第二字符样本执行第一图像处理操作,得到若干第三字符样本;将若干所述第三字符样本置入所述样本存放容器中,得到所述字符手写样本集。
3.根据权利要求2所述的一种基于图像处理技术的样本增广方法,其特征在于,所述第一图像处理操作包括:
检测若干所述第一字符样本的若干第一色彩值以及若干所述第二字符样本的若干第二色彩值;
设定与所述基准色彩值相匹配的所述第一色彩值和所述第二色彩值分别对应的所述第一字符样本和所述第二字符样本均为第一达标样本;设定若干所述第一字符样本和若干所述第二字符样本中除所述第一达标样本外的所述第一字符样本和所述第二字符样本均为未达标样本;
对所述未达标样本进行去色处理,直至所述未达标样本的第三色彩值与所述基准色彩值相匹配,则得到第二达标样本;设定所述第一达标样本和所述第二达标样本均为所述第三字符样本。
4.根据权利要求3所述的一种基于图像处理技术的样本增广方法,其特征在于,所述形状集合表中配置有若干字符形状;所述基于所述字符手写样本集、所述二值化算法、所述形状集合表、所述占比值区间和所述第一色彩设定非中文字符样本和中文字符样本的步骤进一步包括:
调用所述二值化算法对若干所述第三字符样本进行二值化处理,得到若干待区分字符样本;识别所述待区分字符样本的第一形状以及所述待区分字符样本中对于所述第一色彩的第一占比值;判断所述形状集合表中是否存在与所述第一形状相匹配的字符形状,若存在,则判断所述第一占比值是否位于所述占比值区间内,若处于,则设定该待区分字符样本为所述非中文字符样本;设定若干所述待区分字符样本中除所述非中文字符样本外的所述待区分字符样本均为所述中文字符样本。
5.根据权利要求4所述的一种基于图像处理技术的样本增广方法,其特征在于,所述配置样本处理方案的步骤进一步包括:
配置第一方案模板和第二方案模板;设置与所述中文字符样本和所述非中文字符样本分别匹配的第一处理信息和第二处理信息;将所述第一处理信息填充至所述第一方案模板中,得到第一处理方案;将所述第二处理信息填充至所述第二方案模板中,得到第二处理方案;所述第一处理方案和所述第二处理方案均为所述样本处理方案。
6.根据权利要求5所述的一种基于图像处理技术的样本增广方法,其特征在于,所述第一处理信息包括:第一缩进像素值、第一延长像素值、第一旋转角度、第一缩进处理位置和第一延长处理位置;所述第二处理信息包括:第二缩进像素值、第二延长像素值、第二放大倍数、第二缩小倍数、第二缩进处理位置和第二延长处理位置。
7.根据权利要求6所述的一种基于图像处理技术的样本增广方法,其特征在于,所述样本增广操作包括:
配置增广样本放置容器;基于所述第二处理方案对所述非中文字符样本执行非中文样本扩充步骤,得到扩充非中文样本;基于所述第一处理方案对所述中文字符样本执行中文样本扩充步骤,得到扩充中文样本;将所述扩充非中文样本和所述扩充中文样本置入所述增广样本放置容器中,得到所述增广样本集。
8.根据权利要求7所述的一种基于图像处理技术的样本增广方法,其特征在于,所述非中文样本扩充步骤包括:
按照所述第二延长处理位置和所述第二延长像素值对所述非中文样本进行延长处理,得到第一非中文样本;按照所述第二缩小倍数对所述第一非中文样本进行缩小处理,得到第二非中文样本;按照所述第二缩进处理位置和所述第二缩进像素值对所述第二非中文样本进行缩进处理,得到第三非中文样本;按照所述第二放大倍数对所述第三非中文样本进行放大处理,得到所述扩充非中文样本;
所述中文样本扩充步骤包括:
按照所述第一缩进处理位置和所述第一缩进像素值对所述中文字符样本的笔画端部进行缩进处理,得到第一中文样本;按照所述第一旋转角度对所述第一中文样本进行旋转处理,得到第二中文样本;按照所述第一延长处理位置和所述第一延长像素值对所述第二中文样本的笔画端部进行延长处理,得到所述扩充中文样本。
9.基于权利要求8所述的一种基于图像处理技术的样本增广方法的样本增广系统,其特征在于,所述样本增广系统包括:样本采集模块、样本区分模块和样本扩充模块;
所述样本采集模块用于配置下载程序、图像捕捉模块和样本存放容器;所述样本采集模块还用于设置基准色彩值;所述样本采集模块基于所述下载程序、所述图像捕捉模块、所述样本存放容器和所述基准色彩值创建字符手写样本集;
所述样本区分模块用于配置二值化算法和形状集合表;所述样本区分模块还用于设置占比值区间和第一色彩;所述样本区分模块基于所述字符手写样本集、所述二值化算法、所述形状集合表、所述占比值区间和所述第一色彩设定非中文字符样本和中文字符样本;
所述样本扩充模块用于配置样本处理方案;所述样本扩充模块基于所述样本处理方案对所述非中文字符样本和所述中文字符样本执行样本增广操作,得到增广样本集。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1~8中任一项所述基于图像处理技术的样本增广方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111119925.4A CN113792815B (zh) | 2021-09-24 | 2021-09-24 | 一种基于图像处理技术的样本增广方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111119925.4A CN113792815B (zh) | 2021-09-24 | 2021-09-24 | 一种基于图像处理技术的样本增广方法、系统及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113792815A true CN113792815A (zh) | 2021-12-14 |
CN113792815B CN113792815B (zh) | 2024-06-07 |
Family
ID=78879176
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111119925.4A Active CN113792815B (zh) | 2021-09-24 | 2021-09-24 | 一种基于图像处理技术的样本增广方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113792815B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130022264A1 (en) * | 2011-01-24 | 2013-01-24 | Alon Atsmon | System and process for automatically finding objects of a specific color |
CN109522898A (zh) * | 2018-09-18 | 2019-03-26 | 平安科技(深圳)有限公司 | 手写样本图片标注方法、装置、计算机设备及存储介质 |
CN111652332A (zh) * | 2020-06-09 | 2020-09-11 | 山东大学 | 基于二分类的深度学习手写中文字符识别方法及系统 |
CN112633420A (zh) * | 2021-03-09 | 2021-04-09 | 北京易真学思教育科技有限公司 | 图像相似度确定及模型训练方法、装置、设备和介质 |
CN113011299A (zh) * | 2021-03-09 | 2021-06-22 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种文本检测训练集中增加特殊负例的方法 |
-
2021
- 2021-09-24 CN CN202111119925.4A patent/CN113792815B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130022264A1 (en) * | 2011-01-24 | 2013-01-24 | Alon Atsmon | System and process for automatically finding objects of a specific color |
CN109522898A (zh) * | 2018-09-18 | 2019-03-26 | 平安科技(深圳)有限公司 | 手写样本图片标注方法、装置、计算机设备及存储介质 |
CN111652332A (zh) * | 2020-06-09 | 2020-09-11 | 山东大学 | 基于二分类的深度学习手写中文字符识别方法及系统 |
CN112633420A (zh) * | 2021-03-09 | 2021-04-09 | 北京易真学思教育科技有限公司 | 图像相似度确定及模型训练方法、装置、设备和介质 |
CN113011299A (zh) * | 2021-03-09 | 2021-06-22 | 天津职业技术师范大学(中国职业培训指导教师进修中心) | 一种文本检测训练集中增加特殊负例的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN113792815B (zh) | 2024-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108577803B (zh) | 基于机器学习的眼底图像检测方法、装置及系统 | |
US8406527B2 (en) | Pattern model positioning method in image processing, image processing apparatus, image processing program, and computer readable recording medium | |
US8401305B2 (en) | Contour-information extracting method by use of image processing, pattern model creating method in image processing, pattern model positioning method in image processing, image processing apparatus, image processing program, and computer readable recording medium | |
US8155473B2 (en) | Method for deciding image data reduction ratio in image processing, pattern model positioning method in image processing, pattern model creating method in image processing, image processing apparatus, image processing program, and computer readable recording medium | |
JP2802036B2 (ja) | 文書処理のためのイメージ・セグメント化およびイメージ要素分類の方法 | |
WO2019085971A1 (zh) | 图像中定位文本的方法、装置、电子设备和存储介质 | |
CN108596895B (zh) | 基于机器学习的眼底图像检测方法、装置及系统 | |
CN108615058A (zh) | 一种字符识别的方法、装置、设备及可读存储介质 | |
CN110569774B (zh) | 基于图像处理与模式识别的折线图图像自动数字化方法 | |
CN114283156B (zh) | 一种用于去除文档图像颜色及手写笔迹的方法及装置 | |
JP2002271611A (ja) | 画像処理装置 | |
CN113792815B (zh) | 一种基于图像处理技术的样本增广方法、系统及介质 | |
CN111767924B (zh) | 图像处理方法、图像处理装置、电子设备、存储介质 | |
US8254693B2 (en) | Image processing apparatus, image processing method and program | |
JP4049560B2 (ja) | 網点除去方法及びシステム | |
JP2004062350A (ja) | 文書情報入力プログラム、文書情報入力装置、および文書情報入力方法 | |
CN111445402A (zh) | 一种图像去噪方法及装置 | |
CN109558875A (zh) | 基于图像自动识别的方法、装置、终端及存储介质 | |
CN110134924A (zh) | 重叠文本组件提取方法和装置、文本识别系统及存储介质 | |
CN111401352B (zh) | 文本图片下划线识别方法、装置、计算机设备及存储介质 | |
Chen et al. | Massive figure extraction and classification in electronic component datasheets for accelerating PCB design preparation | |
CN114359914A (zh) | 一种基于采样点序列的手绘图形修正方法、系统及介质 | |
Javed et al. | Background and punch-hole noise removal from handwritten urdu text | |
CN109871910A (zh) | 一种手写字符识别方法及装置 | |
Lin et al. | Extracting regions of interest based on visual attention model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |